新闻中心

NEWS

生信篇 | 测序数据比对后处理工具【Mosdepth】

来源: | 作者:/ | 发布时间: 2025-01-06 | 415 次浏览 | 分享到:


生信专题

测序数据比对后处理

Mosdepth是一款快速计算全基因组测序覆盖度的工具,专用于评估 BAM 或 CRAM 文件中基因组的每个碱基位置或基因组区域的深度,常用来评估单条染色体的覆盖深度。

1

图片

优势

1、每个碱基深度的计算速度是传统samtools depth的约2倍。

2、可计算给定窗口大小的平均每个窗口深度,非常方便后续CNV calling。

3、可计算给定区域的BND文件的每个区域的平均值。

4、在设定相应的阈值后,可以展示基因组和每个染色体的碱基分布比例。

5、可以合并相邻碱基的量化输出。

6、每条染色体和每条染色体指定区域内的平均深度的总结。

2

图片

下载安装

从官网直接下载编译好的文件,修改权限即可使用。

图片

3

图片

使用


准备

图片


计算深度

图片


参数

● –t:设定自己需要的线程数。

● –c:设定待分析的染色体号。

● out:待输出的文件前缀。

● sample.bam:待输入分析的bam文件。

● –b sample.bed:待输入的指定区域文件,当分析整个基因组时,可去掉该参数。

● –n:不逐个输出碱基深度。如果跳过此输出,可以显著提升程序执行速度。建议优先使用量化或阈值的深度值进行测试。

● –f:用于CRAM文件的参考序列(fasta格式)。

●--d4:将碱基深度文件输出为d4格式。

4

图片

结果


out.mosdepth.summary.txt

该文件详细记录了每条染色体及整个基因组的相关信息,包括以下内容:染色体名称、序列长度、映射的碱基数量、覆盖深度的平均值、覆盖深度的最小值以及最大值。这些数据能够全面反映基因组中不同区域的测序覆盖情况。以下是一个示例格式:

图片


out.mosdepth.global.dist.txt

文件中包含累积分布信息,用于表示在不同覆盖率阈值下,被覆盖的总碱基比例。该文件包含三列数据,分别是:染色体名称或 total(表示全基因组统计)、覆盖深度阈值、以及达到或超过该覆盖深度的碱基比例。以下是一个示例:

图片

还可以使用脚本 python scripts/plot-dist.py *global.dist.txt 绘制覆盖度分布图。此脚本会生成一个名为 dist.html 的输出文件,直观展示整个基因组的覆盖度分布情况。在运行该命令之前,请确保 scripts/plot-dist.py 脚本和覆盖度统计文件(以 *global.dist.txt 结尾)位于正确的目录中。生成的 dist.html 文件可在浏览器中打开,查看全基因组覆盖度分布的详细图示。


out.per-base.bed.gz

Mosdepth支持输出每个碱基的深度信息,即在基因组中对每个位置的覆盖深度进行逐一记录。这种输出方式提供了精确的深度分布数据,适用于需要详细覆盖度分析的场景,例如检测局部变异或基因热点区域。然而,由于逐碱基深度输出会生成大量数据,其处理和存储需求较高,因此在需要提高运行速度时,可以通过跳过此类输出(使用 -n 参数)来优化执行效率。


out.per-base.bed.gz.csi

该文件是一个索引文件,与压缩的逐碱基深度文件 out.per-base.bed.gz 对应,用于加速数据的随机访问和查询操作。