人才招聘

JOBS

生信篇 | 测序数据去宿主软件:Hostile

在临床或环境样本的微生物测序分析中,源自宿主(如人类)的DNA序列是主要的污染源,其占比常较高。这些宿主序列本身不包含目标微生物信息,却会大量挤占计算与存储资源,并在下游的物种鉴定、基因组组装及变异分析中引入严重干扰与假阳性结果。因此,精准地从原始数据中去除宿主序列,是保障下游分析效率与结果可靠性的关键预处理步骤。

1

图片

Hostile简介

本文介绍的工具Hostile是一种利用精确序列比对参考基因组策略,对包含宿主污染的测序数据进行高效清洗,以生成高质量微生物序列数据的生物信息学工具。其核心优势在于通过高精度比对算法和可选的“掩蔽”参考基因组,在最大化去除宿主序列的同时,将目的微生物序列尽可能保留。

2

图片

工作流程

1、序列输入

接受单端或双端FASTQ格式的短读长或长读长测序数据;

2、序列比对

选择比对工具(Bowtie2处理短读长,Minimap2处理长读长),将序列与指定的宿主参考基因组进行快速比对;

3、宿主序列识别

精准识别出能够比对到宿主基因组的序列;

4、序列过滤

将识别出的宿主序列从原始数据中直接剔除,保留所有未比对的序列;

5、输出结果

生成纯净的、不含宿主序列的FASTQ文件,用于后续宏基因组或转录组等下游分析。

图片

3

图片

软件环境搭建和安装

由于依赖非 Python 工具(Bowtie2、Minimap2、Samtools 和 Bedtools),推荐使用 conda/mamba 或 Docker 安装。Hostile 已在 Ubuntu Linux 22.04、MacOS 12 和 Windows 的 WSL 环境下通过测试。

Conda/mamba

conda create -y -n hostile -c conda-forge -c bioconda hostile

conda activate hostile

使用参数展示:

hostile clean -h

usage:

hostile clean [-h] --fastq1 FASTQ1 [--fastq2 FASTQ2] [--aligner {bowtie2,minimap2,auto}] [--index INDEX] [--invert] [--rename] [--reorder] [-c] [-o OUTPUT] [--aligner-args ALIGNER_ARGS] [-t THREADS] [--force] [--airplane] [-d]

图片

以长度长数据进行示例展示:

  • 单端长读长数据去污染

hostile clean --fastq1 test.fastq

图片

说明:默认索引 human-t2t-hla 包含 T2T-CHM13v2.0 和 IPD-IMGT/HLA v3.51,除非指定其他索引,否则运行 Hostile 时会自动使用。

  • 使用特定掩蔽索引

hostile clean --fastq1 test.fastq --index human-t2t-hla-argos985

说明:这里使用已掩蔽985种细菌基因组的索引,在去除人源序列时最大化保留细菌序列。第一次使用Hostile 会自动处理相关索引的下载和缓存。

图片

自定义索引(见下文):

图片
  • 管道化快速处理

cat test.fastq | hostile clean --fastq1 - | minimap2 -ax map-ont ref.fasta - > alignment.sam

图片

说明:从标准输入读取数据,处理后直接通过管道传给下游分析工具。

  • 保留人源序列(逆向模式)

hostile clean --fastq1 test.fastq --invert

说明:生成 test.clean.fastq.gz,但这里只保留人源序列,丢弃微生物序列。

  • 带重命名的处理

hostile clean --fastq1 test.fastq --rename --output rename_clean.fastq.gz

说明:读段头部信息可以被替换为整数(使用--rename选项),以保护隐私并生成更小的FASTQ文件。

4

图片

软件优势

高精度与高特异性:Hostile实现了宿主去除与微生物保留的最佳平衡。它能有效去除真实人类宿主序列,同时对微生物序列的误去除率极低;

灵活可定制的去宿主策略:软件不依赖单一的参考基因组。其核心创新是提供了多种预构建的“掩蔽”索引。用户可根据研究目标选择不同索引,例如:专注于细菌研究时可选用已掩蔽常见细菌基因组的索引,以最大化保留细菌序列。若研究病毒,则可选用额外掩蔽了病毒序列的索引;

高效的性能与实用性:整合了成熟的比对工具(如Bowtie2、Minimap2),对计算资源要求友好。

5

图片

参考文献

[1] https://github.com/bede/hostile

[2] Constantinides B, Hunt M, Crook DW. Hostile: accurate decontamination of microbial host sequences. Bioinformatics. 2023 Dec 1;39(12):btad728.