
人才招聘
JOBS
在临床或环境样本的微生物测序分析中,源自宿主(如人类)的DNA序列是主要的污染源,其占比常较高。这些宿主序列本身不包含目标微生物信息,却会大量挤占计算与存储资源,并在下游的物种鉴定、基因组组装及变异分析中引入严重干扰与假阳性结果。因此,精准地从原始数据中去除宿主序列,是保障下游分析效率与结果可靠性的关键预处理步骤。 1 Hostile简介 本文介绍的工具Hostile是一种利用精确序列比对参考基因组策略,对包含宿主污染的测序数据进行高效清洗,以生成高质量微生物序列数据的生物信息学工具。其核心优势在于通过高精度比对算法和可选的“掩蔽”参考基因组,在最大化去除宿主序列的同时,将目的微生物序列尽可能保留。 2 工作流程 1、序列输入 接受单端或双端FASTQ格式的短读长或长读长测序数据; 2、序列比对 选择比对工具(Bowtie2处理短读长,Minimap2处理长读长),将序列与指定的宿主参考基因组进行快速比对; 3、宿主序列识别 精准识别出能够比对到宿主基因组的序列; 4、序列过滤 将识别出的宿主序列从原始数据中直接剔除,保留所有未比对的序列; 5、输出结果 生成纯净的、不含宿主序列的FASTQ文件,用于后续宏基因组或转录组等下游分析。 3 软件环境搭建和安装 由于依赖非 Python 工具(Bowtie2、Minimap2、Samtools 和 Bedtools),推荐使用 conda/mamba 或 Docker 安装。Hostile 已在 Ubuntu Linux 22.04、MacOS 12 和 Windows 的 WSL 环境下通过测试。 Conda/mamba conda create -y -n hostile -c conda-forge -c bioconda hostile conda activate hostile 使用参数展示: hostile clean -h usage: hostile clean [-h] --fastq1 FASTQ1 [--fastq2 FASTQ2] [--aligner {bowtie2,minimap2,auto}] [--index INDEX] [--invert] [--rename] [--reorder] [-c] [-o OUTPUT] [--aligner-args ALIGNER_ARGS] [-t THREADS] [--force] [--airplane] [-d] 以长度长数据进行示例展示: 单端长读长数据去污染 hostile clean --fastq1 test.fastq 说明:默认索引 human-t2t-hla 包含 T2T-CHM13v2.0 和 IPD-IMGT/HLA v3.51,除非指定其他索引,否则运行 Hostile 时会自动使用。 使用特定掩蔽索引 hostile clean --fastq1 test.fastq --index human-t2t-hla-argos985 说明:这里使用已掩蔽985种细菌基因组的索引,在去除人源序列时最大化保留细菌序列。第一次使用Hostile 会自动处理相关索引的下载和缓存。 自定义索引(见下文): 管道化快速处理 cat test.fastq | hostile clean --fastq1 - | minimap2 -ax map-ont ref.fasta - > alignment.sam 说明:从标准输入读取数据,处理后直接通过管道传给下游分析工具。 保留人源序列(逆向模式) hostile clean --fastq1 test.fastq --invert 说明:生成 test.clean.fastq.gz,但这里只保留人源序列,丢弃微生物序列。 带重命名的处理 hostile clean --fastq1 test.fastq --rename --output rename_clean.fastq.gz 说明:读段头部信息可以被替换为整数(使用--rename选项),以保护隐私并生成更小的FASTQ文件。 4 软件优势 高精度与高特异性:Hostile实现了宿主去除与微生物保留的最佳平衡。它能有效去除真实人类宿主序列,同时对微生物序列的误去除率极低; 灵活可定制的去宿主策略:软件不依赖单一的参考基因组。其核心创新是提供了多种预构建的“掩蔽”索引。用户可根据研究目标选择不同索引,例如:专注于细菌研究时可选用已掩蔽常见细菌基因组的索引,以最大化保留细菌序列。若研究病毒,则可选用额外掩蔽了病毒序列的索引; 高效的性能与实用性:整合了成熟的比对工具(如Bowtie2、Minimap2),对计算资源要求友好。 5 参考文献 [1] https://github.com/bede/hostile [2] Constantinides B, Hunt M, Crook DW. Hostile: accurate decontamination of microbial host sequences. Bioinformatics. 2023 Dec 1;39(12):btad728.










电话:021-61283010
网址:www.bio-chain.com
邮箱:marketing@bio-chain.com
地址:上海市徐汇区虹漕路421号65幢303室
上海柏辰生物科技有限公司 版权所有 严禁复制 网站备案号:沪ICP备09099502号-1 沪公网安备 31010402002899号 网站建设:铭心科技