技术服务部
Technical Service Department
关于Clair3
近段时间要处理一些Nanopore测序的下机数据,之前习惯使用medaka进行small variants的识别,结果发现新版本的已经不能使用了,推荐使用clair3(https://github.com/HKU-BAL/Clair)这个软件,便拿来试试,发现效果还是不错的,并且该软件也是随着nanopore的技术一直在更新,感谢开发作者的付出。
Clair3的使用主要包含两种算法:一种是基于速度优势的pileup calling(P);另一种是基于精准度的full-alignment(F);该软件在速度和准确度上都有很大的优势,尤其是在低覆盖度的结果上。
以下就拿出手头的部分数据,做些软件的简单使用,如果读者感兴趣,可以仔细阅读github或者联系开发作者。
Clair3简单使用
1. 数据准备,实例数据如下
参考序列:ref.fna
下机测序序列:test.fastq(nanopore下机数据)
2. conda安装variant识别软件clair3
创建虚拟环境,安装软件
conda create -n clair3 -c bioconda clair3 python=3.9.0 -y
激活环境
conda activate clair3
如果发现激活不了,可以:source deactivate 再进行conda activate clair3
3. minimap2产生中间比对文件,建立索引
本文以三代测序结果举例,选用minimap2(https://github.com/lh3/minimap2)作为比对软件:
a. 产生sam格式中间比对软件
minimap2 -ax map-ont ../01_data/ref.fna../01_data/test.fastq > test.sam #比对alignmet
b. sam格式转化成bam格式
samtools view -Sb -o test.bam test.sam
c. 对bam文件进行排序
samtools sort test.bam -o test_sorted.bam
d. 建立索引,生成.bai文件
samtools index test_sorted.bam
e. 创建fna文件索引
samtools faidx ../01_data/ref.fna
4.variant 识别
run_clair3.sh --bam_fn ~/test/02_minimap2/test_sorted.bam --ref_fn ~/test/02_minimap2/ref.fna --threads=20 --platform="ont" --model_path ~/.conda/envs/clair3/bin/models/r941_prom_sup_g5014 --output=variant --include_all_ctgs
--model_path:这里的模式显示的是prom,并非只能适用于PromethIon下机数据,也可使用GridION, MinION 下机数据
--include_all_ctgs:如果是非人类测序结果,需要加上此项参数,选择所有contigs
结果展示:
5.一代测序验证
经一代验证后确有对应位置的突变出现:311 C→T;312 A→G,其他一致性位点未展出。
6.结论
该软件识别突变能力较好,与一代测序结果完全一致。此外,还有其他三代测序对variant识别软件值得试试:NanoCaller, CuteSV,Longshot等。
电 话:021-61283010
网 址:www.bio-chain.com
邮箱:info@bio-chain.com
地 址:上海市徐汇区虹漕路421号65幢303室