在早期版本中,Nanopore储存原始的电信号主要采用的是.fast5。作为一种HDF5文件,.fast5包含nanopore测序数据所需要的所有信息,并且现在仍是一种可选择的文件存储方式。随着技术不断提升,测序所产生的数据会越来越大,为了提升文件的读写速度,改善计算机资源和内存占用等问题,逐渐使用POD5文件格式取代.fast5。那么,究竟什么是pod文件?我们该如何处理pod文件?让我们一起看看吧!
由于POD5是种二进制文件,无法直接看出其储存的信息,这就需要其他工具进行解析和转化,Pod5Viewer提供一直图形化界面可以直观地了解POD5文件储存的一些基本信息。
下载Pod5Viewer:
打开github(https://github.com/dietvin/pod5Viewer),按提示选择windows版本,进行本地安装。
选取准备好的pod5文件,即可显示每条reads的ID,以及一一对应的测序基本信息,如选用的测序仪器、所用的试剂盒、测序开始的时间和进行分析的软件版本等。
在对pod5文件进行合并、格式转化和提取等操作时,可以用pod5 python包进行操作。
安装pip install pod5:
1. pod5 view
pod5 view test.pod5 > pod5.txt
输出一个类似sequencing summary的表,包含测序的一些基本信息。
2. pod5 inspect
用来检查pod5文件的完整性。
pod5 inspect read
查看指定reads的信息
3. pod5 merge
pod5 merge test01.pod5 test02.pod5 --output merge.pod5
可对不同的pod5文件进行合并,但不能出现重复的reads ID。
4. pod5 filter
pod5 filter test01.pod5 --output filtered_test01.pod5 --ids reads_ID.txt
提取指定reads ID的pod5文件信息。
5. pod5 subset
pod5 subset test01.pod5 --csv mapping.csv
构建csv,tsv或table文件进行比对,生成多个pod文件。
6. pod5 repack
pod5 repack inputs/*.pod5 repacked/
重新构建pod5文件。
7. pod5 convert fast5
pod5 convert fast5 fast5/test01.0_0.fast5 --output converted.pod5
可将fast5文件转换成pod5文件。
8. pod5 convert to_fast5
pod5 convert to_fast5 test01.pod5 --output fast5/
可将pod5文件转换成fast5文件。
参考文献
[1] Dietrich V, Alagna N, Helm M, Gerber S, Butto T. Pod5Viewer: a GUI for inspecting raw nanopore sequencing data. Bioinformatics. 2024 Nov 28;40(12):btae665.
[2] https://gicthub.com/nanoporetech/pod5-file-format