新闻中心

NEWS

生信篇 | 认识与处理Nanopore测序原始数据Pod5文件

来源: | 作者:/ | 发布时间: 2024-12-31 | 510 次浏览 | 分享到:

生信专题

Nanopore测序原始数据文件

在早期版本中,Nanopore储存原始的电信号主要采用的是.fast5。作为一种HDF5文件,.fast5包含nanopore测序数据所需要的所有信息,并且现在仍是一种可选择的文件存储方式。随着技术不断提升,测序所产生的数据会越来越大,为了提升文件的读写速度,改善计算机资源和内存占用等问题,逐渐使用POD5文件格式取代.fast5。那么,究竟什么是pod文件?我们该如何处理pod文件?让我们一起看看吧!

1

图片

文件信息识别

由于POD5是种二进制文件,无法直接看出其储存的信息,这就需要其他工具进行解析和转化,Pod5Viewer提供一直图形化界面可以直观地了解POD5文件储存的一些基本信息。

下载Pod5Viewer:

打开github(https://github.com/dietvin/pod5Viewer),按提示选择windows版本,进行本地安装。

图片
图片
图片

选取准备好的pod5文件,即可显示每条reads的ID,以及一一对应的测序基本信息,如选用的测序仪器、所用的试剂盒、测序开始的时间和进行分析的软件版本等。

2

图片

文件处理方法

在对pod5文件进行合并、格式转化和提取等操作时,可以用pod5 python包进行操作。

安装pip install pod5:

1. pod5 view

pod5 view test.pod5 > pod5.txt

输出一个类似sequencing summary的表,包含测序的一些基本信息。


2. pod5 inspect

用来检查pod5文件的完整性。

pod5 inspect read

查看指定reads的信息

图片

3. pod5 merge

pod5 merge test01.pod5 test02.pod5 --output merge.pod5

可对不同的pod5文件进行合并,但不能出现重复的reads ID。


4. pod5 filter

pod5 filter test01.pod5 --output filtered_test01.pod5 --ids reads_ID.txt

提取指定reads ID的pod5文件信息。


5. pod5 subset

pod5 subset test01.pod5 --csv mapping.csv

构建csv,tsv或table文件进行比对,生成多个pod文件。


6. pod5 repack

pod5 repack inputs/*.pod5 repacked/

重新构建pod5文件。


7. pod5 convert fast5

pod5 convert fast5 fast5/test01.0_0.fast5 --output converted.pod5

可将fast5文件转换成pod5文件。


8. pod5 convert to_fast5

pod5 convert to_fast5 test01.pod5 --output fast5/

可将pod5文件转换成fast5文件。


参考文献

[1] Dietrich V, Alagna N, Helm M, Gerber S, Butto T. Pod5Viewer: a GUI for inspecting raw nanopore sequencing data. Bioinformatics. 2024 Nov 28;40(12):btae665.

[2] https://gicthub.com/nanoporetech/pod5-file-format