二维码

NCBI上基因组文件格式及解释

1795 人阅读 | 时间:2021年04月15日 17:13

最近在对于一些关于基因组的数据进行处理,发现如果在NCBI上下载一个物种例如E. coil的基因组序列之后,有很多并不常见的文件类型,例如.asn.faa.ffn.fna *.val 等等,处于好奇,特意去查了这些文件的意义是什么,总结如下:


*.asn = ASN.1 (Abstract Syntax Notation 1) file 是NCBI的一种特定格式,包括完整的注释信息,可以用如sequin等软件打开。

*.faa = FASTA Amino Acid file 全部蛋白序列文件

*.ffn = FASTA nucleotide coding regions file 全部核酸序列文件

*.fna = FASTA Nucleic Acid file 完整的基因组序列文件(一条序列)

*.gbk = GenBank flat file format 不用说了,genbank格式的基因组注释信息

*.ptt = Protein Table 包含各个CDS(coding sequence)的完整信息表(很有用,可以方便的导入excel等软件来看)

以上这些软件都是文本类型的文件,所以可以用记事本打开,但是更加建议使用notepad++打开,会保证格式不会变化。

其中*.val是一个二进制格式的文件。

*.val = Nucleotide sequence, in ASN.1 binary format(ASN.1二进制的核苷酸序列)

我本次使用的文件类型是.fna,也就是一条完整的基因组序列文件。



作者:LeoinUSA
链接:https://www.jianshu.com/p/2e3c9b8de625
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

©著作权归作者所有:来自ZhiKuGroup博客作者没文化的原创作品,如需转载,请注明出处,否则将追究法律责任 来源:ZhiKuGroup博客,欢迎分享。

评论专区
  • 昵 称必填
  • 邮 箱选填
  • 网 址选填
◎已有 0 人评论
搜索
作者介绍
30天热门
×
×
关闭广告
关闭广告
本站会员尊享VIP特权,现在就加入我们吧!登录注册×
»
会员登录
新用户注册
×
会员注册
已有账号登录
×