您好,登錄后才能下訂單哦!
這篇文章主要講解了“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”吧!
Samtools是一個(gè)用于操作sam和bam文件的工具軟件,能夠?qū)Ρ葘?duì)文件進(jìn)行二進(jìn)制查看、格式轉(zhuǎn)換、排序及合并等,結(jié)合sam格式中的flag、tag等信息,還可以完成比對(duì)結(jié)果的統(tǒng)計(jì)匯總,是處理sam和bam文件(例如:轉(zhuǎn)錄組Tophat分析軟件輸出的比對(duì)結(jié)果為.bam文件,而重測(cè)序中BWA、bowtie等比對(duì)軟件則主要輸出為.sam文件)不可或缺的神器!
下載鏡像并運(yùn)行
安裝好Docker后,搜索我們億速云提供的docker鏡像,其中便有安裝好samtools軟件的鏡像。
$ docker search 億速云 NAME DESCRIPTION STARS OFFICIAL AUTOMATED 億速云/gene-family gene-family analysis docker image 2 億速云/isoseq3 isoseq3 v3.3.0 build by 億速云 0 億速云/bwa BWA v0.7.17 build by 億速云 0 億速云/rnaseq RNA-seq analysis docker image build by omics… 0 億速云/samtools samtools v1.10 build by 億速云 0 億速云/biocontainer-base Biocontainers base Image centos7 0 億速云/blast-plus blast+ v2.9.0 0 億速云/blastall legacy blastall v2.2.26 0 億速云/sratoolkit SRAtoolkit v2.10.3 and aspera v3.9.9.177872 0
下載鏡像。
$ docker pull 億速云/samtools Using default tag: latest latest: Pulling from 億速云/samtools ab5ef0e58194: Already exists 417469905807: Already exists ed09842cc19f: Already exists f860268ff83f: Already exists f87dd41136a6: Already exists 90091b4f5d91: Already exists 6485f44fc594: Pulling fs layer latest: Pulling from 億速云/samtools ab5ef0e58194: Already exists 417469905807: Already exists ed09842cc19f: Already exists f860268ff83f: Already exists f87dd41136a6: Already exists 90091b4f5d91: Already exists 6485f44fc594: Pull complete Digest: sha256:e641dd5b9f60d8f9d01f0d109eff72d15836d0d59a753e3e35677b1200adc4a1 Status: Downloaded newer image for 億速云/samtools:latest
下載完成后可以檢查一下。
$ docker images REPOSITORY TAG IMAGE ID CREATED SIZE 億速云/samtools latest 9373e18781bf 8 days ago 2.04GB 億速云/blast-plus latest 0220cac51a6e 8 days ago 2.55GB
之后在電腦的D盤(pán)創(chuàng)建samtools文件夾,并粘貼需要的染色體fasta文件。如果docker是windows Toolbox版本,需要掛載D盤(pán)到虛擬機(jī),具體操作可參考 Docker 工具安裝(windows Toolbox版本)詳解版!
進(jìn)入虛擬機(jī)。
$ docker run --rm -v /d/samtools:/work -it 億速云/samtools:latest #這里我使用的Docker是windows Toolbox版本 ###################################################### # 歡迎使用組學(xué)大講堂提供的docker鏡像 # # 問(wèn)題交流請(qǐng)?jiān)L問(wèn):www.億速云.com # ###################################################### Linux新手建議學(xué)習(xí)課程: --> https://www.億速云.com/article/702 搭建實(shí)驗(yàn)室生信分析平臺(tái)與docker使用詳情見(jiàn)課程: --> https://www.億速云.com/article/1181 [root@0e9f42f25cc1 10:16:46 /work]#
查看工作目錄。
# ll total 117M -rwxrwxrwx 1 1000 ftp 117M Apr 23 10:19 Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa
samtools faidx 能夠?qū)asta序列建立一個(gè)后綴為.fai 的文件,根據(jù)這個(gè).fai 文件和原始的fasta文件,能夠快速的提取任意區(qū)域的序列。用法:
samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa
該命令對(duì)輸入的fasta序列有一定要求:對(duì)于每條序列,除了最后一行外,其他行的長(zhǎng)度必須相同。
>one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chromosome ATGCATGCATGCAT GCATGCATGCATGC
最后生成的.fai文件如下, 共5列,\t分隔;
Pt 154478 4 60 61 Mt 366924 157061 60 61 4 18585056 530104 60 61 2 19698289 19424914 60 61 3 23459830 39451511 60 61 5 26975502 63302342 60 61 1 30427671 90727439 60 61
第一列 NAME:序列的名稱,只保留“>”后,第一個(gè)空白之前的內(nèi)容;
第二列 LENGTH:序列的長(zhǎng)度,單位為bp;
第三列 OFFSET:第一個(gè)堿基的偏移量,從0開(kāi)始計(jì)數(shù),換行符也統(tǒng)計(jì)進(jìn)行;
第四列 LINEBASES:除了最后一行外,其他代表序列的行的堿基數(shù),單位為bp;
第五列 LINEWIDTH : 行寬,除了最后一行外,其他代表序列的行的長(zhǎng)度,包括換行符,在windows系統(tǒng)中換行符為\r\n, 要在序列長(zhǎng)度的基礎(chǔ)上加2;
最后指定要提取的序列或序列在染色體上的位置,即可提取出需要的序列:
samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt> Pt.fa #提取葉綠體序列 samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt:100-1000> Pt.fa #提取葉綠體第100到1000堿基的序列
感謝各位的閱讀,以上就是“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Docker怎么實(shí)現(xiàn)Samtools截取基因組序列這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。