溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

Docker怎么實(shí)現(xiàn)Samtools截取基因組序列

發(fā)布時(shí)間:2022-03-19 16:39:51 來(lái)源:億速云 閱讀:347 作者:iii 欄目:開(kāi)發(fā)技術(shù)

這篇文章主要講解了“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”吧!

Samtools是一個(gè)用于操作sam和bam文件的工具軟件,能夠?qū)Ρ葘?duì)文件進(jìn)行二進(jìn)制查看、格式轉(zhuǎn)換、排序及合并等,結(jié)合sam格式中的flag、tag等信息,還可以完成比對(duì)結(jié)果的統(tǒng)計(jì)匯總,是處理sam和bam文件(例如:轉(zhuǎn)錄組Tophat分析軟件輸出的比對(duì)結(jié)果為.bam文件,而重測(cè)序中BWA、bowtie等比對(duì)軟件則主要輸出為.sam文件)不可或缺的神器!

下載鏡像并運(yùn)行

安裝好Docker后,搜索我們億速云提供的docker鏡像,其中便有安裝好samtools軟件的鏡像。

$ docker search 億速云
NAME                           DESCRIPTION                                     STARS               OFFICIAL            AUTOMATED
億速云/gene-family         gene-family analysis docker image               2
億速云/isoseq3             isoseq3 v3.3.0 build by 億速云              0
億速云/bwa                 BWA v0.7.17 build by 億速云                 0
億速云/rnaseq              RNA-seq analysis docker image build by omics…   0
億速云/samtools            samtools v1.10 build by 億速云              0
億速云/biocontainer-base   Biocontainers base Image centos7                0
億速云/blast-plus          blast+ v2.9.0                                   0
億速云/blastall            legacy blastall v2.2.26                         0
億速云/sratoolkit          SRAtoolkit v2.10.3 and aspera v3.9.9.177872     0

下載鏡像。

$ docker pull 億速云/samtools
Using default tag: latest
latest: Pulling from 億速云/samtools
ab5ef0e58194: Already exists
417469905807: Already exists
ed09842cc19f: Already exists
f860268ff83f: Already exists
f87dd41136a6: Already exists
90091b4f5d91: Already exists
6485f44fc594: Pulling fs layer
latest: Pulling from 億速云/samtools
ab5ef0e58194: Already exists
417469905807: Already exists
ed09842cc19f: Already exists
f860268ff83f: Already exists
f87dd41136a6: Already exists
90091b4f5d91: Already exists
6485f44fc594: Pull complete
Digest: sha256:e641dd5b9f60d8f9d01f0d109eff72d15836d0d59a753e3e35677b1200adc4a1
Status: Downloaded newer image for 億速云/samtools:latest

下載完成后可以檢查一下。

$ docker images
REPOSITORY              TAG                 IMAGE ID            CREATED             SIZE
億速云/samtools     latest              9373e18781bf        8 days ago          2.04GB
億速云/blast-plus   latest              0220cac51a6e        8 days ago          2.55GB

之后在電腦的D盤(pán)創(chuàng)建samtools文件夾,并粘貼需要的染色體fasta文件。如果docker是windows Toolbox版本,需要掛載D盤(pán)到虛擬機(jī),具體操作可參考 Docker 工具安裝(windows Toolbox版本)詳解版!

進(jìn)入虛擬機(jī)。

$ docker run --rm -v /d/samtools:/work -it 億速云/samtools:latest   #這里我使用的Docker是windows Toolbox版本
######################################################
#      歡迎使用組學(xué)大講堂提供的docker鏡像              #
#      問(wèn)題交流請(qǐng)?jiān)L問(wèn):www.億速云.com             #
######################################################

            Linux新手建議學(xué)習(xí)課程:
      --> https://www.億速云.com/article/702

         搭建實(shí)驗(yàn)室生信分析平臺(tái)與docker使用詳情見(jiàn)課程:
      --> https://www.億速云.com/article/1181
[root@0e9f42f25cc1  10:16:46 /work]#

查看工作目錄。

# ll
total 117M
-rwxrwxrwx 1 1000 ftp 117M Apr 23 10:19 Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa

samtools提取序列

samtools faidx 能夠?qū)asta序列建立一個(gè)后綴為.fai 的文件,根據(jù)這個(gè).fai 文件和原始的fasta文件,能夠快速的提取任意區(qū)域的序列。用法:

samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa

該命令對(duì)輸入的fasta序列有一定要求:對(duì)于每條序列,除了最后一行外,其他行的長(zhǎng)度必須相同。

>one 
ATGCATGCATGCATGCATGCATGCATGCAT 
GCATGCATGCATGCATGCATGCATGCATGC 
ATGCAT 
>two another chromosome 
ATGCATGCATGCAT 
GCATGCATGCATGC

最后生成的.fai文件如下, 共5列,\t分隔;

Pt      154478  4       60      61
Mt      366924  157061  60      61
4       18585056        530104  60      61
2       19698289        19424914        60      61
3       23459830        39451511        60      61
5       26975502        63302342        60      61
1       30427671        90727439        60      61

第一列 NAME:序列的名稱,只保留“>”后,第一個(gè)空白之前的內(nèi)容;

第二列 LENGTH:序列的長(zhǎng)度,單位為bp;
第三列 OFFSET:第一個(gè)堿基的偏移量,從0開(kāi)始計(jì)數(shù),換行符也統(tǒng)計(jì)進(jìn)行;
第四列 LINEBASES:除了最后一行外,其他代表序列的行的堿基數(shù),單位為bp;
第五列 LINEWIDTH : 行寬,除了最后一行外,其他代表序列的行的長(zhǎng)度,包括換行符,在windows系統(tǒng)中換行符為\r\n, 要在序列長(zhǎng)度的基礎(chǔ)上加2;

最后指定要提取的序列或序列在染色體上的位置,即可提取出需要的序列:

samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt> Pt.fa             #提取葉綠體序列
samtools faidx Arabidopsis_thaliana.TAIR10.31.dna.toplevel.fa Pt:100-1000> Pt.fa    #提取葉綠體第100到1000堿基的序列

感謝各位的閱讀,以上就是“Docker怎么實(shí)現(xiàn)Samtools截取基因組序列”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Docker怎么實(shí)現(xiàn)Samtools截取基因組序列這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI