溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

kallisto怎么使用

發(fā)布時(shí)間:2021-12-18 14:54:20 來(lái)源:億速云 閱讀:257 作者:iii 欄目:大數(shù)據(jù)

本篇內(nèi)容介紹了“kallisto怎么使用”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

kallisto 是2016年發(fā)布的一款無(wú)須比對(duì)的轉(zhuǎn)錄本定量工具,采用了名為pseudo-alignment的算法。傳統(tǒng)的定量算法是根據(jù)reads的比對(duì)位置來(lái)確認(rèn)其屬于哪個(gè)轉(zhuǎn)錄本或者基因,而pseudo-alignment 算法不關(guān)系reads具體的比對(duì)位置,而是通過(guò)reads的kmer特征來(lái)判斷其屬于哪一條轉(zhuǎn)錄本,示意圖如下

kallisto怎么使用

首先將每個(gè)轉(zhuǎn)錄本序列劃分為kmer, 利用所有轉(zhuǎn)錄本的kmer序列構(gòu)建de Bgujin Graph, 簡(jiǎn)稱(chēng)T-DBG,在這個(gè)圖中,每個(gè)節(jié)點(diǎn)是一個(gè)kmer, 每條路徑代表一個(gè)轉(zhuǎn)錄本, 由于轉(zhuǎn)錄本序列的冗余,實(shí)際上每個(gè)kmer對(duì)應(yīng)多條路徑,也就是對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本; 然后將測(cè)序的reads也劃分為kmer, 并將其映射到T-DBG中。

最終定量時(shí),將該reads的所有kmer對(duì)應(yīng)的轉(zhuǎn)錄本取交集,就能夠分析出reads可能屬于哪些轉(zhuǎn)錄本序列。

官網(wǎng)有編譯好的可執(zhí)行文件,下載解壓即可。代碼如下

wget https://github.com/pachterlab/kallisto/releases/download/v0.44.0/kallisto_linux-v0.44.0.tar.gz
tar xzvf kallisto_linux-v0.44.0.tar.gz

解壓之后,在文件夾下可以看到名為kallisto的可執(zhí)行文件。從算法也可以看到,軟件的運(yùn)行需要兩步,第一步對(duì)轉(zhuǎn)錄本的序列劃分kmer, 構(gòu)建T-DBG, 也稱(chēng)之為建索引;第二步對(duì)reads 定量。

1. 對(duì)轉(zhuǎn)錄本序列建立索引

kallisto支持讀取gzip壓縮的轉(zhuǎn)錄本序列,用法如下

kallisto index -k 31 -i hg19.idx  hg19.refMrna.fa

只需要提供轉(zhuǎn)錄本的fasta格式的序列即可。-k參數(shù)指定kmer的長(zhǎng)度,-i參數(shù)指定輸出的索引的名字,注意kallisto建立的索引為一個(gè)文件。

2. 定量

kallisto 支持單端和雙端數(shù)據(jù)的定量,雙端數(shù)據(jù)用法如下

kallisto quant \
-i hg19.idx  \
-o out_dir  \
-t  20 \ 
R1.fastq.gz R2.fastq.gz

-i參數(shù)指定轉(zhuǎn)錄本的索引文件,-o參數(shù)指定輸出結(jié)果的目錄,-t參數(shù)指定線程數(shù),kallisto支持gzip壓縮的序列文件。
單端數(shù)據(jù)用法如下

kallisto quant \
-i hg19.idx \
-o output \
--single \
-l 180 \
-s 20 \
-t 20 \
reads.fastq.gz

對(duì)于單端數(shù)據(jù)而言,必須指定fragment長(zhǎng)度的均值和方差,分別對(duì)應(yīng)-l-s參數(shù)。
在輸出目錄,會(huì)生成以下3個(gè)文件

├── abundance.h6
├── abundance.tsv
└── run_info.json

run_info.json 文件為JSON格式,保存了運(yùn)行的命令和參數(shù)。

前綴為abundance 的文件,保存了轉(zhuǎn)錄本的定量信息。其中h6為HDF5格式的文件,當(dāng)轉(zhuǎn)錄本數(shù)量較多時(shí),相比純文本,這種格式的文件大小會(huì)小很多;tsv為純文本的文件,內(nèi)容如下

target_idlengtheff_lengthest_countstpm
NR_103451865664.44990.493026
NM_001243523577376.636312.99591
NR_03893124322231.436.99640.603491

對(duì)于HDF5的文件,可以采用如下命令轉(zhuǎn)換為tsv格式的文件

kallisto h6dump  -o out_dir  abundance.h6

-o參數(shù)指定輸出結(jié)果的目錄,最終生成的文件名稱(chēng)為abundance.tsv。

“kallisto怎么使用”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI