<strike id="ihgma"></strike><strike id="ihgma"></strike>

<ol id="ihgma"></ol>

<th id="ihgma"></th>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

發(fā)布時(shí)間：2021-07-24 10:52:59 來源：億速云閱讀：352 作者：chen 欄目：大數(shù)據(jù)

這篇文章主要介紹“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”，在日常操作中，相信很多人在如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對(duì)大家解答”如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的疑惑有所幫助！接下來，請(qǐng)跟著小編一起來學(xué)習(xí)吧！

HiCUP是一款經(jīng)典的Hi-C數(shù)據(jù)預(yù)處理軟件，官網(wǎng)如下

https://www.bioinformatics.babraham.ac.uk/projects/hicup/

數(shù)據(jù)處理的流程示意如下

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

首先通過hicup_truncater識(shí)別原始序列中的junction reads, 最典型的Hi-C的reads如下所示
如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

R1和R2來自兩個(gè)不同的fragments, 當(dāng)然這取決于插入偏度長度和讀長的關(guān)系，當(dāng)連接點(diǎn)與fragment兩端的距離小于測序讀長是，會(huì)發(fā)生下圖所示的情況

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理
其中一端的序列是一個(gè)嵌合體序列，這樣的序列在后續(xù)比對(duì)時(shí)會(huì)被過濾掉。為了保留這部分有效reads,hicup_truncater根據(jù)酶切位點(diǎn)的特征來識(shí)別所有reads上的連接位點(diǎn)，從而識(shí)別上圖中的嵌合體序列，并對(duì)這樣的序列末端進(jìn)行切割，切除多余的嵌合體序列。切割完之后，這樣的序列和普通的R1,R2就一樣了，可以進(jìn)行后續(xù)的mapping。

hicup_mapper將雙端reads與參考基因組比對(duì)，由于Hi-C文庫的R1和R2來源于空間結(jié)構(gòu)近的染色質(zhì)，其線性距離比傳統(tǒng)的雙端測序插入片段的長度大的多，如果直接進(jìn)行雙端比對(duì)，覺得部分reads都比對(duì)不上參考基因組，所以這里是對(duì)每一端的序列分別比對(duì)，然后再進(jìn)行合并。

hicup_filter對(duì)比對(duì)上的序列進(jìn)行過濾，如下圖所示

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

只保留valid di-tags, 其他諸如selft-ligation, Re-ligation等片段都會(huì)被過濾掉。

hicup_deduplicator用來去除PCR重復(fù)，因?yàn)関alid reads的多少用來表征染色質(zhì)互作的頻率，PCR重復(fù)的reads數(shù)量會(huì)對(duì)這個(gè)信息造成干擾，如果不去除PCR重復(fù)，junction reads的數(shù)目多可能是PCR重復(fù)多，不一定是因?yàn)槿旧|(zhì)交互頻率強(qiáng)而導(dǎo)致的reads多。

軟件的安裝也很方便，直接下載解壓縮即可。使用步驟如下

1. 準(zhǔn)備參考基因組的索引文件

所有的參考基因組比對(duì)軟件都需要事先對(duì)基因組建立索引，HiCUP支持使用bowtie或bowtie2進(jìn)行比對(duì)，以bowtie2為例，建立基因組索引的方式如下

bowite2-build hg19.fa hg19

第一個(gè)參數(shù)是基因組的fasta文件，第二個(gè)參數(shù)是輸出的索引文件的名稱。

2. 準(zhǔn)備參考基因組酶切位點(diǎn)圖譜

采用hicup_digester這個(gè)腳本來創(chuàng)建基因組的酶切圖譜，基本用法如下

hicup_digester \
--re1 A^AGCTT,HindIII \
--genome hg19_digester_db \
hg19.fa

根據(jù)限制性內(nèi)切酶識(shí)別的位點(diǎn)，將基因組序列進(jìn)行模擬酶切，得到所有可能的酶切片段。--re1指定切割位點(diǎn)的序列和內(nèi)切酶的名字，--genome指定輸出文件的名稱。最終輸出的文件名示例如下

Digest_hg19_digester_db_HindIII_None_09-46-07_17-05-2019.txt

3. 編輯配置文件

首先通過如下命令生成一個(gè)配置文件的模板

hicup --example

該命令會(huì)生成一個(gè)名為hicup_example.conf的文件，在此基礎(chǔ)上進(jìn)行編輯就可以了。在配置中對(duì)每個(gè)選項(xiàng)都體用了詳細(xì)的注釋，根據(jù)需求修改即可。常用的修改的選項(xiàng)如下

#Path to the reference genome indices
#Remember to include the basename of the genome indices
Index: /bi/scratch/Genomes/Human/GRCh48/Homo_sapiens.GRCh48
#Path to the genome digest file produced by hicup_digester
Digest: /bi/scratch/Genomes/Human/GRCh48/Digest_Homo_sapiens_GRCh48_HindIII_None_14-43-31_10-02-2016.txt.gz
#FASTQ files to be analysed, placing paired files on adjacent lines
s_1_1_sequence.fastq.gz
s_1_2_sequence.fastq.gz

包括基因組索引和酶切圖譜的路徑，以及需要處理的Hi-C原始fastq文件的路徑。

4. 運(yùn)行

準(zhǔn)備好配置文件之后，就可以運(yùn)行了，用法如下

hicup --config hicup.conf

在輸出結(jié)果的目錄會(huì)生成一個(gè)html文件，展示了質(zhì)控的各項(xiàng)指標(biāo)，內(nèi)容如下所示

1. Truncating and Mapping

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

2. Filtering

示意如下，可以看到valid pairs的比例在50%左右

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

3. Length Distribution

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

4. De-dupliation

如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理

除此之外，輸出目錄還有很多的文件，其中后綴為hicup_bam的文件包含了最終的de-duplication之后的reads的比對(duì)結(jié)果，可以用于下游的分析。

到此，關(guān)于“如何使用HiCUP進(jìn)行Hi-C數(shù)據(jù)預(yù)處理”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請(qǐng)聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
servlet3如何實(shí)現(xiàn)文件上傳操作
下一篇新聞：
java如何實(shí)現(xiàn)單文件與多文件上傳功能

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼