溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

發(fā)布時間:2021-11-10 16:43:03 來源:億速云 閱讀:216 作者:柒染 欄目:大數(shù)據(jù)

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù),相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

cell ranger是10X genomics公司提供的,專門用于分析10X 單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)的pipeline, 包含了原始數(shù)據(jù)拆分,表達(dá)定量,聚類分析等多個功能,本文主要介紹如何使用該軟件來拆分原始數(shù)據(jù)。

直接從官網(wǎng)下載最新版的軟件即可,網(wǎng)址如下

https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest

該軟件由多個子命令構(gòu)成,通過mkfastq命令拆分?jǐn)?shù)據(jù),流程示意如下

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

有以下兩種使用方式

cellranger mkfastq \
--id test \
--run run_directory \
--csv simple.csv

cellranger mkfastq \
--id test \
--run  run_directory \
--samplesheet samplesheet.csv

id參數(shù)指定輸出目錄的名字,run參數(shù)指定下機的原始bcl文件所在的目錄,該命令其實是對illumina提供的拆分?jǐn)?shù)據(jù)的bcl2fastq命令的一個封裝,需要樣本名稱,index等信息,支持兩種格式,一種就是illlumina常規(guī)的samplesheet.csv文件,格式如下

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

另外一種是10X  genomics定制的一種簡化版的csv格式,內(nèi)容如下

Lane,Sample,Index
1,test_sample,SI-GA-A3

只有3列,第一列指定lane ID, 第二列指定樣本名稱,第三列指定index的名稱,10X  genomics的每個index代表4條具體的oligo序列,示意如下

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

在根據(jù)index確定樣本時,允許1到2個堿基的錯配。在實際拆分?jǐn)?shù)據(jù)時,更加推薦使用三列的CSV文件,因為samplesheet文件中需要根據(jù)不同版本的試劑盒修改對應(yīng)的Reads信息。

V2試劑盒產(chǎn)生的文庫結(jié)構(gòu)如下所示

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

V3試劑盒產(chǎn)生的文庫結(jié)構(gòu)如下所示

如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)

和V2相比,V3試劑盒中所用的UMIPolyT的長度都發(fā)生了變化,從而導(dǎo)致測序得到的R1和R2端的序列長度也不一致,V2試劑盒的R1端長度為26bp, 包含16bp的barcode和10bp的UMI序列,V3試劑盒的R1端長度為28bp, 包含16bp的barcode和12bp的UMI序列;V2試劑盒的R2端為98bp, V3試劑盒的R2端為91bp。

如果使用samplesheet文件,需要調(diào)整[Reads]中的序列長度,而使用簡化版的csv文件,cell ranger可以識別所用試劑盒版本,然后自動化的調(diào)整reads長度。
拆分好之后的目錄結(jié)構(gòu)如下所示

├── fastq_path
│   ├── H35KCBCXY
│   │   └── test_sample
│   │       ├── test_sample_S1_L001_I1_001.fastq.gz
│   │       ├── test_sample_S1_L001_R1_001.fastq.gz
│   │       └── test_sample_S1_L001_R2_001.fastq.gz

對于每個樣本,除了常見的R1R2端序列,還多出來一個I1序列文件,該文件中保存的是index序列,示意如下

@D00547:905:H35KCBCXY:1:1101:19188:87078 1:N:0:AGATCGGG
AGATCGGG
+
.<<....<

后續(xù)的子命令也是通過這種特定的目錄結(jié)構(gòu)來進(jìn)行分析,如果你有從其他地方下載的原始數(shù)據(jù),也可以整理成這種目錄結(jié)構(gòu),方便后續(xù)使用cell ranger進(jìn)行分析。

看完上述內(nèi)容,你們掌握如何使用cell ranger拆分10X單細(xì)胞轉(zhuǎn)錄組原始數(shù)據(jù)的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI