您好,登錄后才能下訂單哦!
小編給大家分享一下如何利用GEOquery并結(jié)合Biobase下載GEO數(shù)據(jù)庫(kù)多種數(shù)據(jù),相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
GEO數(shù)據(jù)庫(kù)是NCBI開(kāi)發(fā)的基因表達(dá)數(shù)據(jù)庫(kù),主要接收通過(guò)高通量測(cè)序、基因芯片等方法獲得的基因表達(dá)數(shù)據(jù)——這就方便大家利用他人數(shù)據(jù)發(fā)文章了。
而進(jìn)行GEO數(shù)據(jù)挖掘的第一步就是進(jìn)行數(shù)據(jù)下載,但是進(jìn)入網(wǎng)站點(diǎn)點(diǎn)來(lái)下載,查詢搜索工作就不少,下載下來(lái)的數(shù)據(jù)還不一定能看懂。有沒(méi)有什么方法可以解決這個(gè)問(wèn)題呢?當(dāng)然有——R包GEOquery!下面就針對(duì)芯片數(shù)據(jù),教大家用GEOquery包完成下載工作。
GEO數(shù)據(jù)
在下載之前要先了解GEO數(shù)據(jù)庫(kù)具體存放的四類數(shù)據(jù):GSE、GDS、GSM、和GPL。
一個(gè)GSE Accession對(duì)應(yīng)的是整個(gè)研究項(xiàng)目的系列的數(shù)據(jù),可能涉及不同平臺(tái);
一個(gè)GDS Accession對(duì)應(yīng)的一個(gè)同一平臺(tái)的數(shù)據(jù)集;
一個(gè)GSM Accession對(duì)應(yīng)單一樣品的數(shù)據(jù)信息,它只能是單一平臺(tái)的數(shù)據(jù),往往,GSE 和GDS中會(huì)包含多個(gè)GSM數(shù)據(jù);
一個(gè)GPL Accession,則對(duì)應(yīng)一個(gè)platform信息。
R包安裝與加載
GEOquery
## try http:// if https:// URLs are not supported source("https://bioconductor.org/biocLite.R") biocLite("GEOquery")
Biobase
## try http:// if https:// URLs are not supported source("https://bioconductor.org/biocLite.R") biocLite("Biobase")
正確加載
library('Biobase') library('GEOquery') setwd("F:/GEO") ############有需要可以設(shè)置路徑
利用GSE Accession
通過(guò)閱讀文獻(xiàn)查找感興趣的GSE Accession,下載對(duì)應(yīng)的表達(dá)數(shù)據(jù)和平臺(tái)信息等,可以利用GEOquery中的getGEO()函數(shù)下載series_matrix.txt。例如GSE70213:
> gse = getGEO("GSE70213", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T) ###destdir設(shè)置當(dāng)前目錄,getGPL 和AnnotGPL都設(shè)置TRUE,可以下載和獲得平臺(tái)的注釋文件
gse為列表數(shù)據(jù),對(duì)應(yīng)的GSM是單平臺(tái),則length為1,之后分別利用Biobase包中的exprs()、pData()和fData()獲得表達(dá)數(shù)據(jù)、樣品處理分組等信息、芯片平臺(tái)的設(shè)計(jì)注釋信息,還可以利用annotation()函數(shù)了解對(duì)應(yīng)GPL Accession,譬如exprs()函數(shù):
> exprSet=exprs(gse[[1]]) > head(exprSet,2) GSM1720833 GSM1720834 GSM1720835 GSM1720836 GSM1720837 GSM1720838 GSM1720839 GSM1720840 GSM1720841 GSM1720842 10338001 2041.40800 2200.86100 2323.7600 3216.26300 2362.77500 2195.31800 2013.35900 2146.25800 1785.9460 2067.04100 10338002 63.78059 65.08438 58.3082 75.86145 66.95605 43.81526 49.11361 51.29279 48.9604 42.14286 GSM1720843 GSM1720844 GSM1720845 GSM1720846 GSM1720847 GSM1720848 GSM1720849 GSM1720850 GSM1720851 GSM1720852 10338001 1769.1150 1720.77400 1847.42900 2214.69800 2279.51500 2530.45600 2303.26400 2358.83400 1701.40000 1970.92400 10338002 42.5472 43.48373 64.34628 59.75188 57.48852 60.26423 54.81179 53.70885 57.86877 57.02808 GSM1720853 GSM1720854 GSM1720855 GSM1720856 10338001 1822.78600 2014.26000 1737.84200 2001.73400 10338002 59.26121 55.27306 54.36722 49.43959
注釋信息的獲取可以進(jìn)行探針和基因的對(duì)應(yīng),方便后續(xù)分析。通過(guò)exprs()、pData()和fData()獲得的數(shù)據(jù)都可以利用write.table等進(jìn)行文件保存。
利用GDS Accession
GDS數(shù)據(jù)同樣可以利用getGEO()函數(shù)下載soft文件。例如GDS5881:
> gds = getGEO("GDS5881", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T) ###destdir設(shè)置當(dāng)前目錄
gds可以利用GEOquery包中的Table()獲取表達(dá)數(shù)據(jù),并利用Meta()獲得描述信息,其中Meta(gds)$platform可以獲得GPL Accession。
> exprSet=Table(gds) > head(exprSet,1) ID_REF IDENTIFIER GSM1720845 GSM1720846 GSM1720847 GSM1720848 GSM1720849 GSM1720850 GSM1720851 GSM1720852 GSM1720853 1 10344614 Gm2889 48.4971 47.252 39.3331 49.9048 36.8313 41.9501 37.5569 38.1924 46.0668 GSM1720854 GSM1720855 GSM1720856 1 34.689 38.5762 32.2618 > Meta(gset)$platform [1] "GPL6246"
針對(duì)getGEO返回的gds——GDS數(shù)據(jù),可以利用GEOquery包中GDS2Set()和GDS2MA()轉(zhuǎn)變?yōu)闉镋xpressionSets 和limma MALists。
> gds2eSet=GDS2eSet(gds) > MA=GDS2MA(gds)
再針對(duì)返回的gds2eSet,利用exprs()、pData()和fData()同樣可以獲得表達(dá)數(shù)據(jù)、樣品處理分組信息、芯片平臺(tái)的設(shè)計(jì)注釋信息。返回的MA中涉及大量的描述信息,其中MA$tragets也是樣品處理信息。
利用GSM Accession
利用GSM Accession下載的是單樣本的表達(dá)數(shù)據(jù),例如GSM1720833:
> gsm = getGEO("GSM1720833", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T) 針對(duì)gsm,同樣是利用GEOquery包中的Table()獲取表達(dá)數(shù)據(jù),并利用Meta()獲得描述信息,而獲取對(duì)應(yīng)的GSE Accession 和GPL Accsesion利用Meta(gsm)$series_id和Meta(gsm)$platform_id。
利用GPL Accession
針對(duì)芯片平臺(tái),利用GPL Accession下載得到的數(shù)據(jù)是芯片的設(shè)計(jì)和注釋信息,可以獲得探針組和基因的對(duì)應(yīng)關(guān)系,利用Table()函數(shù)可以顯示annotation,例如GPL6246:
> gpl = getGEO("GPL6246", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T) > ann=Table(gpl) > head(ann,2) ID Gene title Gene symbol Gene ID UniGene title UniGene symbol UniGene ID 1 10344614 predicted gene 2889 Gm2889 100040658 2 10344616 Nucleotide Title 1 Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0009C06 product:hypothetical DeoxyUTP pyrophosphatase/Aspartyl protease, retroviral-type family profile/Retrovirus capsid, C-terminal/Peptidase aspartic/Peptidase aspartic, active site containing protein, full insert sequence///Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0042P10 product:hypothetical protein, full insert sequence 2 GI GenBank Accession Platform_CLONEID Platform_ORF Platform_SPOTID Chromosome location 1 74211482///74217103 AK145513///AK145782 chr1:3054233-3054733 18 2 chr1:3102016-3102125 Chromosome annotation GO:Function GO:Process GO:Component GO:Function ID GO:Process ID GO:Component ID 1 Chromosome 18 2
以上是“如何利用GEOquery并結(jié)合Biobase下載GEO數(shù)據(jù)庫(kù)多種數(shù)據(jù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。