使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料.docx
- 文档编号:4053531
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:11
- 大小:25.53KB
使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料.docx
《使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料.docx》由会员分享,可在线阅读,更多相关《使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料.docx(11页珍藏版)》请在冰豆网上搜索。
使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料
使用cBioCancerGenomicsPortal综合分析癌症基因和临床资料
文章目录
∙cBioCancerGenomicsPortal简介
∙cBioCancerGenomicsPortal所需设备
∙cBioCancerGenomicsPortal使用方法
∙cBioCancerGenomicsPortal结果的查看和解释
∙OncoPrint
∙MutualE*clusivity
∙CorrelationPlots
∙Mutations
∙ProteinChanges
∙Survival
∙Network
∙IGV,Download,Bookmark
∙多个癌症穿插查询
∙查看癌症研究数据
∙查看单一癌症的基因组改变:
患者视图
∙通过编程语言访问查询cBioPortal
cBioCancerGenomicsPortal提供了研究分析癌症基因数据的可视化工具,cBioPortal可以帮助癌症组织和细胞学研究得到的分子学数据认识和理解遗传、表观遗传、基因表达和蛋白质组学。
通过自定义数据的交互界面要以主研究人员探求研究基因改变和临床之间的联系。
cBioPortal提供了图形化的结果,使复杂的癌症基因组学资料更易理解和承受,而不需要特殊的生物信息学知识。
cBioCancerGenomicsPortal简介
大样本癌症基因组方案,如如癌症基因图谱(CancerGenomeAtlas,TCGA,)和国际癌症基因组联盟(TheInternationalCancerGenomeConsortium,ICGC),得到了大量的有关癌症基因组的资料,但是这些资料对于研究人员来说,如何整合、探索和分析,是一个比拟困难的事情,尤其是对于那些电脑水平欠佳的人来说,更是一件头疼的事情。
cBioCancerGenomicsPortal(cbioportal.org/)的出现就是为了减少这种难度的。
cBioPortal方便了研究人员探求多维癌症基因组数据,它要以可视化分析基因、样本和数据类型。
我们可以对癌症研究中的样本的基因改变进展可视化,比拟基因改变频率,或者综合分析单一样本中基因组改变。
cBioPortal还可以研究生物学途径,生存率等等。
cBioPortal整合的基因数据类型包括体细胞突变,DNA拷贝数改变,mRNA和microRNA表达,DNA甲基化,蛋白丰度以及磷蛋白丰度。
迄今为止,cBioPortal包含了10已发表的肿瘤研究结果和20多个TCGA的结果。
每个肿瘤样本和数据可以从上下载。
cBioPortal把这些复杂的数据从基因水平上进展了整合和简化,每个样本可以查询特定的生物学特性,如基因突变,纯合子缺失,基因扩增,mRNA和miRNA的增加或减少,蛋白质的增加或减少等。
这让研究人员可以查询每个基因和样本的基因改变,验证一些假设。
cBioPortal的数据来源和分析选项来源于多个,如TCGAdataportal(s:
//tcga-data.nci.nih.gov/tcga/),theICGCdataportal(dcc.icgc.org/),theBroadInstitute'sGenomeDataAnalysisCenter(GDAC)Firehose(gdac.broadinstitute.org),theIGV,theUniversityofCalifornia,SantaCruz(UCSC)CancerGenomicsBrowser(30),IntOGen(31),RegulomeE*plorer(),以及Onine(ReserachEdition)等。
cBioPortal提供的分析选项有癌症基因组数据,基因水平改变的引起的相关生物功能变化,综合分析基因组数据和临床资料,患者数据等。
cBioPortal并不直接存储这些原始数据,原始数据来源于其它,如TCGA,ICGC,andGeneE*pressionOmnibus(GEO)()等。
cBioCancerGenomicsPortal所需设备
∙如果想使用cBioPortal,一台可以上网的电脑必不要少,当然现在最好还能翻墙,因为cBioPortal局部地区打不开。
另外浏览器必须支持Javascript,这个到是不会有太大问题。
但是注意:
官方建议使用GoogleChrome,Firefo*3.0以上,Safari,InternetE*plorer9.0以上版本。
还在用*P?
!
换了吧,*P最高是InternetE*plorer8.0,
∙AdobeFlashplayer
注意:
这个浏览器插件主要是为了可视化分析结果用的,一般浏览器都应该有,如果没有可以在此下载安装get.adobe./flashplayer/。
但是这个要求好似在2013年中就取消了,也就是说没有这人插件同样可以使用cBioPortal。
∙JavaRuntimeEnvironment
注意:
这个主要是为了加载IntegrativeGenomicsViewer(IGV)用的,可以在此下载安装.java./getjava/.
∙AdobePDFReader
这人就不必说了,都有。
可以使用一般的AdoberReaderget.adobe./reader/,但是我更建议使用PDF*Cview,原因要以参阅升级为Windows8.1,顺便说说我常用的那些软件。
∙Vectorgraphiceditor
注意:
这个东东是为了可视化和编辑从cBioPortal下载的SVG文件的,可以使用AdobeIllustrator(.adobe./products/illustrator.html)或者Inkscape(inkscape.org/).
cBioCancerGenomicsPortal使用方法
cBioPortal的癌症基因数据可以通过浏览器浏览和查询,网址为cbioportal.org。
我们可以查询一个癌症的研究或者多个病症研究结果,如果是单个癌症样本,还可看到相关的基因组改变。
如果想查询一个癌症研究结果,我们可以探索和可视化所选定基因的基因组改变,包括这些基因之间改变之间的相关性,同一基因不同数据之间的关系。
我们可以选择25余种癌症的研究结果。
中选择基因组资料时,一般默认选择突变和As。
如果有相应mRNA和miRNA表达或者相应的蛋白和磷酸化蛋白数据,也可以选择,如果没有这两项就不可选。
蛋白和磷酸化蛋白基于反向蛋白芯片浅析浅析(reversephaseproteinarray,RPPA)实验结果。
mRNA和miRNA数据和蛋白和磷酸化蛋白数据,标准分数(Zscores)通过实验值预先计算,我们可以设定或者默认设置(平均数的2倍标准差)。
mRNA表达的Zscores由每个样本通过比拟mRNA的基因表达和在代表典型基因表达的参考样本中的分布而决定。
如果邻近组织的表达数据可用的话,邻近组织的表达数据就是参考样本的数据,反之,可以使用所癌症研究中的有疑问的基因的两倍的所有肿瘤的表达值。
当研究所分析的样本,默认情况下是匹配所选择的基因组资料。
例如,仅查询突变交时会选择测序的数据。
但是,我们可以改变这些选项。
我们还通过可以「User-DefinedCaseList」或者基于「BuildCaseSet」自己自定义一个输入特定的样本。
当输入基因进展分析时,我们可以手动输入HUGO基因符号,EntrezGeneID,以及基因别我或者预设置的基因组。
如果变异基因列表可用的话,例如MutSig的基因变异或者GISTIC的As,我们可以从这些基因列表中选择基因,也可以通过这些列表建立基因,或者手动输入基因。
一般可以通过4步法来进展查询和研究。
1.SelectCancerStudy,选择想要研究癌症,可以通过下拉箭头进展选择,如「Gliobastoma(TCGA,Nature2008)」。
2.SelectGenomicProfiles,选择基因组配置。
默认设置选择「Mutations」,「CopyNumberdata.Selectoneoftheprofilesbelow」并选择「Putativecopy-numberalterations(RAE,203cases)」。
注意:
「Mutations」和「CopyNumberdata.Selectoneoftheprofilesbelow」一般是默认选中的。
「mRNAE*pressiondata.Selectoneoftheprofilesbelow」是默认不选中的,默认的ZScore倍数可以根据用户自己设定。
当微阵列和RNA-Seq数据可用时,优先选中RNA-Seq。
3.SelectPatient/CaseSet,选择患者数可以使用下拉箭头进展选择,也可以使用「BuildCaseSet」进展选择。
如选择「“TumorswithsequenceandAdata(91)」
注意:
如果用户自定义列表,该步须通过下拉列表进展选择,然后才可以输入样本ID,并用空格键进展分隔。
4.EnterGeneSet,输入基因集合。
可以手动输入或者通过限定的列表进展选择。
注意:
在「Advanced:
OncoQueryLanguage(OQL)」中可以可以使用Onco查询语法(OncoQueryLanguage,OQL)限定查询。
OQL可以用于单个癌症和多个癌症的查询。
一当文工团OQL查询,相应的结果也就限定了我们可以指定4个数据类型,As,突变,mRNA或miRNA表达改变,以及蛋白或磷酸化蛋白丰度改变。
A和突变一般是不连续设置,而mRNA,miRNA和蛋白丰度是连续性设置。
表达值转换成ZScores,以利于比拟和限定变异倍数。
DataType
Keyword
CategoriesandLevels
Default
CopyNumberAlterations
A
AMPAmplified
HOMDELHomozygouslyDeleted
GAINGained
HETLOSSHeterozygouslyDeleted
AMP andHOMDEL
Mutations
MUT
MUT Showmutatedcases
MUT=*Specificmutationsormutationtypes.
Allsomatic,non-synonymousmutations
mRNAE*pression
E*P
E*P<-* Under-e*pressionislessthan * SDsbelowthemean.
E*P>* Over-e*pressionisgreaterthan * SDsabovethemean.
Theparisonoperators <= and >= alsowork.
Atleast2standarddeviations(SD)fromthemean.
Protein/phosphoproteinlevel(RPPA)
PROT
PROT<-* Protein-levelunder-e*pressionislessthan * SDsbelowthemean.
PROT>* Protein-levelover-e*pressionisgreaterthan* SDsabovethemean.
Theparisonoperators≦ and ≧alsowork.
Atleast2standarddeviations(SD)fromthemean.
5.DownloadData,下载数据。
通过「Submit」可以查询并导出数据。
可以另存为t*t文档,这个文档可以用E*cel文件翻开。
cBioCancerGenomicsPortal结果的查看和解释
基于查询标准,cBioPortal把每个基因分成有变异和无变异,这种分法可用于分析和可视化结果。
以下举例说明。
OncoPrint
OncoPrint是一个一组肿瘤样本中多个基因的简基因组改变明扼要的图形化结果。
行代表基因,列代表样本。
不同的符合和颜色编码用于区别基因组的变异,如突变,As
(扩增和纯合子缺失),以及基因表达或蛋白丰度的改变。
如果把鼠标放置在图形上还要以看到额外的信息,如ID号(每个样本代表一个患者样本或者细胞系),可以与患者的查看页面连接,同样还可以显示氨基酸的改变。
默认情况下样本根据变异进展排序。
我们可以存储原始样本文件。
我们还可以从图形化结果上移除未变异的样本。
多个样本的基因变异,OncoPrints可以帮助确认一些趋势,如基因之间的排斥性和共生性。
OncoPrints另外还包含一些基因查询信息,这些查询信息可以SangerCancerGeneCensus上得到,并且和NCBI的Gene数据库相联系。
我们以视网膜母细胞瘤的基因CDKN2A(编码编码细胞周期素依赖性激酶抑制剂p16)CDK4(编码细胞周期素依赖性激酶4)和多形性成胶质细胞瘤中的RB1作为样本。
1.SelectCancerStudy选择「Gioblastoma(TCGA,Natrue2008)」
2.SelectGenomicProfiles选择「Mutations」,「CopyNumberdata.Selectoneoftheprofilesbelow」和「Putativecopy-numberalterations(RAE,203cases)」
3.SelectPatient/CaseSet选择「TumorswithsuqencingandAdata(91)」
4.EnterGeneSet中输入「CDKN2ACDK4RB1」
然后「Submit」,可以得到如下OncoPrint图
从这个图上可以看到,65个样本(71%)三个基因有至少有1个变异,其是每个基因的变异情况也在图上进展了标示。
CDKN24多数的变异是homozygousdeletions,并且有3个突变mutations。
CDK4是单纯的amplifications。
RB1包含1个homozygousdeletions和3个突变mutations。
有以下几点需要说明:
1.当设置好查询条件后,提交查询,OncoPrint结果是自动生成的。
2.如果基因过多,超出一个视屏,可以使用上下滚动条进展完形查看
3.cBioPortal为了使OncoPrint更国简练,因此显示可能不能满足局部人的需要,但是可以通过「Customize」选项进展结果显示的细微调节。
一般要以有3个选项可以调节,「Zoom」调节OncoPrint的宽度,「RemoveUnalteredCases」把未变异的基因去除,「RemoveWhitespace」去除中间空白区域。
4.可以把结果下载为PDF,SVG或T*t格式进展保存。
5.把鼠标放置在变异基因上,可以看到更多的信息。
6.可以通过上方的「ModifyQuery」进展查询的调整。
MutualE*clusivity
癌症中的生物学进程或者路径常常通过多种不同的基因或者不同的机制进展调节。
cBioPortal中的「MutualE*clusivity」可以发现既往不知道一些癌症发病机制,这些机制可能在肿瘤形成和癌症的进展中起到重要作用。
在「MutualE*clusivity」标签中,和特定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这个肿瘤可能只有一种基因问题。
相反是基因共生,一种肿瘤如果有多个基因同时存在,那这几个基因可能共生,其都在肿瘤的发生和开展中起到作用,这个肿瘤也很可能并非单一基因问题。
如上例中的三个基因的变异可以通过「MutualE*clusivity」标签查看统计学数据。
从上图要以看到这三个基因之间都存在排他性,其中又以CDK4-RB1的排他性最强,但是没有统计学意义(P=0.11),可能是由于样本量较小有关。
CDK4-CDKN2A和RB1-CDKN2A之间的排他性有统计学意义(P<0.05,红框表示)。
这也符合的RB信息通路在多形性成胶质细胞瘤的作用,可以通过RB1本身的失活(突变或者删除)引起失效,CDK4通过扩增而活化(CDK要以抑制RB1活性),或者CDK抑制剂p16而使CDK失活,p16是编码CDKN2A的基因。
oddsratio(OR)的计算一般通过如下方法。
假设有两个基因分别是G1和G2,这两个基因之间的共生OR一般如下计算。
OR=(A*D)/(B*C)
A:
代表两个基因中都有变异数量
B:
代表在G1中有变异但是G2中没有
C:
代表G2中有变异但是G1中没有
D:
代表两个基因中都没有的变异数
P值的计算主要是Fisher准确检验。
CorrelationPlots
cBioPortal提供了离散基因和连续基因的可视化分析,如mRNA或者蛋白丰度,或DNA甲基化。
在查询时指定每个基因,cBioPortal会生在不同的散点图。
翻开「Plot」选项,在「PlotType」中的「mRNAversuscopy-number」选项展示的盒须图表示mRNA表达和它的拷贝数之间的关系。
Copy-numberstatus可以是纯合子缺失,杂合子缺失,二倍体,增进(即有少量拷贝扩增)或者扩增(即有大量拷贝扩增)。
mRNA-versus-DNAmethylation选项表示mRNA表达与DNA甲基化之间的比拟。
甲基化β值是CpG位点甲基化水平的一个估计值,是甲基化和未甲基化位点之间的比值。
RPPAproteinlevelversusmRNA选项表示蛋白丰度与mRNA丰度之间比拟的散点图。
基因和数据类型可以通过下拉菜单进展选择,所有的散点图可以导出为PDF文件格式以利于发表,也可以导出为SVG格式。
例如我们分析一下ERBB2(一个编码表皮生长因子受体的致癌基因)在结肠和直肠腺癌中的作用。
ERBB2可以结直肠癌样本中扩增。
1.SelectCancerStudy选择「ColonandRectumAdenocarcinoma(TCGA,Provisional)」
2.SelectGenomicProfiles选择「Mutations」和「Putativecopy-numberalterationsfromGISTIC」
3.SelectPatient/CaseSet选择「AllTumors」
4.EnterGeneSet中输入「ERBB2」
然后「Submit」,选择「Plots」选项。
1.PlotType中选择「mRNAvs.CopyNumber」
2.DataType-mRNA-选择「mRNAe*pression(microarray)」,-CopyNumber-选择「Putativecopy-numberalternationsfromGISTIC」。
可以得到如下列图。
从下列图可以看到ERBB2mRNA扩增样本中ERBB2mRNA是增加的。
注:
Hetloss,heterozygouslydeleted;Diploid,twoallelespresent;Gain,low-levelgeneamplificationevent;Amp,high-levelgeneamplificationevent.
3.PlotType选择「RPPAproteinlevelv.mRNA」时,可以得到如下列图。
可以看到ERBB2mRNA高表达的肿瘤ERBB2蛋白量更高。
注:
Homdel,homozygouslydeleted;Hetloss,heterozygouslydeleted;Diploid,twoallelespresent;Gain,low-levelgeneamplificationevent;Amp,high-levelgeneamplificationevent;Mutated,nonsynonymousmutation.
Mutations
Mutations栏提供了所有非同义突变的图形化和表格式结果。
图形化结果显示Pfam蛋白质构造域的上下的所有突变。
所有DNA根据RefSeqisoform(.broadinstitute.org/oncotator/)标准进展标准化。
当DNA突变不在isoforms中时,图形化结果不包括这些突变。
但是cBioPortal会在另提供这方面的信息。
突变图形下有一个所有非同义突变的表格,该表格可以通过「Show/hidecolumns」自定义显示信息,一般包括以下信息:
∙SampleID:
每个样本的ID号,可以通过连接到单患者视图页面;
∙AAchange:
aminoacidchange,氨基酸的改变;
∙Type:
typeofmutations突变类型,如missense,nonsense,splicesite,frameshiftinsertionordeletion,in-frameinsertionordeletion,nonstop,nonstart;
∙Copy:
扩增类型,如Diploid,twoallelespresent;Gain,low-levelgeneamplificationevent;Amp,high-levelgeneamplificationevent等;
∙COSMIC:
在COSMIC(CatalogueOfSomaticMutationsInCancer)部位的突变数;
∙MS:
MutationStatus,Somatic;
∙VS:
ValidationsStatus,是否有意义突变
∙MutationAssessor:
PredictedFunctionalImpactScore(viaMuationAssessor)formissensemutations.预计突变引起的功能性影响分数;
∙Center:
SequncingCenter;
∙Chr:
Chromosome;
∙StartPos:
StartPositions;
∙EndPos:
EndPosition;
∙Ref:
ReferenceAllele;
∙Var:
VariantAllele;
∙AlleleFreq(T):
Variantallelefrequencyinthetumorsample;
∙AlleleFreq(N):
Variantallelefrequencyinthenormalsample;
∙VarRef:
VariantRefCount;
∙VarAlt:
VariantAltCount;
∙NormRef:
NormalRe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 使用 cBioCancerGenomicsPortal 综合分析 癌症 基因 临床 资料