15 年
手机商铺
公司新闻/正文
1293 人阅读发布时间:2025-08-08 13:13
听说TCGA数据库中收录了1000+乳腺癌病人的数据,我是研究三阴性乳腺癌的,怎么才能筛选出这些样本进行单独分析呢?
看完这期文章,相信你会有答案。
TCGA数据库是什么?
TCGA(The Cancer Genome Atlas),癌症和肿瘤基因图谱计划,通过应用基因组分析技术,特别是采用大规模的基因组测序,将人类全部癌症(33种癌症,20000多样本量)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,了解癌细胞发生、发展的机制,在此基础上取得新的诊断和治疗方法,最后勾画出整个新型“预防癌症的策略”。该计划由美国国家癌症和肿瘤研究所(NCI)和国家人类基因组研究所(NHGRI)联合进行。

在网站上我们能看到对于该项目详细解释,疾病、病例、样本以及数据的介绍,以及该项目迄今为止的研究成果。TCGA数据库已经在16年初公告停止更新,并将数据下载功能迁移。吉凯在很早就已经开始使用这个数据库的数据为客户提供分析,放几张13年的网站截图,这是当时我们用于内部培训时的留存资料。
当时的网站首页长这样:

当时的数据下载页面还很原始,并且只能网页下载或者挂迅雷:

现在的数据下载已经迁移至GDC网站,而且数据经过多次标准化流程重分析,更符合现在的研究背景。

TCGA数据库病人的病理、生存、治疗数据如何获取?
对于TCGA数据库,网上能搜索到很多的攻略和资料:其中一大类是基于R语言的代码操作,针对数据库中的组学数据如何进行下载和分析;另外一类是数据库类的介绍文章,对于数据库种包含了什么疾病、样本、组学数据等等信息进行介绍。除了这些学习笔记类的信息分享,还有一些网站如ualcan、Kaplan-Meier plotter等,直接提供了TCGA部分组学数据以及生存分析的结果,方便医学生们快速获取信息。
但是对于各位从事癌症研究的老师,这些信息很难精准满足细节的应用需求。如何能快速知道自己研究的癌症方向在数据库中都收录了哪些样本?这些病人对应的临床病理信息都有哪些?有没有细致的疾病亚型信息?有没有生存期相关的数据?这些病人有没有相应的治疗方案和疗效数据?
为了解决这些问题,今天我们聊聊如何能快速网页获取TCGA数据库的病理、治疗相关文件,便于我们判断这个数据库里收录的样本是否满足我们的分析需求。
以TCGA-LIHC(肝癌)为例,首先进入GDC网站首页,按照箭头方向点击选取数据库-TCGA、疾病类型-LIHC:

然后到左侧栏选取Data Category-clinical以及Data Format-bcr biotab,会出现8个文本文件,选取框出的四个文件后添加购物车:

点击进入购物车-下载购物车文件,稍加等待就会获得一个含这四个文件的压缩包。

解压后会获得以下四个文件:
☑ LIHC疾病收入的377个病人的详细病理生存信息,包括但不限于病人的年龄、性别、疾病史、肝病史、病毒感染史、病理分级grade、临床分析TNM stage等等

☑ 后续补充的跟踪随访信息,根据收录日期可以对第一个文件进行补充更新

☑ 病人化疗信息

☑ 病人放疗信息

根据以上四个文件里的详细信息,就可以充分了解该数据库收录的样本是否满足自己的研究需求。针对病理和预后分析,也可以根据个性化需求进行病人样本选取,得到更加精准的研究结果。
病理预后数据如何与组学数据联合
TCGA的每一个样本(case)都有对应的条形码(barcode)信息,格式为TCGA-XX-XXXX。通过这一信息,可以将不同组学的数据与病理数据进行匹配。

以TCGA-LIHC的RNAseq为例,展示一下如何获取该组学数据样本信息表,选取数据库和疾病后,同样跳转左侧信息条,进行如下选择:



在Tissue Type部分选择tumor后,Tumor Descriptor部分会有多种选项,原位瘤、复发瘤和转移瘤等,肝癌这里显示有3个病人提供了复发瘤样本。这里只选取371个原位瘤样本,点击左侧的Sample Sheet进行样本信息下载。(点击右侧的Manifest下载,可以作为TCGA的下载工具的输入文件下载这371个文件。)

下载后点击就能看到含RNAseq数据的样本信息,使用这个Case ID与病理数据的进行匹配,就可以知道我们选取的样本是否包含RNAseq数据。

总结一下,现实中的大多数研究都是针对某个疾病亚型,或者某些对治疗有特殊反应的样本进行的。TCGA的样本包含详细的病人临床信息,可以用于精准分析。今天的分享可以让各位老师以最快的速度,了解自己的研究方向是否可以在TCGA数据库中找到对应的样本,以及这些样本是否有对应的组学数据。
相关病理挖掘更多更想尽的信息,还可以关注8月13日的直播。
