TCGA數據庫使用教程

一、TCGA數據庫簡介

TCGA（The Cancer Genome Atlas）項目是美國國家癌症研究院、美國癌症協會和美國國立衛生研究院為加快癌症研究進程共同推動的大型合作計劃，致力於系統性地對腫瘤相關的基因組變異、基因表達和表觀遺傳變異等最為重要的生物學事件展開深入研究。該項目在2006年啟動並實施，旨在深入探索腫瘤形成、發展和治療等問題，從而為未來的癌症基因治療和靶向治療提供更為完善的科學理論依據。

二、TCGA數據庫官網

TCGA數據庫的官網地址為 https://portal.gdc.cancer.gov/ ，可以通過該網站進行數據的查詢、瀏覽和下載。

三、TCGA數據庫最全講解

TCGA數據庫包含多個數據類型，包括基因組序列、基因表達、蛋白質組、表觀基因組等，數據涵蓋多個癌症類型。以下是在TCGA數據庫中查詢基因表達數據的步驟：

# 導入需要的Python庫
import requests
import json

# 構造查詢的URL
gene_name = "BRAF"
cancer_type = "skin cutaneous melanoma"
url = "https://api.gdc.cancer.gov/slicing/view/1ac9c535-56d2-4f22-ba20-ea4c485352a9?fields=_id,donor_age_at_diagnosis,donor_id,donor_sex,project.project_id,aggregated_somatic_mutation.variant_classification,country,disease_type,experimental_strategy,file_id,file_name,primary_site,sample_id,sample_type,data_category,file_format,file_name,data_type,cases.samples.sample_type,files.analysis.workflow_type,files.analysis.workflow_version,files.cases.case_id,files.cases.samples.sample_id,files.experimental_strategy,files.file_name,files.data_format,files.data_type,files.file_id,cases.case_id,cases.project.project_id,cases.samples.sample_id,cases.samples.tumor_descriptor,cases.tissue_source_site,cases.primary_site,cases.disease_type,biospecimen_samples.sample_type,cases.samples.submitter_id,cases.samples.tumor_descriptor,cases.submitter_id,experimental_strategies.experimental_strategy,cases.samples.submitter_id,cases.samples.tissue_type,cases.samples.tissue_type,genes.gene_id,genes.hugo_symbol,genes.transcript_ids,genes.description,genes.chromosome,genes.start,genes.end,uniprot.accession,uniprot.isoform_id,uniprot.isoform_sequence,uniprot.sequence_version,uniprot.taxonomy_id,uniprot.uniprot_id&return_type=JSON&filters=%7B%22op%22%3A%22and%22%2C%22content%22%3A%5B%7B%22op%22%3A%22in%22%2C%22content%22%3A%7B%22field%22%3A%22genes.hugo_symbol%22%2C%22value%22%3A%5B%22BRAF%22%5D%7D%7D%2C%7B%22op%22%3A%22in%22%2C%22content%22%3A%7B%22field%22%3A%22cases.project.project_id%22%2C%22value%22%3A%5B%22TCGA-SKCM%22%5D%7D%7D%5D%7D&sort=%5B%5D&from=1&size=20000"

# 發送GET請求獲取數據
response = requests.get(url)

# 解析JSON數據
data = json.loads(response.text)

# 輸出第一條數據的基因表達數據
print(data["data"][0]["genes"][0]["expression"])

以上代碼演示了如何通過TCGA數據庫的API查詢BRAF基因在皮膚黑色素瘤（TCGA-SKCM）中的表達數據。代碼中使用了Python的requests庫和json庫來發送GET請求和解析JSON數據。查詢結果將返回20000條數據，每條數據包含有文件、病人、樣本等多種信息。

四、TCGA數據庫詳細介紹

TCGA數據庫中包含了多個癌症類型的基因組數據，該數據庫的主要特點如下：

1、數據類型豐富：TCGA數據庫不僅包括基因組序列數據，還包括基因表達、蛋白質組、表觀基因組等多種數據類型。

2、數據量大：截至2021年初，TCGA數據庫中已經收集了超過2.5PB的數據。

3、多個癌症類型：TCGA項目研究的癌症類型包括乳腺癌、腎癌、結腸癌、膀胱癌等多種常見癌症類型。

4、公開透明：TCGA數據庫中的數據是公開的，所有人都可以免費獲取和使用。

5、數據標準化：為保證數據質量和可比性，TCGA項目採用了統一的標準進行數據處理、分析和注釋。

五、TCGA是什麼樣的數據庫

TCGA是生物醫學研究領域中非常重要的數據庫之一，其主要特點是包含了大量的腫瘤相關的基因組數據，並且對這些數據進行了標準化和處理，因此可以用於不同癌症類型和研究目的的基因組學分析。

原創文章，作者：NVWN，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/147224.html