这个数据的表达量来自一篇泛癌文章,里面有很多项目的数据,其中就有这个数据,我们可以从中分离出来(GSE210347):
文章地址PanCAF :https://www.nature.com/articles/s41467-022-34395-2
wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE210nnn/GSE210347/suppl/GSE210347%5Fcounts.Rds.gz -O GSE210347_counts.Rds.gz wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE210nnn/GSE210347/suppl/GSE210347%5Fmeta.txt.gz -O GSE210347_meta.txt.gz wget -c https://ftp.ncbi.nlm.nih.gov/geo/series/GSE210nnn/GSE210347/suppl/GSE210347%5Fstudy%5Fmetadata.xls.gz -O GSE210347_study_metadata.xls.gz #合并两个表格按sample ID合并,注意保存txt格式 Rscript $scripts/merge_tsv_files.r -i GSE210347_meta.txt GSE210347_study_metadata.tsv -b SampleID -p metadata_all #筛选乳腺癌数据的metadata cat metadata_all.tsv |awk 'NR==1|| ($0~"E-MTAB-8107" && $0~/Breast/){print $0}'>E-MTAB-8107_BRCA_metadata.tsv
会根据metadata数据筛选乳腺癌数据:
Rscript $scripts/seurat_sc_qc.r --rds GSE210347_counts.Rds \ --project BRCA_E-MTAB-8107 \ --nUMI.min 500 \ --nUMI.max 50000 \ --nGene.min 250 \ --mito.gene.pattern "^MT.*-" \ --percent_mito 20 \ --log10GenesPerUMI 0.8 \ -o 01.qc -p BRCA_E-MTAB-8107 --metadata E-MTAB-8107_BRCA_metadata.tsv Rscript $scripts/seurat_sc_cluster.r --rds 01.qc/BRCA_E-MTAB-8107.afterQC.rds \ -p BRCA_E-MTAB-8107 --resolution 0.5 -d 30 -o 02.cluster \ --vars.to.regress nUMI percent_mito --high.variable.genes 2000
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!