AI助手帮我整理GEO数据库中样本信息表格

AI助手帮我整理GEO数据库中样本信息表格

当下,人工智能的发展令人惊叹不已,它所展现出的强大能力着实震撼人心。在实际工作中,借助大模型作为得力助手,能够显著提高工作效率。接下来,我将以数据整理为例,和大家分享一些经验,希望能起到抛砖引玉的作用。

在生物信息学领域,从 GEO(Gene Expression Omnibus)数据库下载数据是常见操作。然而,一个普遍存在的问题是,样本信息往往分散在不同的表格中。要想深入分析这些数据,就需要将这些分散的信息整合到一个表格里,这个过程不仅繁琐,还容易出错,十分耗费时间和精力。

不过,现在有了人工智能的助力,情况就大不相同了。AI 能够轻松处理这类重复性高、操作繁琐的任务,极大地提升了数据整理的效率和准确性。

下面,我以 GEO 数据库中的一组数据为例,向大家详细介绍这一过程。该数据的链接为:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE195832 。


attachments-2025-03-PqvYpZlS67d3cd302f852.png我需要整理一个表格文件记录对应的样本信息如下,但这些信息分布在不同的表格需要合并:meta.tsv

表格信息来源如下:

ena 搜索勾选需要的数据 数据下载路径:https://www.ebi.ac.uk/ena/browser/view/PRJNA802247
attachments-2025-03-wStiIGNB67d3cd52a7753.png得到下载链接表格1

wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839311/3219_SR_2possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839309/3219_SR_4possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839309/3219_SR_4possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839307/3219_SR_6possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839312/3219_SR_1possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839305/3521_SR_2possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839312/3219_SR_1possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839306/3521_SR_1possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839308/3219_SR_5possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839310/3219_SR_3possorted_genome_bam.bam.1
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839308/3219_SR_5possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839306/3521_SR_1possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839310/3219_SR_3possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839307/3219_SR_6possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839305/3521_SR_2possorted_genome_bam.bam.1.bai
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839311/3219_SR_2possorted_genome_bam.bam.1

这些信息分布在不同的表格中,我们需要整理一下,这里可以通过AI模型帮我们处理一下:

表格2 GSM号和样本ID信信

GSM5851565	ScRNA Pt1 Pre
GSM5851566	ScRNA Pt1 Post
GSM5851567	ScRNA Pt2 Pre
GSM5851568	ScRNA Pt2 Post
GSM5851569	ScRNA Pt3 Pre
GSM5851570	ScRNA Pt3 Post
GSM5851571	ScRNA Pt4 Pre
GSM5851572	ScRNA Pt4 Post

表格3 数据SRR号和GSM的信息:

Run	Library Name	tissue	tissue_type	time_point
SRR17839305	GSM5851572	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	post
SRR17839306	GSM5851571	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	pre
SRR17839307	GSM5851570	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	post
SRR17839308	GSM5851569	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	pre
SRR17839309	GSM5851568	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	post
SRR17839310	GSM5851567	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	pre
SRR17839311	GSM5851566	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	post
SRR17839312	GSM5851565	Tumor	Head And Neck Oral Cavity Squamous Cell Carcinoma	pre

利用AI做表格合并:

这里用的是豆包速度会快一些,deepseek也可以完成但是比较卡,以下是提示词及完成过程,点击链接查看:

https://www.doubao.com/thread/w882cbc4f971511f0


attachments-2025-03-2fTbGluR67d3cf39b17f6.png

  • 发表于 2025-03-14 14:35
  • 阅读 ( 238 )
  • 分类:其他

0 条评论

请先 登录 后评论
omicsgene
omicsgene

生物信息

715 篇文章

作家榜 »

  1. omicsgene 715 文章
  2. 安生水 356 文章
  3. Daitoue 167 文章
  4. 生物女学霸 120 文章
  5. xun 86 文章
  6. rzx 81 文章
  7. 红橙子 78 文章
  8. CORNERSTONE 72 文章