当下,人工智能的发展令人惊叹不已,它所展现出的强大能力着实震撼人心。在实际工作中,借助大模型作为得力助手,能够显著提高工作效率。接下来,我将以数据整理为例,和大家分享一些经验,希望能起到抛砖引玉的作用。
在生物信息学领域,从 GEO(Gene Expression Omnibus)数据库下载数据是常见操作。然而,一个普遍存在的问题是,样本信息往往分散在不同的表格中。要想深入分析这些数据,就需要将这些分散的信息整合到一个表格里,这个过程不仅繁琐,还容易出错,十分耗费时间和精力。
不过,现在有了人工智能的助力,情况就大不相同了。AI 能够轻松处理这类重复性高、操作繁琐的任务,极大地提升了数据整理的效率和准确性。
下面,我以 GEO 数据库中的一组数据为例,向大家详细介绍这一过程。该数据的链接为:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE195832 。
我需要整理一个表格文件记录对应的样本信息如下,但这些信息分布在不同的表格需要合并:meta.tsv
表格信息来源如下:
ena 搜索勾选需要的数据 数据下载路径:https://www.ebi.ac.uk/ena/browser/view/PRJNA802247得到下载链接表格1:
wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839311/3219_SR_2possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839309/3219_SR_4possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839309/3219_SR_4possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839307/3219_SR_6possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839312/3219_SR_1possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839305/3521_SR_2possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839312/3219_SR_1possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839306/3521_SR_1possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839308/3219_SR_5possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839310/3219_SR_3possorted_genome_bam.bam.1 wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839308/3219_SR_5possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839306/3521_SR_1possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839310/3219_SR_3possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839307/3219_SR_6possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839305/3521_SR_2possorted_genome_bam.bam.1.bai wget -nc ftp://ftp.sra.ebi.ac.uk/vol1/run/SRR178/SRR17839311/3219_SR_2possorted_genome_bam.bam.1
这些信息分布在不同的表格中,我们需要整理一下,这里可以通过AI模型帮我们处理一下:
表格2 GSM号和样本ID信信
GSM5851565 ScRNA Pt1 Pre
GSM5851566 ScRNA Pt1 Post
GSM5851567 ScRNA Pt2 Pre
GSM5851568 ScRNA Pt2 Post
GSM5851569 ScRNA Pt3 Pre
GSM5851570 ScRNA Pt3 Post
GSM5851571 ScRNA Pt4 Pre
GSM5851572 ScRNA Pt4 Post
表格3 数据SRR号和GSM的信息:
Run Library Name tissue tissue_type time_point
SRR17839305 GSM5851572 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma post
SRR17839306 GSM5851571 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma pre
SRR17839307 GSM5851570 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma post
SRR17839308 GSM5851569 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma pre
SRR17839309 GSM5851568 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma post
SRR17839310 GSM5851567 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma pre
SRR17839311 GSM5851566 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma post
SRR17839312 GSM5851565 Tumor Head And Neck Oral Cavity Squamous Cell Carcinoma pre
利用AI做表格合并:
这里用的是豆包速度会快一些,deepseek也可以完成但是比较卡,以下是提示词及完成过程,点击链接查看:
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!