人类细胞图谱组装的信息学路径:清华大学张学工团队NSR观点文章

发布时间:2025-07-08 15:08

基于海量单细胞数据组装人类细胞图谱面临重大的信息学挑战。清华大学张学工教授团队近期在《国家科学评论》(National Science Review,NSR)发表观点文章“迈向细胞图谱组装的统一信息框架”(Toward a unified information framework for cell atlas assembly),系统分析细胞图谱组装的关键信息学挑战,指出了有效解决路径。

图片

基因是生命的基本信息单元,细胞是生命的基本结构和功能单元。20年前完成的人类基因组计划(HGP),为理解生命的信息编码提供了奠基性基础参照系,使人类对自身的认识迈上了一个新台阶。而2016年由美英科学家牵头发起的国际人类细胞图谱(HCA)计划,致力于打造人类对自身生命机理探究的另一个里程碑。2017年,清华大学张学工教授团队作为唯一一个来自亚洲的团队,入选HCA第一批预研项目,重点探索图谱构建中的关键信息学问题。

人类细胞图谱的信息复杂度要远远超过人类基因组,因为在几十万亿个细胞中,每个细胞中都有一个基因组在运行,构成了每个细胞的超高维分子特性和细胞间复杂的相互作用。与HGP时代相比,当今科技形势发生了巨大变化。单细胞测序作为细胞图谱建设的核心技术,其发展和普及速度远远超过了当初的基因组测序技术,全球众多实验室针对各自的研究兴趣,利用自己可以获得的样本不断产出大量单细胞数据,一些不同规模的其他细胞图谱项目也陆续出现,大量的人类单细胞数据在公共空间中不断积累。这些数据事实上为细胞图谱构建提供了自底向上进行的新路径,但如何将散布在大量文献和不同标准、不同规模数据库中的海量细胞数据组装成人类细胞图谱,是摆在科学家面前的巨大挑战。

在这篇观点文章中,作者指出,细胞图谱的组装不应是数据文件的简单汇集,而应当是以细胞为单位的有机组装,利用细胞的高维分子特性和相互关系构建数据空间中的虚拟人体。这样组装的图谱,才能实现对不同来源数据的无缝链接、浏览、搜索和利用,进而带来未来医学研究上跨越微观与宏观、兼顾局部与全局的革命性应用。

不论是自顶向下分解数据采集任务,还是自底向上汇集散布数据,细胞图谱组装都面临三大关键挑战,即:

数据组织体系挑战,来源于人体细胞系统的多重坐标复杂性;

数据标注标准化挑战,来源于细胞类型、细胞状态等的定义模糊性;

存储和检索挑战,来源于细胞数目和属性的双重超大规模。

文章提出,建立统一信息框架是细胞图谱有效组装的关键,它应该包括统一的超大数据存储与快速检索系统、统一的细胞广义坐标体系、统一的多层次标注体系。

图片

细胞图谱组装的统一信息框架

为了验证这一观点并探索实现统一信息框架的可行路径,张学工教授团队用三年时间建立起了细胞图谱统一信息框架的原型,并通过汇集覆盖人体38个器官的百万余细胞的单细胞转录组数据,构建了第一个细胞级组装的人体集成细胞图谱human Ensemble Cell Atlas (hECA)。相关成果于近期发表于期刊iScience上(https://doi.org/10.1016/j.isci.2022.104318)。

基于上述理念和成果,该团队还创造性地提出了在细胞图谱构成的虚拟人体中按照复杂逻辑进行细胞筛选分析的“数基细胞实验”(“in data” cell experiments)范式,通过用逻辑代码方式在虚拟人体中寻找CAR-T靶向治疗可能的脱靶副作用器官,初步展现了统一组装的细胞图谱能给医学研究带来革命性发展的巨大前景。

了解详情请读原文▼

免责声明:本内容来自腾讯平台创作者,不代表腾讯新闻或腾讯网的观点和立场。

举报

网址:人类细胞图谱组装的信息学路径:清华大学张学工团队NSR观点文章 https://mxgxt.com/news/view/1554388

相关内容

程涛/朱平合作绘制人类32种血细胞单细胞水平转录组精细分子图谱
北京大学最新Nature论文:何爱彬团队利用全景单细胞组蛋白修饰实现胚胎发育谱系追踪
人类细胞谱系大科学研究设施开建
祝贺!世界首个人类细胞图谱在浙大绘制成功
解决细胞的“哲学三问”:科学家研发多组学谱系追踪技术,构建高效谱系追踪小鼠
人类细胞谱系大科学研究设施在广州启动建设
中国海洋大学董波教授团队及其合作者绘制出全球首个海洋生物空间单细胞图谱!
NAR:刘光慧/周园春/曲静/张维绮合作建立细胞谱系多组学数据库
Science:李红杰团队绘制单细胞衰老图谱,全面揭示衰老特征
Nature丨中国学者合作绘制人脑前额叶发育的单细胞图谱并揭示神经元的分化成熟机制——张旭、仇子龙点评

随便看看