用上 AI,升职提前 4 年?清华等分析 6790 万篇论文:科学界收缩,不用 AI 的领域无人问津AI 真是助力科研的

发布时间:2024-12-31 13:37

【新智元导读】 AI 真是助力科研的神器,不光能用大模型提升写作效率,跟 AI 技术沾边的论文中顶刊的概率也会增加,升职速度也会提升;但对于科学界来说,大家都一股脑去研究 AI,那些不能用 AI 的领域受到了冷落,最终导致整体科研多样性下降。

ChatGPT 发布以来,各种大模型层出不穷,对各行各业的文字、脑力工作者来说绝对是一个效率神器,产出量大大提升。

比如最近的研究成果,清华大学、芝加哥大学、Google 的研究人员利用 AI 工具(模型性能 F1 值为 0.876)分析了六大主要学科的 6790 万篇研究论文,结果发现,采用 AI 工具的科学家发表的论文数量增加了 67.37%,获得的引用次数是未使用 AI 工具的科学家的 3.16 倍,并且还能提前 4 年成为团队领导者。

论文链接:arxiv.org/pdf/2412.07…

但凡事都有代价。

一旦打开「AI 模型」的潘多拉魔盒,就代表研究人员不再广泛探索科学领域,而是专注于某个细小的课题,利用 AI 模型发表的论文大多都是在已有的、数据丰富的领域。

也就是说,大模型不会帮助科研人员创立一个新领域,虽然提高了个人的科研生产力,但却极大减少了整个科研集体的多样性和广泛参与度。

44 年,6800 万篇论文

AI 工具与知识生产紧密相连,比如 AlphaFold 通过学习已知的蛋白质结构来准确预测尚未探索的结构,避免了传统结构推断中的资源消耗和人力成本,并因此获得了 2024 年诺贝尔奖。

通过深度强化学习改进的模型已经能够处理复杂的核聚变反应,并发现了新的、针对硬件优化的矩阵乘法形式,从而加速了深度学习本身的发展。

此外,大型语言模型可以非常出色地帮助科研人员修订和提炼论文写作,促进了发现结果的提炼和传播。

尽管在科研领域中,AI 模型的参与度越来越高,但业界仍然没有对 AI 科学影响的大规模实证评估。

所以这篇论文的研究团队主要提出并回答一个问题:个体科研人员基于自身利益选择 AI 模型进行辅助,对整个科学界有何影响?

研究人员进行了一项大规模的定量分析,利用 OpenAlex 数据集中从 1980 年到 2024 年的 1.09 亿篇论文,选择其中六个学科(生物学、医学、化学、物理学、材料科学和地质学),涵盖了主要的自然科学学科,并特意排除掉计算机科学和工程学,以避免混入 AI 相关从业者的影响,最终得到约 6800 万篇论文。

然后利用 BERT 语言模型根据「标题」和「摘要」内容区分出论文中用到的技术是机器学习、某个深度学习架构,或者是基于 Transformer 的大模型。

研究人员采用两阶段的微调将预训练的 BERT 模型适应到论文识别任务:先分别基于论文的标题和摘要独立训练两个模型,再将两个优化后的个体模型集成起来,以识别所有选定的论文,无需人工选择与 AI 相关的触发词。

为了评估 BERT 模型识别的准确性,研究人员招募了一个专家团队来验证结果,在对六个重点学科中随机抽样的论文组进行独立标注时共识很高,平均 Fleiss' Kappa 值为 0.960,把专家标注数据当作金标准进行评估时,得到的 F1 分数为 0.876,证明了模型的可靠性。

为了提高识别结果的可解释性,研究人员对输入标题和摘要时 BERT 模型最终层的平均注意力强度进行可视化,比如在分析一篇 AI 辅助的化学论文时,模型对「人工智能」和「深度神经网络」等术语分配了非常高的注意力权重,并且识别出的 AI 论文基本上都是「人工智能」和跨学科传统研究主题的结合,说明了模型如何正确解释并准确识别与 AI 相关的内容。

最终识别出 107 万篇 AI 辅助论文,大约占论文总数的 1.57%,并且可以观察到所有学科采纳 AI 的趋势都在上升,AI 论文和采纳 AI 的研究人员比例都有显著增加。

尽管各个学科每年发表的论文数量总体上升,但从 1980 年到 2024 年,AI 论文的份额在地质学中增长了 21.39 倍,在材料科学中增长了 241.36 倍;同样,采纳 AI 的研究人员比例增长得更快,从地质学的 42.36 倍增长到物理学的 307.40 倍。

研究人员将过去几十年的 AI 发展划分为机器学习(ML)、深度学习(DL)和大型语言模型(LLM)时代,三个时代的增长率逐渐加快,可以看出 AI 在科学中的普及率不断提高,以及理解 AI 对科学研究和进步影响的重要性。

AI 是职业生涯加速器

从引用统计数据中,研究人员注意到,从发表日期到几十年后,人工智能(AI)论文的年引用次数持续高于非 AI 论文,并且不同时期发表的 AI 论文受到的总引用次数也更高。

此外,研究人员还检查了 AI 辅助论文在不同期刊引用报告(JCR)分位数中的分布,结果发现,在 Q1 期刊中,AI 论文的比例比所有期刊中的非 AI 论文高出 18.60%;在 Q2 期刊中,AI 论文的比例仅高出 1.59%,而 Q3 和 Q4 期刊中包含 AI 的论文比例相对较低。

结果表明,AI 辅助论文在期刊中的分布不均,且在高影响力期刊中更为普遍。

AI 论文逐渐受到重视,AI 研究人员的影响力也大幅增加,平均来看,采用 AI 的研究人员每年发表的论文数量比不使用 AI 的研究人员多出 67.37%,获得的引用次数则是后者的 3.16 倍,这一趋势在各个学科中都有体现。

为了研究采用 AI 对职业发展的影响,文中将科研人员分为「初级」(尚未领导研究团队)和「资深」(已经领导过团队)两类,并从数据集中提取了 351 万条职业轨迹。

分析显示,AI 研究会导致团队规模的缩小,平均每个研究团队少了 1.5 名科研人员,具体来说,初级科研人员的平均人数从非 AI 团队的 2.31 人减少到 AI 团队的 1.47 人(减少了 36.45%),而资深科研人员的人数从 4.14 人减少到 3.48 人(减少了 15.95%)。

在所有学科中,采用 AI 的初级科学家转变为资深科学家的概率为 49.92%,比不采用 AI 的同行高出 32.01%,表明 AI 为初级科学家提供了更多领导研究团队的机会,并降低了离开学术界的概率,从而促使了他们从初级到资深科学家的职业转变。

为了进一步量化这一效应,研究人员采用生死模型,并根据科学家的职业轨迹拟合模型参数λ,结果发现,采用 AI 的初级科学家成为资深科学家的预期时间比同行大约缩短了四年;采用 AI 的初级科学家的转变时间期望值为 6.84 年,而不采用 AI 的为 10.90 年。

进一步分析显示,这种缩短升职时间的现象在所有学科中都是普遍存在的,并且在各个学科中,参与 AI 论文的资深科学家平均年龄比非 AI 论文的资深科学家年轻。

科学探索范围收缩

随着人工智能(AI)在科学中的加速应用,以及它在推动初级科学家成为资深科学家方面的作用,人们开始关注 AI 对整个科学领域知识分布的潜在影响。

为了评估 AI 如何影响整个科学领域研究的前沿,研究人员设计了一种测量方法来描述一组研究论文所代表的「学术关注广度」。

具体来说,先使用在大量科学文献预训练的文本嵌入模型 SPECTER 2.0,在给定每个领域中同样大小的样本量来计算代表 AI 和非 AI 论文的主题覆盖范围;与传统研究相比,AI 研究使整个科学的集体知识广度缩小了 4.96%,并且该效应在六个学科中都是一致的。

此外,当将学科细分为 200 多个子领域时,可以观察到超过 70% 的子领域的知识广度出现了收缩;当比较 AI 和非 AI 研究在每个领域知识分布的熵时,结果表明 AI 研究的知识分布熵明显更低,表明人们越来越关注特定问题,而不是整个领域。

也就是说,个体和集体之间采用 AI 的动机存在冲突和矛盾:科研人员获得了更多的个人影响力,但整个科学领域知识的范围却缩小了,只是将注意力集中在最适合 AI 研究的领域,例如那些数据丰富的领域。

尽管 AI 可能为科学家个人带来了好处,但可能也会使科学作为一个整体的探索范围变得更加狭窄。

AI 研究一窝蜂,创新冗余

为了分析 AI 研究中个体论文和研究者影响力增长与领域知识范围缩小之间的冲突背后的机制,研究人员考察了引用 AI 辅助和非 AI 工作的论文之间的关系。

首先检查单个论文的「引用家族」(citation families)的知识空间特征,即一篇原创论文及其所有后续引用,结果显示,与非 AI 论文相比,单个 AI 论文的引用家族的知识空间更为多样性,因此,领域知识空间的缩小并不是由于在 AI 与非 AI 研究基础上构建的论文范围的缩小所致。

之后,研究人员通过测量后续论文参与度的程度来考察论文之间的关系,即同一原创论文的引用之间相互引用的频率,结果表明,AI 研究产生的后续参与度比非 AI 研究少了 24.40%,表明 AI 论文更倾向于扩展原创论文,而不是在彼此之间形成互动,而互动恰恰是促进新兴领域的关键要素。

在不同领域中 AI 论文引用的马太效应中也发现了这种集中的进一步证据:在 AI 研究中,少数超级明星论文主导了该领域,大约 20% 的顶级论文获得了 80% 的引用,50% 的论文获得了 95% 的引用,这种不平等的分布导致了 AI 研究引用模式的基尼系数为 0.753,高于非 AI 论文的 0.684,表明认可度的不平等正在增加。

最后,研究人员还检查了引用同一原始工作的论文对在向量空间中的距离,区分出相互引用的论文,结果发现,科学界的 AI 更加集中于特定的热门话题,导致了更多的重复想法和冗余创新,与科学知识范围和多样性的缩小有关。

参考资料:

gizmodo.com/ai-could-be…

网址:用上 AI,升职提前 4 年?清华等分析 6790 万篇论文:科学界收缩,不用 AI 的领域无人问津AI 真是助力科研的 https://mxgxt.com/news/view/611357

相关内容

AI生物医药迎来黄金时代!这个寒假,MIT大咖带你搞科研!“AI+生物医药”研学营硬核来袭!
远川科技评论:日本AI,失去的不止三十年
“AI+医疗”时代已来?张文宏一句话道出真相
数字鸿沟、科技伦理问题待解,互联网行业如何践行AI向善?
英国研发AI球探系统 数据分析发掘体坛巨星
3月21日大咖云集,来清华与AI创新者们聊聊吧!
阿里AI赛道明星陈顺军:天淘AI新零售,探索科技洞见未来
360副总裁梁志辉:搜索和浏览器,是AI应用的明星场景|新质生产力·AI Partner大会
阿里AI赛道明星陈顺军:天淘AI新零售,探索科技,洞见未来
AI视频初创「爱诗科技」获近3亿元A+轮融资,全球已超1200万用户|36氪独家

随便看看