宝塔服务器面板,一键全能部署及管理,送你10850元礼包,点我领取

一味追求大模型是不是走错了路?

未来最有影响力的进展是会来自工业界还是学术界?

语言模型到底有没有理解语言?

我做的研究到底有没有价值?

……

最近,一项针对 NLP 社区的调查反映了 NLPer 对所有这些重要问题的看法。来自华盛顿大学、纽约大学和约翰霍普金斯大学的组成的研究团队,就 NLP 领域的一些争议性问题征求了广大研究者的意见,包括研究者在大模型、AGI(通用人工智能)、语言理解、未来方向等多个方面的看法。

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

论文地址:

https://nlpsurvey.net/ nlp-metasurvey-results.pdf

调查结果真是一看吓一跳,竟有多达 67 % 的 NLP 研究者对自己所从事研究的科学价值抱有怀疑态度

还有网友吐槽:连塔罗牌都比 NLP 靠谱。

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

其他受访者同意比例相当高的观点还有:

  • 被引用最多的研究成果将来自工业界而不是学术界,如今工业界在引领 NLP 领域发展进程方面的影响力过大;

  • 反对最大化规模可以解决一切问题的假设;

  • “NLP 寒冬”将在未来 30 年内来临;

  • NLP 研究人员应该关注 AGI;

  • NLP 研究人员应该更多考虑整合来自邻近学科(如语言学、认知科学)的见解;

  • 过去 5 年发表的构建可解释模型的大多数研究都走错了方向;等等。

首先简单介绍一下本次调查的受访者情况:

共有 480 位 NLPer 参与了此次调查。其中 327 人在过去三年中至少发表过两篇 ACL 论文,这部分人是调查的目标人群。

在地区分布上,受访者中的 58% 来自美国,23% 来自欧洲,8% 来自亚洲。其中,来自中国的 NLP 研究者占 3%。

73% 的受访者来自学术界,22% 的受访者来自工业界,4% 从事非营利组织或政府工作。其中,教师和高级管理人员占 41%,23% 是初级研究人员(包括博士后),33% 是博士生,2% 是硕士研究生或本科生。

另外,受访者的男女比例分别为 67% 和 25%。

下面我们来看本次调查的详细结果和分析:

1 NLP 领域的整体状况

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

▲ 图注:对于每个问题,图中底部显示同意、弱同意、弱不同意和不同意的比例。垂直的绿线(绿色数字)表示同意或弱同意该陈述的总百分比。

工业界的领域影响力

Q1-1:私营企业在指导该领域的发展进程方面影响力过大。

Q1-2:未来 10 年被引用最多的论文更有可能来自工业界,而不是学术界。

调查结果显示,绝大多数人(86 %)都认为,未来 10 年,被引用最多的研究成果将来自工业界而不是学术界;但也有 77 % 的人认为,如今的私营企业在引领 NLP 领域发展进程方面的影响力过大。

在许多人看来,一项工作的被引用次数并不能很好地代表其价值或重要性,而且,工业界对该领域的持续主导地位将产生负面影响,比如在基础系统方面的绝对控制地位,就像 GPT-3 和 PaLM。

不过,受访者对这两个问题的回答分歧很大,在学术界人士中,认为工业界的影响力过大的人所占比重为 82 %,而在工业界这一比例为 58%。

NLP 寒冬何时到来?

受访者被询问是否预计在不久的将来会出现一个“NLP 寒冬”,即资金和就业机会较峰值下降至少 50%。

Q1-3:我预计未来 10 年内会出现“NLP 寒冬”。

Q1-4:我预计未来 30 年内将出现“NLP 寒冬”。

有 30 % 的人同意或弱同意寒冬将在未来 10 年内到来,其中仅有 7% 的人选择“同意”;而相信寒冬将在未来 30 年内到来的人要多得多,比例为 62%。

尽管 30 % 不是一个大数字,但这也反映了这一部分 NLP 研究者的一种信念,即 NLP 研究将在不久的将来发生重大变化(至少在谁提供资金以及提供多少资金方面)。为什么他们的态度会相对悲观?背后有许多可能原因,比如由于工业界影响力过大而导致的创新停滞,工业界将凭借少量资源充足的实验室来垄断行业,NLP 和其他 AI 子领域之间的界限将消失,等等。

NLP 在科学上的价值

Q1-5:在 NLP 领域发表的大部分工作在科学价值上值得怀疑。

有 67% 的 NLP 研究者对这一领域研究工作的价值进行了反思,他们认为,大多数 NLP 工作在科学意义上是可疑的。

受访者对“可疑”的定义可能是多样的,包括根本不具有完整性的工作、所研究问题不恰当、研究结果无意义,或者研究发现并不重要、不可靠等等。

作者匿名制度的必要性

Q1-6:评审期间,作者匿名可保证对研究的传播进行限制。

ACL 会议的匿名政策比许多其他会议(如 NeurIPS、ICLR 和 ICML)要严格得多。调查表明,尽管争议很多,但 NLP 社区总体上是支持这一政策的,63% 的人认为匿名可以保证限制预印本的传播)。这个问题也显示出了明显的性别差异,有 77% 的女性表示同意,只有 58% 的男性表示同意。

2 规模化、归纳偏差和来自临近领域的启发

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

规模最大化是终极方案吗?

Q2-1:规模化(scaling)实际上可以解决任何重要问题。

强化学习之父 Richard Sutton 在其文章 “The Bitter Lesson”中曾发表一个广为人知的观点:利用计算的一般方法最终是最有效的,而且效率提升幅度会非常大。在这种观点下,模型做得越来越大,研究者期望在有足够训练数据和模型容量的情况下,与引入语言结构或专家设计的归纳偏差相比,使用更少的、更通用的原则性学习机制是更优的方案。

然而,这项调查的结果表明,NLP 研究者对 Sutton 这种观点的认可程度实际上远远低于预期。仅有 17 % 的人同意或弱同意:鉴于本世纪算力和数据的可能发展程度,扩大现有技术的实施规模将足以解决 NLP 的所有重要问题。在人人似乎都对大模型趋之若鹜的当下,这个数字是极低的。

语言理论和归纳偏差的价值

Q2-2:以语言理论为基础的语言结构的离散表示(如词义、句法或语义图)对于解决一些重要的现实世界问题或 NLP 中的应用是必要的。

Q2-3:专家设计的强归纳偏差(如通用语法、符号系统或受认知启发的计算原语)对于解决一些重要的现实世界问题或 NLP 中的应用是必要的。

Q2-4:到 2030 年,被引用次数最多的五个系统中至少有一个可能会从过去 50 年语言学或认知科学研究结果中汲取明确的灵感。

与规模化的观点形成对比,受访者对于语言理论、归纳偏差的支持度实际上不低。50% 的人认为,语言结构对于解决 NLP 问题是有必要的;51% 的人认为专家设计的归纳偏差也很重要。许多 NLP 研究者似乎认为,当前使用低归纳偏差的神经网络架构进行端到端建模的趋势将会发生逆转。

此外,有 61% 的受访者表示,2030 年被引用次数最多的五个系统很可能会从过去 50 年语言学或认知科学研究中获取灵感。而事实上,当前系统对认知科学的借鉴还仅仅停留在对神经元、注意力、token 的粗略解释上。

3 AGI 及其风险

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

AGI 的争议

Q3-1:了解 AGI 的潜在发展及其利益 / 风险应该是 NLP 研究者的一个重要关注事项。

Q3-2:大规模机器学习建模(例如语言建模和强化学习)的最新进展是 AGI 发展的重要表现。

GPT-3 和 PaLM 等大型预训练模型的多功能性和令人惊艳的语言输出,引发了人们对通用人工智能  AGI) 的巨大争议,包括预测 AGI 何时会到来,我们是否真的在朝着 AGI 前进,以及 AGI 的后果会是什么,等等。

在关于 AGI 的问题上,受访者的意见分布比较均衡,58% 的人认为 AGI 应当是 NLP 研究者的一个重要关注点,57% 的人相信最近的研究显著推动了我们向 AGI 方向发展。这两种观点具有高度正相关性。

AGI 会带来什么?

Q3-3:在本世纪,由 AI / ML 的进步引起的劳动力自动化可能会导致具有工业革命规模的经济重组和社会变革。

Q3-4:在本世纪,由 AI / ML 系统做出的决策可能会引发一场全面核战争级别的严重灾难。

73% 的受访者认为,AI 的自动化可能很快会带来革命性的社会变革,这也是有那么多人认为 AGI 是一个重要问题的原因。值得注意的是,有 23% 的人尽管认同这种变革,但并不同意 AGI 的重要性,所以,关于 NLP 的讨论或许没有必要牵扯进关于 AGI 的辩论中。

此外,大约三分之一(36%) 的人认为,AI 决策可能会导致核战争级别的灾难。这表明,有相当一部分研究者都对 AGI 表示担忧。

4 语言理解

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

语言模型(LM)是否能理解语言?

Q4-1:对于只在文本上训练的生成模型而言,只要有足够的数据和计算资源,就可以理解自然语言。

Q4-2:对于多模态生成模型(如一个经过训练可以访问图像、传感器和执行器数据等的模型)而言,只要有足够的数据和计算资源,就可以理解自然语言。

有一半(51%) 的人同意 LM 理解语言,如果模型还可以访问多模态数据(图像等),同意的人则占比更多,为 67%。

Q4-3:原则上,我们可以通过跟踪模型在纯文本分类或语言生成基准上的表现来评估模型对自然语言的理解程度。

相比之下,只有 36% 的人认为,纯文本评估可以衡量语言理解。这表明在很多人看来,评估是一个独立的问题,理解可能是可学习的,但不可测量。

5 存在的问题及未来方向

劝退效果拉满,最新调查显示 67% 的 NLPer 怀疑自己的研究没价值-风君子博客

过于关注规模化和基准

Q5-1:当前的 NLP 领域过于关注增大机器学习模型。

Q5-2。当前的 NLP 领域过于关注优化基准性能。

分别有 72% 和 88% 的 NLP 研究者认为,现在大家对规模化和优化基准性能的关注过多。

NLP 方向走错了吗?

Q5-3:过去 5 年发表的大多数模型架构研究都走错了方向。

Q5-4:过去 5 年发表的大多数开放式语言生成任务研究都走错了方向。

Q5-5:过去 5 年发表的构建可解释模型的大多数研究都走错了方向。

Q5-6:过去 5 年发表的大多数可解释黑盒模型的研究都走错了方向。

在模型架构、语言生成、可解释的模型、黑盒可解释性四个具体的研究方向上,受访的 NLP 研究者对以上问题的同意率分别为 37%、41%、50%、42%,争议较大。在可解释性模型问题上,社区成员的批评态度比较显著。

跨学科的价值

Q5-7:NLP 研究者应当更加重视整合相关领域科学(如社会语言学、认知科学、人机交互)的见解和方法。

有高达 82% 的人认为 NLP 研究需要借鉴更多相关领域科学。问题是,虽然有这么多的人嘴上都强调这一点,但实际上做得却并不怎么好,真正的问题可能不是 NLP 研究者没有意识到跨学科的重要性,而是我们还缺乏能推动实施的知识和工具。