OpenAI遭遇研发谜团:有时大模型很难学会某一技能过后又能突然学会

  新闻资讯     |      2024-03-07 07:22

  OpenAI遭遇研发谜团:有时大模型很难学会某一技能过后又能突然学会两年前,OpenAI 的研究人员尤里布尔达(Yuri Burda)和哈里爱德华兹(Harri Edwards)曾试图找出如何让一个大型语言模型进行基本运算。

  他们想知道,模型需要看到多少个将两个数字相加的例子,才能正确地将他们给出的任何两个数字加起来。

  但当两人终于回来时,他们惊讶地发现实验奏效了。他们训练了一个懂得如何把两个数字加起来的大型语言模型,只不过花费的时间比任何人预想的都要多。

  他们发现,在某些情况下,模型似乎一直无法学会一项任务,然后突然间就学会了,就好像灯泡突然亮了一样。

  加拿大蒙特利尔大学和苹果机器学习研究所的人工智能研究员哈蒂周(Hattie Zhou)表示:“这真的很有趣。 我们能确信模型已经停止学习了吗?或许只是我们训练的时间不够长。”她没有参与这项研究。

  这种奇怪的行为引起了科研界更广泛的关注。英国剑桥大学的劳罗兰戈斯科(Lauro Langosco)说:“很多人都有不同的看法。我不认为人们对到底发生了什么达成了共识。”

  rokking 只是让人工智能研究人员感到困惑的几种奇怪现象之一。那些迄今为止最大的模型,尤其是大型语言模型,其运作方式似乎不同于数学所展示的、其该有的运作方式。

  深度学习是当今人工智能繁荣背后的底层技术,这次发现揭示了一个关于深度学习的事实:尽管它取得了巨大成功,但没有人确切知道它是如何工作的,也不知道为什么它能有用。

  “显然,我们并非完全无知。”美国加州大学圣地亚哥分校的计算机科学家米哈伊尔贝尔金(Mikhail Belkin)说,“但我们的理论分析与这些模型能做的相去甚远。比如,它们为什么能学习语言?我认为这非常神秘。”

  大模型现在如此复杂,以至于研究人员正在把它们当作奇怪的自然现象来研究,进行实验并试图解释结果。

  你可能会说,那又怎样?在过去的几周里,谷歌 DeepMind 在其大多数消费者应用程序中推出了其生成式人工智能模型 Gemini。OpenAI 以其最新的文本到视频模型 Sora 让人们惊叹不已。

  世界各地的企业都在争先恐后地利用人工智能来满足他们的需求。这项技术不仅有效,而且正在走进我们的生活,这理由还不够吗?

  但是,弄清楚为什么深度学习如此有效,不仅仅是一个有趣的科学难题,也可能是解锁下一代技术的关键,以及应对其巨大风险的关键。

  “这是一个激动人心的时刻。”美国哈佛大学的计算机科学家波兹巴拉克(Boaz Barak)说,他被借调到 OpenAI 的超级对齐团队一年,“该领域的许多人经常将其与 20 世纪初的物理学进行比较。

  最令人惊讶的是,模型可以完成你没有向它展示过的任务。这被称为“泛化(generalization)”,是机器学习中最基本的想法之一,也是最大的难题。

  模型可以通过一组特定的例子进行训练,学会做一项任务,比如识别人脸、翻译句子、避开行人。然而,它们也可以做到泛化,学会用以前从未见过的例子来完成这项任务。

  不知道为什么,模型不仅能记住它们所看到的模式,还能想出规则,让它们将这些模式应用到新的任务中。有时候,就像 grokking 一样,泛化也发生在我们意想不到的时候。

  而是该模型可以用英语学习数学问题,再看一些法国文献,然后泛化到学会用法语解决数学问题。这不是统计学所能告诉你的东西。”

  几年前,当哈蒂周开始研究人工智能时,她不理解为什么老师们更关注实现的过程,而不是实现的原理。

  她说:“这就像是告诉了你这是训练这些模型的方法,然后就得到了结果。但不清楚为什么这个过程会产生能够做出这些惊人事情的模型。”

  她想知道更多,但没人能给她一个好答案:“我的假设是,科学家知道他们在做什么。比如,他们已经有了理论,然后再建立模型。但事实并非如此。”

  在过去的 10 多年里,深度学习的快速发展更多地来自于试错,而不是理解。研究人员复制了他人发现的有效方法,并添加了自己的创新。

  现在有许多不同的“佐料(ingredients)”可以添加到模型中,我们还有一本越来越厚的深度学习“食谱”,里面装满了这些模型的使用方式。

  贝尔金说:“人们就是试试这个,试试那个,把所有的技巧都试一遍。有些很重要,有些则没什么意义。”

  然而,尽管它们取得了成功,但这些“食谱”记载的更像是炼金术,而不是严谨的化学。他说:“就像我们在午夜混合了一些东西,然后想出了某种正确的咒语。”

  问题是,在大型语言模型时代,人工智能似乎与教科书上的统计学原理相悖。当今最强大的模型非常庞大,有多达一万亿个参数。这些参数会在模型训练中不断调整。

  但统计学表明,随着模型越来越大,它们一开始会提高性能,但之后变得更糟。原因是所谓的“过拟合(overfitting)”现象。

  当模型在一个数据集上进行训练时,它会尝试将数据拟合到一个模式中。举个简单的例子,这就像在图表上绘制一组数据点,最适合数据的模式就是在图表上穿过这些点的线。

  训练模型的过程,就是让它找到一条既适合训练数据(图表上已经有的点),也适合新数据(新点)的线。

  直线是一种最简单的模式(线性回归),但它可能不太准确,会漏掉一些点。如果有一条曲线能够连接每个点,那它将在训练数据上获得满分,但它无法泛化到新点。当这种情况发生时,该模型就出现了数据过拟合。

  根据经典统计学理论,模型越大、就越容易出现过拟合。这是因为有了更多的参数,模型更容易找到能连接每个点的线。

  然而,这并不是我们在大模型中看到的。这方面最著名的例子是一种被称为“双下降(double descent)”的现象。

  几十年来,人们一直认为,随着模型越来越大,错误率会先下降后上升。就像一条 U 形曲线,它的最低点就是泛化的最佳点。

  但在 2018 年,贝尔金和他的同事发现,当某些模型变得更大时,它们的错误率会下降,然后上升,然后再次下降。由此得名双下降,或 W 形曲线。

  换言之,大模型会以某种方式超越曾经我们以为的最佳点,并解决过拟合问题。随着模型变得更大,情况(性能)会变得更好。

  一年后,巴拉克与人合著了一篇论文,表明双下降现象比许多人想象的更普遍。这种情况不仅发生在模型变得更大时,也发生在拥有大量训练数据的模型或训练时间更长的模型中。

  这种行为被称为良性过拟合,目前我们还没有完全理解它。它引发了一些基本问题,即应该如何训练模型以最大限度地激发它们的潜能。

  研究人员已经对他们认为正在发生的事情有了一些眉目。贝尔金认为,有一种奥卡姆剃刀效应在起作用:最简单的描述数据的模式,也就是所有数据点之间最平滑的曲线,往往是泛化效果最好的。

  较大的模型所需的训练时间比人们原以为的要长,原因可能是它们比小模型更有可能找到一条性能一般的曲线:更多的参数意味着有更多的曲线要尝试。

  贝尔金说:“我们的理论似乎解释了它为什么有效的基本原理。然后人们制作了能说 100 种语言的模型,这证明原来我们什么都不懂。”他笑着补充道:“事实证明,我们甚至都没触及皮毛。”

  对贝尔金来说,大型语言模型是一个全新的谜题。这些模型基于 transformer,这是一种神经网络,擅长处理数据序列,如句子中的单词。

  贝尔金说,transformer 内部有很多复杂性。但他认为,从本质上讲,它们所做的事情或多或少与马尔可夫链类似。

  贝尔金进一步猜想,语言中或许存在一种隐藏的数学模式,大型语言模型找到了利用这种模式的方法:“这纯粹是我的猜测,但谁知道呢?”

  他说:“如果我们真的发现这些东西给语言建立了模型,这可能是历史上最伟大的发现之一。你可以用马尔可夫链预测下一个单词来学习语言,这让我感到震惊。”

  研究人员正试图一点一点地弄清楚它。由于大模型过于复杂,无法直接研究,贝尔金、巴拉克、周和其他人转而对更容易理解的较小(和较旧)的统计模型进行实验。

  这有助于启发新的理论,但我们并不清楚这些理论是否也适用于更大的模型。毕竟,许多奇怪的行为都存在于大模型的复杂性中。

  一套深度学习理论即将出现吗?哥伦比亚大学的计算机科学家大卫许(David Hsu,音译)是贝尔金的双下降论文的合著者之一,他预计我们不会很快找到所有答案。

  “我们现在有了更好的直觉。”他说,“但真的能解释为什么神经网络会有这种意想不到的行为吗?我们还远远没有做到这一点。”

  那么时至今日呢?“是,也不是。”张驰原说,“最近几年取得了很大进展,但新出现的问题可能比已解决的问题多得多。”

  与此同时,研究人员仍在努力研究搞懂基础的观测结果。2023 年 12 月,兰戈斯科和他的同事在人工智能会议 NeurIPS 上发表了一篇论文。

  他们在论文中声称AG九游会,grokking 和双下降实际上是同一现象的不同方面,兰戈斯科说:“你盯着它们看,会发现它们看起来有点像。”他认为,对(深度学习背后)正在发生的事情的解释应该兼顾两者。

  在同一次会议上,英国剑桥大学研究统计学的艾莉西亚库思(Alicia Curth)和她的同事认为,双下降实际上是一种“幻觉(illusion)”。

  库思说:“我不太同意现代机器学习是一种魔法,可以挑战我们迄今为止建立的所有定律。”她的团队认为,双下降现象的出现是因为测量模型复杂性的方式。

  贝尔金和他的同事使用模型大小(参数的数量)来衡量复杂性。但库思和她的同事发现,参数的数量可能不能很好地替代复杂度,因为添加参数有时会使模型变得更复杂,有时则会使其不那么复杂。

  这取决于参数值是什么AG九游会,它们在训练中如何使用,以及它们如何与其他参数互动,这些大部分都隐藏在模型中。

  库思说,这并不是说当模型变大时,我们不会见到更多不了解的事情,但我们已经掌握了解释它所需的所有数学知识。

  目前,我们的进展很快,但不可预测。OpenAI 的 GPT-4 所能做的许多事情甚至让制造它的人都感到惊讶。

  研究人员仍在争论它能实现什么,不能实现什么。贝尔金说:“如果没有某种基本理论,我们很难知道我们期望从这些东西中看到什么。”

  巴拉克对此表示赞同。他说:“即使我们现在有了模型,即使是从事后来看,我们也很难准确说出某些能力出现的确切原因。”

  这不仅关乎技术发展的管理,也关乎技术风险的预测AG九游会。许多研究深度学习背后理论的研究人员,其动机都是出于对未来模型安全性的担忧。

  巴拉克在 OpenAI 的超级对齐团队工作,该团队由该公司的首席科学家伊利亚苏茨凯弗(Ilya Sutskever)成立,旨在找出如何阻止一种假想中的超级智能变得失控。

  “我对掌控力很感兴趣。”他说,“如果你能做一些了不起的事情,但你不能真正控制它,那就没那么了不起了。如果方向盘不稳,一辆时速能达到 300 英里的车又有什么价值呢?”

  但在这一切的背后,还有一个巨大的科学挑战。巴拉克说:“智能(intelligence),无疑是我们这个时代的一大谜团。”

  “我们的科学还很稚嫩。”他说,“这个月或许有某个问题让我感到很兴奋,但下个月可能就变了。我们仍在发现很多事情,所以我们非常需要做实验,并看到惊喜。”