从Software 2.0 到Software²：新一代AI 正通过自我生成的数据变得越来越通用

撰文：Minqi Jiang，FAIR 及Meta AI 研究员

来源：The Gradient

图片来源：由无界AI工俱生成

我们正处于从“从数据中学习”过渡到“从什么数据中学习”作为人工智能研究中心的边缘。最先进的深度学习模型，如GPT-[X] 和Stable Diffusion，被描述为数据海绵 [1] 能够对大量的数据[2,3]进行建模。这些大型生成模型，许多是基于变换器架构的，可以对大量的数据集进行建模，学习生成图像、视频、音频、代码和许多其他领域的数据，其质量开始与人类专家撰写的样本相媲美。越来越多的证据表明，这种大模型的通用性受到训练数据质量的极大限制。儘管训练数据对模型的性能有很大的影响，但主流的训练方法在本质上并不是寻求数据。相反，它们忽略了训练数据中的信息质量，而倾向于最大化数据数量。这种差异暗示着研究趋势可能会转向更加关注数据的收集和生成，以此作为提高模型性能的主要手段。

从本质上讲，为模型收集信息数据的问题是探索——学习的一个普遍方面。在像现实世界这样的开放式领域中，感兴趣的可能任务集实际上是无限的，探索对于收集最适合学习新任务和提高已经学习的性能的额外数据至关重要。这种开放式学习可能是机器学习（ML）系统最重要的问题设置，因为部署它们的现实世界正是这样一个开放式领域。在正确的时间主动获取正确的训练数据是智能的一个关键方面，它可以让学习更有效地进步——换句话说，它可以“先学走，再学跑”。那么，为什么在最近关于训练更通用模型的讨论中，探索的概念在很大程度上被忽略了呢？

造成这种疏忽的一个原因可能是，在强化学习（RL）和监督学习（SL）中通常研究的探索— 作为主动学习的某种变体出现— 主要是以静态的、预定义的数据集或模拟器来设计的。正如SL 的研究主要中心化在优化像ImageNet 这样的静态基准上的性能，RL 主要中心化在任务的静态模拟器的设置上。这种对静态基準的关注使得现有的探索概念不适合在像现实世界这样的开放式领域中学习，在那里，相关的任务集是无限的，不能被建模为一个静态的、预定义的数据发生器。

在最近的一份立论中，我和我的合着者Tim Rocktäschel 和Edward Grefenstette 讨论了广义探索的想法。广义探索不是把探索限制在可以从预定的模拟器或静态数据中心化取样的数据上，而是寻求在所有可能的训练数据空间中探索那些对提高学习代理的能力最有用的样本。例如，在RL 的情况下，这需要搜索可能的训练环境空间，而在SL 的情况下，需要搜索数据空间的表达式参数化，例如数据空间的生成模型的潜在空间。这种关于探索的更普遍的观点连接了SL 和RL 之间的探索概念。重要的是，它还描述了如何将探索应用于完全开放的领域，其中探索作为关键的数据收集过程，用于对越来越广泛的能力的开放式学习。

这种开放式的探索过程有望成为推动更通用的智能模型进展的一个关键组成部分。随着大规模的模型训练继续利用越来越大的数据集的好处，研究人员预测，最快到2025 年，训练数据集的增长速度可能很快超过网络上高质量数据的有机增长速度。此外，更大的数据集需要更昂贵的计算来进行训练。最近的研究表明，只对最高质量的数据进行中心化训练可以使学习效率大幅提高，从而以极低的计算成本获得更準确的模型。这样的工业数据动态表明，开放式的探索过程，使学习系统能够自主地收集或生成新的训练数据，有望在ML 研究中发挥重要作用。在接下来的几年里，大量的研究投资可能会从模型设计和优化转移到探索目标和数据生成过程的设计上。本文中讨论的许多最近的研究计划清楚地表明，这种转变已在进行中。

从Software 2.0 到Software²：新一代AI 正通过自我生成的数据变得越来越通用

ML 系统生成自己的训练任务（以及由此产生的数据）的高级概念并不新鲜。这个概念在不同程度上被Schmidhuber 描述为“人工好奇心”，被Clune 描述为“生成 AI 的AI”。在这里，我们试图激励这样一个观点：现在是这些概念在实际的、真实世界的ML 系统中获得牵引力的关键时刻。

如果深度学习可以被描述为“Software 2.0”– 根据输入/输出对的例子进行自我编程的软件— 那么这种有望以数据为中心的範式，即软件通过搜索自己的训练数据有效地改进自己，可以被描述为一种“Software²”。这种範式继承了Software 2.0 的优点，同时改进了其核心的、受数据约束的弱点：深度学习（Software 2.0）要求程序员为每个新任务手动提供训练数据，而Software² 则将数据重塑为软件，对世界进行搜索和建模，以产生其自己的、可能是无限的训练任务和数据。

从Software 2.0 到Software²：新一代AI 正通过自我生成的数据变得越来越通用

本文的其余部分对Software² 背后的动机和原则进行了快速概览。关于这些想法的更详细讨论可以在我们最近的立论文章中找到，“通用智能需要重新思考探索”。

与RL 和SL 中现有的探索概念不同（它採取主动学习的形式），广义的探索是从整个数据空间中寻找信息最丰富的样本。一般来说，完整的数据空间可能是无界的，不能被单一的、预定义的数据集或模拟器捕获。在这些情况下，我们必须不断从数据集或模拟器之外收集更多的数据，以逐渐扩大其範围，执行一种引导过程。例如，一个典型的RL 代理可以在一个程序化生成的环境中体验特定游戏的转换，但它无法探索所有可能的游戏转换。广义的探索将探索所有游戏中可能的转换空间，而不仅仅是有限数量的游戏中的转换。当被探索的数据空间不受限制时，这个过程通过将数据收集与代理模型相联繫，在当前代理模型经历最多学习进展的转换中逐步进行搜索，从而执行开放式探索。

那么，我们如何才能探索完整的数据空间？我们需要在所有可能有用的数据上对搜索空间进行参数化，并指定一个搜索标準来指导这个空间的探索。一个自然的搜索空间是所有相互一致的数据生成程序的空间— 在这个意义上，它们产生的输入输出对不应该相互矛盾[4]。这样的程序可能对应于一个静态的数据集，一个数据分布，或者一类任务的模拟器。然而，作为唯一的探索标準，学习潜力可能是不够的。同样重要的是数据的多样性，因为数据空间中可能有许多部分提供高的学习潜力。此外，数据空间中可能有很大的区域与任何感兴趣的实际任务无关，因此将探索限制在接近我们所关心的任务类型上可能很重要。这种约束有助于将开放式的探索与更现实的任务联繫起来。然而，它们也会阻止学习系统探索潜在的重要任务，这些任务看起来不像任何有实际价值的任务，但却可以作为掌握更有挑战性的任务的垫脚石。因此，应该用多少先验世界知识来限制探索是一个重要的开放性问题。

当然，我们仍然需要一些方法来实际搜索所有数据生成程序的空间。在实践中，我们作为系统设计者可以手动定义感兴趣的程序的高级规範，使它们以我们所关心的现实的不变特徵为基础，但又足够宽泛，以涵盖丰富的、无限制的任务空间。这样的程序可以通过API 或人工干预将钩子纳入现实世界，使其能够输出真实和合成数据。一个相关的方法可能是搜索数据空间的生成模型的潜在空间，以产生新的数据，使模型的学习潜力最大化。如果学习开始停滞不前，我们可以通过进化规範来进行干预，比如可以在一个环中模型的协助下，按照预测的方向更新规範，提供具有更大学习潜力的数据。从某种意义上说，研究界对新基準的持续、集体的发明起到了对数据生成程序持续搜索的作用。最近的研究如BIGBench，一个由越来越多的人类指定的基準组成的基準，直接反映了这种模式。类似地，Dynabench 利用人工循环不断为当前模型生成新的、具有挑战性的数据。

由ACCEL诱导的自动价格

生成模型：转换器和扩散模型，如产生合成三维数据的DreamFusion 模型，已经彻底改变了我们对複杂的、互联网规模的数据分布进行建模的能力。这样的生成模型可以作为世界模型，用真实世界的数据不断地更新，并作为一个开放的数据生成器进行採样。这种模式的一个特例是，最近发现大型语言模型（LLMs）可以通过对其自身生成的输出进行训练而自我改进，当其输出被过滤为某种数据质量的衡量标準时。值得注意的是，正如Toolformer 所展示的那样，这种方法甚至可以让LLMs 自学如何使用新工具。

从Software 2.0 到Software²：新一代AI 正通过自我生成的数据变得越来越通用

生成模型的合成数据示例（Dreamfusion）

人机交互界面：在确保软件系统与我们希望IGI 执行的任务类型保持一致方面，人的指导可能会发挥关键作用。像InstructGPT、Dynabench、Aesthetic Bot 和GriddlyJS 这样的作品展示了将人类的偏好和专业知识纳入训练循环的有希望的方法。最重要的是，像ChatGPT 和StableDiffusion 这样的大规模人工智能係统现在已经部署在网络上，与数以亿计的用户进行互动。这些交互提供了一个有效的无止境的开放式训练数据，以提高这些模型的能力。虽然这些系统的能力範围仍然受到限制（例如，ChatGPT 还不能代表用户採取有限的文本提示以外的行动），但它们提供了一个更先进的IGI 系统的预览。

我们可以应用Software² 的原则来训练这个虚拟助理，通过对基于网络领域的数据生成程序的空间的普遍探索— 在这种情况下，也就是具体的网站。这种训练可以在一个程序化生成的模拟器或网页的世界模型中进行，该模型通过虚拟助手在真实网络上的经验和我们作为系统设计者认为对训练特别重要的特定网页的结合而不断更新。此外，探索可能会积极搜索来自YouTube 等网站的演示数据，用于改善助手自己的决策，并告知模拟器或世界模型，用于生成训练的合成数据。像往常一样，虚拟助手也可以直接根据自己在真实网络上的导航经验进行训练。随着时间的推移，我们可以预期这样的学习系统会产生一个越来越有能力的虚拟助手，并且探索过程会逐渐包括更广泛的网站空间，因为它不断地寻找虚拟助手可以学习新东西的网站。在高层次上，我们可以期待Software² 系统类似于一个大规模的搜索引擎，提供一个进入强大模型的界面，其核心组件在数据抓取过程的协助下不断更新，不断地在互联网和现实世界中搜寻新的和有用的信息。

随着我们的学习算法变得越来越强大，我们可以通过深入思考哪些数据可以提供给这些算法，以及我们如何设计自我指导的系统来自己产生这些数据，从而获得巨大的收益。我们Optimism地认为，鉴于开放网络的不懈发展和Software² 堆栈组件的迅速成熟，我们将很快看到广泛有用的IGI 的实现，就像刚才描述的那样。

这篇简短的文章描绘了Software² 的大体轮廓，这是一种迅速崛起的、以数据为中心的範式，用于开发基于现代深度学习的自我改进的程序。这是一种可能对未来软件系统的设计产生影响的方法，就像最近正在进行的向2.0 及以后的过渡一样。儘管如此，我们还只是触及了表面。如果这些想法引起了你的兴趣，你可能会喜欢阅读我们完整的立论文件中的扩展讨论。

感谢Edward Grefenstette、Tim Rocktäschel 和Peter Zakin 对本文草稿的精闢评测。

1. 据我们所知，“数据海绵”一词是在Eric Jang 的优秀文章“Just Ask for Generalization‌”中首次提出的。

2. 最近的StableDiffusion 模型有效地将大约100 GB 的训练数据压缩到仅仅2 GB 的模型权重中。

3. 同样，LLaMA 7B 参数模型可以被看作是将近5 TB 的训练数据噪声压缩到一个只有不到4 GB 的模型中。

4. 例如，在计算2 + 2 这样的算术表达式时，不同的基数选择会导致无限多的程序产生不同的结果。训练一个模型来学习解决不同基数下的此类表达式的随机样本是无效的。然而，如果模型接受基数的选择作为输入，这类程序可以变得相互一致，易于学习。

资讯来源：由0x资讯编译自8BTC。版权归作者所有，未经许可，不得转载

原创文章，作者：币圈吴彦祖，如若转载，请注明出处：https://www.kaixuan.pro/news/463777/