AI世界的新难题：互联网的信息不够用了！

房家瑶 ☉ 文来源：硬AI公众号
2024-04-02 @ 哈希力量文库

文库划重点：随着数据需求不断增长，找到新的学习材料、与数据所有者的合作，让AI系统变得更加聪明，就成了这个行业的重要备战区。AI公司正在尝试各种方法来寻找新的信息源。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。

AI行业对高质量文本数据的需求可能在两年内超过供应。报道称，OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。

高质量数据的紧缺正成为AI发展的重要障碍。

4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。

科技巨头的AI系统，比如能与人类聊天的ChatGPT，是通过学习网上的信息变得越来越聪明的。但现在，高质量、有用的信息日益紧缺，同时，一些网站开始限制AI公司访问他们的数据。据业界一些高管和研究人员表示，AI行业对高质量文本数据的需求可能在两年内超过供应，这将可能减缓AI技术的发展速度。

面对信息不足的问题，AI公司正在尝试各种方法来寻找新的信息源。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。有的公司甚至创造合成数据来学习，尽管这种方法被许多研究人员认为可能会导致系统发生严重故障，但不失为克服数据短缺的一种潜在途径。

据悉，这些努力大多保密进行，因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。随着数据需求不断增长，找到新的学习材料、与数据所有者的合作，让AI系统变得更加聪明，就成了这个行业的重要备战区。

OpenAI的GPT-5面临10万亿到20万亿tokens的数据短缺

AI语言模型的构建依赖于从互联网上收集的大量文本数据，这些数据包括科学研究、新闻文章、维基百科条目等。这些材料被分解成“tokens”，tokens可以是完整的单词或单词的一部分。AI模型通过分析和理解这些tokens之间的关系和模式，学会了如何生成流畅、自然的语言，从而能够回答问题、撰写文章甚至创作诗歌。

模型的能力在很大程度上取决于它训练的数据量。通常情况下，数据越多，模型的性能就越好，因为它有更多的例子来学习不同的语言用法和复杂性。

OpenAI通过为其GPT系列模型提供海量训练数据，不断提升性能，借此成为世界顶尖AI公司。这展示了大数据训练对于AI发展的重要性。

但是，随着GPT-4模型的不断扩大，OpenAI对数据的需求也在急剧增长。Epoch研究所的AI研究员Pablo Villalobos估计，GPT-4训练涉及的数据量高达12万亿tokens，而未来模型，如GPT-5，可能需要60万亿到100万亿tokens。因此，即便是利用所有可用的高质量语言和图像数据，研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。至于如何弥补这一巨大的数据缺口，目前尚无明确方案。

据媒体报道，为应对数据短缺挑战，AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调，公司通过Facebook和Instagram等平台拥有的大量数据，为其AI研发提供了重要优势。扎克伯格表示，Meta能够利用网络上数以百亿计的公开共享图片和视频，这些数据的规模超过了大多数常用数据集，尽管其中高质量数据的比例尚不明确。

而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外，OpenAI还在考虑建立一个数据市场，以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用，这一创新想法也引起了Google的关注。

Epoch研究所预测AI数据短缺危机将推迟至2028年

两年前，Villalobos和他的同事写道，到2024年年中，对高质量数据的需求超过供给的可能性为50%，到2026年发生这种情况的可能性为90%。自那以后，他们变得更加乐观，在AI研究员Pablo Villalobos及其团队的审慎评估下，新的预期显示，这种短缺风险将延迟至2028年。

这项乐观的更新基于对当前数据质量和可用性的深刻洞察。Villalobos指出，互联网上的绝大多数数据并不适合作为AI训练材料。在无尽的信息流中，只有一小部分数据（远低于先前预计）能对AI模型的增长和发展做出实质性贡献。

同时，各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练，可能导致内容创造者和平台本身失去应得的经济回报。

此外，普罗大众对于个人隐私的保护意识显著提升，许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低，人们可能担心他们的隐私可能会受到侵犯。

最近，一位女记者就OpenAI最新模型Sora的训练数据向CTO Murati提问时，Murati未能明确回答，这引发了业界对OpenAI管理层对于训练数据来源的关注度的质疑。这一事件触发了更广泛的讨论，关于公共领域数据的所有权问题——我们在网络上发布的内容，究竟是属于个人私密还是公共共享的资产？

因此，这些因素共同导致了数据获取的困境。随着用户和监管机构对数据使用的监控趋严，研究者们必须在保护隐私与数据采集之间找到新的均衡。

哈希力量文库选录，手机端省略本文网址

.长文建议换电脑刷.

【投融资简报库】

宇泛智能完成5.13亿元Pre-IPO+轮

原小米高管王腾创业完成数千万种子轮

未来不远完成2亿元天使轮融资