AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始-飒生活的专栏

AI大模型即将陷入数据荒？专家：对空间数据、视频数据的学习利用才刚开始

2024-12-18 20:45:03栏目：默认栏目 IP属地：IP未知

来源：环球时报

【环球时报记者刘扬环球时报特约记者陈山】近年来依托大模型驱动的人工智能（AI）已经渗入现代社会的方方面面，但它的高速发展离不开海量数据的支持，以至于业内将数据形容为推动AI发展的“燃料”和“矿产”。但美国人工智能巨头OpenAI公司联合创始人兼前首席科学家伊利亚·苏茨克维尔近日公开警告“AI的训练数据如同化石燃料一样面临着耗尽的危机”，立即引起AI业内的广泛讨论：AI大模型真的将陷入数据荒？未来该怎么办？

“预训练模式必将终结”

美国“连线”网站称，AI发展离不开三大核心要素：算法、算力和数据。如今算力随着硬件升级和数据中心扩建正在持续增长，算法也在不断迭代，但数据的增加速度开始跟不上AI的发展需要。苏茨克维尔在加拿大温哥华举行的第38届神经信息处理系统年会的演讲中警告，“我们熟知的预训练模式必将终结。”他解释说，“AI的训练数据，正像石油一样，面临着耗尽的危机。无法改变的事实是：我们只有一个互联网。我们已经达到数据峰值，不会再有更多数据了，我们必须处理好现有的数据。”

清华大学新闻学院、人工智能学院教授沈阳17日对《环球时报》记者表示，大模型的预训练是指在构建大型人工智能模型（如GPT系列）时，首先在海量未标注的数据上进行初步训练的过程。通过自监督学习方法，模型学习语言的基本结构、语法规则和广泛的知识，形成通用的语言表示。这一阶段使模型能够理解和生成自然语言，为后续的具体任务（如文本分类、问答系统等）提供坚实的基础。预训练不仅提升了模型在各种任务中的表现，还减少了对大量标注数据的需求，加速了应用开发的进程。

这并非AI业内首次注意到“数据不够用”的情况。英国《经济学人》杂志不久前也在题为《AI公司很快将耗尽大部分互联网数据》的报道中，援引研究公司Epoch AI的预测称，“互联网上可用的人类文本数据将在2028年耗尽”。

为何AI需要的数据越来越多？

沈阳介绍说，如今大模型训练对数据的需求量确实在快速增长，呈现出近似成倍叠加的趋势。具体来说，像GPT这样的模型通常需要数百亿到数万亿字的数据来进行预训练。这些庞大的数据集帮助模型深入理解语言结构和语义关系，从而实现其最终的强大性能和广泛的应用能力。

对于每次大模型迭代都会导致数据量需求急速增加的原因，沈阳解释称，这主要源于模型规模的扩大和性能提升的需求。随着模型参数数量增加，模型的学习和表达能力也随之增强，就需要更多的数据来充分训练这些参数，并确保模型具备良好的泛化能力。

另一方面，数据的多样性和覆盖面也是推动数据需求增长的重要因素。为了提升模型的通用性和适应性，必须使用涵盖广泛主题和语言风格的海量数据，这不仅有助于模型理解复杂的语言结构和语义关系，还能确保其在各种应用场景中表现出色。同时，随着模型应用范围的扩展，如多模态和跨领域应用，对不同类型和领域的数据需求也显著增加，进一步推动了数据量的增长。

总的来说，技术迭代与数据量之间存在紧密的正相关关系。每一次技术进步，尤其是模型规模和复杂度的提升，都会带动对更大、更丰富的数据集的需求。这种需求的急速增加不仅是为了提升模型性能和泛化能力，还为了支持其在更广泛和复杂的应用场景中的表现。

随着大模型（如GPT-4o及Open AI o1 Pro其后续版本）的规模不断扩大，对训练数据的需求量呈指数级增长。每一次模型迭代，参数数量的增加都要求更多的数据以确保模型能够充分学习和泛化。如今互联网和其他数据源的增长速度并未完全跟上这种需求，导致可用于训练的高质量数据相对稀缺。此外，随着隐私法规的日益严格，如欧盟发布《通用数据保护条例》，大模型研制企业和机构想要获取和使用大规模数据变得更加复杂和受限，进一步加剧了数据供需不平衡的问题。

未来或将进入“小数据”时代？

沈阳表示，将AI可用数据的现状比作传统矿产资源，并非单纯因为数据“总量”枯竭，更像是随着“矿藏”不断开采，能轻松获取的优质“矿石”（高质量数据）变少了，剩下的数据要么同质化较高、要么质量较低，因此无法直接满足新一代大模型的训练需求。如今的数据可能仍有海量存在，但充斥着偏见、不一致或缺乏标注，类似于经过开采剩余的矿石贫矿化严重，需要更多的精炼和加工。

因此未来要想应对这种局面，除了继续寻求新的数据来源（包括更偏僻的语料、专业领域的数据），还可以尝试合成数据、数据增强、迁移学习、联邦学习等策略，提升数据利用效率与质量管理水平。总的来说，困境不单纯是“数量不够”，更是数据“质量与可用性”不足带来的挑战，应对之策是在技术、策略、制度层面全方位提升数据处理的精度与效率。

其中合成数据成为应对大模型训练数据短缺的新思路。相比于从现实世界中采集或测量的真实数据，合成数据是基于模拟真实数据的分布特征和统计特性，再通过生成模型而创建的。它能根据实际需求生成海量可训练的数据集，但也存在所谓“过拟合”问题，导致大模型在合成数据上表现良好，但在真实场景中表现不佳。

沈阳强调，我们讨论近来在全球引发高度关注的“AI大模型预训练数据是否将耗尽”这个话题时，要厘清两个问题：一是业内讨论的预训练数据是否将“耗尽”主要针对的是可用于大模型训练的文本数据，但大模型对空间数据、视频数据，以及传感器感应到的自然界中的海量数据的学习与利用才刚刚开始。也就是说由AI大模型学习和使用文本数据迈向这些上述提到的巨量数据，还将会面临一个巨大量级的扩张。二是未来我们一方面要持续强化大模型的预训练，但更重要的是研究推理，研究智能体，研究人机共生。“也就是在研究怎样让AI通过海量数据学习，能力变强的同时，更要研究怎样让人类也变得更强。不管AI能力有多强，人类最终要能够驾驭AI。”

中国科学院大学教授吕本富17日接受《环球时报》记者采访时表示，所谓AI大模型预训练的数据“耗尽”，主要是指互联网上的数据和各种出版数据。而每个人一生的记忆数据依然存在个人头脑中，还没有被有效发掘。随着预训练数据是否将耗尽引发热烈讨论，也有观点认为未来将进入“小模型”时代。吕本富认为，未来大模型、垂类模型和智能体都要找到自己的价值域。学术界还有“世界模型”的提法，不同于现在的大语言模型，世界模型中不仅有逻辑关系（概率判断），还有物理规律。所以，未来大模型在更高层次上的“决战”，并没有结束。