随之而来的问题是:如何达到这个地步,能够采取哪些措施来预防这种情况?
模型的崩溃:一种退化现象
“模型崩溃”指的是一个过程,其中人工智能系统陷入使用低质量数据的训练循环,导致多样性和有效性的丧失。
根据《自然》杂志上发表的一项研究的共同作者伊利亚·舒迈洛夫,这种现象发生在人工智能开始依赖自己的输出进行自我训练时,从而延续偏见并降低实用性。从长远来看,这可能导致模型生成的内容越来越同质化和不准确,像是其自身回答的回声。
杜克大学的工程学教授艾米莉·温格用一个简单的例子来说明这个问题:如果一个人工智能被训练生成狗的图像,它将倾向于复制最常见的犬种,而忽略那些不太知名的犬种。
这不仅反映了数据的质量,还对训练数据集中的少数群体的代表性提出了重大风险。
另请阅读:人工智能越来越聪明,人类却越来越愚蠢。 人类干预的难度
尽管情况严重,但解决方案并不简单。Shumailov表示,目前尚不清楚如何避免模型的崩溃,尽管有证据表明,将真实数据与合成数据混合可以减轻这种影响。
然而,这也意味着训练成本的增加和获取完整数据集的难度加大。
缺乏明确的人类干预方法使开发者面临一个困境:人类真的能控制生成性AI的未来吗?
RockingData的首席执行官Fredi Vivas警告说,过度使用合成数据进行训练可能会造成“回声室效应”,使AI学习到自身的不准确性,进一步降低其生成准确和多样化内容的能力。因此,如何确保AI模型的质量和实用性的问题变得愈发紧迫。
不确定的未来:挑战与可能的解决方案
专家们一致认为,使用合成数据并不固有地是负面的,但其管理需要负责任的方式。诸如在生成的数据中实施水印等提案可以帮助识别和过滤合成内容,从而确保AI模型训练的质量。
然而,这些措施的有效性依赖于大型科技公司与较小模型开发者之间的合作。
生成AI的未来岌岌可危,科学界正在与时间赛跑,以在合成内容泡沫破裂之前找到解决方案。
关键在于建立稳健的机制,以确保AI模型继续保持有用和准确,从而避免许多人所担心的崩溃。