加载中 ...

用AI训练AI可能越练越傻

2024-07-28 08:48:00 来源：新华社

新华社北京7月25日电对于人工智能（AI）大语言模型来说，通常给予的训练数据越多，模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示，如果只用AI生成的数据来训练大模型，会使模型性能下降、越练越“傻”。

英国牛津大学、剑桥大学等机构研究人员发现，如果在训练大模型时，只用AI生成的内容，会导致大模型出现不可逆的缺陷，逐渐忘记真实数据的分布，这被称为“模型崩溃”。

研究人员首先使用大语言模型创建类似维基百科词条的文本，然后利用这个内容来训练该模型的新版本，并反复使用前代模型生成的文本训练更新的版本。随着AI生成的信息“污染”训练集，模型的输出逐渐失去意义。在模型的第九次迭代中，它完成了一篇关于英国教堂塔楼的文章，其中一段文字却在讲述野兔尾巴的多种颜色。

研究发现，导致“模型崩溃”的重要原因是，由于模型只能从其训练数据中采样，一些在第一代数据中本就低频出现的词汇，在每次迭代后出现的频率变得更低，而一些常见词汇出现的频率则逐渐增加。

这种变化的结果就是，模型逐渐无法正确模拟真实世界的复杂性。随着时间推移，这种错误会在迭代中被层层累积、逐渐放大，最终导致“模型崩溃”。这有点像生物学中“近亲繁殖”会导致后代缺陷，如果不能保证基因库的多样性，最终会导致一个物种的崩溃。

研究人员还发现，由于训练数据被“污染”而导致“模型崩溃”的情况不止发生在大语言模型中，高斯混合模型、图片生成器等也可能出现类似情况。

不过，应对“模型崩溃”并非束手无策。研究人员发现，如果能在模型微调过程中保留10%左右的真实数据，崩溃就会发生得更缓慢。还可使用水印技术，将AI生成的数据与真实数据区分开来，这需要大型科技公司的协作。此外，在AI生成的文本重新进入数据池之前，可由人类先筛选过滤。

本文来源：新华社作者：佚名

[免责声明] 本文来源于网络转载，仅供学习交流使用，不构成商业目的。版权归原作者所有，如涉及作品内容、版权和其它问题，请在30日内与本网联系，我们将在第一时间处理。

服务窗口

通知通告

浩和传媒，秉持着推动法治文化传播、助力法律行业发展的使命，精心运营着中国法律论坛网。
中国法律论坛网是一座连接法律与公众、法律从业者的重要桥梁。在普法宣传领域，网站致力于让法律知识走进千家万户。通过生动有趣的方式，将晦涩的法律条文转化为通俗易懂的内容，无论是日常的生活纠纷，还是复杂的法律问题，公众都能在这里找到答案，提升法律意识，学会用法律武器保护自己。
在案例讲解板块，网站精选大量具有代表性的真实案例，从案件背景、争议焦点到法律适用，进行深度剖析。以案例为切入点，让公众更加直观地理解法律在实际生活中的运用，每一个案例都是一堂生动的法律课。
对于律所和律师，网站提供了全方位的品牌宣传服务。我们深知品牌建设对于法律从业者的重要性，凭借专业的团队和丰富的经验，为律所和律师量身定制品牌宣传方案，提升其在行业内和社会上的知名度与影响力。
文案策划方面，我们能够根据不同的法律业务和宣传需求，创作富有感染力和专业性的文案，精准传达法律理念和服务优势。短视频媒体录制服务更是紧跟时代潮流，利用短视频的形式，将法律知识和律所风采以更直观、更具吸引力的方式呈现给大众，扩大传播范围。
浩和传媒运营的中国法律论坛网，正以专业、创新、多元的服务，为法治社会的建设贡献力量。

2025-01-24
2024-09-14
2024-09-14
网上资料繁多，分类不明确，没有专属的党建资料下载，中国法律论坛网推出资料下载频道，汇集了报告、讲话、年鉴等多重资料下载学习！

2020-09-12
还在为找寻党建书籍发愁吗？中国法律论坛网为您准备了精品的党建书目，细致分类点击即可去到各大平台购买，方便了您学习和检索时间！

2020-09-12
中国法律论坛网在经过不断的细化完善后，2.0版本成功上线，该版本中包含了热门的政策文件，党章、党建图库及党建精彩视频和党建资料下载！

2020-09-12