主题:旧金山 -- 胡里糊涂
今年5月,arxiv上有篇论文《THE CURSE OF RECURSION : TRAINING ON GENERATED DATA MAKES MODELS FORGET》。(2305.17493)
文章的主要观点是:对于训练大型语言模型(LLM)而言,真正的人工生成内容必不可少。人类与LLM互动的数据将越来越有价值;LLM生成的内容会污染训练数据集。
GPT-4这样的大型语言模型(LLM)是在人类创造的文本上进行训练。由于LLM已经达到生成文本的水平,那么,未来LLM使用的训练数据很可能包含它们前辈模型生成的文本。
论文研究了用AIGC生成的文本训练下一代LLM时,会发生什么。例如,由GPT的一个版本,形成下一代模型的大部分训练数据集。随着迭代的增加,会导致GPT-n代模型的崩溃。最初是尾部消失,随着时间的推移,开始丢失关于数据真实分布的信息,经过几代的学习,行为开始收敛到一个方差非常小的点估计。这个过程是不可避免的。
说人话就是, LLM喜欢陈词滥调。比如,写一个青春偶像剧。男、女主可以在教室、图书馆、星巴克、校外的山坡上等等不同的地方认识。十个人写,估计会有七、八种可能。LLM进场了,它发现之前的文本中男、女主在星巴克认识的比较多,于是它认为男、女主认识的地点概率最大的是星巴克。所以,它,以及后来用由它生成的文本进行训练的下一代“它”,都会将男、女主认识的地点安排在星巴克。
这就是所谓的,模型收敛到一个方差非常小的点。
所以,论文认为,为了避免模型崩溃,访问真正的人工生成内容是必不可少的。模型训练需要使用真实人类生成的数据(文本)。LLM生成的内容将污染训练数据集。而人类与LLM互动的数据将越来越有价值。(当然,)
所以,这篇论文以技术的角度旁证了葡萄说的“人是数字社会第一因”。
考虑到,今后五年,人类生成文本的效率再高,也无法超过之前上千年积累的文本数量,所以我判断,GPT4出道即巅峰。在AIGC时代,对原创内容的需求不会减少,变化的只是生产的效率。学习LLM,如同当年学习word一样,它只是我们工具箱中另一件更有用的武器一样。
余华说,不管怎样,反正GPT4是淘汰不了他。
- 相关回复 上下关系8
压缩 20 层
🙂研究人工智能的目的就是让它比人强 11 土木辛科 字1757 2023-12-03 21:45:15
🙂最近openai内部造反,据说原因就在于创业元老对某项目 6 onlookor 字769 2023-12-04 00:59:45
🙂数学那个我记得北大有个姓吴的数学教授 3 桥上 字165 2023-12-05 00:54:11
🙂说到吴文俊院士后来搞的机器证明 9 绞尽脑汁 字1151 2023-12-05 03:40:05
🙂忙总的理解可能片面了 4 潜望镜 字652 2023-12-06 02:33:38
🙂如果在ChatGPT之前 5 唐家山 字503 2023-12-06 03:30:02
🙂逻辑已死——哥德尔 15 tq10 字469 2023-12-07 02:58:04
🙂昨天刚好看到这篇文章 1 懒厨 字175 2023-12-06 21:17:02