主题:【原创】货币锚定国债,不是建金融防火墙,而是建金融抽水机 -- nobodyknowsI
(1)统计学习通常用于各种与人类相关的领域,利用人标注的数据,然后完成人能够完成的任务。
(2)强化学习(对抗学习)在算法中属于强搜(brute-force暴力搜索)的变体启发式搜索。完全可以用最基本算法中的“剪枝”来说明,整个解空间是一个多叉树,然后用一些概率性算法来剪枝——这种概率性算法与统计学习是没有区别的。
--
强化学习和常规的统计学习的区别不是在算法上,而是在输入输出上面:常规的统计学习是需要人为标注的,但对抗学习不需要,就像alpha-zero和alpha-master,两个机器棋手,只需要终盘点目准确,就能判断输赢。强化学习就是这样,没有标注,通过两个机器棋手+最终点目程序,就可以自动不断迭代模型。
严格说来,从第一代狗到第三代狗:
(1)ahpha-go是统计学习,有标注,也就是人类棋谱。
(2)alpha-go是强化学习,无标注。
(3)alpha-master是上述两者的混合,既有人类棋谱,也有两个机器棋手的对抗学习。
最后,所有从deep learning(深度学习)开始都是三拼:拼大模型,拼算力,拼数据——没有任何例外。
即使是alpha-zero顶多是因为强化学习,不需要人工标注数据,用两位机器棋手不断自己对弈产生棋谱,在这个过程中自己就能产生大量的数据,然后用点目给这些棋谱标注胜负,才有一种“没有拼数据”的错觉,但实际上对局数也海了去了。
- 相关回复 上下关系8
压缩 9 层
🙂不仅是chatGPT,我们领域所有的生成模型的本质都是模仿 1 nobodyknowsI 字1055 2024-06-19 10:03:29
🙂是的,现在这些基于统计的生成式AI就是模仿人类行为 2 初心 字370 2024-06-22 08:06:22
🙂了解下谷歌 1 唐门凤去 字258 2024-11-04 09:41:22
🙂没什么元规则的演绎,那个在机器学习中叫强化学习
🙂受教了 2 唐门凤去 字955 2024-11-05 10:53:34
🙂自动驾驶主要难点是计算机视觉,当然最终决策也是难点 6 nobodyknowsI 字3929 2024-11-05 21:23:19
🙂昨天看了个自动驾驶过限宽墩测试 唐门凤去 字2515 2024-11-09 22:31:32
🙂路线怕明确不了 4 审度 字1072 2024-06-08 11:42:25