主题：【原创】货币锚定国债，不是建金融防火墙，而是建金融抽水机 -- nobodyknowsI

共:💬229 🌺694 🌵15

没什么元规则的演绎，那个在机器学习中叫强化学习

（1）统计学习通常用于各种与人类相关的领域，利用人标注的数据，然后完成人能够完成的任务。

（2）强化学习（对抗学习）在算法中属于强搜（brute-force暴力搜索）的变体启发式搜索。完全可以用最基本算法中的“剪枝”来说明，整个解空间是一个多叉树，然后用一些概率性算法来剪枝——这种概率性算法与统计学习是没有区别的。

强化学习和常规的统计学习的区别不是在算法上，而是在输入输出上面：常规的统计学习是需要人为标注的，但对抗学习不需要，就像alpha-zero和alpha-master，两个机器棋手，只需要终盘点目准确，就能判断输赢。强化学习就是这样，没有标注，通过两个机器棋手+最终点目程序，就可以自动不断迭代模型。

严格说来，从第一代狗到第三代狗：

（1）ahpha-go是统计学习，有标注，也就是人类棋谱。

（2）alpha-go是强化学习，无标注。

（3）alpha-master是上述两者的混合，既有人类棋谱，也有两个机器棋手的对抗学习。

最后，所有从deep learning（深度学习）开始都是三拼：拼大模型，拼算力，拼数据——没有任何例外。

即使是alpha-zero顶多是因为强化学习，不需要人工标注数据，用两位机器棋手不断自己对弈产生棋谱，在这个过程中自己就能产生大量的数据，然后用点目给这些棋谱标注胜负，才有一种“没有拼数据”的错觉，但实际上对局数也海了去了。

通宝推：铁手,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友