换新完毕，问题意见建议请回复在此

主题：【原创】机器学习的基础是什么？(0) -- 看树的老鼠

共: 💬 154 🌺 509 🌵 1

我们对于“模型”的定义似乎有分歧

大概你是CS出身的，算法和模型是一体的。

对于绝大多数自然科学和工程领域来说，“模型”是对现实世界的模拟和简化，和现实世界的关系是地球仪和地球的关系。而算法是问题的解决方式，是在地球仪上找出两点之间路径、从而投射到地球上路径的方法。

你说的“清晰的理论”，其实是精密的制造地球仪、沙盘或者地图的过程，与具体问题（你是要看着航路图从北京飞到纽约，还是要看着军事地图打击敌人的补给线）无关。把模型和建立在模型假设之上的算法分开，对于说清楚问题还是很重要的。

我理解的机器学习和传统的科学/工程方法的区别，就是机器学习企图做最少的假设，绕过做地球仪的过程，用强大的计算能力直接在现实数据上解决现实问题，而不是用地图扭曲现实地球之后通过地图解决问题。举个例子，统计学上应用最广的分布无疑是高斯分布（正态分布），如果要测试一组数据是否以0为中心，统计学家会做这几件事：

1、假设/检测数据服从高斯分布，算出均值和方差（这一步是建立模型）

2、用方差算出standard error（实在不知道中文怎么说）

3、如果均值在两倍standard error之外，就认为均值不为0，否则为0

别跟我提什么student-t分布，总体过程没区别。在这个过程中，为了使用已有理论，统计学家会把分明不是高斯分布的数据也用高斯分布建模，这就是经典统计学的硬伤之一。

而机器学习本质上认为第一步意义不大（除了Lasso之类跟传统统计很接近的方法之外），机器学习企图建立这样一个盒子：（如果是supervised learning)

1、输入一串数据X

2、输入一串{0,1}取值的Y，告诉盒子哪些X其实是0。这是学习过程

3、学习完之后，每输入一个新的X，盒子就输出一个0或者1，告诉你Y“应该”是什么

过程中完全不用人类“假设”数据服从什么分布、怎么采集的。当然，假设也有，比如数据相互独立之类，但比具体的统计模型宽松多了。

其实这跟人类学习的过程没什么区别。

至于因果性的问题，其实是人为造出的一个概念，无非是事件之间的相关性+事件和时间的绝对关系罢了。如果一只鸡每天固定早上8点打鸣，而日出却是在打鸣后20分钟随机出现，而且强迫鸡不打鸣时太阳绝不出现，这种规律在人类任何观测中保持不变，那人们（包括所有科学家）肯定会认为鸡叫是因，日出才是果。这种因果性用算法识别并不困难，而“真正”的因果性涉及到宇宙的本质，不见得是人类穷尽一切手法能观测到的，苛求机器学习也没什么意义。

相关回复上下关系8
压缩 4 层
- - 🙂所以机器不知道怎么表达想法，或许不是方向错了看树的老鼠字469 2014-07-30 23:52:00
    🙂这句话的意思是川普字128 2014-07-31 21:28:24
    🙂就是人机对话的最大，最赚钱的用途会是电子诈骗三力思字0 2014-07-31 09:55:45
- 🙂我们对于“模型”的定义似乎有分歧
  - 🙂谢谢您把问题变得更清楚 2 看树的老鼠字1970 2014-07-30 23:44:58
    🙂人脑为什么偏爱几何假设 9 川普字1252 2014-07-31 22:00:44
    🙂说得好，简洁性是为了限制搜索空间 3 看树的老鼠字480 2014-07-31 22:50:32
    🙂从去年的这个讨论到这里算是想清楚了 1 川普字193 2014-08-02 13:03:55

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明