主题:【原创】抛砖!模式识别和机器学习、数据挖掘的区别与联系 -- 永远的幻想
多谢回复这么长的帖子。。
先简短回一个,写多了资本家不乐意。:)
这么说吧,比如我给你一图片(X), 让您的视觉系统=M,你对我说,
"我predict这是一桌子(Y)." 这像话吗?
对人这个M来说,桌子就是桌子,是个识别问题,说成prediction
大概现在PR在识别方面还是不成熟,做不到~100%识别。所以要说用M-pr来预测,图X,大概有85%是桌子,12%是椅子,3% 其它。
你说的X, Y 都是输入,这个从trainning的操作上可以说没错,但是从PR概念上这样很容易混淆。尤其如果是对不太了解的人写的介绍性文字,尽量概念清楚些,你的读者看着也明白些,right?
首先,“输出数据”是不是“模式表达”?比如典型的分类问题:用N个样本(N个样本*p维Predictor 一个矩阵X,加N*1的-1/+1类标记y_target)训练了一个SVM、CART,Adaboost或者RandomForest模型或者模型族,称为M。这些模型M如你所说,是“模式表达”。对于数据挖掘问题,确实可以说这个是“输出数据”。
这些M们还真是第一次见。。我说的模式表达就是Y.
“别”倒底是不是“非预测”呢?这个我觉得我已经说清楚了啊,看来还得再说说
别=difference. 了别可以说是classification..
确实怪我说得不清楚。其实文中不想以Super/Unsuper来区分算法,除了这个原因,还有一个原因。
因为实际使用这些算法时,经常把这两种混起来用。比如可以先用PCA,对N*p维的X降维成N*q (q<p),作为预处理,然后把N*q作为X和y_target输入到SVM之类的算法去;也可以用y_target(比如K个类)把X分成K组,然后每组训练一个GMM。
这样在应用者的角度看,其实是不去管算法是Super还是Unsuper的,或者在这上面走脑子意思不大,知道每种算法擅长干什么才是正经。
S or U-S,有个外界knoeledge 介入的问题。从理论研究上来说,比如同样两个人脸识别的系统,一个是S, 一个是 U-S。都能达到比较高的识别率。那么U-S的价值要高。为什么?因为这个U-S很可能是个普适的系统。
从这个角度来说,所有S,U-S混合的系统,都不能称为是 un-supervised 系统,而变成S了。
工科思维确实很偏重实用,不过我想概念清楚还是重要。所以和你探讨一下
- 相关回复 上下关系8
压缩 2 层
🙂唯了别识。把识别一定要说成预测,这个很别扭啊 mitwisdom 字0 2010-07-21 18:23:20
🙂一点建议 1 mitwisdom 字378 2010-07-21 10:51:02
🙂关于Prediction和Classification 3 永远的幻想 字3159 2010-07-21 17:52:02
🙂继续探讨
🙂精彩!得宝吱一声。 archerh 字0 2010-07-20 16:30:30
🙂讲得好,赞一个! 晨枫 字179 2010-07-20 14:01:53
🙂能介绍几本书么? 我是一只小小号 字30 2010-07-20 13:40:14
🙂外行说两句 erha 字77 2010-07-19 13:56:55