主题:【原创】数学与战争 -- 晨枫
晨老大说的我的理解是回归分析(regression)。
回归分析简单地说就是求出一个因变量Y和自变量X的关系。
比如我们推测X和Y具有线性关系,即Y = X * B + E。如果我们建立一个回归模型,Y(hat)= X * b1 + b0, 那么我们希望地是模型和实际关系式应该存在差值最小,也就是 Y - Y (hat)=0,根据最小二乘法(Least Squares regression)的原则,我们可以推测出b1和b0。这样,如果我们拥有了X时,可以依照回归模型推测出Y的大小。
下边就是多变量的问题。假若战争分析可以用上述的模型进行回归分析。那么X我们可做成一个n*p的矩阵。n代表样本数,也就是你做了多少次实验,p代表多少个变量,这变量可以看作是影响战争的因素。
这样,上面公式就可以写成如下: Y(hat)=x1*b1+x2*b2+...+xn*bn+b0,可见,我们现在用了n个因素来建立回归模型。这就到了多元回归问题。当变量增加了就会增加模型建立的难度。所以我们希望变量能减少。于是,出现了变量选择方法。PCA就是其中一种方法。
PCA准确中文翻译应该是主成分分析。这是一种多元变量分析方法(Multivariate Calibration or Multivariate Analysis)。主要思想是利用正交分解和方差分析,实现“主成分”(Principal Component)代替原始多变量以达到以最少变量建立回归模型的目的,判据就是权重(vector weight)。主成分分析我个人觉得还是主要用于线性回归分析。而使用这种多变量分析方法去分析物质组成、组分、或者聚类(Cluster Analysis)是比较好的快速分析方法。缺点是主成分分析会受到多重相关性的影响,所以人们后来发展出PLS(Partial Least Squares regression),偏最小二乘法,简单定性地说就是主成分分析+典型相关分析+最小二乘法。这种方法是在过去权重分析中从只导入自变量到加入因变量。
还是那句话,对于战争分析,确如诸位所言,和天气预测有点相似,我个人觉得非线性分析更适合。
关于数据挖掘(Data Mining),这不是一个新东西,它主要思想是对数据行概率统计的分析,以得到未来可能的结果趋势。这项工作的最早成就我记得应该是二战中,英国在大西洋反潜战的指挥就应用数据挖掘的成果。
- 相关回复 上下关系8
🙂数据挖掘有一定价值,但其滞后性、高成本、低可靠性等缺陷 12 大熊甲 字2352 2010-09-23 23:01:54
🙂你说的问题都存在,也都不是不可解决的 4 晨枫 字903 2010-09-24 16:39:59
🙂恩。基本都同意,除了“散财童子”那一节略有微词 大熊甲 字70 2010-09-25 03:48:26
🙂【讨论】关于PCA相关解释和数据挖掘
🙂这些都不是新的数学方法 3 晨枫 字316 2010-09-24 16:28:49
🙂关于中途岛 7 自以为是 字343 2010-09-23 20:50:04
🙂日军中途岛输在航母使用上 6 蓝色帝国 字196 2010-09-23 21:07:42
🙂刻舟求剑 4 自以为是 字187 2010-09-24 16:20:15