统计学和机器学习到底有什么区别？(2)

发布时间：2019-04-23 13:22 所属栏目：19 来源：大数据文摘

导读：用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测，而且我也没期待模型是可解释的。要知道，由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素，可能会使这个模型非常深奥，就像

用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测，而且我也没期待模型是可解释的。要知道，由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素，可能会使这个模型非常深奥，就像神经网络那样难以解释。尽管我希望这个模型能让人看懂, 但其实只要它能做出准确的预测，我就相当高兴了。

如果我试图证明数据变量之间的关系在某种程度上具有统计显著性，以便我可以在科学论文中发表，我将使用统计模型而不是机器学习。这是因为我更关心变量之间的关系，而不是做出预测。做出预测可能仍然很重要，但是大多数机器学习算法缺乏可解释性，这使得很难证明数据中存在的关系。

很明显，这两种方法在目标上是不同的，尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而，对于统计模型，通过置信区间、显著性检验和其他检验对回归参数进行分析，可以用来评估模型的合法性。因为这些方法产生相同的结果，所以很容易理解为什么人们会假设它们是相同的。

统计与机器学习在线性回归上的差异

有一个误解存在了10年：仅基于它们都利用相同的基本概率概念这一事实，来混淆这两个术语是不合理的。

然而，仅仅基于这两个术语都利用了概率里相同的基本概念这一事实而将他们混为一谈是不合理的。就好比，如果我们仅仅把机器学习当作皮了一层光鲜外衣的统计，我们也可以这样说：

物理只是数学的一种更好听的说法。
动物学只是邮票收藏的一种更好听的说法。
建筑学只是沙堡建筑的一种更好听的说法。

这些说法(尤其是最后一个)非常荒谬，完全混淆了两个类似想法的术语。

实际上，物理是建立在数学基础上的，理解现实中的物理现象是数学的应用。物理学还包括统计学的各个方面，而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中，以产生概率空间。它们有很多共同点，因为它们来自相似的起源，并运用相似的思想得出一个逻辑结论。同样，建筑学和沙堡建筑可能有很多共同点，但即使我不是一个建筑师，也不能给出一个清晰的解释，但也看得出它们显然不一样。

在我们进一步讨论之前，需要简要澄清另外两个与机器学习和统计有关的常见误解。这就是人工智能不同于机器学习，数据科学不同于统计学。这些都是没有争议的问题，所以很快就能说清楚。

数据科学本质上是应用于数据的计算和统计方法，包括小数据集或大数据集。它也包括诸如探索性数据分析之类的东西，例如对数据进行检查和可视化，以帮助科学家更好地理解数据，并从中做出推论。数据科学还包括诸如数据包装和预处理之类的东西，因此涉及到一定程度的计算机科学，因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等。

要进行统计，你并不一定得依靠电脑，但如果是数据科学缺了电脑就没法操作了。这就再次说明了虽然数据科学借助统计学，这两者不是一个概念。

同理，机器学习也并非人工智能;事实上，机器学习是人工智能的一个分支。这一点挺明显的，因为我们基于以往的数据“教”(训练)机器对特定类型的数据进行概括性的预测。

机器学习是基于统计学

在我们讨论统计学和机器学习之间的区别前，我们先来说说其相似性，其实文章的前半段已经对此有过一些探讨了。

机器学习基于统计的框架，因为机器学习涉及数据，而数据必须基于统计学框架来进行描述，所以这点十分明显。然而，扩展至针对大量粒子的热力学的统计机制，同样也建立在统计学框架之下。

压力的概念其实是数据，温度也是一种数据。你可能觉得这听起来不合理，但这是真的。这就是为什么你不能描述一个分子的温度或压力，这不合理。温度是分子相撞产生的平均能量的显示。而例如房屋或室外这种拥有大量分子的，我们能用温度来描述也就合理了。

你会认为热力学和统计学是一个东西吗?当然不会，热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热。

事实上，热力学基于多种学科而非仅仅统计学。类似地，机器学习基于许多其他领域的内容，比如数学和计算机科学。举例来说：

机器学习的理论来源于数学和统计学
机器学习算法基于优化理论、矩阵代数和微积分
机器学习的实现来源于计算机科学和工程学概念，比如核映射、特征散列等。

当一个人开始用Python开始编程，突然从Sklearn程序库里找出并使用这些算法，许多上述的概念都比较抽象，因此很难看出其中的区别。这样的情况下，这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知。

统计学习理论——机器学习的统计学基础

统计学和机器学习之间最主要的区别在于统计学完全基于概率空间。你可以从集合论中推导出全部的统计学内容，集合论讨论了我们如何将数据归类(这些类被称为“集”)，然后对这个集进行某种测量保证其总和为1.我们将这种方法成为概率空间。

统计学除了对这些集合和测量有所定义之外没有其他假设。这就是为什么我们对概率空间的定义非常严谨的原因。一个概率空间，其数学符号写作(Ω,F,P)，包含三部分：

一个样本空间，Ω，也就是所有可能结果的集合。
一个事件集合，F，每个事件都包含0或者其它值。
对每个事件发生的可能性赋予概率，P，这是一个从事件到概率的函数。

机器学习基于统计学习理论，统计学习理论也依旧基于对概率空间的公理化语言。这个理论基于传统的统计学理论，并发展于19世纪60年代。

机器学习分为多个类别，这篇文章我仅着眼于监督学习理论，因为它最容易解释(虽然因其充斥数学概念依然显得晦涩难懂)。

（编辑：ASP站长网）