什么是模型

机器学习中的模型到底是指什么?

生活中有些场景中的逻辑结构可以叫做模型.

但在计算机领域 知识领域的模型 我们认为是 模型指机器学习中的模型。

机器学习分为有监督学习、无监督学习。 我们把讨论的范围限定在最常见的有监督学习框架中。

机器学习模型,本质上是一个函数,其作用是实现从一个样本x到样本的标记值Y的映射,即f(x) -> Y.

当然这样说太笼统了,事实上机器学习模型需要在给定样本集合 以及其对应标签 的情况下,用假设已知的函数形式 , 尽可能拟合客观存在的映射函数 ,并且保证 在未知同分布样本上具有尽可能相近的拟合能力。在上述描述里,假设已知的函数形式其实是所有有监督模型的前提基础,因为如果模型的形式不做假设的话,是无法构建任何模型的。在形式已知的情况下,数学模型里势必有一定数量的参数是不确定的,因此机器学习的过程实际上就是通过已知的样本通过一定的方法确定未知参数的过程。最后,模型需要不仅在已知样本上表现优秀,更要在未知样本上具有相近的表现,这就是模型泛化型需要讨论的问题。

建模和模型

  1. 建模的目标:解决什么样的问题
  2. 收集数据
  3. 选择模型并训练模型,根据已收集的数据和已成熟的工具
  4. 应用并解释模型
  5. 监视模型的表现以确定其有效性
1
2
3
4
5
-supervised
-regression
-classification
-unsupervised
-data mining

整体使用监督学习模型

根据google scholar表明,这是五个最常见的监督模型

  • 线性回归: (34.3%)篇论文
  • 逻辑回归: (22.3%)
  • 神经网络: (16.8%)
  • 决策树: 8.4%
  • 支持向量机: 6.6%

总体而言,线性模型显然占主导地位,占监督模型命中率的50%以上。

模型在生物医学科学中的使用

  1. 逻辑回归
  2. 线性回归
  3. Cox回归
  4. 神经网络
  5. 泊松回归