·在所有类中计算的方差
·线性判别分析
预测是通过计算每个类别的识别值并对具有最大值的类别进行预测来进行的 。 该技术假定数据具有高斯分布(钟形曲线), 因此在手之前从数据中移除异常值是个好主意 。 这是一个简单而强大的分类预测建模问题的方法 。
决策树是机器学习预测建模的重要算法 。
决策树模型的表示是二叉树, 来自算法和数据结构, 没什么特别的 。 每个节点代表一个单独的输入变量(x)和该变量上的一个拆分点(假定变量是数值) 。
树的叶节点包含用于进行预测的输出变量(y) 。 预测是通过遍历树的分裂进行的, 直到到达叶节点并输出该叶节点的类值 。
树的学习速度快, 预测速度快 。 对于广泛的问题, 它们也经常是准确的, 不需要为你的数据做任何特别准备 。
朴素贝叶斯是一个简单但又强大的预测建模算法 。
该模型由两种概率组成, 可以从你的训练数据中直接计算:1)每个类别的概率;和2)给定每个x值的每个类别的条件概率 。 一旦计算出来, 就可以使用概率模型来使用贝叶斯定理对新数据进行预测 。 当你的数据是实值时, 通常假定一个高斯分布(钟形曲线), 这样你可以很容易地估计这些概率 。
朴素贝叶斯假定每个输入变量是独立的, 这是一个强大的假设, 对于真实的数据是不切实际的, 但是, 这种技术在大范围的复杂问题上是非常有效的 。
KNN算法非常简单而且非常有效 。 KNN的模型表示是整个训练数据集, 比较简单 。
通过搜索K个最相似的实例(邻居)的整个训练集并且汇总这些K个实例的输出变量来预测新的数据点 。 对于回归问题, 这可能是平均输出变量, 对于分类问题, 这可能是模式(或最常见的)类值 。
诀窍在于如何确定数据实例之间的相似性 。 最简单的方法就是就是使用Euclidean距离, 你可以根据每个输入变量之间的差异直接计算一个数字 。
KNN可能需要大量的内存或空间来存储所有的数据, 但是只有在需要预测时才会执行计算(或学习) 。 你也可以随时更新和管理你的训练实例, 以保持预测的准确性 。
距离或贴近度的概念可能在非常高的维度(大量的输入变量)中分解, 这会对算法在你的问题上的性能产生负面影响 。 它建议你只使用那些与预测输出变量最相关的输入变量 。
KNN的一个缺点是你需要坚持你的整个训练数据集, 学习矢量量化算法(简称LVQ)是一种人工神经网络算法, 可以让你选择多少个训练实例, 并精确地学习这些实例应该是什么样的 。
LVQ的表示是codebook vector的集合 。 这些在开始时是随机选择的, 并且适合于在学习算法的多次迭代中最佳地总结训练数据集 。 在学习之后, codebook vector可以用来做如KNN一样的预测 。 通过计算每个codebook vector和新数据实例之间的距离来找到最相似的邻居(最佳匹配码本向量) 。 然后将最佳匹配单元的类别值或(在回归情况下的实际值)作为预测返回 。 如果你重新调整数据以使其具有相同的范围(如0和1之间), 则可以获得最佳结果 。
如果你发现KNN在你的数据集上给出了很好的结果, 请尝试使用LVQ来减少存储整个训练数据集的内存要求 。
支持向量机也许是最受欢迎和讨论的机器学习算法之一 。
超平面是分割输入变量空间的线 。 在SVM中, 选择一个超平面, 以便通过它们的类(类0或类1)将输入变量空间中的点最好地分开 。 在二维中, 可以将其视为一条线, 让我们假设所有的输入点都可以被这条线完全分开 。 SVM学习算法找到导致由超平面对类进行最佳分离的系数 。
- 淘宝上月销量怎样统计?月销量如何提升?
- 预产期计算公式
- 一般什么年龄容易得高血压?
- 企业统计数据的存储形式主要有哪些
- 经济统计学专业就业前景如何 前途好不好
- 幼儿园没事统计家长的工作单位做什么?
- 春秋时期有哪几个国家
- 亚马逊Condor算法是什么?有什么用?
- 统计专业很热门吗 好不好就业
- 统计学专业五大就业方向 统计学毕业找什么工作好
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
