bootstrap统计算法应用,哪些算法提供bootstrap( 三 )


超平面和最近的数据点之间的距离被称为边界 。 可以分离两个类的最好或最优超平面是具有最大边界的直线 。 只有这些点与定义超平面和分类器的构造有关 。 这些点被称为支持向量, 他们支持或定义超平面 。 在实践中, 使用优化算法来找到最大化边界的系数的值 。
支持向量机可能是最强大的现成分类器之一, 值得在你的数据集上尝试 。
随机森林是最流行和最强大的机器学习算法之一 。 它是一种称为Bootstrap Aggregation或Bagging的集成机器学习算法 。
Bootstrap 是从数据样本中估算数量的一种强大的统计方法 。 你需要大量的数据样本、计算平均值, 然后平均所有的平均值, 以便更好地估计真实的平均值 。
在Bagging 中, 使用相同的方法, 而是用于估计整个统计模型, 最常见的是决策树 。 你的训练数据的多个样本被采取, 然后为每个数据样本构建模型 。 当你需要对新数据进行预测时, 每个模型都会进行预测, 并对预测进行平均, 以更好地估计真实的产出值 。
随机森林是对这种方法的一种调整, 在这种方法中创建决策树, 而不是选择最佳分割点, 通过引入随机性来进行次优分割 。
因此, 为每一个数据样本创建的模型比它们本来的样子更不一样, 但是它们以其独特和不同的方式仍然是准确的 。 结合他们的预测可以更好地估计真实的潜在产出价值 。
如果用高方差的算法(如决策树)获得较好的结果, 那么通常可以通过bagging算法来获得更好的结果 。
Boosting是一种集成技术, 试图从一些弱分类器中创建一个强分类器 。 这是通过从训练数据构建模型, 然后创建第二个模型来尝试纠正第一个模型的错误 。 添加模型, 直到完美预测训练集或添加最大数量的模型 。
AdaBoost是为二进制分类开发的第一个真正成功的增强算法 。 这是理解提升的最佳起点 。 现代的助推方法建立在AdaBoost上, 最显著的是随机梯度提升机 。
因为如此多的注意力放在了纠正算法的错误上, 所以清除掉异常值的数据非常重要 。
初学者在面对各种各样的机器学习算法时所提出的一个典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素, 包括:(1)数据的大小、质量和性质;(2)可用的计算时间; (3)任务的紧迫性; (4)你想要如何处理数据 。
即使是一位经验丰富的数据科学家, 在尝试不同的算法之前, 也无法分辨哪种算法会表现最好 。 虽然还有很多其他的机器学习算法, 但这些算法是最受欢迎的算法 。 如果你是机器学习的新手, 这将是一个很好的学习起点 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。