bootstrap统计算法应用,哪些算法提供bootstrap( 三 ) _网络

超平面和最近的数据点之间的距离被称为边界。可以分离两个类的最好或最优超平面是具有最大边界的直线。只有这些点与定义超平面和分类器的构造有关。这些点被称为支持向量，他们支持或定义超平面。在实践中，使用优化算法来找到最大化边界的系数的值。
支持向量机可能是最强大的现成分类器之一，值得在你的数据集上尝试。
随机森林是最流行和最强大的机器学习算法之一。它是一种称为Bootstrap Aggregation或Bagging的集成机器学习算法。
Bootstrap 是从数据样本中估算数量的一种强大的统计方法。你需要大量的数据样本、计算平均值，然后平均所有的平均值，以便更好地估计真实的平均值。
在Bagging 中，使用相同的方法，而是用于估计整个统计模型，最常见的是决策树。你的训练数据的多个样本被采取，然后为每个数据样本构建模型。当你需要对新数据进行预测时，每个模型都会进行预测，并对预测进行平均，以更好地估计真实的产出值。
随机森林是对这种方法的一种调整，在这种方法中创建决策树，而不是选择最佳分割点，通过引入随机性来进行次优分割。
因此，为每一个数据样本创建的模型比它们本来的样子更不一样，但是它们以其独特和不同的方式仍然是准确的。结合他们的预测可以更好地估计真实的潜在产出价值。
如果用高方差的算法（如决策树）获得较好的结果，那么通常可以通过bagging算法来获得更好的结果。
Boosting是一种集成技术，试图从一些弱分类器中创建一个强分类器。这是通过从训练数据构建模型，然后创建第二个模型来尝试纠正第一个模型的错误。添加模型，直到完美预测训练集或添加最大数量的模型。
AdaBoost是为二进制分类开发的第一个真正成功的增强算法。这是理解提升的最佳起点。现代的助推方法建立在AdaBoost上，最显著的是随机梯度提升机。
因为如此多的注意力放在了纠正算法的错误上，所以清除掉异常值的数据非常重要。
初学者在面对各种各样的机器学习算法时所提出的一个典型问题是“我应该使用哪种算法？”问题的答案取决于许多因素，包括：（1）数据的大小、质量和性质；（2）可用的计算时间; （3）任务的紧迫性; （4）你想要如何处理数据。
即使是一位经验丰富的数据科学家，在尝试不同的算法之前，也无法分辨哪种算法会表现最好。虽然还有很多其他的机器学习算法，但这些算法是最受欢迎的算法。如果你是机器学习的新手，这将是一个很好的学习起点。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。