Optiver波动率预测大赛系列三:首次开源的金牌代码( 二 )


Optiver波动率预测大赛系列三:首次开源的金牌代码
文章图片

作者还计算了平均成交及订单的时间间隔:
最后一类特征是对股票聚类后计算的特征 , 作者先使用Kmeans , 根据股票间波动率的相关系数 , 把股票分成了7类 , 然后之前的特征又根据聚类计算了每一类特征的均值作为新的特征 。
模型
模型层面就是常用的lightgbm和全连接神经网络 , 下图是lgbt给出的前20个特征的重要性 。
Optiver波动率预测大赛系列三:首次开源的金牌代码
文章图片

神经网络模型有三层全连接层 , 神经元的数量分别为(128 , 64 , 32) 。 在全连接层之前 , 首先加入了一个嵌入层对股票id转换为向量:
Optiver波动率预测大赛系列三:首次开源的金牌代码
文章图片

在交叉验证的训练数据分组中 , 作者代码中说使用了KNN+算法 , 小编一开始也是一头雾水 , 直到看到以下讨论:
作者这番操作的意图是随机对训练数据分成五组 , 但又要使每组训练数据中预测值(波动率)的分布尽量保持一致 。
最终提交的结果为lightgbm与neural network模型预测结果的均值:
【Optiver波动率预测大赛系列三:首次开源的金牌代码】Optiver波动率预测大赛系列三:首次开源的金牌代码
文章图片

总结
以上是整个方案的主体框架及其中容易掉坑的部分 , 希望该方案能给大家带来启发 。 特别是特征构建的维度 , 毕竟特征是模型效果的天花板 。 本次榜单更新 , 又有一些新的方案开源 , 期待下一次榜单更新 , 给大家带来更多惊喜 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。