量化投资与机器学习微信公众号 , 是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体 。 公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者 , 连续2年被腾讯云+社区评选为“年度最佳作者” 。
量化投资与机器学习公众号独家解读
量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号今年全力打造的一档 深度、前沿、高水准栏目 。
历史汇总
QIML Insight深度研读 , 全网独一份!
公众号遴选了各大期刊前沿论文 , 按照理解和提炼的方式为读者呈现每篇论文最精华的部分 。 QIML希望大家能够读到可以成长的量化文章 , 愿与你共同进步!
本期遴选论文前言
标题:Equity2Vec: End-to-end Deep Learning Framework for Cross-sectional Asset Pricing
作者:Qiong Wu , Christopher G. Brinton , Zheng Zhang , Andrea Pizzoferrato , Zhenming Liu , Mihai Cucuringu
今天分享的这篇论文主要基于新闻共现矩阵提取股票表征 , 公众号之前也分享郭一篇文章同样用到新闻共现的文章:
因子挖掘:基于图神经网络与公司主营(附代码)
首先看一下今天这篇文章的主要内容:
- 基于股票在新闻钟的共现网络 , 提出了Equity2Vec的方法 , 把股票在新闻钟的共现关系用一个向量表征表示 。 这个过程钟即考虑了股票间的长期关系 , 也考虑了股票间的短期动态关系 。
- 结合上一步提出的表征信息与常用的股票因子 , 包括量价因子 , 一起输入到深度学习序列预测模型钟 , 如LSTM , 对股票的价格进行预测 。
- 实证表明 , 该方法在当时能够达到SOTA的效果 。
财经新闻报道中 , 通常在一篇新闻中会出现多个股票 , 这些股票之间必然存在着一定的关联性 。 通过统计两两股票在过去一段时间出现的次数 , 我们就构建了股票的共现矩阵 。 通过一段比较长的时间统计出的共现矩阵(作者在文章中称为global co-occurrence matrix)可以反应股票间相对稳定的关系状态 。
对以上共现矩阵进行矩阵分解(Matrix Factorization) , 如下图3a所示 , 我们就可以得到每个节点 , 也就是每个股票的向量表征 。
文章图片
传统的矩阵分解方法的损失函数如下 ,
其中 为股票i的向量表征 , 为股票i,j的共现次数 。 通过最小化股票对表征的内积与各股票对的共现次数的差值的平方 , 来确定每个股票的向量表征 。
但实际情况中 , 对于股票i,j的关联性 , 可能存在一些专家先验值 , 将 作为先验偏离加入损失函数 , 并加入正则项:
其中
通过动态图捕捉股票间的短期关联性
股票的新闻共现关系是时变的 , 近期时间段的共现关系能够捕捉短期股票关联度的变化 。 用 表示时间t股票间的共现图 , 其中 表示所有股票节点 ,表示股票间的关联边 。 考虑到有些时间 , 由于新闻量的不足 , 某些股票对之间可能没有新闻报道 。 所以作者采用了滑动窗口的形式构建动态图 其等于 的指数滚动均值 。
动态图(Temporal graph)在整个模型中的应用是捕捉股票间的短期关系 , 我们已经从上面的步骤得到了每只股票的长期表征。 那么股票i受周围股票的影响 , 可以用注意力机制去学习(实质上就是周围节点的加权平均):
但是从以上公式可以看出 , 对于动态图 中的每个节点股票 , 在分配注意力权重时 , 只考虑了与股票i最相关的k个股票 , 这里的相关性通过 中股票i与周围股票的边的权重进行筛选 , k也是一个超参数 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
