视频理解综述：动作识别、时序动作定位、视频Embedding( 六 ) _互联网络

第一类方法基于视频内容有监督地学习视频 Embedding 。我们基于视频的类别有监督地训练一个动作识别网络，之后可以从网络的中间层 (通常是全连接层) 提取视频 Embedding 。这类方法的重点在于动作识别网络的设计。
第二类方法基于视频内容无监督地学习视频 Embedding 。第一类方法需要大量的视频标注，标注过程十分耗时、耗力，这类方法不需要额外的标注，从视频自身的结构信息中学习，例如，视频重建和未来帧预测、视频帧先后顺序验证、利用视频和音频信息、利用视频和文本信息等。
第三类方法通过用户行为学习视频 Embedding 。如果我们知道每个用户的视频观看序列，由于用户有特定类型的视频观看喜好，用户在短时间内一起观看的视频通常有很高的相似性，利用用户观看序列信息，我们可以学习得到视频 Embedding 。
其中，第一类和第二类方法基于视频内容学习视频 Embedding ，它们的优点是没有视频冷启动问题，即一旦有新视频产生，就可以计算该视频的 Embedding 用于后续的任务中。例如，这可以对视频推荐系统中新发布的视频给予展示机会; 基于内容的视频 Embedding 的另一个优点是对所有的视频“一视同仁” ，不会推荐过于热门的视频。另外，也可以为具有小众兴趣爱好的用户进行推荐。
一旦新视频获得了展示机会，积累了一定量的用户反馈 (即用户观看的行为数据) 之后，我们就可以用第三类方法基于用户行为数据学习视频 Embedding ，有时视频之间的关系比较复杂，有些视频虽然不属于同一个类别，但是它们之间存在很高的相似度，用户常常喜欢一起观看。基于用户行为数据学习的视频 Embedding 可以学习到这种不同类别视频之间的潜在联系。
第三大类方法通过用户行为学习视频 Embedding ，其中 Item2Vec 将自然语言处理中经典的 Word2Vec 算法用到了用户行为数据中，并在后续工作中得到了优化， DeepWalk 和 Node2Vec 基于图的随机游走学习视频 Embedding ，是介于图算法和 Item2Vec 算法之间的过渡， LINE 和 SDNE 可以学习图中结点的一阶和二阶相似度， GCN GraphSAGE 和 GAT 等将卷积操作引入到了图中， YouTube 召回模型利用多种信息学习视频 Embedding 。

文章图片

图 12：视频 Embedding 算法。本图源于《深度学习视频理解》

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。