150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码( 三 )


结果显示 , 虽然在早期层几乎没有相关性 , 但在网络后期 , 每个专家只接收和处理来自少数几个类别的 token 。 因此 , 可以得出结论 , patch 的一些语义聚类出现在网络的更深层 。
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
文章图片

更高的路由决策与图像类别相关 。
谷歌大脑相信这只是计算机视觉大规模条件计算的开始 。 异构专家架构和条件可变长度路由也是有潜力的研究方向 。 稀疏模型尤其有益于数据丰富的领域 , 例如大规模视频建模 。 他们希望开源的代码和模型能够吸引更多研究人员关注该领域 。
原文链接:
https://ai.googleblog.com/2022/01/scaling-vision-with-sparse-mixture-of.html?continueFlag=b96fa8ed72dfc82b777e51b7e954c7dc

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。