人民中科入选国家自然科学奖:强化视频理解优势,降低AI技术应用门槛( 二 )


「团队做研究时的目标都很单纯 , 就是做顶尖的科研 , 做有用的科研 。 」李兵说 , 以前搞科研 , 始终对团队强调两个方面:一是要高水平 , 从不要求论文数量 , 只强调质量、影响力;二是特别看重将科研成果能否真正用在国家重大项目需求和工程实践 , 并通过实际应用检验和提升科研能力 。 「这么多年来 , 我们团队始终能在视频运动分析、内容理解领域保持国际领先 , 一是坚持深耕一个方向 , 不为各种热点所干扰;更重要就是坚持理论研究与实际工程的结合 , 真正把论文写在祖国的大地上」 。 现在创办企业 , 团队希望将人工智能前沿技术与市场需求融合 , 形成低成本、高效率、自主可控的产品体系 , 帮助国内中小型科技企业降低 AI 应用门槛 。
目前 , 人民中科在视频理解的多个方向都具有国际领先的技术成果和储备:
在视频跟踪方向 , 团队在 TPAMI 和 IJCV 等国际权威期刊和会议上发表过数十篇论文 , 获得过多次世界比赛的冠军 , 2020 年获得中国模式识别与计算机视觉大会 PRCV 最佳论文奖 , 并获得吴文俊人工智能科学技术奖一等奖 。 近期主要探索人脑的认知机理 , 研究模拟小脑空间定位和大脑高层认知的协作机制 , 利用相关滤波器在频域上模拟小脑对底层视觉信号的细粒度编码与空间精确定位能力 , 利用卷积反卷积神经网络在时域上模拟大脑对视觉信号的编解码及其高层认知能力 , 逐步实现相关滤波学习和深度特征学习相融合的实时在线自适应的目标跟踪 。
在行为识别和视频内容描述方向 , 团队在 TPAMI 和 IJCV 等顶级期刊和会议上发表论文 40 余篇 , 获得 ICCV2019 VATEX 视频描述中 / 英文双赛道冠军 。 正在模拟大脑的视觉注意力机制 , 并根据视觉系统中表观神经通路和运动神经通路之间的注意力机制设计运动增强模块 , 加强双流卷积神经网络两路分支之间的交互和协同 , 构建有效的基于时空深度耦合的目标行为识别模型 。 在视频内容描述方面 , 提出了新的教师推荐学习策略 , 通过知识蒸馏的方法 , 将外部语言模型的语言学知识传递给描述模型;在原有教师强迫学习的训练过程的基础上 , 配合在大型语料库上预训练的语言模型生成的软目标进行推荐学习 , 在每一步的训练中同时学到了数十倍的知识 , 很好地缓解了由于缺乏特殊视频的训练样本所带来的训练不足问题 。
在视频内容安全方向 , 团队拥有发明专利 40 余项 , 多项技术与产品广泛地应用于各种实际应用系统 , 曾获得北京市科学技术一等奖 , 中国通信学会科学技术一等奖 , 北京市发明专利奖一等奖等 。 正在重点研究并很快发布基于深度纹理网络和空间身份约束的伪造人脸鉴别 , 引入更多的约束信息 , 设计了性能更优 , 泛化能力更强的假脸检测算法 , 包括具备更高的准确率、对未知造假模型更好的泛化能力、对数据量更小的依赖性、对图像劣化的鲁棒性 , 以及具备一定的自我更新能力 , 解决交叉测试中不同类型的检测算法在遇到未知造假模型时泛化性能急剧下降的问题 。
「公司从成立之初 , 就一直坚持自主创新这个重要方向 , 已经推出的多款产品实际运行性能均超过了国外对标产品 。 」人民中科成立两年多来 , 已在 CVPR、IEEE TIP、IEEE TCSVT 等顶会顶刊上发表多篇论文 , 并推出了从基础模型、计算加速卡、计算服务器到 SaaS 的全系列国产化产品 。 谈到作为一家初创公司 , 为什么会选择这么一条成本和技术挑战都非常高的路线 。 李兵认为 , 「在当前国际竞争的大环境下 , 人工智能是未来竞争最为激烈的科技领域之一;我国构建自主的技术体系是保证未来技术竞争力和系统安全性的必经之路 , 而且国内人工智能的相关芯片和硬件、计算技术、底层系统等已经有较好的产业基础和应用生态 。 」

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。