阿里达摩院:以语音为代表的人机交互或许是未来硬件和机器人的标配 | 2021WISE元宇宙·机器人峰会( 二 )


首先讲声学前端 , 这一块是跟场景 , 硬件适配最前端的一个接口 。 在我们这个方案里 , 比较重要的特色是强调了信号处理的重要性 , 如果说大家可能熟悉这个领域中的一些技术的前沿成果的话 , 可能会关注到比如说深度学习技术对交互中的渗透 , 但是从我们的实践和对这个行业的理解来看 , 在相当一段时间内经典信号处理里的作用一定会被保留 。 这是为什么呢?就是我们讲到的场景的复杂性 , 不是说通过较为单一的场景的样本的数据就能获得全场景的声学环境适配能力,经典信号处理理论存在这这里的意义在于在线的自适应优化 , 这是“魂” 。
在这个前提之下 , 我们着重发展一些我们有特色的信号处理相关的技术 , 比如说盲源分离 , 它的特点是什么?就是比较适合小阵列 , 在消费电子行业里 , 当麦克风的个数不能够太多但是性能要求又比较高这样的场景 , 这是选择这一路线的基础依据 。 特别是我们前期的工作 , 把它形成了以盲源分离理论为核心的对环境噪声、房间混响和设备回声的统一处理框架,也是我们在该领域应用研究层面的学术贡献 。 由相关理论支撑的AEC算法甚至还在由国际权威学术机构组织的挑战赛上拿到国内第一的成绩 。
接下来是高抗噪的视觉听觉多模态融合技术 , 视觉的融合对于听觉来讲是一个更好的补充 。 在业内来讲 , 我们的多模态融合技术是走向实践比较早的 , 我们2018年就跟上海地铁合作 , 在地铁这个场景里首次把多模态语音交互技术用到了实践 。
回到方案层面 , 刚刚讲了声学的这种模组化 , 我们在近几年时间内提炼出来几套应对不同场景的模组方案:
第一个 , 我们讲高性价比 , 这是是什么意思呢?举个例子 , 比如说智能音箱、家电等 , 对成本要求比较敏感 , 对性能要求也比较严苛 , 追求高性价比的场景 。
第二个 , 就是高性能 , 这个性能主要体现在对噪声环境的鲁棒性 。
第三个 , 就是多模态 , 这里的多模态的, 更多还是指处理复杂声学场景的技术能力 。
还有一点 , 就是芯片化 , 也是我们模组化的一个极致表现,只有算法和芯片设计有机融合, 才能产生极致性价比的解决方案,后面也有一些应用案例 。
接下来讲讲我们语音技术的几个落地案例 。 过去几年我们的语音交互技术和方案以软核形式落地了海尔、康佳 , 还有一些与优酷合作的投影仪等跟与家庭场景相关的智能硬件, 同时也提供了拾音模组和声学结构的参考设计,包括业内唯一的声学装配效果产线专业测试设备 。 从规模上来讲 , 几年下来大约有近千万级累计装机量, 从客户的满意度调查反馈上, 也显示出小阵列条件下难得的较强抗卖场环境噪声能力 。
接下来 , 就是我刚刚讲的高性价比的模组和芯片的一些落地案例 , 这里面包括喜马拉雅的音箱 , 以及它的AI早教机 , 这是一种儿童教育硬件 , 也算是一种小型的机器人 。 然后就是与天猫精灵一起合作的车载精灵和两轮电动车 。 客户是对该芯片的选择, 首要的一点就是高性价比这一主打特点 。 这个特点的形成是由包括从端侧算法的路线选择, 与平头哥团队共同进行的算法深度工程优化和根据算法定义硬核算子等多方面的努力得到的结果 。 同时也包括我们整体的售后技术支持和产品持续升级能力 。
高性能语音模组方案是和天猫精灵合作并落地的 , 第一个产品就是科沃斯扫地机N9+ , 也是业内第一台能在行进过程中进行语音交互的扫地机,在今年6.18上市 。 它克服的问题是什么呢?是高自噪、大回声 , 移动远场和低算力等技术挑战 。 该方案在扫地机行业的推广应用正在进行中, 同时我们在该场景下, 更低资源需求和更高性能的版本也即将发布 。 第二个案例就是这个机器狗 , 它本身噪音倒没有那么大 , 但是它应用场景可能是比较嘈杂的 , 它经常在一些展会等较吵闹的公众场景做演示 。 比如今年云栖大会上, 就在有公司内外的一些重要领导和嘉宾围观的情况下, 顺利完成了所有的人机交互动作演示 。


特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。