这一刻,“无声”胜有声 ——华为首个AI手语直播诞生记( 二 )


转写是一件需要紧密结合语言学和计算机学的工作 。 为此 , 技术专家们与手语顾问紧密配合 , 投入到手语语言学知识学习中 , 经过了大量的讨论 , 制定适合项目的手语转写标准 。 语言本是一件语感驱动的事 , 而计算机则是讲究规则的 。 为了将手语语言学的知识总结成计算机能表达出的规则 , 团队里的人工智能专家们和手语顾问对转写规则进行了多次讨论 , 反复修改优化了20多个版本 , 最终完成了适合项目要求的定制化转写方案 。
在动作捕捉数据方面 , 通过多方调研以及对动捕设备现场考察 , 过数十种之后 , 手语团队发现发现 , 动捕数据采集情况远比想象的复杂得多 。 在动捕采集的过程中 , 可能引入误差的原因有很多 , 例如动捕服不够贴身、动捕人员身型比例与手语数字人比例不一致等 , 导致动捕的原始数据无法直接使用 。 因此 , 手语团队立刻组建动作修复小组 , 加快动捕数据的采集进度 , 使项目得以稳步推进 。
手语数字人和开发者大会的故事
随着数据采集进度的推进和AI算法模型的迭代优化 , 手语服务的工程化也同步进展顺利 。 手语翻译团队在短短一周的时间内就写完了移动端SDK开发代码 , 并且顺利地完成了端云联调 。 同时 , 在尝试了多种不同的解决方案后 , 手语翻译团队通过旋转角直接驱动骨骼的方式 , 避免在驱动后数字人动作的微小差别导致手语意思相差甚远 , 让手语数字人能够准确地完成手语动作
一切就绪 , 手语服务准备开放首版本 , 在HDC交出一份满意的答卷 。 手语团队决定让手语数字人全程支持开发者大会直播演讲 。 这个挑战可想而知 , 华为开发者大会上直播 , 观看的人数非常庞大 。 如果手语数字人可以登上这个舞台 , 在直播时为听障朋友们提供手语翻译 , 所有观看直播的人都会注意到这个会打手语的红衣女孩 。 这无疑可以吸引更多人来关注听障人士 , 也就可以吸引到更多开发者借助手语服务来为听障手语使用者提供服务 。
手语服务是从文本生成手语 , 直播时算法的输出严重依赖于语音识别的结果 , 语音识别的准确性如何保障?HDC大会演讲中包含大量中英文混合的技术名词 , 怎么让手语数字人打出这些词?把整套驱动和渲染方案搬到自研引擎上能否兼容?面对这些棘手的问题 , 手语团队组建了HDC大会直播攻关小组 , 一部分成员攻关算法 , 在优化手语生成算法模型以覆盖HDC大会可能会出现的科技语料;另一部分成员攻关直播时云上语音识别、文字转手语算法部署以及3D模型驱动问题 , 以保证直播时手语数字人能顺利识别到话筒中的声音并打手语 。 在不到一个月的时间里做足了充足的准备 。
在HDC2021如约举办的当天 。 手语团队的伙伴们在后台紧张地守着直播画面 , 他们紧紧盯着直播屏幕左下角的红衣女孩 , 担心手语数字人出现任何故障 。 所幸在整场直播中 , 她表现得游刃有余 , 非常惊艳!这一刻 , 团队所有人的心情都是一样的:不懈的努力没有白费 , 手语数字人终于在HDC这个大舞台上被大家看见了!
这是国内首次由数字虚拟人物进行的实时大会直播手语翻译 , 这一切都得益于华为自研的AI算法以及渲染技术 , 让大会直播实时手语翻译在完全无需真人的情况下得以实现 。 这套基于云技术的语音识别、手语生成、驱动渲染的手语翻译方案经过HDC2021得到了验证 , 它不仅准确呈现了手语动作 , 也解决了手语翻译目前普遍的的一个技术难点——表情系统 。 表情的出现让手语数字人能够更加完整准确地表达手语含义 , 目前手语服务已支持输出10种不同的表情类型 。 相信在不久的将来 , 这套方案可以被搬上媒体内容制作中 , 听障朋友们也可以获取更多的社会资讯 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。