想实现高可懂度的AI手语能力要解决三大技术点:语音识别的清晰度、手语翻译的准确度、手语动作的流畅度 。 在经过开幕式、赛事播报等重重考验 , AI手语主播也印证着“AI手语平台”已成功解决这三大难题 , 以行业领先的全链路AI能力实现“听得清”、“翻得准”、“打得好”的手语服务 。
首先 , 在语音识别清晰度上 , 百度智能云曦灵-AI手语平台通过SMLTA语音识别算法模型 , 实现声学、语言一体化端到端建模语音识别 , 在手机端近场语音识别率可达98%以上 。 百度语音技术部总监高亮表示 , 基于百度自研的深度学习算法 , 还可针对诸如旅游、医院、司法等不同领域的词准率进行针对性训练 , 词准率可达96% , 使得AI手语平台一体机更好地应用于不同场景中 。
文章图片
(百度语音技术部总监高亮)
其次 , 在手语翻译的准确度及精炼度上 , 百度人工智能技术委员会主席何中军表示 , 百度研发了首个基于神经网络的精炼度可控手语翻译模型 , 并联合手语语言学专家、特殊教育专家以及天津理工大学聋人工学院等制定了自然手语标注规范 , 建设了大规模自然手语翻译语料库 , 使得模型可以从真实数据中学习手语翻译知识 , 比如语序的调整、词语的映射以及长度控制等 , 从而生成符合听障人群习惯的自然手语 。
【百度智能云曦灵-AI手语平台发布为听障人士搭建“有声桥”】
文章图片
(百度人工智能技术委员会主席何中军)
天津理工大学聋人工学院副院长袁甜甜在发布会上分享到 , 聋人学生更能感同身受 , 不错过每一个细节 。 由于时间紧任务重 , 学生们还自发呼吁其他各高校近五百名聋人学生共同完成语料库的标注 , 以责任感和荣誉感为弥补社会信息鸿沟做出努力 。
文章图片
(天津理工大学聋人工学院副院长袁甜甜)
最后 , 在手语动作的流畅度上 ,AI手语平台通过“动作融合算法” ,基于《国家通用手语词典》规范精修近11000多个手语动作 , 让每一个动作的起落之间自然衔接 , 带来真人手语般地连贯性表达 。 再配合4D扫描技术训练 , 使得AI手语数字人表情自然生动 , 口型生成准确度高达98.5% 。
在会后的体验中采访人员看到 , 只需要将录制好的视频传输到 “AI手语平台” , 经过处理就能够输出已经融合了手语翻译的视频 , 进行传播十分方便 。 而在工作人员的演示中 , 只需要对着话筒说话 , 稍后屏幕上的数字人就能以手语将语义翻译出来 。 不过工作人员介绍说 , 这一功能目前还不完善 , 仍处于继续开发中 。
相关负责人表示 , 百度智能云曦灵的 “AI手语平台”现阶段还主要以服务机场、火车站、医院或者媒体机构的公共需求为主 , 语言与手语的实时翻译功能还会继续努力开发 , 当有最新进展之后会及时向社会公布 , 希望能够帮助听障人群能够更顺畅地进行日常沟通 。
无障碍环境建设直接决定着残障人士的生活质量 , 也是国家及社会文明的标志 。 百度智能云曦灵“AI手语平台”及“AI手语平台一体机”的发布 , 将快速解决各类场景中无障碍窗口稀缺的问题 , 助力社会文明及美好生活的持续构建 。
文章图片
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
