意识到这一点 , 近年来各国推进的手语识别、翻译项目 , 大多采用计算机视觉的方法 , 利用摄像头收集数据、建立语料库 , 袁甜甜和她的团队也是如此 。 现阶段更常见的问题 , 一是收集的样本太少 , 数据集不够大 。 二是数据集建起来了 , 但没能对语料进行高质量筛选和标注 。 说白了 , 就是语料“不好使” 。
袁甜甜说 , 人工智能深度学习的过程 , 有点像教小孩学说话 , 一个单词先得全家上阵 , 翻来覆去地重复 , 次数够了 , 孩子才能建立印象 , “哦 , 这个单词叫妈妈 , 不管是从爸爸嘴里说出来 , 姥姥嘴里说出来 , 还是舅舅、阿姨说出来 , 都叫妈妈 。 ”同样的 , 要让机器识别一个手语句子 , 也要有足够多的人面对摄像头 , 以不同的风格重复打同一套动作 , 计算机才能“记住” 。
很多国外团队建立的手语数据集无法支持复杂场景下的手语翻译 , 一个直接的原因 , 就是无法找到足够多的人在自然状态下采集手语 。 “而我们的团队背靠聋人工学院 , 很多成员本身就是手语使用者 , 在自然手语的采集上有优势 。 ”袁甜甜说 。
“但是跟您实话实说 , 我们也建过‘不好使’的数据集 。 ”袁甜甜直接给团队2018年建立的手势汉语数据集下了定义 , “花了钱、费了功夫 , 最后挺失败的”——失败之处在于 , 那一次他们收集的语料是手势汉语而不是自然手语 。 手势汉语是按照健听人习惯的汉语语序 , 而不是手语语序连词成句的 。
“比如说 , ‘爱是我们共同的语言’ 。 这个句子用手势汉语来打的话 , 就是按顺序一个字一个字地比画 , ‘的’也有对应的手势 , 也要打出来 。 但聋人日常使用手语的时候 , 惯用的语序是:爱、我们、共同、语言、是 , ‘的’不用打 。 我这个‘半颤子’手语 , 讲课的时候也不会把‘的’‘了’都打出来 , 那不符合自然手语的表达习惯 。 ”袁甜甜解释 。
“你把手势汉语翻译得再精准也没用 , 聋人平时打的不是这个啊!”汲取了教训 , 这一次再建手语数据集 , 袁甜甜说 , 他们不求速成 , 只求每条语料都是原汁原味的自然手语 。 先按手语语序识别、再按口语习惯翻译 , 虽然多了一个技术环节 , 团队研发的难度也就长了一截 , 袁甜甜们却坚持要选择那条“难走但正确”的路径 。
“咱做这个研究 , 不想跟人吹我们的数据集有多大 , 也不想说我们发了多么高大上的论文 , 我们就一个目的:能用 。 ”袁甜甜斩钉截铁 , “这个系统出来了 , 聋人必须真的能用 。 ”
文章图片
天津理工大学“鲸可语”创业团队在中国国际“互联网+”大学生创新创业大赛上夺金 。 受访者供图
收获之年
对于袁甜甜和她的团队来说 , 2019年和2021年是两个关键的时间节点 。 2019年 , 是他们的初创之年 , “手语实时翻译系统”入选国家工信部新一代人工智能产业创新揭榜项目 , 获得了2000万的资金支持 。 袁甜甜很高兴 , 一方面是因为国家对无障碍建设的重视让她欣慰 , 另一方面 , 数据采集、技术研发、成果落地也确实是处处都要花钱 。
2021年 , 则可以说是团队的收获之年 。
闫思伊到现在还记得 , 今年年初她第一次跑通手语翻译系统代码框架时的心情 。 “就好像你在组装一台机器 , 零件都已经拼全了 , 但是因为各种各样的小毛病 , 比如说有几个螺丝没拧紧 , 它就是不能正常运转 。 我每天在实验室 , 一个一个地把螺丝给上紧 。 都调完之后 , 忽然有一天 , 我一按开关 , 机器就轰轰地转起来了 。 那种成就感啊……”
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
