怎么把AI变成生产力?钉钉:这题我会( 二 )


怎么把AI变成生产力?钉钉:这题我会
文章图片

UNIVERSAL ASR 架构概览 。 图源:https://arxiv.org/pdf/2010.14099.pdf
此外 , 闪记还首次上线了新一代端到端热词定制技术 , 在端到端模型中加入了为额外文本进行建模的 Contextual LSTM 模块 , 使得模型具备了对特定文本进行纠偏增强的能力 。 与传统热词技术相比 , 该技术的热词丢失率下降了 60% , 显著提升了定制场景的热词识别效果 , 且可设置热词数达到上千个 。
再比如说声纹识别 , 技术人员针对会议场景的多角色分离任务 , 提出了多项核心算法创新技术 。
首先 , 他们将只基于频域信息的传统声纹模型扩展到了频域和时空信息的三维说话人识别模型 。 通过有效建模空间信号信息 + 声纹神经网络 , 系统在多人会议中的性能大幅度提升 , 尤其是对说话人的起始时间的追踪、定位等能力 。
怎么把AI变成生产力?钉钉:这题我会
文章图片

图源:https://arxiv.org/pdf/2107.09321.pdf
其次 , 针对长期困扰说话人识别研究者的短时文本无关任务 , 研究人员也做出了显著的优化 。 他们提出了一种基于 contrastive loss 的孪生网络结构 Phonetically-aware Coupled Network (PacNet) , 有效地同时建模声学信息和内容信息 , 可以有效减少短语音时文本内容对声纹识别带来的干扰 , 从而大幅度提升一场会议中短片段识别的准确率 。
第三 , 针对强噪环境(如多人同时说话、电脑音频背景噪声等)下的说话人识别技术 , 技术人员提出了一种新的算法——CAM(针对声纹识别的 Context-Aware Masking) 。 该算法受到照相机聚焦技术的启发 , 可以在嘈杂的环境中「虚化」过滤掉背景噪声 , 突出需要识别的目标说话人的声音 , 从而在强噪环境下大幅度提升了识别的准确率 。
最后 , 在角色区分的关键技术模块中 , 技术人员实现了基于 Global-Local 信息的算法思路 , 将传统聚类算法与端到端 diarization 有效结合 , 从而更准确地识别出会议中讲话人数、说话人变更点以及重叠语音 。
在企业人工智能服务方向 , 钉钉其实是一个特别的样板 。
首先 , 钉钉内并没有特别执着于精深的前沿 AI 技术 , 几乎很难找到 AI 领域的最新突破 , 反而大多数是业界已经相对成熟的技术 。
【怎么把AI变成生产力?钉钉:这题我会】但为什么要从 AI 角度看钉钉?因为这个平台上确实有很多 AI 技术的落地 , 例如 AI 翻译、语音速记、实时字幕、对话机器人、多模态等等 , 在语音 AI、视觉 AI、决策智能以及智能计算很多方面都有涉及 。
这与钉钉的定位有关 , 它是用户每天都在使用的端 , 不允许不稳定因素 , 但它又有 AI 发展所欠缺的落地场景 。
可以说 , 钉钉真正擅长的是为这些成熟的技术找到应用方向 , 做到 AI 技术的产品化 , 把 AI 变成每个普通人触手可及的生产力工具 。
例如 , 在教育场景中 , 钉钉发布了「教师版钉钉」 , 上面有数学智能批改、语文朗读练习、英语口语评测等功能 , 用简单的 AI 帮老师节省了大量时间 。
怎么把AI变成生产力?钉钉:这题我会
文章图片

图源:https://edu.sina.com.cn/l/2021-01-14/doc-ikftssan6101246.shtml
再比如 , 在工厂里 , 钉钉内的群聊机器人与制造业的生产系统集成 , 将生产车间出现的问题及时推送到群、人的聊天里 。 如果故障工单在一定时间内没有解决 , 钉钉机器人会将信息发送给更高一层负责人 , 这样层层推送 , 责任到人 , 大大提升了工厂的生产效率与解决问题的速率 , 让员工少跑腿 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。