讯飞输入法第11次作答：效率升维、场景细分、个性满足 _识别

文章图片

作为最早的“装机必备”产品，讯飞输入法已经上线11周年。
在移动互联网汹涌澎湃的十余年时间里，第三方输入法可以说是见证历史的史诗级产品：经历了智能手机普及初期的高速增长，经历了消费人群迭代的习惯变迁，经历了用户增长趋缓的多元探索，并且正在经历人工智能浪潮对输入法的新一轮重塑。
有别于互联网的其他赛道，第三方输入法的市场格局可谓相当稳固，讯飞、搜狗、百度三足鼎立的局面已经持续了近十年的时间，期间也曾出现一些昙花一现的产品，但讯飞输入法在内的头部玩家，一次次用产品力验证了强大的用户忠诚度。
对于个中隐藏的秘密，或许可以从进化到11.0版本的讯飞输入法身上找到答案：人工智能叙事逻辑下的输入法将朝什么样的方向进化，以及在应用场景、目标人群越来越细分的局面下，第三方输入法将解决哪些新诉求？这些亟待回答的新问题将直接左右第三方输入法的走向和格局。
01 效率，输入法的主线任务【讯飞输入法第11次作答：效率升维、场景细分、个性满足】不同于单机时代到互联网时代的跃迁，人工智能大幕的拉开为第三方输入法提供了多种选择路径：比如不断丰富产品的可玩性，进一步占领用户时长摆脱工具型产品的定位；再比如加速进行横向延伸，抓住人机交互的入口优势不断进入新的赛道，继而在商业化方面有更多主动性……
讯飞输入法的回答却是效率。
在讯飞输入法11.0的新功能中，最为耀眼的正是新一代语音识别框架TFMA ，解决了复杂场景下的语音识别问题。语音输入作为最典型的AI技术落地应用，最大的挑战非复杂场景莫属，因为用户的输入场景不可能是装有隔音墙的录音室，无处不在的噪声、混响直接影响着语音识别的准确率，进而左右用户的输入体验。
为了解决语音识别在复杂环境下的普适性，科大讯飞的灵感源于著名的“鸡尾酒会”效应，即人耳在嘈杂的环境下可以巧妙地“离开”一段对话，去听一听旁边的人在说什么，属于典型的自上(大脑)而下(听觉系统)的机制。而传统的语音识别系统，往往是由麦克风阵列对音频做降噪处理，得到单路音频信号进行识别，遵循的是自下而上的机制。

文章图片

科大讯飞由此提出了TFMA前后端一体化的方案，将语音识别的前后端联合优化，直接训练多通道信号的识别模型，然后将后端模型的隐层信息反馈到前端，指导前端基于神经网络的波束形成器更新，形成一套自下而上和自上而下结合的流程，同时引入大量的专家知识，融合神经网络和信号处理的优势，保证了系统的鲁棒性。
对用户而言，使用语音输入最直观的感受是即便碰到“恶劣”场景，手机的语音识别已经达到“非常好用”的程度，识别结果也似乎越来越懂用户表达。
除了语音识别准确率的提升，讯飞输入法还更新了两个新功能：一是语音识别和翻译的语种，从过去的4种语言扩充到12种，包括中文、英语、俄语、法语、越语、韩语、日语、泰语、德语等等；二是候选项的合理化，用户语音输入结果更符合预期结果，即便是中英混合输入也有近乎完美的呈现，进一步提升了用户输入和表达的效率。
可以给出的解释是， 2010年上线的讯飞输入法，主打的正是语音技术，在输入键盘上增加一个麦克风图标，用户点击后就能语音输入，短短两年时间就拥有了上亿激活用户，不仅尝到了技术创新的甜头，在巨头把持的市场中牢牢占据了一席之地，还深度重塑了输入法的产品形态。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。