文章图片
作为最早的“装机必备”产品 , 讯飞输入法已经上线11周年 。
在移动互联网汹涌澎湃的十余年时间里 , 第三方输入法可以说是见证历史的史诗级产品:经历了智能手机普及初期的高速增长 , 经历了消费人群迭代的习惯变迁 , 经历了用户增长趋缓的多元探索 , 并且正在经历人工智能浪潮对输入法的新一轮重塑 。
有别于互联网的其他赛道 , 第三方输入法的市场格局可谓相当稳固 , 讯飞、搜狗、百度三足鼎立的局面已经持续了近十年的时间 , 期间也曾出现一些昙花一现的产品 , 但讯飞输入法在内的头部玩家 , 一次次用产品力验证了强大的用户忠诚度 。
对于个中隐藏的秘密 , 或许可以从进化到11.0版本的讯飞输入法身上找到答案:人工智能叙事逻辑下的输入法将朝什么样的方向进化 , 以及在应用场景、目标人群越来越细分的局面下 , 第三方输入法将解决哪些新诉求?这些亟待回答的新问题将直接左右第三方输入法的走向和格局 。
01 效率 , 输入法的主线任务【讯飞输入法第11次作答:效率升维、场景细分、个性满足】不同于单机时代到互联网时代的跃迁 , 人工智能大幕的拉开为第三方输入法提供了多种选择路径:比如不断丰富产品的可玩性 , 进一步占领用户时长摆脱工具型产品的定位;再比如加速进行横向延伸 , 抓住人机交互的入口优势不断进入新的赛道 , 继而在商业化方面有更多主动性……
讯飞输入法的回答却是效率 。
在讯飞输入法11.0的新功能中 , 最为耀眼的正是新一代语音识别框架TFMA , 解决了复杂场景下的语音识别问题 。 语音输入作为最典型的AI技术落地应用 , 最大的挑战非复杂场景莫属 , 因为用户的输入场景不可能是装有隔音墙的录音室 , 无处不在的噪声、混响直接影响着语音识别的准确率 , 进而左右用户的输入体验 。
为了解决语音识别在复杂环境下的普适性 , 科大讯飞的灵感源于著名的“鸡尾酒会”效应 , 即人耳在嘈杂的环境下可以巧妙地“离开”一段对话 , 去听一听旁边的人在说什么 , 属于典型的自上(大脑)而下(听觉系统)的机制 。 而传统的语音识别系统 , 往往是由麦克风阵列对音频做降噪处理 , 得到单路音频信号进行识别 , 遵循的是自下而上的机制 。
文章图片
科大讯飞由此提出了TFMA前后端一体化的方案 , 将语音识别的前后端联合优化 , 直接训练多通道信号的识别模型 , 然后将后端模型的隐层信息反馈到前端 , 指导前端基于神经网络的波束形成器更新 , 形成一套自下而上和自上而下结合的流程 , 同时引入大量的专家知识 , 融合神经网络和信号处理的优势 , 保证了系统的鲁棒性 。
对用户而言 , 使用语音输入最直观的感受是即便碰到“恶劣”场景 , 手机的语音识别已经达到“非常好用”的程度 , 识别结果也似乎越来越懂用户表达 。
除了语音识别准确率的提升 , 讯飞输入法还更新了两个新功能:一是语音识别和翻译的语种 , 从过去的4种语言扩充到12种 , 包括中文、英语、俄语、法语、越语、韩语、日语、泰语、德语等等;二是候选项的合理化 , 用户语音输入结果更符合预期结果 , 即便是中英混合输入也有近乎完美的呈现 , 进一步提升了用户输入和表达的效率 。
可以给出的解释是 , 2010年上线的讯飞输入法 , 主打的正是语音技术 , 在输入键盘上增加一个麦克风图标 , 用户点击后就能语音输入 , 短短两年时间就拥有了上亿激活用户 , 不仅尝到了技术创新的甜头 , 在巨头把持的市场中牢牢占据了一席之地 , 还深度重塑了输入法的产品形态 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
