还是我 你们公司的小度很厉害为啥讯飞输入法法就不能智能一点

从机械键盘被发明开始人们对於讯飞输入法法就有着特殊的感情,一面对“键盘”有太多的不舍即便全触屏的智能手机早已普及,讯飞输入法时依旧要依赖于“虚拟鍵盘”;一面又急于寻找更为高效的讯飞输入法方案比如笃定语音交互将成为主流的人机交互方式。

1月16日的百度讯飞输入法法发布会上百度讯飞输入法法探索版正式亮相,不仅将全语音讯飞输入法作为默认讯飞输入法方式并开启了调动表情、肢体的全感官讯飞输入法2.0時代。曾经困扰人们多年的键盘讯飞输入法纠结症终于有了新答案。

讯飞输入法法AI化先来解决三个痛点

智能手机的诞生已经有了十多個年头,可为何语音讯飞输入法取代键盘的一幕直到2019年才开始出现要回答这个问题,先要看语音讯飞输入法面临的三个痛点:

1、准确率能否再高一点

早在几年前,百度、科大讯飞等相继宣布准确率高达97%并不怀疑数字的真实性,Attention模型已经较为成熟各家也在实验室里进荇了大量的机器学习,但在实际应用中却存在两个用户体验上的“盲点”

一个是流式解码的问题。诸如谷歌LAS等传统Attention模型大多是基于整呴的建模,客观上需要整句语音上传到服务器后才开始声学打分计算和解码,势必会产生较长的用户等待时间

另一个是长句建模的精喥下降。Attention模型的核心思想是基于整句的全局信息通过机器学习选择和当前建模单元最匹配的特征,于是句子越长识别难度就越大,出錯的概率越高错误前后传导的概率也越高。

为了解决这些“盲点”百度创新性地提出了流式多级截断注意力模型SMLTA,先使用CTC算法对连续語音流进行截断然后对每一个阶段的语音进行建模,把原来整句的建模变成了局部语音小段的Attention建模,同时引入多级Attention机制避免CTC的插入删除错误对系统的影响最终在识别精度上提升了15%,并在保持计算量、解码速度等方面和传统CTC模型持平

2、离线状态下该怎么玩?

作为一款基础工具讯飞输入法法要应对各种场景,比如在地铁、电梯等信号弱或者人流密集的环境下,传统的“虚拟键盘”似乎不会有太多影響全语音讯飞输入法却要回答另一个疑问:如何在离线状态下保证语音识别效率?

为了解决用户的多元讯飞输入法场景需求百度讯飞輸入法法持续优化了Deep Peak 2系统,除了SMLTA上的创新还大幅提升了离线语音的识别准确率,相较于行业平均水平提升了35%不断缩小离线识别和在线識别在准确率上的差距。

百度语音技术总监高亮在发布会上进行了一场离线PK参赛选手分别是百度讯飞输入法法AI探索版、讯飞讯飞输入法法和搜狗讯飞输入法法,结果显示百度讯飞输入法法的识别准确率和识别速度要明显高于另外两家友商的产品或许离线识别还不够完美,至少百度讯飞输入法法已经可以满足离线场景先的精准讯飞输入法

3、语言混合讯飞输入法如何解?

语言在不断进化年轻人群尤为如此,明明在说汉语却夹杂着各种英文词汇,有时还会蹦出两个日语或韩语单词;有时候前一句是普通话下一句可能冒出一句家乡话……讯飞输入法法的使命俨然是顺应潮流,那么也就必须解决汉语和外语、方言与方言、方言和普通话来回切换等特殊场景

常见的解决方案是“手动切换”,比如你想要用四川话进行语音讯飞输入法先要到讯飞输入法法的设置中将语言设定为四川话,说普通话的时候再去切换回来如此不仅未能解决语言混输的问题,还进一步增加了用户的学习成本体验自然不尽如人意。

百度讯飞输入法法的优势在于鈈局限在国内市场的布局,百度海外讯飞输入法法已经扩充到了120门语言百度讯飞输入法法的语音团队也在配合市场布局持续发力,陆续仩线了日语、英语、印地语、西班牙语、印度英语等语言识别为了适应一些国家语言混输的特点,百度讯飞输入法法很早就推出本了地語言和英语混输的功能有了海外市场的成熟经验,应对国内市场的“中英混输”自然不在话下

此外为了解决方言混输的难题,百度讯飛输入法法将普通话和六大方言融合成一个语音识别模型进而实现了方言与方言、方言与普通话的混合语音讯飞输入法。截止到目前百度讯飞输入法法还是唯一实现高精度中英文混合语音讯飞输入法、方言免切换语音讯飞输入法的讯飞输入法法产品。

为何要先于行业迈絀第一步或许会阴谋家给出“炫技”的论调,但百度语音技术总监高亮的观点值得借鉴:“我们有一个理念技术只有在产品上使用、讓用户真正体验到才是真正的技术,我们绝不会为了技术而技术”毕竟在讯飞输入法法的取舍过程中,用户摆脱双手的需求早已出现呮是百度的视野会止于此吗?

讯飞输入法多点AI百度瞄准了Z世代

如果仅仅从创新的角度来审视百度讯飞输入法法的进化,未免会低估百度嘚野心在将全语音讯飞输入法作为默认讯飞输入法方式的同时,诸如拍立活、秀场、表情秀、凌空手写等新表达和新探索可以说是整場发布会的另一大焦点。

比如拍立活可以对人及动物的脸部关键点进行识别利用贴图及骨骼蒙皮技术还原出角色的3D模型,然后利用自研嘚面部行为编码系统驱动角色做出丰富的表情还可以随意叠加各种AR表情素材,让表情的制作更加简单、有趣

再比如凌空手写功能,开創了全新的文字识别技术区别于其他实验室中的类似概念,百度讯飞输入法法的凌空手写不需要特殊的手写笔,也不需要深度摄像头戓多目摄像头等支持普通的RGB摄像头就可以完美支持。

由此不难看到技术范的百度正在以自身擅长的玩法,向崛起的Z世代抛出橄榄枝

先解释下什么是Z世代,巴克莱银行在一份报告中将1995年后出生的人群从时间调度定义为“Z世代”,并给出了Z世代的典型特征:数字原住民并不难理解,Z世代自出生开始就生活在的海洋里对于其他年龄层的用户而言,互联网可能还只是生活的一小部分在Z世代的眼中无异於生活的全部。于是相比于其他年龄层的用户Z世代往往是新技术、新科技、新理念的忠实拥趸。

在CBNData发布的《2018互联网消费生态报告》中給95后贴上了“懒”的标签,成为外卖等上门服务的核心消费当然也可折射了95后对于效率的追求,对传统行为方式的不满足如果只盯着“懒”的一面,注定会误解新一代消费者很可能和潜在的商业前景失之交臂。

百度讯飞输入法法显然深谙于此较于传统、低效的键盘,Z世代对语音讯飞输入法有着更强烈的诉求也是语音讯飞输入法撬动键盘讯飞输入法的重要支点。拍立活、凌空手写等近一步印证了百喥讯飞输入法法打入年轻人群内部的野心想要和年轻用户沟通对话,势必要选择年轻人乐意接受的方式解决了产品“盲点”的语音讯飛输入法本就是如此,百度讯飞输入法法又加上了更多有趣的筹码打出一套面向年轻用户的组合拳。

在巴克莱银行给出的数据中预计箌2020年Z世代将成为全球最大的消费群体,或将占据美国、欧洲和金砖四国消费市场的40%份额隐约可以看到,百度讯飞输入法法之所以推崇全語音讯飞输入法并向Z世代抛出橄榄枝,绝非是无意之举

创新的车轮从未停滞,古老而又活力四射的讯飞输入法法早已成为用户行为的風向标如同80后们大多已经忘了70后“必修”的五笔,90后对九宫格讯飞输入法法的青睐又被00后们嫌弃……可以预见当Z世代以及更年轻的世玳崛起后,传统的讯飞输入法法难逃被淘汰的命运取而代之的将是语音、表情、肢体等“AI讯飞输入法”。

一年前, All in AI 的百度在北京发布了百度 AI 訊飞输入法法即百度讯飞输入法法的 8.0 版本。当时百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之丅百度高级副总裁王海峰、百度语音技术部负责人高亮以及百度中文讯飞输入法法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:

"百度讯飞输入法法是百度 AI 技术应用的桥头堡新的 AI 技术将会首先应用在讯飞输入法法上,未来将会赋予更多 AI 能力提升人机交互的体驗。"

时隔一年之后1月16日,百度讯飞输入法法在北京举办“AI·新讯飞输入法 全感官讯飞输入法2.0”发布会这次,百度请来的主持人变成了現象级网综《吐槽大会》当家主持张绍刚经过一年的打磨和发展,百度讯飞输入法法AI探索版正式亮相据介绍, 这是一款默认讯飞输入法方式为全语音讯飞输入法并调动表情、肢体等进行全感官讯飞输入法的全新讯飞输入法产品。

雷锋网注:百度高级副总裁王海峰

同时在语音技术上,百度讯飞输入法法又取得了一项对全球学术界和工业界都具备重大意义的技术突破——流式截断的多层注意力建模(SMLTA)將在线语音识别精度提升了15%并在世界范围内首次实现了基于 Attention 技术的在线语音识别服务大规模上线应用。

发布会现场百度高级副总裁王海峰再一次重申了百度讯飞输入法法是百度AI落地“桥头堡”的战略定位,也给出了讯飞输入法法行业的“未来画像”他认为,虽然目前嘚讯飞输入法法产品主要应用于手机端但未来的讯飞输入法法将应用于各种智能设备与用户的交互,并走向世界为全球用户提供更多え的讯飞输入法方式。

据介绍截至2018年底,百度讯飞输入法法月活跃人数已达5亿语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿同时,百度海外讯飞输入法法全球安装量超过1亿支持120种语言,覆盖全球190个国家地区并已与超过100个全球知名IP达成合作。

概括来说百度讯飞輸入法法AI探索版功能创新共有三点:新交互、新表达、新探索。

新交互:首次提出流式截断的多层注意力模型(SMLTA)

此次发布的百度讯飞输叺法法 AI 探索版是一款全语音交互的讯飞输入法法,其默认讯飞输入法方式为语音讯飞输入法

雷锋网注:百度语音技术部负责人 高亮

首先,在线语音识别领域:百度首次发布流式截断多层注意力建模(SMLTA)据介绍,这是中文在线语音识别历史上的两个重大突破:

世界上首佽实现了局部注意力建模识别精度超过全局注意力模型;

世界上第一次大规模部署在线语音交互注意力模型

语音领域 Attention 模型(注意力模型)的提出已有好几年的时间,注意力模型的核心思想是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征从整句话的音頻特征中,通过机器学习的方法自动的挖掘出来。

其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法

近几年,不少专家和学者都在语音识别任務中尝试了注意力模型实验室环境下,相对于传统技术也获得到了一系列的提升。但是截止目前注意力模型在在线语音服务中的大規模使用,一直鲜有成功案例主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。

针对以上問题百度语音技术团队提出了 SMLTA 模型(流式多级截断注意力模型 Streaming trancated multi-layer attention),这种建模方法的识别率不但超越了传统的全局 Attention 建模同时还能够保持計算量、解码速度等在线资源耗费和传统CTC模型持平。

据介绍SMLTA模型是基于 CTC 的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进荇当前建模单元的注意力建模

SMLTA 把原来的全局的整句 Attention 建模,变成了局部语音小段的 Attention 的建模同时,为了克服 CTC 模型的不可避免的插入删除错誤对系统造成的影响该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择最终,这种建模方法的识别率不但超越叻传统的全局 Attention 建模同时还能够保持计算量、解码速度等在线资源耗费和传统 CTC 模型持平。

这一技术能够解决传统 Attention 模型在识别中的时延性鉯及因此导致的无法进行大规模在线语音实时交互的问题,并将在线语音相对准确率提升15%百度讯飞输入法法在线语音相对准确率依然好於最优竞品15%。

迄今为止百度语音识别模型经历了从 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代过程,至于这种演变过程所遵循的依据是什么高亮在接受包括雷锋网在内的媒体采访时表示:

迭代过程有一些路径可循,最开始的时候我们用 RNN 做然后过渡到 CNN,是因為 CNN 并行计算的能力特别强到后来发现,LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强因为它有一定的记忆能力。后来引入 CTC哽多的并不是说在模型上的改变,而是把代价函数变了这样的话,引入尖峰就会预测得更好这次把这种局部流式的 Attention 又给引进来,等于湔后的 Correlation也就是出来一个字以后,我再打一个字的话根据前面讯飞输入法的字来预测后者出现哪个字的准确度会进一步增强。

其次离線语音讯飞输入法领域:过去,离线语音与在线语音相比准确率相差悬殊,体验得不到根本解决面对这一实际问题,百度语音技术团隊优化了讯飞输入法法上嵌入式识别的 deep peak2 系统大幅提升了离线语音识别准确率。据介绍目前百度讯飞输入法法「离线语音」讯飞输入法准确率已高于行业平均水平35%。

除此之外百度讯飞输入法法还推出了「中英自由说」、「方言自由说」功能,前者可以实现在完全不影响Φ文语音讯飞输入法准确率的情况下高精准的中英文混合语音识讯飞输入法;后者将普通话和六大方言融合成一个语音识别模型,实现叻方言与方言、方言与普通话的混合语音讯飞输入法

新表达:表情、动作成为讯飞输入法新方式

除了语音讯飞输入法,百度中文讯飞输叺法法负责人蔡玉婷在现场还介绍了拍立活、秀场、表情秀社区等新玩法

“拍立活”功能可以让用户通过自己的动作“驱动”偶像或宠粅做出相同表情;发布会现场,百度特意邀请来了网红“发际线哥”演示了该项功能

“秀场”功能采取图像分割技术,配合360度全景动态素材可以将人物置身于虚拟场景,增加创作表情时的场景感用户提供了更加丰富、生活的表达方式。

同时百度讯飞输入法法AI探索版開辟了“表情秀”社区,用户可以把自制好玩的AR表情直接分享到社区被点赞最多的表情制作者会被给予“表情帝”的封号,并会阶段性給予奖励目前“表情秀”社区已经有多个明星、网红、以及民间高手入驻。

新探索:推出“凌空手写”功能

发布会现场蔡玉婷介绍了┅款百度自主研发推出的“炫酷”功能——凌空手写。雷锋网编辑现场观察到工作人员在没有任何实体触控点的空中用手指写出了“凌涳手写”几个字,接着又将主持人张绍刚的名字也打了出来。

据介绍凌空手写是一种全新的文字识别技术,区别于其它正在实验室中嘚类似技术它不需要特殊的手写笔,也不需要类似深度摄像头或多目摄像头等硬件支持只需要最普通的 RGB 摄像头就可以完美支持。

凌空掱写采用双神经网络模型的方案:一个是基于灰度图的指尖跟踪模型另一个是基于多方向特征文字识别模型。

此外研发团队发现锯齿囷连笔在三维空间的手写识别中对识别率影响较大,于是对抗锯齿和连笔消除算法进行了大量优化工作在多种模型算法的共同加持下,保证了最终识别结果的连续及稳定整体上接近触屏手写方式的顺滑、流畅,目前整体识别率已达到大规模应用的要求

目前,百度讯飞輸入法法已经与小天才/小寻手表达成了合作会输出“凌空手写”能力给智能手表使用。百度讯飞输入法法AI探索版也增加了该功能只需說出“小度小度,打开凌空手写”就能开启该功能

百度海外讯飞输入法法:推出三大创新功能

雷锋网注:百度海外讯飞输入法法负责人 薑锋

发布会现场,百度海外讯飞输入法法负责人姜锋介绍了海外讯飞输入法法市场最新进展和三大技术创新

据介绍,截至目前百度海外讯飞输入法法已经扩充到了120门语言,并在全球190多个国家和地区分发近两年,百度在语音技术上持续发力陆续上线了日语、英语、印哋语、印英混输、西语识别等,并在日本、美国、印度、印尼、泰国、新加坡等地布局了本地团队现在全球安装量达到一亿,在美国GP商店讯飞输入法法品类排名第一

百度海外讯飞输入法法围绕海外市场痛点做出三大技术创新:

智能语音:为了适应某些国家语言混用的特點,百度讯飞输入法法推出本地语言和英语混输的功能满足各个国家日常交流需要。

智能推荐:为了解决场景化的问题百度海外讯飞輸入法法提供智能推荐功能;除了在基础讯飞输入法层面的技术突破,百度海外讯飞输入法法基于百度自然语言处理能力在智能推荐上莋了更多的探索,比如表情预测

智能表情:百度海外讯飞输入法法基于人脸识别技术为海外的安卓手机用户提供3D AR表情功能。

同时百度海外讯飞输入法法与 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等超过100个知名 IP 进行了合作。

2018年以来三大讯飞输入法法都纷纷打出了AI牌——王海峰前面提到,百度讯飞输入法法是百度 AI 技术应用的桥头堡新的 AI 技术将会首先应用在讯飞输入法法上;搜狗 CEO 迋小川也表示将 AI 赋能升级讯飞输入法法列为搜狗 2018 年度 AI 战略之一,并且讯飞输入法法不止可以打字还将承载信息获取和流量分发;科大讯飛最新发布的讯飞输入法法版本也主打AI语音讯飞输入法。

语音交互目前已经被行业内普遍视为下一个互联网超级入口而讯飞输入法法又具备高频次、强导流、全场景使用的产品优势,AI语音讯飞输入法显然已经成为头部厂商对决博弈的新战场,雷锋网曾经在《讯飞输入法法都打AI牌的年代讯飞的先发优势还在不在?》一文中提到过目前讯飞输入法法市场格局形成了一超多强的局面,搜狗讯飞输入法法目湔市场份额位列第一;百度讯飞输入法法借AI之力奋起直追;讯飞等讯飞输入法法也在不断差异化努力加强个性化特色功能。

目前来看百度发布的新语音识别模型在技术上取得了非常大的突破,而其推出的各种好玩炫酷的个性化功能也有利于俘获90后、00后等年轻一代用户的囍爱但搜狗和讯飞在语音识别领域的积累、在整体讯飞输入法法和语音讯飞输入法市场占有率方面的优势也对百度讯飞输入法法造成了強有力的竞争,未来的市场格局如何仍需市场进一步检验。

一年前, All in AI 的百度在北京发布了百度 AI 訊飞输入法法即百度讯飞输入法法的 8.0 版本。当时百度特意将著名主持人、“中国好舌头”华少请到了现场担任主持,在华少的主持之丅百度高级副总裁王海峰、百度语音技术部负责人高亮以及百度中文讯飞输入法法负责人蔡玉婷悉数登场。王海峰向雷锋网在内的媒体表示:

"百度讯飞输入法法是百度 AI 技术应用的桥头堡新的 AI 技术将会首先应用在讯飞输入法法上,未来将会赋予更多 AI 能力提升人机交互的体驗。"

时隔一年之后1月16日,百度讯飞输入法法在北京举办“AI·新讯飞输入法 全感官讯飞输入法2.0”发布会这次,百度请来的主持人变成了現象级网综《吐槽大会》当家主持张绍刚经过一年的打磨和发展,百度讯飞输入法法AI探索版正式亮相据介绍, 这是一款默认讯飞输入法方式为全语音讯飞输入法并调动表情、肢体等进行全感官讯飞输入法的全新讯飞输入法产品。

雷锋网注:百度高级副总裁王海峰

同时在语音技术上,百度讯飞输入法法又取得了一项对全球学术界和工业界都具备重大意义的技术突破——流式截断的多层注意力建模(SMLTA)將在线语音识别精度提升了15%并在世界范围内首次实现了基于 Attention 技术的在线语音识别服务大规模上线应用。

发布会现场百度高级副总裁王海峰再一次重申了百度讯飞输入法法是百度AI落地“桥头堡”的战略定位,也给出了讯飞输入法法行业的“未来画像”他认为,虽然目前嘚讯飞输入法法产品主要应用于手机端但未来的讯飞输入法法将应用于各种智能设备与用户的交互,并走向世界为全球用户提供更多え的讯飞输入法方式。

据介绍截至2018年底,百度讯飞输入法法月活跃人数已达5亿语音日请求量峰值突破5.5亿,AR表情使用次数超过1亿同时,百度海外讯飞输入法法全球安装量超过1亿支持120种语言,覆盖全球190个国家地区并已与超过100个全球知名IP达成合作。

概括来说百度讯飞輸入法法AI探索版功能创新共有三点:新交互、新表达、新探索。

新交互:首次提出流式截断的多层注意力模型(SMLTA)

此次发布的百度讯飞输叺法法 AI 探索版是一款全语音交互的讯飞输入法法,其默认讯飞输入法方式为语音讯飞输入法

雷锋网注:百度语音技术部负责人 高亮

首先,在线语音识别领域:百度首次发布流式截断多层注意力建模(SMLTA)据介绍,这是中文在线语音识别历史上的两个重大突破:

  • 世界上首佽实现了局部注意力建模识别精度超过全局注意力模型;

  • 世界上第一次大规模部署在线语音交互注意力模型

语音领域 Attention 模型(注意力模型)的提出已有好几年的时间,注意力模型的核心思想是通过机器学习的方法,把一句话中每个音节或者汉字的音频特征从整句话的音頻特征中,通过机器学习的方法自动的挖掘出来。

其建模过程完全抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架直接实现了语音和文本一体化的端到端建模,从而成为公认的有更高的建模精度的建模方法

近几年,不少专家和学者都在语音识别任務中尝试了注意力模型实验室环境下,相对于传统技术也获得到了一系列的提升。但是截止目前注意力模型在在线语音服务中的大規模使用,一直鲜有成功案例主要是因为语音识别的注意力模型存在两个问题:流式解码的问题和长句建模的精度下降问题。

针对以上問题百度语音技术团队提出了 SMLTA 模型(流式多级截断注意力模型 Streaming trancated multi-layer attention),这种建模方法的识别率不但超越了传统的全局 Attention 建模同时还能够保持計算量、解码速度等在线资源耗费和传统CTC模型持平。

据介绍SMLTA模型是基于 CTC 的尖峰信息对语音流进行截断,然后在每一截断的语音小段上进荇当前建模单元的注意力建模

SMLTA 把原来的全局的整句 Attention 建模,变成了局部语音小段的 Attention 的建模同时,为了克服 CTC 模型的不可避免的插入删除错誤对系统造成的影响该算法引入一种特殊的多级 Attention 机制,实现特征层层递进的更精准的特征选择最终,这种建模方法的识别率不但超越叻传统的全局 Attention 建模同时还能够保持计算量、解码速度等在线资源耗费和传统

这一技术能够解决传统 Attention 模型在识别中的时延性,以及因此导致的无法进行大规模在线语音实时交互的问题并将在线语音相对准确率提升15%,百度讯飞输入法法在线语音相对准确率依然好于最优竞品15%

迄今为止,百度语音识别模型经历了从 DNN、CNN、LSTM 和深度尖峰一代、二代的迭代再到最新的 SMLTA 模型迭代过程至于这种演变过程所遵循的依据是什么,高亮在接受包括雷锋网(公众号:雷锋网)在内的媒体采访时表示:

迭代过程有一些路径可循最开始的时候我们用 RNN 做,然后过渡到 CNN昰因为 CNN 并行计算的能力特别强。到后来发现LSTM 的模型逻辑上对于我们已经说出来的语音回溯性比较强,因为它有一定的记忆能力后来引叺 CTC,更多的并不是说在模型上的改变而是把代价函数变了。这样的话引入尖峰就会预测得更好。这次把这种局部流式的 Attention 又给引进来等于前后的 Correlation,也就是出来一个字以后我再打一个字的话,根据前面讯飞输入法的字来预测后者出现哪个字的准确度会进一步增强

其次,离线语音讯飞输入法领域:过去离线语音与在线语音相比,准确率相差悬殊体验得不到根本解决。面对这一实际问题百度语音技術团队优化了讯飞输入法法上嵌入式识别的 deep peak2 系统,大幅提升了离线语音识别准确率据介绍,目前百度讯飞输入法法「离线语音」讯飞输叺法准确率已高于行业平均水平35%

除此之外,百度讯飞输入法法还推出了「中英自由说」、「方言自由说」功能前者可以实现在完全不影响中文语音讯飞输入法准确率的情况下,高精准的中英文混合语音识讯飞输入法;后者将普通话和六大方言融合成一个语音识别模型實现了方言与方言、方言与普通话的混合语音讯飞输入法。

新表达:表情、动作成为讯飞输入法新方式

除了语音讯飞输入法百度中文讯飛输入法法负责人蔡玉婷在现场还介绍了拍立活、秀场、表情秀社区等新玩法。

“拍立活”功能可以让用户通过自己的动作“驱动”偶像戓宠物做出相同表情;发布会现场百度特意邀请来了网红“发际线哥”演示了该项功能。

“秀场”功能采取图像分割技术配合360度全景動态素材,可以将人物置身于虚拟场景增加创作表情时的场景感,用户提供了更加丰富、生活的表达方式

同时,百度讯飞输入法法AI探索版开辟了“表情秀”社区用户可以把自制好玩的AR表情直接分享到社区,被点赞最多的表情制作者会被给予“表情帝”的封号并会阶段性给予奖励。目前“表情秀”社区已经有多个明星、网红、以及民间高手入驻

新探索:推出“凌空手写”功能

发布会现场,蔡玉婷介紹了一款百度自主研发推出的“炫酷”功能——凌空手写雷锋网编辑现场观察到,工作人员在没有任何实体触控点的空中用手指写出了“凌空手写”几个字接着,又将主持人张绍刚的名字也打了出来

据介绍,凌空手写是一种全新的文字识别技术区别于其它正在实验室中的类似技术,它不需要特殊的手写笔也不需要类似深度摄像头或多目摄像头等硬件支持。只需要最普通的 RGB 摄像头就可以完美支持

淩空手写采用双神经网络模型的方案:一个是基于灰度图的指尖跟踪模型,另一个是基于多方向特征文字识别模型

此外,研发团队发现鋸齿和连笔在三维空间的手写识别中对识别率影响较大于是对抗锯齿和连笔消除算法进行了大量优化工作,在多种模型算法的共同加持丅保证了最终识别结果的连续及稳定,整体上接近触屏手写方式的顺滑、流畅目前整体识别率已达到大规模应用的要求。

目前百度訊飞输入法法已经与小天才/小寻手表达成了合作,会输出“凌空手写”能力给智能手表使用百度讯飞输入法法AI探索版也增加了该功能,呮需说出“小度小度打开凌空手写”就能开启该功能。

百度海外讯飞输入法法:推出三大创新功能

雷锋网注:百度海外讯飞输入法法负責人 姜锋

发布会现场百度海外讯飞输入法法负责人姜锋介绍了海外讯飞输入法法市场最新进展和三大技术创新。

据介绍截至目前,百喥海外讯飞输入法法已经扩充到了120门语言并在全球190多个国家和地区分发。近两年百度在语音技术上持续发力,陆续上线了日语、英语、印地语、印英混输、西语识别等并在日本、美国、印度、印尼、泰国、新加坡等地布局了本地团队。现在全球安装量达到一亿在美國GP商店讯飞输入法法品类排名第一。

百度海外讯飞输入法法围绕海外市场痛点做出三大技术创新:

  • 智能语音:为了适应某些国家语言混用嘚特点百度讯飞输入法法推出本地语言和英语混输的功能,满足各个国家日常交流需要

  • 智能推荐:为了解决场景化的问题,百度海外訊飞输入法法提供智能推荐功能;除了在基础讯飞输入法层面的技术突破百度海外讯飞输入法法基于百度自然语言处理能力,在智能推薦上做了更多的探索比如表情预测。

  • 智能表情:百度海外讯飞输入法法基于人脸识别技术为海外的安卓手机用户提供3D AR表情功能

同时,百度海外讯飞输入法法与 hello kitty、懒蛋蛋、轻松熊、LT DUCK、工作细胞血小板、双子星、格林奇、大黄蜂等超过100个知名 IP 进行了合作

2018年以来,三大讯飞輸入法法都纷纷打出了AI牌——王海峰前面提到百度讯飞输入法法是百度 AI 技术应用的桥头堡,新的 AI 技术将会首先应用在讯飞输入法法上;搜狗 CEO 王小川也表示将 AI 赋能升级讯飞输入法法列为搜狗 2018 年度 AI 战略之一并且讯飞输入法法不止可以打字,还将承载信息获取和流量分发;科夶讯飞最新发布的讯飞输入法法版本也主打AI语音讯飞输入法

语音交互目前已经被行业内普遍视为下一个互联网超级入口,而讯飞输入法法又具备高频次、强导流、全场景使用的产品优势AI语音讯飞输入法,显然已经成为头部厂商对决博弈的新战场雷锋网曾经在一文中提箌过,目前讯飞输入法法市场格局形成了一超多强的局面搜狗讯飞输入法法目前市场份额位列第一;百度讯飞输入法法借AI之力奋起直追;讯飞等讯飞输入法法也在不断差异化,努力加强个性化特色功能

目前来看,百度发布的新语音识别模型在技术上取得了非常大的突破而其推出的各种好玩炫酷的个性化功能也有利于俘获90后、00后等年轻一代用户的喜爱,但搜狗和讯飞在语音识别领域的积累、在整体讯飞輸入法法和语音讯飞输入法市场占有率方面的优势也对百度讯飞输入法法造成了强有力的竞争未来的市场格局如何,仍需市场进一步检驗



雷锋网原创文章,未经授权禁止转载详情见。

我要回帖

更多关于 讯飞输入法 的文章

 

随机推荐