【亿邦动力网讯】语音交互是去年AI最火的领域,先锋的智能音箱一个单品就让所有互联网大佬们都参战其中。
但从当初惊人眼球的苹果SIRI语音助手到智能音箱,语音这项被寄予厚望成为人机交互入口的技术,似乎未能形成真正颠覆市场的应用落地,始终在单品上火一阵试一阵。相反,视觉技术里人脸识别已经形成规模化的基础应用,渗透到金融、安防甚至零售领域。
为何最早火起来被寄予厚望的语音交互反而在市场化应用这一环节上似乎慢了?
思必驰CMO龙梦竹告诉亿邦动力网,一方面,相比图像识别语音的交互链条更长,是一个点往纵深深入走。语音交互不只包括识别,还要识别后理解文本意思再反馈出来,包括自然语言理解、语音合成以及对内容资源的整合挖掘,路线远比图像更长。
另一方面,机器视觉受干扰因素较少,例如人脸识别的脸部特征几十年不会大变,光线的强弱通过红外都已经解决。而语音是个变量,噪音、环境、距离、人的发音特征等因素下的语音交互都完全不一样,同一句话在逛街、办公室等不同场景,所表达的意思完全不一样。
因此,语音比视觉的挑战更大,它只存在于整体智能,而不是局部智能。语音是个交互手段,通过交互调取后端的服务,例如听什么歌,去什么地方。而这又涉及与后端内容的配合,如果第三方内容库内容不够全,也会导致整体语音交互显得不够智能。
第三,语音商业化落地不具有非常强的复制性,图像识别技术的应用复制性非常高,对设备的依赖程度不高,就一个数据包在任何情况下都可以用。
语音所处的场景不一样,例如用在机器人、冰箱、车载不同的产品里,对三款产品说同一句“我饿了”,对机器人说有可能就是单纯聊天;对车载说肯定不会是点外卖也不会是聊天,只有可能是导航。
因此,没有办法把所有语义做成一个通用库复制到所有产品,每一个产品针对不同场景都有不同需求,都需要个性化定制。
基于语音的特征,语音交互的商业化更像个系统工程,从语音识别到语义理解到后端内容资源库,互相制约,牵一发而动全身。由于语音交互的复杂带来的商业化困境,思必驰等语音交互技术公司也开始走技术平台输出路线。
一方面开放自己的基础技术能力,让市场化的应用企业直接在基础上商业化应用,例如家居、车载、金融、医疗、教育等各领域的智能语音服务都可以采用其平台的技术来探索细分领域的商业化,扩大定制规模化;另一方面,将语音交互技术开放出来扩大生态合作,以突破语音交互的局限。
亿邦动力网了解到,目前,思必驰的商业化落地包括车载、IOT(智能音箱、电视等)、儿童故事机和平台几个方向。
其中,车载是思必驰的优势强项之一,主要合作产品为车载后视镜、智能车机、HUD,思必驰给硬件厂商提供语音交互功能,以及车载场景下的后端资源整合,如音乐、导航等。小米板牙70迈智能后视镜就是思必驰提供的语音交互技术。
虽然车载行业是语音交互技术较早涉足的场景,但经过两年的发展,2017年该市场已逐渐稳定。主要原因在于车载后视镜产品对存量市场来说,是一个锦上添花的事情,非用户买车的刚需因素。而想深入前装市场,直接从车企品牌端渗透,则是一个漫长的过程。
此外,车载后装市场相对复杂,车载智能后视镜90%的产品集中在深圳,无品牌,走汽修店、网络渠道,没有真正打入4S店渠道,因此未能形成规模化的市场普及和推广。但龙梦竹判断,车载后视镜目前在后装市场看似饱和了,其实一直在做存量市场,如果能够真正打开4S店等渠道,将迎来一波真正的红利。
思必驰的IOT商业化应用,则以智能音箱为主。小米的小爱同学、天猫精灵均由思必驰提供语音交互方案。其中天猫精灵使用了思必驰的环形6麦阵列软硬件技术,包括前端的信号采集、降噪、麦克风阵列、远场交互等。
据龙梦竹透露,2017年仅双十一期间,天猫精灵X1的销量即破百万,这也让思必驰在智能音箱领域的品牌覆盖率已稳居行业第一。
儿童故事机则是2017年刚刚火起来的商业化应用市场。思必驰、科大讯飞等语音技术第一梯队的公司几乎都将此市场作为2018年的重点。
“孩子3-4岁有很强的寓教于乐的需求,智能语音交互技术是对传统市场的一个升级。产品的外形不限制在故事机,也可能是平板、智能音箱。这是一个纯刚需市场,而且这一代父母对新产品的接受度很高。”龙梦竹称。
在智能音箱火了一阵后不太明朗的大环境下,故事机成为2018年语音交互技术寄予厚望的市场化产品,承载着出货量的重任。
但儿童交互不像成人一样有逻辑,也没有成人一样的清晰发音,因此在技术上非常挑战对儿童语音表达能力的识别。不过,在这个层面的技术上,思必驰已推出了优化的解决方案。