在近期百度语音搜索举办的媒体开放日“尽在听说之间”上,百度技术副总裁王海峰博士对百度当前的语音技术进展进行了讲解,而在此次对话中也展示了百度对未来语音商业环境的推演,相较于繁琐的键盘,语音技术是最佳替代方案?而这背后是什么原因?
一、在人机交互上,语音技术正在占领市场
先说一个例子,早期的苹果将APP设计风格全部定位为拟物风,其原因在于需要协助用户使用习惯进行过度,在苹果之前,用户与机器接触列入打开广播、打开手电筒、打开点灯,甚至用电脑打字等等统统需要与机器进行“触觉”上的交互,因此一块屏幕的创新设计会让用户带来极大的不适应,因此需要弥补用户对于“触觉”的丧失,而当智能机占领绝对地位之后,其又将拟物风改为了扁平风,其背后的关键原因在于用户已经适应智能手机的操作。
触屏是“新”技术,尽管让用户适应需要一段时间,但其掌握了人机交互的方向,而语音技术也面临着同样情况。乔布斯曾经说过优秀的产品要简单到可以让傻瓜不用任何学习就能使用,无论小孩还是老人都能立即使用,而语音技术正是如此,在会上百度多模搜索总监雯玉就提到,例如自己女儿现在找动画片全都是通过语音搜索,你甚至不用交小孩就会,其次是像老人群体在文字输入上不习惯,更倾向所说即所得,而百度方面也在对方言的语音技术进行开发,以符合更多方言搜索的需求。
目前00与90后再语音搜索的用户请求比例中占据了50%,这说明了语音搜索真正抓住了年轻人的需求,因此,看一项技术能否掌握未来,就看其是否能够让用户更为简单的实现自己需求,简单到让孩子和老人都可以掌握,而语音技术则具备这样的优势。
二、语音技术背后的人工智能与服务,实用价值
很多媒体都将简单的将语音技术理解成为将语音翻译成文字,而事实上并非如此简单,每一句话的背后实际上都是用户的一个或者多个需求,而将语音翻译成文字只是一个环节,更重要的是要将用户的需求落地。
1)人工智能
王海峰演示了这么一个案例,他像机器问道“有没有雾霾”,随后机器就展现出对应的当前北京的雾霾图表信息,这背后就用到了几层机制,首先机器需要识别出用户的地理位置信息,其次机器再根据地理位置信息调取相关数据,再接着通过图表展现。
也就是说在这些对话中,用户无需提供“地理位置”、“当前时间”等诸多信息,人工智能可以通过各种收集来自行完成,因此语音技术并非只是一个环节,而是一个人工智能服务的系统,语音技术与人工智能的结合才是真正改变用户习惯的组合。
2)服务
用户还有一部分的搜索请求在于实际服务的需求,例如“北京到上海的机票”、“附近的餐馆”、“附近的酒店”等等信息时有着潜在购买服务的需求,而这一块又同样需要线下O2O的支撑,而百度在这方面则更加具备优势,旗下的“携程”“去哪儿”占领了旅游O2O行业的TOP1位置,而“百度糯米”、“百度外卖”则可以为用户实现真正的支付与购买,有着极大的天然优势。
因此,单单有语音技术是不够的,语音技术的关键在于对于用户整体需求的落地,,例如苹果的智能语音系统SIRI,由于不具备国内数据落地的能力,于去年与百度展开数据上的合作,使用百度的结果作为苹果SIRI的支撑。而百度在整体落地方面有着搜索引擎加O2O的双引擎支撑,因此也就比只有语音技术的公司更有“实用”价值。
三、当前语音技术的现状与趋势
微信中的“语音发送”功能说明了语音搜索市场需求的真实不虚,用户有着大量的需要缩短时间的需求,而微信该功能也在大量培养起了用户大量发送语音的习惯。此外,由于当前各种APP都提供了大量的服务,用户苦于在各种APP中频繁切换,因此语音搜索请求等同于一个中心集中器,将用户的需求全部整合到一起,成为一个中心入口。
此外,凡是使用语音搜索超过一周以上时间的用户,都会发现输入变慢,而都会在各种APP中寻找语音服务,因此语音技术需要的只是等待,等待那些习惯于键盘的输入用户一点点尝试语音服务,并实现不可逆的转化。不要忘了此前百度的统计,目前00与90后再语音搜索的用户请求比例中占据了50%,这部分年轻原因尝新的用户真正代表了未来的趋势。
语音技术在早期只是一项普通的翻译技术,而在当前的移动时代与智能手机、搜索人工智能、O2O服务的结合,不仅让其有了数据燃料,更让其有了巨大的商业价值,其更傻瓜化的人机交互体验正在源源不断的吸引着更多用户,因此在未来某天其若是彻底取代了键盘输入,并不会是一件令人惊讶的事情,正如同iphone取代功能机一样,一切都在必然之中。
此外在今年的《麻省理工评论》语音技术与生物技术、航天技术、自动驾驶技术等等并列被评选为十大突破技术中,而百度的DeepSpeech2深度语音技术是唯一一家入选的中国企业,我们值得期待更多。(来源:百度百家)