懂人性的语音融合交互来了 这个AliOS新科技我是佩服的
基于汽车驾驶安全所需的专注度和便捷性,语音交互正成为驾驶过程中最适用的交互方式,这已经是业界共识。目前,AliOS在语音的分区识别、分人识别、方言识别、简化唤醒词、语义理解等方面都日趋成熟。而未来的车载语音交互的发展绝不仅限于上述内容。未来的语音交互应该是什么样子?会带给用户什么样的惊喜?又会给互联网汽车行业带来怎样的革新?AliOS多模态交互负责人王恺给出了答案。
自从车子有了导航以后,大家就很少记地址、路线了,更别提沿途有哪些大楼、商场、餐厅、学校、展览馆。所以,很多车主会开车,但不认路。所以经常会出现以下的场景:
下班的高架路上,左前方有座高楼大屏正在播放《超人总动员2》电影预告片,这时激发了你想看电影的欲望。如果按照现有的导航功能,你得中断当前回家的导航,查找附近电影院,从而大致判断这座大楼叫什么,再导航过去。
而AliOS的这项新科技,只需要你看着那幢楼说:“我想去左前方那幢楼看电影”,导航就立即准确定位到那幢楼,并帮你预定好《超人总动员2》合适场次、座位,甚至帮你找好停车位,预定好周边餐厅。
这种交互的实现,除了语音之外,还加入了语音与视觉图形的融合。目前AliOS已经从系统底层实现这一功能,通过融合车载显示屏导航图像或未来前挡玻璃的AR导航实景图像,当你开车看到的某一地标,你都不需要知道这个地标的名字和准确方位,车子就知道你指的是哪一个地方、想去干吗、能为你提前做什么。
这种看着说的语音融合交互方式,除了导航外,也将被广泛应用于车载音乐、新闻广播、有声读物、视频浏览、车辆组队、自驾游玩等多种场景。比如你随机听歌的时候,可以直接做这些操作:“看下歌词”、““收藏”、“单曲循环”、“下一首”、“许巍其他歌”等。
而且对于一些脸盲不熟明星的人,当你看到某个画面的时候,你可以直接问:这是谁?
其实,目前市场上在做的相关车载语音交互的技术研发,更多的是让机器准确识别用户发出的指令(包括同一时间不同用户的指令),从而提供服务。但是,这个功能是单向和机械的。用户发起,机器执行。而且用户还需要学习怎么去发出指令,机器才能理解。所以,这只能称之为识别,并不算真正意义上的交互。
真正交互是什么?应该是机器理解并满足你发自本能的需求。这种理解,不单是对于某个指令自然语言的理解。应该包括某个需求相关联的前后场景、上下语义、甚至是习惯喜好的把握和判断。而且这个过程中,机器还能帮你记得你刚刚在做什么,随时等你继续。
大家都有转身忘事的经历:当被打岔或分心之后,不记得之前要做什么。比如,你想着导航回家,或调出歌单听某首歌,或叫个外卖到家。但开车过程中,往往会有很多意想不到的事情,比如突然来电话了、或边上的乘客和你说话、或前面有车子变道你要避开。这时候你就会忘了之前要干吗?哪怕好不容易想起来,也不得不重新打开应用再说一遍指令。因为目前的车载语音交互都有响应时间,超时没给出指令就退出了。
而AliOS的系统能力是从底层开始就涵盖所有这些领域,哪怕你在使用过程中被打断,没关系,系统一直在等你。回头只用一句“刚才我想干吗”、“继续导航”、“换第三首”、““就刚才那单(外卖)”就可以继续你之前未完成的操作,无论中间间隔多久,也不用重新启动。
据介绍,上述的科技能力将在几个月后正式落地应用。这也是AliOS系统与其他车载系统的不同之处,让车载交互回归本能。其背后是整个阿里巴巴集团以及其他合作伙伴的庞大业务生态和科技能力的融合共生。AliOS从诞生之日起,就拥有了同步阿里云、支付宝、高德地图、口碑、虾米音乐、优酷视频、天猫淘宝新零售等业务生态的底层系统级的语音交互能力。而这种底层系统能力还在不断开放给其他合作伙伴,让系统“本能”更具开放性、包容性、学习力和创造性。