理想OTA 2.2版本发布，揭秘语音助手底层逻辑

赛博汽车

2021-09-08 07:02

理想汽车的智能座舱能力正在不断成长。

作者 | 肖莹

理想同学又进化了。

9月7日，理想发布OTA 2.2版本，此次升级的核心是理想同学。今年6月1日，理想同学正式上线，这是一款理想汽车自研的语音引擎。

相比上一版本，理想同学优化了对话自然度和语音自然度，并新增及优化关于地图、电台、媒体控制、车控车设等领域共69个功能。

除了产品成长能力比较惊喜，这次发布会更吸引人的地方在于，理想汽车详细介绍了语音助手产品优化的底层逻辑。

解决四个对话“不自由”

理想汽车智能语音部门产品经理胡含介绍，理想ONE的定位是一台服务于全家人的车，这在数据上已经得到较好的体现。

目前，理想ONE的累计行驶里程已经超过了10亿公里，积攒了非常多的用户场景。其中，多人出行场景在所有出行场景中已经占到了62%，在节假日的时候占比高达72%。

理想同学是一个服务于四音区的产品，OTA 2.1版本主要还是侧重于服务主驾驶，对于副驾和后排乘客的需求还没有得到很好的满足。而即使在这样的条件下，非主驾语音的使用占比已经超过1/4。

因此，理想同学在2.2版本的目标就是服务全家人的自由对话。相比2.1版本，2.2版本的语音助手主要通过四个功能的优化，解决了对话“不自由”的问题。

第一个功能：连续对话，第二个功能：可见即可说，第三个功能：四音区锁定，第四个功能：跨音区的上下文对话。与此同时，理想同学的语音自然度也有了较大的提升。

连续对话功能优化展示

在视频里面可以看到，用户唤醒一次“理想同学”以后，就可以很流畅的使用后面的指令，实现连续对话，胡含介绍，在这背后实际需要三个子功能来支撑：

第一个功能是连续对话：一次唤醒，20秒内可连续对话，理想同学会判断是否有后续的需求，没有需求才会退下；

第二个功能叫想说就说：此前理想同学的嘴和耳朵，不能同时开放，就像对讲机一样，听和说不能同时进行，现在理想同学更像打电话，嘴和耳朵是同时打开的，可以随时打断、随时插话；

第三个功能叫无效文本拒识：可识别出哪些指令是对理想同学说的，哪些是车内交谈或打电话，减少对用户的打扰。

可见即可说功能展示

可见即可说，就是不用记指令，看到什么说什么。这一功能的核心逻辑在于降低语音助手使用门槛，培养用户对语音助手的使用信心和使用偏好，由易到难去培养用户习惯，满足用户体验。

胡含认为，目前市面的一些语音产品有些大跃进，提供特别多看似很高级的功能，但用户掌握起来特别难，有点类似于PC端的快捷键指令。

需要注意到一个问题就是，一旦用户对一个功能的使用产生挫败感，后续再怎么升级，用户都会排斥。

可见即可说则像用鼠标的左键点击一样，属于特别直接和自然的交互形式，它不是最高效的，也不是最高级的，但它一定是最稳定的底层交互形式。

他进一步介绍称，要给用户持续的稳定的体验，就要能够实现全系统支持，障碍点在于第三方应用的支持。

自研产品只要有就足够的时间就可以实现，但是第三方应用能否跟的上，则考验的是车企的理念和市场号召力。

在理想ONE上，已上线的第一批应用，包括QQ音乐、喜马拉雅都可以完全支持可见即可说能力。

他认为，在实现全系统支持上，理想汽车已经迈出了最难的一步，现在已经没有工程上的困难，只剩下时间的问题。

另外，稳定的交互形式，也应该是不被网络束缚的。为了实现这一目标，理想汽车专门做了一套叫做语音识别基于边缘计算的本地识别模型，这套模型完全服务于本地的可见即可说，支持纯离线状态，响应速度非常快。

四音区功能优化展示

2.2版本在四音区功能上做了一些优化。一个能力是可以实现四个音区同时讲话，但互相不干扰，另一个能力是可以随时关闭其他音区。

这次优化主要是满足两个场景。前者可以满足车舱内成员的任意交流，不会因为一人发起语音助手而干扰其他人对话；后者则是为了防止孩子对于语音助手发起争夺，影响驾驶员的指令发起。

跨音区上下文对话功能展示

跨音区上下文对话是理想同学比较大的突破，这个功能实现，用户与语音助手交流起来可以更加轻松。

例如，有关空调、座椅、车窗场景化的上下文控制。一次调节不满意，可以说再大点/小点/冷点/热点，温度调到XX度，风量调到XX档等；自己调好后，可以说“后排也要”“副驾也是”一键同步到其他座椅位置；其他座椅位置的乘客，也可以唤醒理想同学后，说“我也要”。

目前，这一功能可支持新增音量、屏幕亮度、后备箱开启高度、充电上限、氛围灯亮度场景化上下文控制，支持不同程度控制连续的说法，如调大XX/调到XX百分比/最大/小一点等。

一个有感情的语音助手

通过以上四点的改进，理想同学实现了对话自然度的提升。在这个基础之上，理想同学语音的自然度也有了非常大的提升，这得益于理想汽车联合微软推出的基于云端的神经网络深度学习在线语音合成引擎。

胡含介绍到，语音自然度的满分是5分，正常人说话是4.7、4.8分的水平，播音员可以达到4.9分，目前，理想同学的声音自然度已经达到4.49分，此前的产品水平在4-4.1之间。

在和微软的合作中，微软会提供一套的在线的合成引擎，理想汽车主要负责的部分是基于车的使用场景进行深度的定制和落地。

因为是在线合成，所以要考虑网络的稳定。如果不够稳定，声音时好时坏，用户体验就会非常差，还不如一直都是不好的声音状态。

为了解决这个问题，理想汽车语音团队考虑了两个策略，一个是在线合成兼顾到速度的效果，另一个是多极缓存的策略，把一些用户常用的语音或者是已经用过的语音进行本地存储。

胡含表示，微软是一家平台型的公司，提供的是一套所有人通用的引擎系统，里面涉及到非常多的精细参数。就像底盘一样，不同企业调教出来的产品，也会有差异。

理想针对微软的声音进行了非常多细节的调教，跟用户一起打磨声音，现在调教出来的声音，听上更加自然，几乎没有其他语音产品的那种机械感。

另外值得一提的是，理想汽车推出了基于车载应用生态的应用中心，这意味着，理想汽车的车载应用接入规模要进一步提速。

理想汽车对于应用接入有一定的标准和要求，不是简单的把手机App改造成车载App，而是通过一系列标准，和第三方公司共同定制专属理想汽车的车载App。

具体来看，理想汽车的车载应用已经形成了六个标准：

第一个标准是统一的交互方式，不论任何软件都符合理想汽车的交互逻辑，降低用户的使用难度；

第二要达到理想水准的设计语言，整体的图形和字体要保证美观度，不能存在一些拉伸变形的问题；

第三要与系统做深度融合，保证用户使用的流畅度和便捷性；

第四要保留不同App的独有的设计特色，例如采用不同应用的品牌色、Logo进行UI界面的设计；

第五要全方面支持语音控制，目前已经解决工程开发的困难，后续将有更多的软件支持全方位语音控制；

第六保障驾驶安全的管理，这是底线原则。

智能座舱能力稳步提升

在发布会结束后，我们对理想同学2.2版本进行了体验。整体感受来看，理想同学的四音区应答能力非常好，连续对话、可见可说，以及跨音区的上下文对话能力都已经能做到。

相比之下，理想同学在语义的识别能力上还有成长空间。举例来看，在测试可见可说能力的时候，我们随机打开歌单，而对于歌曲的具体选择，则需要我们完整的叫出歌曲名称才能播放；对于“我饿了”的指令，理想同学能够直接帮忙导航餐厅位置，但无法继续识别“没有喜欢的”这一指令。

但总体来看，理想同学的成长速度已经比较惊艳，对话的自然度和流畅度要优于绝大多数车载语音产品，可以感受到，理想汽车的智能座舱能力正在不断成长。

-END-

查看原图 78K