百度李涛:汽车智能化和大模型浪潮重叠是历史必然

09-30 8阅读 0评论

版权声明:本文版权为网易汽车所有,转载请注明出处。

网易汽车9月29日报道    9月29日,全球智能汽车产业大会(GIV2024)在合肥召开。会议围绕 “人工智能时代的智能汽车发展” 主题,共同探讨人工智能加速迭代下,我国智能汽车高质量发展的路径。

当天,百度智舱业务部总经理李涛发表演讲。他表示,汽车智能化的大浪潮和大模型浪潮重叠是历史的必然,如果要实现AI汽车终极感知形态,就需要用到强大的逻辑推理、记忆、生成等能力,而这些能力恰是大模型最擅长的领域。“在这样的时代背景下,我们把百度的智能座舱做了整体品牌升级,我们升级为Apollo超级座舱。升级为超级座舱的主要原因是我们推出了新系列新产品:智能体产品。我们的驾驶主张是它具有全感融合、全局规划和全域执行能力,能给用户带来舒适、安全、好玩、环保的全新体验。”

在全局感知之下,百度要构建整体智能化场景,通过深度洞悉需求、专家模型,借助端云融合的一体化架构,做端到端的事,云做云的事,端上解决性能和隐私合规问题,云上提供超级智能,做复杂场景和任务的推理与计算,进而下发到车端,驱动整个声像味触感全方位体验。“这不单可以给用户带来提升,另外也可以大大降低主机厂在在场景化定制方面的持续投入。”

李涛透露到,萝卜快跑第六代无人车即将搭载百度的超级座舱智能体,“在这台车上大家可以看到整个在大模型驱动下的自动化迎宾、自动化车控,对不同人群的照顾和关照的全新体验。”

百度李涛:汽车智能化和大模型浪潮重叠是历史必然百度智舱业务部总经理 李涛

以下是演讲实录:

各位领导、各位来宾,大家上午好,很高兴有机会来到合肥跟大家一起分享我们在大模型上车过程中的一些思考和实践。

今天前续的演讲非常精彩,张主任从战略宏观给我们指出了方向;曹老师把座舱体验用可量化的方法表达出来,并通过函数进行优化,这个方法在过去主要应用在机器学习、深度学习训练里用到;唐总从主机厂的角度整体讲了系统的提升智能化。

今天我更多是从智能座舱供应商的角度看『基于大模型技术对智能座舱的正向设计』。过去我们说很多功能是直接接入到座舱里的,比如,有可能接入一个聊天,接入一个画图,但把这些能力并不是基于座舱内用户的需求所设计的,直接塞到座舱里真的是好的方式吗?我觉得不是,不管是过去的计算机语言、还是云计算,都是从新技术起点出发,从Thinking In Cloud到Thinking In AI才产生更多所谓新时代的应用。

接下来我与大家一起分享一下对于智能座舱这些年的发展的思考。语音交互是智能座舱里使用频率最高的应用,它替代了最早的机械按键,帮助人做Hands Free的交互,今年出厂的新车里70%都搭载了语音交互功能。

从最早在传统的汽车上通过物理按键进行交互,之后到数字虚拟的触屏,再往后通过固定化的语指令音,说A就是A,说B就是B的指令,这样机械化的执行。随着AI技术、自然语言理解的进步,今天我们能够泛化的理解用户更加自然口语化的表达。这个过程中人们对座舱的使用频次从最早每天3-5次的个位数到今天不仅飙到两位数,在一些语音交互技术领先的车型上甚至已经达到了接近三位数。

最近我们也在思考语音交互次数是不是越多越好?其实不一定,首先,如果一个功能频繁被用户使用,一方面可以说明这个功能非常实用,用户对它产生了依赖;另一方面也有可能是因为我们整体车辆设计的智能化程度比较低,系统无法深度的理解用户当前所需,用户只能不停发原子化的操作指令才,系统才能按照指令一步一步的完成他的需求。比如要把车内温度调整到舒适的状态,要告诉它打开空调,调节温度,调整风向,这样这个动作才能完成。

今天我们看到很多座舱设计是把Pad安到了车上,然后把移动APP直接迁移到车机上去。现在行业里统计单台车上搭载APP最多的有189个。大家可以想象一下,在驾驶过程中需要从189个APP里翻你想要的应用是多么困难,一方面这会占用宝贵的车机算力及内存资源,更重要的是造成用户在驾驶体验过程中的心智和认知负担,甚至造成事故风险。

根据帕累托定律,软件的使用也符合二八原则,80%甚至更高比例的应用其实不会被使用到,这不但会造成应用端资源的浪费,为了把这些应该搬上车主机厂还需要大量投入,无形中造成了整个社会财富的浪费。今天还是要靠我们不停发出指令调动车辆的能力,那未来我们是不是可以做得更加智能一点,让车能主动感知用户的需求;最早整个座舱里围绕的是舱内感知和操作,现在“舱-驾-云-图”的趋势变得非常明显,我们明显感受到舱里用的摄像头、毫米波雷达传感器同样可以赋能到智舱提升用户的体验。

张主任讲的AI汽车的概念我非常认同,我们也觉得未来需要一个能够知道用户上下文、了解你此时此刻所想所需,并且自动生成全局化执行方案的新时代座舱,这也是智能座舱整体的演进的一个终极方向。

汽车智能化、大模型两大浪潮的碰撞和融合具备历史必然性,AI汽车这样座舱智能终极形态的实现,有赖于强大的理解、记忆、逻辑和生成能力,这恰恰是大模型最擅长的领域。Apollo超级座舱在两大浪潮的交融之处应运而生,具有全感融合、全局规划和全域执行能力,能给用户带来舒适、安全、好玩、环保的全新体验。这个车端智能体由三个部分组成:

1、全方位的感知融合。

感知融合分为三个维度:人、车、世界。

首先是感知『人』,AI定义汽车,高阶认知最终体现为对于用户的个性化服务,而识『人』是个性化的起点,如果我们整个智能终端设备连识人都做不到,那就谈不上所谓个性化的服务了。

我们讲第一步对『人』的感知,是对于一台车辆而言,除了车主本人,他的朋友、家人、同事也都会或多或少的参与到与车辆的互动之中。我们设想一个场景,同样的风量和温度,对于男性和女性,大家的感受有很大不同,再代入一下,如果一位老人在车上,由于对科技产品的陌生感和畏惧感,以及我们父母这一辈含蓄的交流风格,他很难把车上的不良体验直接表达出来。还有小孩,假使年轻父母带小婴儿出行,小婴儿并不会表达需求,如果小婴儿在后座安全座椅上睡着了,很可能会着凉。因此,一个自动化的、能够感知舱内人员状态,并且自动提供个性化、场景化辅助服务的智能体就呼之欲出。

再来看车辆本身,我们想象一下,在东部沿海和西部高海拔地区,在沙漠、在草原、在森林,在这些不同的地域、经纬度、地形地貌之下,对于车辆本身,不管是能源、驾驶状态还是舱内调节都完全不一样,我们不太可能寄希望于每个人都成为车辆专家,读懂几百页车辆使用说明书并且及时使用。现在也有一些新的功能,包括我们使用大模型和RAG的技术,通过问答给用户提供信息,但我们觉得还是不够,用户需要的是我们通过场景化理解,帮助用户驱动整个车辆,达成能源状态、物理设施感知的动态调节。

另外,现阶段我们在车上搭载的大量应用需要人通过语音或者手指触发,更进一步的是通过所见即所说的能力,对当前界面语意化的进行语音表达,比如确定、取消、返回、下一步,但这样其实还远远不够。今天的大模型时代,我们有机会对应用本身整体的工作路径做全面的感知和理解,当用户发出一条指令“今天会议后去一家徽菜馆”,系统可以帮助计算出相应的抵达时间,并调动所有相关应用,包括帮你把停车、订座等,从而形成一个可以深度理解用户需求和应用功能,并全局化的把他们很好的匹配起来满足用户需求的车端智能体。

车辆是在开放世界中行驶的,开放世界非常复杂,但人的能力有天然的局限性,比如人只有一双眼睛,我们能同时感知到的信息非常有限,所以会出现比较多的遗憾和事故,比如所谓“开门杀”、“倒车杀”,还有一些盲区,很多时候都是因为看不见、来不及而引发的事故,现在我们把舱驾传感器融合,使用户可以获得超出视野范围的及时提醒。比如,最新上线的百度地图V20版本中的『大车靠近提醒』功能就非常的实用,可以避免很多因驾驶员观察不周情况下贸然操作造成的恶性事故。

车辆在行驶过程中能够感知的范围是比较有限的,基本就是在我们的视距范围,如果大家感兴趣,看看自己的车,基本在你的直行方向上只能看到前面第一辆车,后面的车都遮挡了。今年是极端天气频发的一年,造成了很多事故,给车主造成了非常严重的生命财产损失。其实我们也在思考和探讨,在自然灾害发生的那一刹那,到辆车出事故之前,这段时间是否有一个科技手段能够帮助车主打开一面生命之窗?今天看来这个事情完全可能,现在整个高速上的信息监控、边坡监控信息可以通过车路云的协同一体化得到感知和提醒,过去的提示信息非常弱,今天我们可以联动舱内的座椅、安全带、声像能力做全面提醒,预警前面危险、建议靠边停车或者选择绕行。

在全局的感知之下,我们要构建整体智能化场景,决策是非常重要的一个环节,我们基于文心大模型实现智能化场景构建和理解,利用我们的专家模型和端云融合,实现端做端的事,云做云的事,端上解决性能和隐私合规问题,云上提供超级智能,做我们复杂场景和任务的推理与计算,之后再下发到车端,驱动整个声、像、味、触、感全方位的执行,这不仅可以给用户带来体验提升,还可以大幅降低主机厂在在场景化定制方面的持续投入。

在全域执行方面,除了前面提到的诸多场景之外,我还要推荐一下我们由大模型驱动到头发丝的超拟真数字人,大家可以下载『文小言』APP体验这样的数字人是怎样被驱动的,包括口形、面容、头发和衣着,有这样的一个智能体在我们整个驾乘过程中提供全程陪伴和服务,将是一个非常好的体验。全域的执行离不开开放的电子电信架构和客户的深度协同,这样才能做出一体化整合、正向设计的效果,所以也需要OEM同仁们的大力支持。

接下来看一下车辆在使用了超级座舱、大模型和智能体之后可以带来什么样的体验。

(视频)

除了刚才所说的诸多智能化产品之外,我们在极越07上全新搭载了升级后的百度智能语音,通过图像&语音双模识别技术,可以在车速90km/h开窗场景下仍具备很高的识别率,甚至可以高于很多车型在关窗静态场景下的识别准确率,这就是大模型和多模融合的力量。

我们百度Apollo合作伙伴的车型,别克GL8全新陆尊PHEV也即将搭载Apollo的智舱大模型。

最后,给大家做一个小小的预告,很快『萝卜快跑第六代无人车』也即将搭载我们的超级座舱智能体,在这台车上大家可以看到整个在大模型驱动下的自动化迎宾、自动化车控,对不同人群的照顾和关照的全新体验,欢迎大家有机会到武汉“打无人车,逛大武汉,快乐加倍”。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,8人围观)

还没有评论,来说两句吧...

目录[+]