8月9日有消息称,小鹏汽车近期对组织架构进行了调整,技术开发部被拆成了三个部门(AI端到端、AI应用、AI能效),新的组织架构聚焦端到端模型。
小鹏汽车创始人何小鹏在微博曾公开谈到,他越来越坚信端到端+大模型的组合,可以解决L2~L4的软件架构,并真正实现智驾全球化,是真正可以到小区和所有内部道路自动驾驶的最优解决方案。而在此前举行的小鹏汽车AI智驾技术发布会上,何小鹏也公开表示,小鹏汽车是全球唯二实现端到端大模型量产落地的汽车公司,而另一家是特斯拉。
特斯拉、小鹏的自动驾驶为什么要用端到端大模型?
端到端大模型是什么
端到端学习模型旨在直接从原始输入(如图像、雷达数据)生成控制指令,绕过了传统方法中的中间表示和处理步骤。
特斯拉在2021年引入了BEV+Transformer,将多摄像头数据统一成俯视角度。2022年提出Occupancy Networks判断空间占用,规划层引入交互搜索,逐步增加约束条件(其他参与者博弈行为)做最优路径规划。2023年8月26日,特斯拉演示FSD Beta V12,是其第一个端到端AI自动驾驶系统(Full AI End-to-End)。2024年1月,特斯拉FSD v12开始正式向用户推送,将城市街道驾驶堆栈升级为端到端神经网络。
端到端神经网络
不同于市面上常见的自动驾驶方案,特斯拉FSD V12将99%的决策都交给神经网络给出,视觉输入,控制输出。而小鹏汽车也采用了类似的神经网络方案。
具体来说,小鹏汽车的自动驾驶端到端大模型主要由三个部分组成:
XNet:深度视觉感知神经网络,类似于人类的眼睛,能够以裸眼3D效果重构现实世界的3D图像,感知范围扩大了两倍,并能识别50多种目标物。
XPlanner:同样是神经网络模型,作用类似人类的小脑,通过海量数据时刻训练,使得驾驶策略不断向拟人进化,拥有“老司机般的脚法”。小鹏官方称,“前后顿挫减少50%,违停卡死减少60%,安全接管减少40%。”
XBrain:大语言模型,类似于人类的大脑,为智能驾驶系统提供了理解和学习能力,能够处理复杂场景,快速响应各种驾驶环境中的指令。在大语言模型上,小鹏汽车的XGPT大模型融合阿里通义大模型、智谱AI大模型,将深度应用在车用场景中。
小鹏端到端大模型
端到端大模型很费钱
这种端到端方案给智驾能力带来了强力提升,其背后对算力成本也带来了很大的消耗,特斯拉FSD V12的强大能力是经过海量的视频数据训练和1万个H100加持下完成的。小鹏则在AI训练上投入了35亿费用。根据小鹏汽车公布的数据,基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试,小鹏汽车端到端大模型能够做到“2天迭代一次”。
此外,麦肯锡2023年自动驾驶全球高管调查显示,软件是自动驾驶汽车最关键的技术要素,其中预测算法和感知软件被认为是最关键的,达到L4及更高级别自动驾驶所需的累计投资比2021年的估计增加了30%-100%,软件开发和验证成本是主要支出。
端到端大模型很受关注
据数字开物了解,除实现量产落地的特斯拉和小鹏汽车外,海外的Waymo Driver,国内包括理想、华为、蔚来汽车、元戎启行、商汤等也都陆续提出了各自的端到端自动驾驶方案。
如此多企业选择多端到端大模型,主要因为其在自动驾驶中优势主要有这几方面:
数据利用效率提升:直接从原始数据学习,减少人为设计特征带来的信息损失。
系统整体性能优化:端到端训练允许模型发现更优的内部表示,潜在地超越人工设计的模块化系统。
对复杂场景的适应能力:大模型具有更强的表达能力,能够处理更加复杂和多样的驾驶场景。
开发效率与迭代速度提高:简化了系统架构,减少了需要单独优化的模块数量。
《2024汽车AI大模型TOP100分析报告》认为,端到端大模型发展路径上,行业预计也会经历渐进的过程。
早期玩家致力于将算法从模块化架构平稳过渡到端到端,远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二”共同赋能自动驾驶,最终强大的通用人工智能(AGI)或许可覆盖所有驾驶能力。