毫末智行发布生成式大模型“雪湖·海若”,自动驾驶也需要GPT吗?
撰文 | 小不董
编辑 | 李信马
题图 | 毫末智行
自动驾驶也安排上“GPT”了。
4月11日,毫末智行正式官宣首个应用GPT模型和技术逻辑的自动驾驶算法模型,中文名“雪湖·海若”。
微软CEO纳德拉曾说:“深度学习在过去20年或10年取得了巨大进展,大模型将是下一个大事件。”当下国内外人工智能技术大爆发,大模型正在迅速向我们的生活中拓展延伸,相对来说,国外科技巨头的步伐更快一步,但在自动驾驶领域,毫末智行所发布的DriveGPT,却是全球首个自动驾驶生成式大模型,这在让人欣喜的同时,也不禁产生疑问:自动驾驶也需要GPT吗?DriveGPT是真的“为天下先”,还是噱头居多?
I、何为“雪湖·海若”?
海若,出自《庄子·秋水》,河伯请教北海若,何谓大小之分,北海若教导,不因天地而觉大,不因毫末而觉小。因此,毫末把DriveGPT中文名命名为“雪湖·海若”,寓意智慧包容、海纳百川。
要回答上面两个问题,首先要回答,雪湖·海若是不是“GPT”?
GPT,全称Generative Pre-trained Transformer,即生成式预训练大模型,本质上是在求解下一个词出现的概率,这是它的数学原理,每一次调用都是从概率分布中抽样并生成一个词,这样不断地循环,就能生成一连串的字符,用于各种下游任务。
其实在ChatGPT大火之前,GPT就已经用在了其他领域,比如2021年7月的CodeX,也就是CodeGPT,可以用于代码生成,提升写代码的效率,还有2021年12月发布的WebGPT,可以让GPT利用搜索引擎,主动搜索结果并汇总整理出答案,也就是近期微软发布的New Bing搜索。所以,GPT本身是一种非常通用的建模范式,能应用的领域非常之多。
DriveGPT整体的训练逻辑和使用的算法,与ChatGPT大体相似,不过由于领域不同,所以只在自己的特定条件下实行,性质不完全相同,但仍是“GPT”。
自动驾驶也需要GPT吗?
这个问题其实在数年前就有企业进行了探索。当前,全球范围内有机会冲击1亿公里级运营里程俱乐部的有两家企业:一个是特斯拉,基于百万级车主的参与,其FSD累积行驶里程将冲向1亿英里;另一个就是毫末智行。
2019年,时任特斯拉AI总负责人安德鲁·卡帕西(Andrej Karpathy)提出,特斯拉自动驾驶要像人一样开车,要在2021年取消激光雷达,并引入“大模型”对特斯拉的自动驾驶系统进行训练,同年发布了Dojo超级计算系统(Dojo是特斯拉自研的超级计算机系统,能够利用海量视频数据,完成“无人监管”的标注和训练)。
2020年,特斯拉宣布将基于深度神经网络的大模型引入其自动驾驶之中,到现在已实现了纯视觉FSD Beta的大规模公测。特斯拉FSD系统即全自动驾驶系统,包括了自动驾驶导航、自动变道、自动泊车、召唤和交通灯以及停车标志控制等功能。截止到2022AI DAY,特斯拉已在超过16万辆车上进行了FSD Beta版系统测试,仅一年内就训练了7.5万个神经网络模型。
在国内,毫末智行率先引入了Transformer的技术,之后也是最早建立自己超算中心的自动驾驶企业。2021年,毫末智行在推出数据智能体系MANA的同时,也宣布要借助大模型提升数据处理能力,从而加速HPilot智能辅助驾驶产品的进化。
今年1月5日,毫末智行举办AI DAY,在自动驾驶数据智能体系MANA(雪湖)的基础上,推出了新的智算中心MANA OASIS(雪湖·绿洲)。毫末智行董事长张凯在现场说到:“随着自动驾驶企业向3.0时代迈进,大模型+大数据的数据驱动模式,成为自动驾驶技术进化的关键,而驱动大模型和海量数据训练的超算中心将成为自动驾驶企业的入门配置。”
2、加速进入自动驾驶3.0时代
如果将自动驾驶的发展分为三个阶段,那么在自动驾驶3.0时代,DriveGPT可以说是应运而生。
1.0时代是硬件驱动的,从谷歌等科技巨头的初代无人车开始的自动驾驶1.0时代,这一阶段硬件就是自动驾驶的能力上限,特别是雷达传感器,其数量越多、性能越强,对应的自动驾驶智能化程度就越高。其明显问题就是,整车成本居高不下,改造成本动辄上百万;以及智能化程度较低,行驶里程较短,在100万公里内。
2.0时代是软件驱动的,自2016年AlphaGo战胜李世石后,掀起了一阵以深度学习为基础的AI技术潮,大幅降低了单车成本的同时,自动驾驶里程逐渐增加至上千万公里。
图片来源:IC Photo
而3.0时代是数据驱动的,AI依然是核心技术,不同就在于AI对数据的要求发生了质变,“大模型”成为新的技术基石。
工信部数据显示,2022上半年L2 级辅助驾驶乘用车新车市场渗透率达到 30%,同比增加 12.7%。中国自动驾驶在多方也取得了突破,来自2022世界智能网联汽车大会的消息显示,全国开放各级测试公路超过7000公里,实际道路测试里程超过1500万公里,自动驾驶出租车、无人巴士、自主代客泊车、干线物流以及无人配送等多场景示范应用有序开展。
技术方面呈现了一个新的趋势:不再是硬件或者软件驱动,不再是测试道路下的数据驱动,而是以真实道路行驶场景为核心的数据驱动,这便是自动驾驶3.0。
随着用户更高频地开启辅助驾驶功能,智驾行驶的行驶里程和使用频率呈现指数级提升,足够规模和多样化的数据带来数据积累的优势,可以更好驱动自动驾驶技术的快速迭代升级。生成式大模型已成为自动驾驶系统进化的关键,基于Transformer大模型训练的感知、认知算法,将逐步在车端进行落地部署。基于自动驾驶数据的大规模增长,以及大模型的深入应用,也让智算中心成为自动驾驶行业的“新基建”。
3、DriveGPT是怎样炼成的?
DriveGPT自动驾驶认知大模型也采用了RLHF(人类反馈强化技术)算法,通过不断输入真实人驾接管数据,持续优化自动驾驶决策模型,简单来说就是它会借鉴海量真实驾驶数据,从而做出自己的最优解。
不同路况、天气和变量下,自动驾驶如何应变?这就需要一个强大的模拟人类思维的模型,GPT相关的AI软件就是为此而生。
首先,把感知和认知相关大模型能力统一整合到DriveGPT——也就是自动驾驶生成式大模型中;其次,计算基础服务针对大模型训练在参数规模、稳定性和效率方面做了专项优化,并集成到OASIS当中。增加了使用NeRF技术的数据合成服务,降低Corner Case数据的获取成本;另外,毫末智行还针对多种芯片和多种车型的快速交付难题,优化了异构部署工具和车型适配工具。
自动驾驶中不可或缺的视觉感知上,其核心目的就是恢复真实世界的动静态信息和纹理分布,毫末智行对视觉自监督大模型做了一次架构升级,将预测环境的三维结构,速度场和纹理分布融合到一个训练目标里面,强迫模型练好内功,之后面对各种具体任务都能“胸有成竹”。
据现场演讲介绍,DriveGPT雪湖·海若具有三个能力:
- 可以按概率生成多个场景序列,每个场景都是一个全局的场景,都是未来有可能发生的一种实际情况。
- 能把场景中用户最关注的自车行为轨迹量化,也就是生成场景的同时,便会产生自车未来的轨迹信息。
- DriveGPT雪湖·海若也很好地继承了这种特性,在生成场景序列、轨迹的同时,也会把整个决策逻辑链给输出。
DriveGPT雪湖·海若的一个关键设计,就是场景的Token化表达,毫末智行把这种方式叫做Drive Language。
目前毫末智行Token的词表空间是50万个左右,DriveGPT雪湖·海若就像一部推理机器,你告诉它过去发生了什么,它按概率推理出未来多个可能。通过对于不同场景“优胜劣汰”,DriveGPT最后把参数更新到一个备份模型(Active Model)中,通过强化学习的方式,生成的效果就会有一个明显地提升。
图片来源:毫末智行
相比特斯拉FSD的百万+量产车下线,中国企业与之的距离相去甚远。要突破自动驾驶的长尾效应,就要不断扩大道路行驶场景。毫末智行CEO顾维灏在现场说到:“DriveGPT雪湖·海若可以逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。有了DriveGPT的加持,车辆行驶会更安全;动作更人性、更丝滑,并有合理的逻辑告诉驾驶者,车辆为何选择这样的决策动作。对于普通用户来说,车辆越来越像老司机。”
4、大考之年,枕戈待旦
2022年,中国市场乘用车高级别辅助驾驶前装搭载率升至29.40%,前装标配交付585.99万辆。毫末智行曾在去年预估,到2025年高级别辅助驾驶搭载率超过70%。这意味着从今年开始,智驾产品进入一个快速增长的全线爆发期。
这也说明,城市导航辅助驾驶产品在2023年将围绕量产交付发力,几个主要玩家的城市导航辅助驾驶产品将会进入到真实用户交付和多城市并行落地的比拼中。其次,行泊一体和无人车的商业化将成为自动驾驶公司深耕的重点。搭载低成本行泊一体功能的智驾产品将迎来一个前装量产的高潮,高速导航辅助驾驶、自主泊车等产品的体验也会迎来全面升级,车主的使用频率和满意度将成为产品竞争力的主要衡量标准。
在这些趋势之下,毫末智行迎来了它的冲刺大考之年。
图片来源:毫末智行
据了解,毫末智行DriveGPT雪湖·海若大模型的成果将首发落地在搭载毫末智行HPilot3.0的新摩卡DHT-PHEV上,此款车型上市后,我们就能看到,DriveGPT是否真的能提供优秀的驾驶体验。
图片来源:毫末智行
“很多人问我,为什么毫末智行要探讨雪湖·海若?背后是毫末智行踏踏实实的在做技术,踏踏实实的实现未来。毫末智行成立到现在接近三年半时间。这三年多时间,很多事物都发生了变化,但是毫末智行对技术的坚定投入始终未变。我们始终热爱技术,枕戈待旦,全力冲刺。再难,我们都不会放弃。”顾维灏总结道。