理念念汽车直播为何公然逆行，原因是靠不住的视觉言语模子

发布日期：2024-11-30 06:13 点击次数：137

业界巨匠一致以为，成例的端到端有谋略最终只可收场L3级自动驾驶，生成式AI大模子才能收场L4。

那么，大模子技巧真真实车端落地，需要任性几许难关呢？

对大佬们的话作念阅读认知,一定要结合他发言的高下文，不然很容易以文害辞。

比喻说，特斯拉前自动驾驶部门崇拜东说念主Andrej Karpathy也曾说过，大模子的幻觉是脾性，不是颓势，大言语模子的责任机制便是作念梦，幻觉是平常兴奋。

从助力科学发现的角度来看，大模子的幻觉问题简直不是颓势。

然则，关于汽车驾驶这种高安全条目、阻挡界限相等昭彰的场景而言，幻觉问题是必须惩处的一说念难关。

定量来看，当下大模子的演叨率和L4级自动驾驶能容忍的演叨率到底有多大的差距呢？

华为在《云臆度2030》中示意，L3级自动驾驶的容错率为0.1-1%，L4级自动驾驶容错率在0.0001-0.001%之间。

跟着参数目的加大、磨真金不怕火数据范畴的升迁和新模范的引入，大模子的准确率一直在稳步升迁。

2020年问世的GPT3演叨率在40%傍边，到了2022年底，GPT3.5的演叨率依然下落到了20%，GPT4更是百丈竿头、更进一步，将演叨率缩短到了10%。

不外，饶是如斯，10%和L4级自动驾驶的容错率0.0001%依然差着5个数目级。

前段时分，理念念汽车的双系统有谋略在直播测试中公然逆行，知道了由LLM更动而来的视觉言语模子输出演叨率依然不低的现实。

理念念的视觉言语模子DriveVLM基于阿里巴巴的Qwen-VL或Meta的LLaMA2-3B更动而来。

即便在它们的基础上新增磨真金不怕火了一些驾驶场景数据，作念了RAG检索增强、AI对皆、强化学习、优化指示词等责任，准确率的升迁也终点有限。

幻觉问题的惩处任重而说念远。

前段时分，李彦宏在百度全国2024大会上示意：畴昔两年AI行业的最大变化便是大模子基本排斥了幻觉。

咱们无从预计李彦宏是不是出现了幻觉，但他这个不雅点相等值得护士。

在绝大渊博情况下，笔墨只不外是无关痛痒的抒发，主管钢铁巨兽的自动驾驶系统濒临的却是不错径直决定他东说念主人命，务必要慎之再慎！

有东说念主说，东说念主生最大的幸福便是在对的时分和环境下，和对的东说念主全部作念对的事，一朝时分变了，一切就都变了。

自动驾驶也要在对的时分、空间下，实时地作念出对的决策，实时地行驶出对的轨迹。

交通场景有顷万变，自动驾驶系统必须实时感知车辆周围环境、实时预判周围交通参与者的潜在轨迹，过程全体的统筹，即时权谋出安全、平静、高效的行驶旅途。

要保证复杂车流环境下的实时性，模子的启动频率至少要在十几赫兹。

面前，理念念汽车视觉言语模子的启动频率在3.3赫兹傍边，只可起到辅助提醒的作用，无法参与实时的轨迹权谋。

当今坊间有一个简短霸道的不雅点，理念念汽车淌若鄙人一代智驾系统中将Orin升级为英伟达下一代舱驾一体芯片Thor。

NPU从254 TOPS升迁到1000 TOPS。再加上Thor对Transformer架构的原生扶持，应该有望将DriveVLM的启动频率提高到十几赫兹。

这个宗旨终点外行人。天上云追月，地下风吹柳，更高级第的自动驾驶对模子的参数目势必有着更高的需求。

面前，理念念汽车用来收场L3级自动驾驶的视觉言语模子的参数目唯有22亿参数，这种参数范畴的大模子无法收场L4级自动驾驶。

不错拿特斯拉FSD的模子参数目作念个对比。

2022年的AI Day上，特斯拉线路了其分模块有谋略FSD的参数范畴为10亿（1B），进化到端到端有谋略之后，FSD模子的参数目势必有增无减。

特斯拉也曾示意过，从V12.4到V12.5，FSD模子参数目提高了5倍，从V12.5到志在收场L4级自动驾驶的V13，模子参数目再次提高了3倍。

作念一个合理的推算，FSD现时的模子参数目就怕得在200亿傍边，比DriveVLM的22亿参数目高了整整1个数目级。

这就意味着，除非缩短对自动驾驶才智等第的需求，行将量产的智能驾驶芯片标杆英伟达雷神芯片也无法惩处车端启动大模子的实时性艰苦。

万丈高楼幽谷起，那是因为有地基。

投入2024年下半年，原土智驾企业纷繁开启在车端自动驾驶大模子上的合手行，并非因为他们我方水平有何等强悍，而是因为头部AI企业磨真金不怕火出并开源了具备图像认知才智的多模态大模子。

智驾企业们在这些涵盖多个不同科目和子领域、具备通用多模态才智的视觉模子/视觉言语模子/视觉言语算作模子的基础上，再瞎想一些面向驾驶场景的问答，进行简短的微调磨真金不怕火，自家的视觉言语智驾大模子就胜利出炉了。

这些万亿好意思金市值的AI巨头提供了免费的午餐，也顺带着决定了基于它们更动而来的智驾视觉言语模子的性能天花板。

先说乐不雅的一面，这些大模子具备图文识别才智，可用于识别潮汐车说念、公交车说念、路牌笔墨，理念念汽车的VLM不错结合现经常分段给出使用或驶离公交车说念的提议，其才智就来自这里。

这些大模子也具备一定的场景认知才智，比如判断路面的坑洼情况，给出减慢提议。

天然，淌若自家的车型具备真实的魔毯才智，能够只需要应时转换空悬和CDC就不错了。

再说悲不雅的一面，这些面向数字全国的AI大模子并不具备真实的空间认知才智。

建立空间认知才智的裂缝在于不错同期输入车前、车后、左前、右前、左后、右后的多个录像头的图像输入，站在3D视角下进行空洞的判断，BEV前交融的价值就在这里。

反不雅视觉言语模子，固然不错步骤输入前视、后视、周视录像头汇注到的图像，但它只可像BEV出现之前的自动驾驶算法那样作念后交融，径直根绝了建立精确的空间认知才智的可能。

面前的智驾视觉言语模子只可给出车说念、加减慢这些中间层的提议，而无法输出最终的轨迹，施行原因就在这里，特斯拉和蔚来汽车死磕具备空间认知才智的全国模子的施行原因也在这里。

生成式AI爆发之后，业界对自动驾驶才智的施展速率一度变得相等乐不雅，然则，从以上分析不错看出，通过生成式AI大模子升迁自动驾驶才智，这条路依然任重说念远！

科学探索网