凌晨的公路上空无一人，我的车却不停地自动刹停……--心头鹿撞网

智驾发展到今天，凌晨路上最难的公地自动刹不是教车辆怎么开走，而是空无教车辆怎么停下。

你坐在一辆智驾接管顺畅行驶的不停车辆里，眼前路况开阔、凌晨路上阳光明媚，公地自动刹中控屏上的空无蓝线平稳延伸。突然，不停毫无征兆地，凌晨路上车辆狠狠来了一脚“死亡急刹”，公地自动刹安全带瞬间勒紧，空无后排手机飞向挡风玻璃，不停而窗外，凌晨路上空无一物。公地自动刹

这正是空无无数车主正在经历的、被评为智驾应用中最灵异的场景：“幽灵刹车”。

过去几年，智驾技术从堆砌代码规则，进化到模拟人类直觉的“端到端”，甚至开始构建“世界模型”。但这些轰轰烈烈的技术演进，似乎都被困在了那个最微小的瞬间：车辆到底什么时候踩下刹车，最合适？

而无数个这样难以判断的微妙瞬间背后的，不仅仅是技术的难题，更是信任的难题，一边是渴望行驶里程数指数增长的车企，一边是因为微小失误就彻底取关的用户，当一个新技术的发展关乎到用户安全的时候，技术和信任如何平衡？

“幽灵刹车”的幽灵从哪来？

智驾变成“智障”往往是从不会刹车开始的。

就拿我第一次体验 robotaxi 的经验来看吧：大概三年前，我第一次体验国内大厂的一个 robotaxi，就在我们绕完了一圈之后，在车辆归位的时候，路边出现了一位行人，其实这个行人距离车辆的距离还是很远的，但是车辆忽然点了个急刹车，刹车程度之猛导致坐在后排录像的我直接把手机甩飞了。

这种现象被称为“幽灵刹车”，这个像是智驾患上的“被害妄想症”也是 X、Reddit、小红书等国内外论坛上对智能驾驶抱怨最多的情况。

国内一位智能车车主就对我抱怨，在高速换道的时候，有一辆车从右侧擦过，等到这辆车已经超过自己的车几秒钟了，自己的车才反应过来刹车。这种变道犹豫导致的刹车失误 FSD 也经常出现，一位在 Reddit 上专门测评特斯拉 FSD 的博主就曾发帖抱怨，FSD 在转向的时候，转向灯闪了半天还是犹犹豫豫不赶紧并道，等到后车不耐烦超车的时候才变道，非常危险。

有人抱怨 FSD 面对停车标志时，不知道应该在什么距离停下最合适，经常远远刹停然后一步步往前挪，显得极其“智障”，还有人指出在黄昏、凌晨这种视线昏暗的时刻，FSD 经常“幽灵刹车”甚至直接退出接管……

结合 Waymo 安全报告、NHTSA 数据汇总及第三方保险机构 ConsumerShield 分析，智驾目前事故率最高的三个场景：复杂路口变道失败、幽灵刹车以及鬼探头等突发物件处理失败，其实归根结底，都是不知道什么时候能刹车导致的。

为什么教给一辆车什么时候刹车，甚至比教它跑起来还要难？这并非算力不够，而是因为刹车这个动作，本质上不是机械执行，而是一场关于“预判”的赌局。

人类司机和赛博司机最根本的区别是人类可以很轻易的判断意图。

人类看到路边行人低头看手机，会预判他大概率不会动；看到有人眼神游移、脚步虚浮，会预判他可能醉酒冲出。但智驾系统大多只能基于物体的运动的速度、方向来计算，等到行人真的冲出来有了横向速度，它才开始计算物理碰撞概率，这中间的“计算延迟”加上机械执行时间，往往就导致了那种“事故已经快发生了才重刹”的滞后感。

但是这对机械司机来说十分困难，在工程师的逻辑里，智驾系统每时每刻都在做一道残酷的选择题——是“错杀”，还是“错放”？

如果为了绝对安全，把雷达和视觉的敏感度拉满，那么路边随风飘起的一个塑料袋、井盖上的一抹积水反光，甚至前方卡车排气管喷出的一团黑烟，在系统的“眼中”都可能被渲染成一块坚硬的巨石。为了保命，它只能不管不顾地一脚跺死——这就是“幽灵刹车”的由来。

极端相反的是，如果为了舒适性和通行效率，降低了感知的敏感度，过滤掉那些看似“杂波”的信号，那么当一辆静止的白色货车横在路中间，或者一个穿着深色衣服的行人在夜色中鬼探头时，系统可能会“自信”地认为前方无障碍，最终酿成惨剧。

人类司机拥有基于常识的“物理直觉”，我们一眼就能分辨出飘舞的报纸撞上去也无妨，但机器没有这种常识，在它们的世界里，那只是一堆占据了空间体素的、未知的“障碍物”。

是谁出的题这么的难？到处找不到正确答案

智驾为了培养机器的“物理直觉”尝试过很多路径。

最初，传统智驾研究的方案把开车分成了三个步骤：感知、规划、决策。信息像接力棒一样在这些盒子之间传递——感知层说：前方10米有一个障碍物，置信度80%。

预测层说：这东西好像不带动的。

决策层查阅了程序员写下的第502条规则：如果前方有障碍物且静止，立即刹车。

控制层执行命令：一脚跺死。

但是在规控这个环节总是会遇到一个问题：很多事情没有最优解。

举个例子，车辆现在需要右转，但是右侧有行人在走路，这个行人距离车辆还有一定距离，如果是人类司机在教新手，这个时候一脚油门过去也可以、原地等待行人也可以，这种“都可以按情况决定”对人类来说是非常简单的，但是对机器学习来说就复杂了。因为这会衍生出下一个问题：哪种情况要加速过去，那种情况要原地等待。

传统规控做的事情就是干这个“具体问题具体分析”的活，把遇到的 corner case（特殊场景下的极端情况）人工标注出来告诉机器应该怎么办。这就会引起另外两个问题：1. corner case 穷尽不了怎么办？2. 代码太多了，需要的人力也太多了怎么办。

“幽灵刹车”这种现象在传统研究方法之下很容易产生，因为总会出现“这个 case 我没处理过，所以不知道怎么做最好”这种情况。

一项遵循“第一原则”的马斯克推翻了传统的研发路径，提出另一个解决方案：如果我能直接让机器像人一样思考，而不是再用人工标注要教他每一个 corner case 应该怎么处理，才能真正实现智驾的初衷。

于是乎，在 2023 年的夏天，马斯克在加州的帕洛阿尔托进行了一场画质并不清晰的 FSD 直播，但真正震撼业界的不是画质，而是他说出的那句话：“FSD v12 没有任何一行代码是用来告诉车什么是红灯、什么是路口。我们删掉了超过 30 万行 C++控制代码。”

至此，端到端逐渐成为了实现智驾的主流方案。

推出端到端后，FSD 团队规控部门整体裁撤，原负责人离职剩下的人转岗去做数据清洗和场景挖掘。团队从感知、规控、地图、测试四条老线全部打散，合并成“单模型 + 数据工程 + 云端训练”三块。

到了 2024 年，端到端逐渐成为圈内共识，华为、小鹏、理想、百度等智驾研发团队调整相继开始，小鹏撤销原感知、规控、地图三部，新设“AI 模型开发、AI 应用、AI 效能”三大板块；ADS 3.0 组织架构 2024-05 完成整合，感知/规控/地图并入“端到端架构部”，余承东直管；百度现在是双线并行一部分人在传统算法团队，另外成立 ADFM 团队，把原团队感知人员移过去一部分也做了扩充招聘。

所谓的“端到端”，就是不再把驾驶拆解为“感知、决策、控制”，而是把这所有环节融合成一个巨大的神经网络。输入端是摄像头拍到的原始视频流，输出端直接就是方向盘的角度和油门刹车的力度。中间发生了什么？不再有程序员写好的“红灯停绿灯行”的代码，而是一个包含了数十亿参数的黑盒子在疯狂运算。

这就像是从“背交规”进化到了“练车感”。这种技术变革带来的最大优势，就是对模糊场景的泛化能力。

然而，端到端提出已经两年的时间，智驾为什么还在出现“幽灵刹车”这种“智障”的瞬间——因为端到端虽然解决了“直觉”问题，却带来了两个新的、更可怕的缺陷：不可解释性与逻辑推理的缺失。

所有的大模型都有其不可解释性，就像我们永远解释不了为什么当你让 Gemini 给你把表格的颜色改一改，结果对方反馈给你一个狗头图片；或者你让 ChatGPT 在网页信息里提取数据内容做成表格，它反馈给你满满两网页的代码……

在 ChatBot 产品中，这种不可解释性会被当成一个“智障瞬间”的笑话，但在智驾场景里，这种不可解释性可能会造成重大事故。

因此，在端到端之上，衍生出了一些范式。比如，VLA——Vision-Language-Action（视觉-语言-动作）模型。

如果把端到端训练出来的机器比作赛车手，VLA 的意义就是让这个赛车更好地适应日常的交通规则。可以简单的把“VA”理解成端到端，“L”理解成大语言模型，那么就很好理解，VLA 就是给自动驾驶装上一个“语言中枢”。它不仅看路，还能“读懂”路。它能理解交通标志上的文字含义，能理解交警手势背后的社会契约。当 VLA 介入时，车不再是凭直觉开，而是能进行内心独白：“我看到了警车在闪灯，虽然是绿灯，但我应该让行，因为法律规定警车优先。”这补足了端到端最缺乏的逻辑链条。

今年，随着“物理 AI”的概念越来越火，世界模型的概念开始被多次提及。因为大家发现，当模型参数大到一定程度，它不仅能生成像素，还能涌现出对物理规律的理解。比如 Sora 生成的视频中，液体流动的重力感、物体遮挡的透视关系，不再需要人工写物理公式渲染，而是模型自己“悟”出来的。

世界模型也被应用到智驾研发上，来解决“端到端”的幻觉问题，世界模型可以充当一个“裁判”。在车做出动作之前，世界模型先在虚拟空间里推演一下：“如果我这么做，未来五秒会发生什么？”从而验证端到端的决策是否安全。

身为人类司机，我应该怎么做

一位的用户在 Reddit 上写道：“我有 99%的时间都觉得 FSD 像个神，但在那 1%的时间里，它试图在高速公路的匝道口把全家带进水泥隔离墩。那一刻，我老婆在尖叫，孩子吓哭了。虽然我接管回来了，没有发生事故，但那天晚上我就取消了 FSD 订阅。我无法承担那 1%的代价。”

这种情况屡见不鲜，很多订阅 FSD 和尝试智驾的司机都会跟我反馈，有一次智驾抽风从高架桥下来之后差点撞上路边的墩子、或者是莫名其妙开进坑里，当下立刻决定取关。

司机们对智驾的态度都是“一次不行，百次不用”，容错率几乎为零。

因此我们看到智驾市场上一个反直觉的现象：一边是车企鼓吹智驾是人类司机安全性的几倍，另一边是因为一件小事从此不再使用智驾的用户。

这中间缺失的是智驾时代没有填补的用户教育。

从产品本身而言，充分交互的设计，是必要的。在每一个需要决策的场景都用语音和图片的交互方式告诉司机，机器接下来决定怎么做，这是为了两件事情：1. 和司机充分沟通，让司机理解机器的意图，判断是否应该接管；2. 避免司机因为信息差，对机器产生过分的信任或者不信任，错过最佳接管时机或者在机器可以处理的时候提前接管，影响智驾体验。

所以我们看到车企在人机交互方面的不停尝试，包括 HUD 显示、理想推出 AI 眼镜，这都是在扩展机器和用户交互的场景，进行充分沟通。

从营销来看，车企应该做两件事：其一是在销售环节给用户智驾功能的充分展示。实际上，马斯克在近期的采访中已经透露道，特斯拉准备让所有销售强制给意向用户展示 FSD 的功能，因为很多订阅客户在不够了解的情况下不经常使用 FSD，或者很多人干脆不订阅，让马斯克非常苦恼。

智驾展示，是必要的，但不应该是市场式营销，应该是销售式科普。我和十几个各个品牌的电车车主聊了聊，发现他们在购车环节当中被科普智驾使用方式的人数为零。其中一个车主跟我说：电车销售分前端销售和后端交付，前端销售会通过各种折扣、金融优惠催促下单，后端交付的任务就是希望你尽快提车，这样车企的营收可以计提在当月，不然你的车就会变成存货了。这样的销售链路下，就没有人有耐心去讲解智驾的使用方式，更别说提醒智驾的边界和风险性了。

开了三年电车的 Vivian（化名）就说：我觉得智驾展示不应该只停留在销售口头的科普，应该做成说明书手册，甚至随着智驾技术的提升应该推广专门的智驾驾驶证。

而作为消费者，我们能做的就是，养成对智驾的理性认知，如果对智驾功能感兴趣，在销售环节更多询问智驾的边界和交互的模式：什么场景我必须介入？什么场景是最方便安全的？什么提示的情况下我必须接管？通过不断地提问和试驾去了解技术真实的边界。也通过提问，来推动企业进行销售培训。

任何技术的发展都需要用户的支持和耐心，不同的是，和手机、耳机、眼镜这些消费级电子产品不同，智驾边界探索的代价很可能是人类的生命，作为用户，谨慎入场、理性判断才是我们能做的事。

作者：沙拉酱

编辑：卧虫

封面图来源： Giphy

Guokr