界面新闻记者 | 周末 伍洋宇
界面新闻编辑 | 文姝琪
小马智行在2020年开始第一次技术转型。从模拟学习到强化学习,Robotaxi开始在“世界模型”的虚拟环境中自我演化,丢掉了模仿人类司机的包袱。支撑这一演化的虚拟训练环境,小马智行称之为“PonyWorld世界模型”。
世界模型由图灵奖得主杨立昆(Yann LeCun)推向AI届主流,本质上是一个动态的预测系统:给定当前环境的状态,对其施加特定动作后,模型能够推演出系统在下一时刻的演化结果。过去两年,世界模型在自动驾驶领域被快速采纳,并逐步延伸至具身智能领域。
但世界模型能否真正发挥作用,取决于一个关键变量:虚拟环境跟真实世界的接近性。小马智行CTO楼天城把这叫做“精度”。过去几年,提升世界模型的精度一直是小马智行最核心的工作,但它依赖工程师去发现问题、判断方向。
艰难探索两年后,小马智行的自动驾驶能力摸到了此前模仿学习的上限,逐渐向“比人更好”的标准靠近。但下一个问题随即出现:人不再能分辨车开得好坏了。
就像楼天城钟爱的AlphaGo故事——著名的“第37手”。与李在石对决的第二局中,专业解说员看到AlphaGo祭出的第37手差点摔下椅子,他们以为是电脑操作员的操作失误。一百步之后证明,那颗棋子正落在决定整盘棋局的位置。
楼天城说,当Robotaxi已经开得比人更好,他们也“看不懂了”;工程师给出的改进建议“已经不是效率的问题,是正负的差别”。4月10日发布的PonyWorld世界模型2.0,试图把这个判断权交还给AI自己:让AI发现自己哪里不够好,反过来告诉工程师需要补什么数据、改什么方向。
“看不懂”不会只是小马智行一家的问题。在“世界模型+强化学习”成为行业默识的技术方案之后,楼天城认为,提升世界模型与真实世界接近的“精度”是下一步竞争的核心,而让AI审视AI,天花板才能继续往上抬。
但自动驾驶的物理AI不像互联网时代的故事。直到今天,楼天城还在反问我们,“你们会接受我们的车是被强化学习训练的吗?”它还取决于无人驾驶出租车公司们能否说服大众体验并“相信”——相信自动驾驶的安全,相信无人驾驶出租车比人开得更好,以及,相信AI能带领AI驾驶走得更远。
而要让更多人坐上车、建立信任,前提是规模。2026年被小马智行视为一个“拐点”。在广深两座城市实现单车盈利后,小马智行试图通过轻资产模式快速扩充车队规模和运营范围。楼天城说,Robotaxi商业化的下半场已至,但还没看到世界模型精度的天花板。在规模竞赛与技术积累之间,小马开始加速奔跑起来。
在PonyWorld世界模型2.0发布之后,界面新闻对楼天城进行了专访。我们聊了聊世界模型如何提升精度、AI自我迭代的边界、商业化的拐点,以及工程师在未来的角色。

楼天城 图片来源:小马智行
以下是专访实录,约为12000字,界面新闻略作编辑:
1、世界模型的“精度”
界面新闻:小马的世界模型2.0特别提到了精度这个关键词,什么决定了精度?
楼天城:先解释为什么精度重要。世界模型会link到强化学习,意思是你把AI扔到一个自我演进的环境、自己变得更强。这跟传统的模仿学习收集人类数据去模仿人类行为不一样。强化学习是自己摸索,叫learning by practicing(在练习中学习)。
模仿学习的关键是数据量和数据质量。强化学习的关键是sim-to-real(从仿真到现实)的差别。
虚拟环境究竟跟真实世界有多接近就是你成功的关键,我们叫它精度,就是sim-to-real的损失。如果是在和真实世界非常不同的环境里,比如车是完全守规矩的,会对极端情况没有意识;如果车都是乱开的,真实状况里就开不了车了。不断提升世界精度,是让它跟真实世界更接近。早期会说真实世界能发生的事,它也能发生;但后来更多的是分布、博弈交互,以及对它的评价变得更符合真实世界。
界面新闻:精度是怎么衡量的?
楼天城:车的表现。它的不精确表现为车在真实世界的奇怪行为,这就是大家熟悉的维度。
我从最“灵魂”的一个问题说起,你确定你能看得出车开得好不好吗?原因很简单,今天小马的车平均驾驶能力是超过个人的。不光我看不出来,很多同事也没法给出好与坏的评价。看不懂AlphaGo下棋,第一反应是我看没看懂它很精妙的一步棋?看车也有这个问题。
世界模型2.0最直观的认识就是,发现车开得好不好、差在哪、为什么不好、怎么改进的过程由AI来完成。1.0的时候叫“模型训练模型”,做一个世界模型训练一个车载模型。今天发现模型做得好不好,也需要AI来完成了。
界面新闻:世界模型2.0的能力是怎么进步的?
楼天城:2.0达到的效果是两点。现在它精度提升的速度会比原来快很多。原来提升精度主要靠人去收集问题、收集反馈,做过应用开发的人都知道,这个过程是很花时间的。现在AI能更准确地发现哪些方向需要改进——人有时候判断改进方向和分析用户需求不够准,AI能分析得更准。所以精度提升的速度快了很多。
第二也很简单,就是精度的天花板被撑得很高。如果不通过AI来做这件事情,人本身的驾驶是有瑕疵的。靠一些人来分析世界模型精度的问题会限制它的天花板。
界面新闻:AI在这个过程中学的数据是什么?
楼天城:2.0不用做自我评价。2.0首先发现的是车辆行为看似不合理的地方,然后identify究竟是不是这个虚拟环境的精度导致发生这种行为。如果发生了,究竟哪些是、哪些不是,以及究竟是什么问题。是root cause(根本原因),比如说概率分布,还是场景还是组合的偏差?它可以帮我们发现这个问题,然后去改进精度。
从这个角度,某种程度上世界模型2.0是外部又多包了一层。原来是模型训练模型,现在我们是站在外部再去看这个事情究竟哪里做得不好。
界面新闻:现在L4在技术路线上收敛了吗?
楼天城:至少包括特斯拉、Waymo和其他家,从他们的分享来看,大家都在往世界模型加强化学习这个思路走。当然世界模型精度上大家可能有高低之分,改进的方式也不同,比如2.0这种用AI来驱动迭代的想法,我暂时还没听到其他家有类似的分享。但至少用世界模型加强化学习这一点,我觉得是大行业、至少是领先者的共识。
界面新闻:世界模型加强化学习的闭环训练开始成为一种行业共识,下一步的区分度在哪里?
楼天城:世界模型精度,表示出来就是车的表现。
界面新闻:世界模型核心的优化目标只有精度一个?
楼天城:我甚至都没想到第二个是什么。
界面新闻:世界模型2.0提出了Intention,具体指什么?
楼天城:人类驾驶本质上需要预判他人的意图。比如过马路的行人,他的意图可能是愣头往前走,也可能是停下来跟你博弈;旁边的车,可能是要加塞,也可能保持原车道。大脑将这些翻译为意图后,才做出了驾驶决策。但现实中,Intention是无法被人工标注的,因为人开车时不会把自己的意图喊出来。
世界模型中Intention最大的特殊之处在于,它是自动生成的,而非人工标注。正因如此,它的数据量可以说是无限大的——这跟总量有限的Language(语言)不同。在虚拟世界里,因为参与者的行为是生成的,我们可以enumerate(枚举)其他物体所有可能的意图组合。
这靠现实路测是绝对收集不到的,但它能让我们确认车辆在所有意图组合中都能符合预期地安全行驶。这也是真正保证Robotaxi安全、让大家满意的关键点。Intention的真正特点是,它是被生成的驾驶中的一个中间的很重要的layer(层),一种token(词元)。
界面新闻:怎么定义它和VLA中的“L”的区别?
楼天城:没什么联系。Intention和L(语言)都是某种中间层,但二者并没有任何矛盾。Intention的好处是,它首先是无限的,可以主动生成。但就算用了Intention,也不代表可以不用L。Intention在我看来是一种更高效的中间层。
界面新闻:有观点认为“L”会影响模型的决策速度,友商拿掉了VLA中间的L,你怎么看?
楼天城:我只评价技术。在技术上,我觉得这是很重要的工程之间的权衡。首先VLA的意思是通过L做一些推理,但缺点是模型很大之后确实影响了实际运行的效果。但为了让车能够一路上跑,去掉L或者用得很少的直接好处是,做推理的时候变得很高效。
界面新闻:在你来看,世界模型的Intention跟VLA的L是不矛盾的?
楼天城:Intention的好处是除了能够无限生成,另外还有一点是它本身对模型的size或者推理速度的影响是非常小的。它是一个非常高效的开车的layer,加入它会让大家做更好的分析;或者说开车久了之后,其实分析Intention可能是很好的开车习惯。如果Intention和L选一个,我肯定先选Intention。
界面新闻:幻觉的问题怎么解决?
楼天城:首先,幻觉本身是模型因为window size(上下文窗口)或者概率分布导致的。幻觉出现在车载模型而不是世界模型里,因为世界模型没法直接表现出幻觉。
针对幻觉,第一就是用过程化降低幻觉出现的概率,这应该说是我们最重要的工作。其次就是用冗余系统,我们有一些真正的保障,再就是可能会用多维度、多帧的信息来一起做cross check(交叉核对)。这跟multi-agent的做法有关,用多个agent来避免幻觉的影响。这些是我们车载模型的一些亮点,但坦率说,这上面的优势和表现没有世界模型那么大,优先级也远低于世界模型精度。但幻觉是所有的大语言模型一定会发生的事情。
界面新闻:详细讲讲现在小马的车端模型?
楼天城:说几个能说的点,Intention是一个,刚刚提到的我们某种程度上有从不同的维度甚至不同世界的角度考虑,然后有一定的能力应对世界各种不同的可能。
AI开车跟人不一样。某种程度思考的是,当我看到这个世界很多不同的可能,需要在平衡所有可能性下,看这个行为究竟好不好,而不只是认定这么做。人开车是后者,很多时候我认定它就是等我的。但AI开车不是,它考虑了两种可能——让和不让的情况,大概率要让,但我会留意如果不让我,要怎么做。
这时候你可以考虑有两个或多个agent,他们分别做自己要做的事情,然后有某种方式综合他们的行为。这可能是车载模型跟人类开车很大的不同,叫multi agent。
界面新闻:现在你们车端的架构是从V直接到A吗?
楼天城:是。中间不管经历了什么,反正是到了A。所有人都这样,唯一不是的也是了。这个共识可能早在19年的时候差不多都这样,22年就基本都收敛了。
界面新闻:怎么想可解释性这个问题?
楼天城:可解释性本身很简单,你不能尝试去解释模型,让模型输出一个可解释的东西就可以了,效果挺好的。我们的方法叫作guidance token,模型除了告诉我车怎么开之外,还得输出一个可解释的东西。与之相对的,Intention针对别的车。自己车是顺便输出的token,你不要尝试去拆解、去解释模型,解释不了的。但它输出的东西,展现给别人是有帮助的。
界面新闻:你目之所及世界模型的瓶颈是什么?
楼天城:要继续提升精度,成本还要降低。再往后就是有没有能力支持比如机器人领域的世界模型。自动驾驶是物理AI中最先锋的应用,将来它成熟之后,完全可以把这个技术leverage(迁移应用)到其他物理世界更有价值的应用。
界面新闻:世界模型再往下,更多是科学上的问题,还是工程上的问题?
楼天城:这个问题很哲学。世界模型随着它越变越好,不完美的地方就越少,也会更难发现。我觉得再往后走可能要涉及下一个话题,就是物理世界。今天开车就是车来回交互,不太涉及摩擦力、重力。但有些东西会变得非常细——当物体特别多的时候甚至会有物理属性,我其实在想有没有东西是由物理属性导致它这样发生的。今天还不是,但往前走可能会碰到这些。
“世界模型”这个词,最早源于具身智能。感谢Yann LeCun(杨立昆),他把这几个概念分类归在一起。机器人和自动驾驶的世界模型确实是有差别的:机器人的世界模型需要很关注物理定律,例如一个东西是以什么加速度往下落的。
但是很多其他部分关联度很高,比如博弈交互,在物理世界中交互也是极其重要的。比如评价体系,这些其实非常相似。这些积累将来是可以帮助做机器人的世界模型的。但这是能力的积累,并不是说我们现在就会去做这些。将来有一天我们真想做的话,这些能力才是机器人世界模型很关键的部分。

楼天城 图片来源:小马智行 2、从世界模型1.0到2.0
界面新闻:我们该怎么理解这套世界模型让小马的车开得比过去、比人更好?
楼天城:关键是目标的改变。早年我们的车是以“开得跟人像”作为目标的。AI想的是,如果人类遇到这个状况,他要怎么开?要尽量跟人像,哪怕这样开不对,这就是模仿。这样做的缺点是,人的很多错误会被完全复制。因为人是千人千面的,可能模仿了一个非常离谱的平均值。
强化学习的不同是,我不再以“跟人像”为目标,而是以“开得好”为目标。我会定义什么叫开得好,然后让考试分数不断上去。这样它就可以摒弃人类驾驶的很多不好的习惯,也是它能够超越人类水平的关键。
这个世界上可能更好也很讽刺的例子是AlphaGo。十年前AlphaGo击败李世石4比1,当时是轰动的。后来Google又做了AlphaZero,Zero就代表zero human record input(零人类经验)。直接做强化学习,不看人类棋谱,结果碾压了先学人类棋谱再强化的版本。这就是为什么强化学习能远超人类。
界面新闻:怎么定义开得好?
楼天城:评价体系是世界模型中唯二重要的部分。一个是交互博弈,另一个是什么叫开得好。这是一个非常复杂的过程,而且要做过程监督,不能只看最终结果,不是“不撞就是好”,过程中有很多事情都可以是不好的。
界面新闻:所以奖励函数的设计是拉开差距的关键?
楼天城:也是之一。一开始是靠人来定义这些东西,但后来也慢慢开始通过AI来学习。人更多是提供“这个好与坏”的评价,然后让AI自己来学。现在已经逐步升级了。1.0前期还是人类来标注,后期好与坏已经慢慢变成AI来定义。
界面新闻:相比于生成一个虚拟环境,让车和车之间的博弈更符合真实环境是更重要的事情吗?
楼天城:这可能是最重要的事情。驾驶我觉得到后期最重要的就是博弈交互。因为很多路上空空的,车都是按规矩开,也早就不会有问题。
更早的时候,大的关注点已经在车的博弈交互上了。我也解释一下generalization(泛化),去新的地方、国家,大家开车的时候会有不同的习惯,但极端情况下的博弈交互是一致的。理解了驾驶的关键是一种交互博弈的时候,会发现不同区域本质只是博弈发生的概率分布不同。这是为什么世界模型对于不同的区域扩张非常有帮助的。
界面新闻:现在很多做具身智能创业的人都是从自动驾驶出来的。你觉得从自动驾驶到具身智能是一个自然递进的关系,还是一条未来必须延伸到的路?
楼天城:我讲一下小马的心路历程。前四五年做的是模仿学习,因为在什么都没有的时候,我也不太知道怎么做,先用模仿学习让车达到OK的状态才有起点做世界模型。后来重新做了强化学习,经历了很多故事,然后开始做世界模型1.0,慢慢做到2.0。
回到现在的具身智能,根本点不在于大家愿不愿意讨论世界模型,而是今天它可能还处在通过模仿学习可以做很多事的阶段。到了一定阶段之后,大家会开始接受需要强化学习、需要世界模型。不是说现在就要开始这个讨论,因为还没到那个状态。但如果从第一性原理来说,长远来看一定会走到那一步。
第一性原理的意思是,自动驾驶需要世界模型,还有一个解释就是人类要求自动驾驶车开得比人好。今天所有坐自动驾驶车的人,都不接受自动驾驶犯人类可以犯的错误。机器人将来也会有这一天。一旦大家脑子里触动了那一天,强化学习和机器人世界模型就无法避免了。
界面新闻:所以具身只是处在你们前四年的状态?
楼天城:对,就像前四年的时候。虽然那时候我可能已经意识到了,但还不需要做。
界面新闻:他们的数据是不是更不scalable(可规模化的)?
楼天城:可能瓶颈会更早。同样在物理世界应用,自动驾驶恐怕是数据最容易获取的应用之一,但它都要走到这一天,其他的可能会更早碰到。
界面新闻:回溯一下,从模仿学习切换到强化学习,对你来说最难、最痛苦的阶段是什么?
楼天城:切换的难点首先是被逼的。我不切换就再也做不成Robotaxi。其实也不是说我非常喜欢这个方向,是我发现必须要做。早年可能没被逼到这个程度。
其次是做它确实需要以年为单位的冷启动,团队大家的信心都会受到考验。但至少在战略层面,后面就没有再动摇过了,具体怎么做的细节当然可以不断改进。
界面新闻:必须要有模仿学习的基础,才能做强化学习?
楼天城:需要有世界模型才能做强化学习,因为强化学习需要在虚拟环境中进行。
界面新闻:所有想做的人都要在你们走过的路上再走一遍?
楼天城:而且L2的经验不能帮他走得更快。
界面新闻:从零开始做一个世界模型,最快需要多久?
楼天城:首先得先做几年的基础积累,否则都开始不了。像我们的话,也做了两年才追上原来模仿学习的水平,光这几年估计很多团队就已经撑不住了。
后面的发展当然可以借鉴前人经验,走得更快,但光前面这段什么产出都没有的阶段就很难坚持。在这过程中你会想各种歪门邪道、一些捷径,都会困扰整个团队。说一件比较自豪的事,我在这个过程中让大家保持了稳定,让大家相信两年的投入是值得的。
界面新闻:探索世界模型的过程中,团队最不稳定的状态是什么时候?
楼天城:看不到进展的那两年。做技术的人可以相信你,但他的家人不一定,他得回去跟家人解释自己在做什么。所以我们也组织了很多活动,请员工的亲人家属来体验,让他们感受到家人做的是有价值的事情。
界面新闻:你本人在这两年有看到过更好的机会吗?
楼天城:从长远价值上完全没有可能跟这个相可比的,甚至今天其他物理世界的应用,因为自动驾驶毕竟是一个商业模式很清晰的事情。其他东西连这件事情不清楚。我很早就觉得需要做一些实际的应用。
界面新闻:即使是具身智能?
楼天城:即便具身智能,我觉得都这种其实是不如的,它只是有更大的想象空间,但实际做之后技术挑战也更大。
界面新闻:世界模型1.0的时候,通过更大规模车队的数据,去获得来自真实世界的高价值数据,然后去提升世界模型的精度。当时的车队规模你觉得是够的吗?
楼天城:简单说,车队规模还好,更多是高质量的数据。你要去一些核心区域catch这些数据。确实1.0的阶段,我需要收集真实数据、场景作为种子来扩展做出世界模型,但往后就有一个时间点,当你的自动驾驶的车辆的水平能够真正做到无人,做到安全、舒适度各种指标远超人之后,这样的数据的帮助就非常有限了。
界面新闻:你说有一个临界线。
楼天城:有临界线,我们是在22年底做到的。车队有些帮助,但它的天花板已经没法再提升,要靠别的方式了。
界面新闻:从数据的特质来看,现在的订单大多集中在短里程。
楼天城:首先符合人的偏好,但人的大部分出行并不是长距离的。
界面新闻:更长里程的订单会对你们的数据采集有帮助吗?
楼天城:首先对技术肯定不会是瓶颈。严格来讲,甚至数据密度会更低,因为它出问题的可能性会少,从商业角度是没有问题的。有很多大佬都提过,开得很好的数据其实是负价值。如果没有很好的filter,对整个模型的优化都会带来负面影响。就像一个学生,你老给他灌简单题,进步得会更慢。
界面新闻:在未来竞争中,算力会是一个要被考虑的点吗?
楼天城:首先对于车载模型肯定不是,因为它的大小是受车载算力限制的。其次,在早期算力很有帮助,因为它能帮助模型做得更大、迭代更快。但再往后,哪怕你很有资源、有行动力去改进模型,但方向不对,你甚至后退得更快。所以再往后准度可能变得更重要了。简单回答,在今天恐怕不是。
界面新闻:车端硬件进步的帮助有多大?
楼天城:进步肯定是好的,但几倍范围之内不会有明显差别。对于市面上销售的,每年进步个两倍就是正常预期,但是不会发生根本的变化。但如果突然有百倍的提升,那就不同了。当然除了算力本身,还有稳定性,应对整车运行时的恶劣环境,温度、湿度、灰尘,这些都很重要。

小马智行无人驾驶出租车。图片来源:小马智行 3、竞争与扩张
界面新闻:你怎么看Waymo、百度、小马这几家之间的竞争?
楼天城:从我的观点来说,今天谁有更大规模的车辆,在做商业化运营,让人打车、当真正的出租车来用。这样的车队规模和单量,我觉得是最重要的指标。
界面新闻:这是从商业化竞争来看的?
楼天城:也是技术水平的体现。你到了这个阶段,如果连这个都做不到,你也没有资格claim自己的技术水平了,或者说做得好的也都做到了。所以外部基本可以通过这些指标来看大家的实际技术水平。技术进步如果不是服务于规模化运营,那也很奇怪。
界面新闻:世界模型2.0是AI训练AI,那车队规模的重要性还在哪里?
楼天城:在AI训练AI的时候,更多的车队数据不像以前那么重要了。如果处理得很好,规模可能有margin(边际)的帮助;处理不好可能是负面的。这件事在2.0时代我更确定,甚至1.0的时候我都敢说这话。
界面新闻:你之前说过“L2做得越好,离L4就越远”,现在有L2公司明确给出了做Robotaxi的时间表。
楼天城:我的判断只需要说明白一点:L2的积累对L4的开发基本没有帮助。任何人都可以有一个L4的时间表,完全没做过L2的公司也可以有L4的时间表。
L2的积累在L4前期可能有一些帮助,但真到了hard core(硬核)的时候,L2积累的帮助不仅有限,甚至是负的。L2有很多车,很多数据。但得处理得很好才有帮助。还有一个问题是做L2需要思维模式上的转变。车辆在非常接近安全的阶段是非常危险的。最近有公开新闻,前Uber的某位知名技术人士开L2的车,因为过于信任没准备好接管,发生了非常严重的事故。L2做得好之后,用户慢慢会当L4来用,需要接管时就很难准备好,这是很大的问题。
界面新闻:L2公司自研芯片等等的成本优势,会成为重要的竞争因素吗?
楼天城:从现状来看,我们的车甚至比很多L2的车都便宜。造车是一个很成熟的能力,数量远比做L2的公司做得多。
界面新闻:在共建车队模式下,最重要的竞争因素是什么?
楼天城:这个模式是说得通的。第一,你的车别人足够信任,能够真正铺出去,不是铺了之后就发生问题。其次,能够向别人证明合作是双赢的。比如我们证明了UE是转正的,大家就会愿意来做这件事,只要他也能达到同样的水平,大家就能一起推动发展。
你不能在一个“将来会可以”的状态下就开始做这件事,那不是一个正常的发展路径,会严重影响扩张。所以对Pony来说,优势就是我们已经让它发生了。
界面新闻:Waymo在铺开自己的App后Uber股价大跌,你们和合作方会面临潜在的竞争吗?
楼天城:自动驾驶确实能给出一些不同的体验,这也是为什么Uber也在合作、也需要布局。在另一个维度,物理AI的有意思之处在于,你告诉用户“自动驾驶有很好的体验”是光说没用的,他要自己坐在车里感受。但如果你真的占领了这个心智,别人想抢的时候,也得让用户坐在车里去感受。所以建立这种心智需要很长时间,但建立之后会持续非常久。这跟APP不一样,网上打开网页就能体验,但自动驾驶你得肉身坐在车里。
当然所有这些都基于一个前提——车的驾驶能力达到一个门槛以上。驾驶出错的成本是很高的,物理AI出错是要出大事的。这可能也是我们在商业上有信心的一个很重要的原因,因为达到这个门槛很不容易。
界面新闻:这个市场能到最后的玩家,现在已经在这个格局里了?
楼天城:新进入者很困难,因为门槛需要非常长时间的投入。
界面新闻:理论上来说,如果有足够的资本和人才蛰伏一段时间会不会也可以?
楼天城:这就是最有意思的点。最有资本的那些,往往对一件事情的容忍时间特别短,都需要三到六个月出结果。至于人才,最后能有建树的人,除了收入之外,还需要有梦想和责任感。
界面新闻:你会觉得L4已经到下半场了吗?
楼天城:如果专门定义下半场,只是商业上的。对技术本身,要说世界模型的精度看到了天花板,那还远着。但它实际商业中展现的效果会有不同的表现:原来更多是安全性的提升、事故变少、开得更通畅,现在我能开一些更高价值的场景,比如市中心、更复杂的交互点、天气不好的情况。
说点商业的话题,能在几个城市UE(单体经济模型)转正,关键也是我们能够开市中心,开最繁忙的区域。如果只是在比较简单的路上开,其实它的效果和用户的需求也会有很大差别。
界面新闻:小马最近说商业化迎来了一个拐点,怎么理解?
楼天城:本质是UE转正带来的心态变化。之前我加一辆车是要花钱的,现在加一辆车在商业上可能是正的,我更有意愿把车队做起来。而且有正反馈,今天车数非常少,增加车之后用户体验也会提升,等车时间、接驾时间都会改善。之前可能是负反馈,会被投入的问题困扰。
界面新闻:现阶段,单一城市的UE转正重要,还是扩大规模更重要?
楼天城:扩大到一定规模后,每个地方都能转正,而且要有可持续性;但UE转正更重要的意义是能更快地扩大规模。
界面新闻:为什么今年才迎来这个拐点?
楼天城:成本下降加上驾驶能力进一步提升。其实大家都能说我能开、能放更多的车,但UE这个数字一定程度上反映了技术的某种成熟性,就是你能不能在比较低的成本上做到同样的效果,能不能开最繁忙的区域和时段。
界面新闻:距离覆盖成本还有多大距离?
楼天城:我的观点是,这不是当前的优先级。在我心中,扩大更大的规模、让更多人感受到它,包括海外,才是更重要的。
界面新闻:现阶段规模更重要?
楼天城:对。因为规模会带来心智优势和成本优势,也是一个把技术优势转变成全面优势的过程。所有公司的所有业务都是这么做的,毛利转正之后,关心的是规模扩大而非净利转正。净利在规模扩大之后自然就会发生。
界面新闻:Robotaxi的单车收入逼近一个网约车司机的收入水平,跟扩大规模有关系吗?
楼天城:也许有相关性,但不是我们追求的目标。我一直坚信的是回到广义的AI,AI能做出一些人类做不到的高质量事情来改善人类生活,以此为前提收取较高的费用也是合理的。这也是我们的发展策略,我坚信要提供好的服务,从不会说因为便宜就可以降低服务质量,否则世界模型很多关于形式体验的东西也不需要做那么复杂。
界面新闻:随着车队规模扩大,遇到故障和意外是不可避免的吗?你们做了什么准备?
楼天城:我觉得就是天有不测风云,总会有想象不到的事情。但至少我们需要避免由AI犯的错误导致的。比如我们的冗余系统靠边停车的功能。单从当下事故角度说,简单停下来也OK,但能靠边停车,至少给乘客一个更好的感受。事情发生的频率可能很低,但我们尽量多做一些这样的事情。
界面新闻:现在远程的人车比是多少?这个岗位终有一天会被取代吗?
楼天城:1:30到1:50,看不同的地方。不会被取代,到1:50我都没那么着急,因为它在成本结构的占比很小。而且这个岗位的存在对乘客很安心,他可以不知道有这个人在,但真有什么事的时候,这个存在很重要。
界面新闻:继续扩张的瓶颈不在技术,在政策?
楼天城:也有用户接受度,你不能突然把车摆在用户面前。当然政策也有,车也得物理地运过去。这就是为什么物理世界的应用不会像互联网一样快速扩张,但这很正常。
界面新闻:乘客在体感上还会有明显的进步吗?
楼天城:比如通勤效率方面还可以改善,统计上以及坐得多的人还是有体会的。单一用户可能不会非常明显,因为已经到了技术很成熟的阶段。
界面新闻:Robotaxi的商业化进程到现在,是比你预估得快了还是慢了?
楼天城:历史上它走到真正无人化、走到超越人类,比我想象得花了更久的时间,因为它出现了一个我没想到的挑战。但从商业化进展来看,从成本下降到扩大规模,到单车营收上UE转正,比我想象得肯定更乐观。
界面新闻:这个乐观来自于什么?
楼天城:我们做到的时间比想象短。很明显的一个因素是AI最近几年的发展。我早年想这件事的时候,AI远不到今天的状态,现在是一个爆发的状态。像你从来没有问过的生成技术,我们已经潜移默化这种影响了,包括大规模的网络之间的训练的能力,车规芯片一代一代越来越好。
界面新闻:感性上,你会不会觉得Robotaxi这件事太难了?整个行业是一荣俱荣、一损俱损,某一家出了问题,大家都会受影响。你会有委屈的感觉吗?
楼天城:至少到现在,我觉得各家都在正向地努力。这也是我对行业比较欣慰的点,大家无论如何都还在做一些事,也都是行业的推动者。至今为止没有看到真正恶意影响行业的行为。好处是有门槛,你必须达到足够的安全水平才能拿到许可。所以那些不是真心想把事做成的,可能连bar都到不了。
4、AI越来越强,人会不会越来越弱
界面新闻:世界模型2.0让AI接管越来越多的研发环节,人扮演什么角色?会有越来越多的工程师被取代吗?
楼天城:世界模型取代的不是工程师,而是工程师原来比较繁琐的工作。比如1.0取代的是大规模数据采集,原来需要很大的车队去采数据;2.0取代的是人工分析,原来依赖工程师去判断哪里做得好不好、哪里出了问题,现在AI自己能做。
工程师的角色确实在变化,但核心工作反而更硬核了。模型结构的设计、如何让模型有更强的表达能力,这仍然是工程师的主要工作。模型训练出来还要部署在车上,用更少的算力高效运行,这也是工程师的工作。世界模型是把大家从繁琐的事情中解放出来,投入到更核心的问题上。今天我觉得还是有优秀的人能做到on top of AI(驾驭AI),能够真正去帮助AI变得更好。
界面新闻:你现在在世界模型里面的角色是什么?让AI来判定AI的问题,是你的灵感,还是所有人走到这个阶段都会有的直觉?
楼天城:首先如何做这件事,分为战略和战术。战略方面其实我还是能把握的,但战术方面已经由AI来做了。
但是要到这个阶段,一个很重要的门槛是,车的驾驶能力从各种指标上面已经超过人。做到这一点之后,别人也可以选择不这么做,但这本身是个技术判断,如果一个合理且理性的人对技术有远见,他应该能做出同样的判断。
但这需要具备一些苛刻的客观条件,苛刻在于我至少能够轻松说服所有当年做分析的工程师,你没有AI做得好,在执行战术层面,AI比你强。但如果在早年的时候,我说服不了他。
界面新闻:现在的客观条件是什么?
楼天城:现在的情况是,如果不这么做,人提的很可能是负的建议,只有AI加入才能变成正的。已经不是效率差别了,是正负的差别。这也是一个天花板。
界面新闻:现在研发团队里什么样的角色是最重要的?哪些能力和方向你觉得更有含金量?
楼天城:我觉得这个可能要触及AI下一代的逻辑了。我先回答你的问题,本质上我觉得是架构和流程设计的人,懂这个的非常重要。因为这些事情至今为止还没有任何例子能拿AI来做,这是大战略。
再往下一层,应该是那些做具体工具的整体规划、架构流程的人。至少在Pony,我觉得这些偏战略型的、偏架构的角色,是团队贡献非常大的。
关于AI下一代,你没发现从世界模型1.0到2.0,AI在战术上开始接手一些人的工作,人就去做别的东西了。那AI会不会继续往上来?就像一座山,我在山腰,水在下面,水会不会再往上涨?有可能。
界面新闻:之前你说过大家加在一起能有出行市场1%的份额就挺不错了,全国网约车大概六百万辆,1%就是5-6万辆,小马年底才到3000辆,听上去是个很漫长的过程,你会把这当成终身事业吗?
楼天城:首先这是很好的起点,通过它来证明两件事:一是产生价值,二是真正开启物理世界AI的影响力,今天其实还没有特别有影响力的案例。再往后,一个方向是进入大家的私家车,让乘客可以睡觉的完全自动驾驶。另一个方向是物理世界的其他应用。像世界模型很多关键的东西,我们都有积累,完全可以把能力延伸到更高价值的场景。
界面新闻:心里会不会有一个模糊的目标?
楼天城:至少在2030年前后。Robotaxi万辆以上才算有信心。
界面新闻:世界模型到了2.0,商业化也在加速,你现在的工作状态有什么变化?
楼天城:更多地拥抱AI了。两方面,第一是开始学会让AI来主导更多的事情,比如世界模型上2.0;另一方面也在想一些办法让AI变得更强。
界面新闻:AI的发展有什么让你格外意外的变化?
楼天城:AI Coding(AI编程)。GPT当年做的是聊天,后来大家做Video(视频)、做Image(图像),Nano或者Sora很火。但到了今天,都是全线导向coding。再出一个模型,大家第一反应是“它写代码能力怎么样”,不会有人再问视频、聊天怎么样。
但真正的意义不是帮助工程师。大问题是,代码是AI联系数字世界的桥梁,它让AI有了一个自我演进的能力。这是一个跨时代的东西。
界面新闻:你之前说世界模型终极形态的时间尺度可能是十年,现在判断有变化吗?
楼天城:我稍微分个级。第二级世界模型是自动驾驶的;用来训练机器人的物理世界模型,叫第三级,第三级里面还分宏观和微观。
宏观的物理世界模型可能要十年才能达到非常成熟的状态。微观粒子层面的世界模型,今天我都不知道怎么做,那就是AI for Science。我真的期待几年后你再问我同样问题,我能说的是这个。如果它有进展,那绝对是继AI for Coding之后下一个足够震撼的事情。
界面新闻:你自己有发散过吗,小马未来通过世界模型可能探索什么样的物理世界应用?
楼天城:先做好技术积累吧,等准备好的时候我再来分享。
界面新闻:现在的AI在你看来有什么缺陷?
楼天城:要说AI的缺点,有一个真的挺危险的,叫“集体降智”。AI用久之后,人的智力是集体下降的。一个具体例子是,我也在清华上课,自从有AI之后,作业都不用改了,但考试一年比一年差。大家就跟没上课一样,真的。
界面新闻:你在教他们什么课?
楼天城:上自动驾驶的课。他们做作业都不用自己做了。大家习惯了用AI的状态,然后就学不会什么东西了。
界面新闻:所以作为一个老师,敏锐地捕捉到了学生降智的倾向?
楼天城:很明显很明显。
楼天城:你们会接受我们的车是被强化学习训练的吗?
界面新闻:为什么不?
楼天城:很多人不能理解这个。很多人从内心中是有抵触的。为什么?很多人更习惯于AlphaGO那个时代,AI跟着人学,但是AI自己变强这件事情;或者我说得更黑一点,不是所有人一生的成长是经过强化学习的。只有一部分人经过。有些人做的事就是模仿别人。
