5min read

李想「不想造車」的背后，其實(shí)是想造「司機(jī) Agent」

周永亮 siqi2025/05/08

摘要

李想認(rèn)為，理想汽車的智能化原創(chuàng)性已超增程。

五個(gè)月前，李想高調(diào)地宣布了將 All in AI，表示理想要從一家智能汽車公司，轉(zhuǎn)型邁向一家人工智能科技公司。

而這次，李想帶著全新的 VLA（Vision-Language-Action）模型走到了公眾面前。此前，VLA 已經(jīng)在 3 月的英偉達(dá) GTC 大會(huì)上首次發(fā)布，它是理想汽車去年在輔助駕駛領(lǐng)域「端到端+VLM」的雙系統(tǒng)架構(gòu)上進(jìn)化而來的新架構(gòu)。

智能化，既是理想近年來最希望打造的標(biāo)簽，也是重點(diǎn)投入研發(fā)的方向。理想 2025 年產(chǎn)品的核心點(diǎn)都主要圍繞智能化升級(jí)升級(jí)展開，李想曾在內(nèi)部說：

「理想的智駕原創(chuàng)性，超過了增程」。

因此，推出全新的 VLA 架構(gòu)模型，李想希望讓輔助駕駛進(jìn)化出類似人類司機(jī)的能力。在李想看來，VLA 是理想的「司機(jī)大模型」（或「司機(jī) Agent」），他希望這個(gè)模型/智能體能像人類司機(jī)一樣工作，將來也能像人類司機(jī)那樣創(chuàng)造商業(yè)價(jià)值。

在 demo 演示視頻里，理想的這個(gè)「司機(jī) Agent」展示了和人類司機(jī)類似的智能能力：不僅具備現(xiàn)有的優(yōu)秀輔助駕駛能力，而且還能直接通過語音的方式和人類駕駛員高效交互。

在通過高速收費(fèi)站時(shí)，直接說出「走人工」三個(gè)字，系統(tǒng)就可以從 ETC 收費(fèi)通道轉(zhuǎn)向人工收費(fèi)通道；在日常駕駛和泊車環(huán)節(jié)，也可以通過「前方掉頭」、「C 區(qū)停車」、「靠邊停車」等簡單指令，調(diào)整行車或泊車的路線，達(dá)到了我們?nèi)粘：途W(wǎng)約車或代駕司機(jī)溝通的水準(zhǔn)。

輔助駕駛再進(jìn)化：從「雙系統(tǒng)」到VLA

經(jīng)過了十幾年的發(fā)展，輔助駕駛經(jīng)歷了多次迭代。其架構(gòu)演進(jìn)大致可分為模塊化?案（2022年之前）、端到端感知（2023年）、VLM+E2E （2024年）。

總的來說，自動(dòng)駕駛大腦的設(shè)計(jì)從「各自為政」的小團(tuán)隊(duì)，進(jìn)化到「邊看邊學(xué)」的超級(jí)學(xué)生，再到「常識(shí)+行動(dòng)」的嘗試。

如今，輔助駕駛又來到新的十字路口——VLA。這也是理想AI Talk第二季的重點(diǎn)。基于此，李想認(rèn)為，輔助駕駛處于「黎明前的黑暗」，黎明馬上就要來了。

其實(shí)，2025年3月的英偉達(dá)GTC大會(huì)上，理想就發(fā)布了下一代自動(dòng)駕駛架構(gòu) VLA。這里稍微介紹一下，VLA最早是由Google DeepMind在2023年7月提出的用于機(jī)器人控制的模型，其以大語言模型為基礎(chǔ)，模型在接收攝像頭的原始數(shù)據(jù)和語言指令后，可以直接輸出控制信號(hào)，完成各種復(fù)雜的操作。

對(duì)于理想汽車而言，李想表示，VLA是一個(gè)「司機(jī)大模型」，它像人類司機(jī)一樣工作。同時(shí)，李想強(qiáng)調(diào)，VLA 的誕生不是突變，而是進(jìn)化。

簡單說，VLA并非拋棄端到端，而是將其作為VLA行動(dòng)（A）部分的基礎(chǔ)。只有做好規(guī)則算法，才能知道如何做端到端，只有把端到端做到極致水平，才有機(jī)會(huì)去做 VLA，這個(gè)過程沒有捷徑。

他詳細(xì)闡述了訓(xùn)練VLA的四個(gè)步驟，這有點(diǎn)像人類學(xué)開車的過程。

VLA司機(jī)大模型的訓(xùn)練和推理過程 | 圖片來源：直播截圖

第一步是預(yù)訓(xùn)練，就像去駕校前先學(xué)交規(guī)、認(rèn)路標(biāo)，這一步的目標(biāo)是讓AI擁有對(duì)世界和交通的基礎(chǔ)認(rèn)知。理想先訓(xùn)練了一個(gè)VL（視覺和語言）基座模型。然后，它會(huì)被「壓縮」（蒸餾）成一個(gè)更小、能更快運(yùn)行的模型（約3.2B參數(shù)），這樣它才能流暢地跑在汽車?yán)锏能嚩诵酒稀?/p>

第二步是后訓(xùn)練，像在駕校里跟著教練練車。工程師讓AI觀看大量人類司機(jī)開車的視頻，學(xué)習(xí)模仿他們的操作。把會(huì)「看」和「聽」的模型，跟學(xué)會(huì)了「行動(dòng)」的模型結(jié)合起來，形成一個(gè)初級(jí)的VLA「端到端」模型。

第三步是強(qiáng)化訓(xùn)練，像拿到駕照后，在社會(huì)上不斷磨練提升，成為經(jīng)驗(yàn)豐富的「老司機(jī)」。這個(gè)過程要經(jīng)過兩個(gè)考驗(yàn)：第一，參考大量人類司機(jī)的駕駛數(shù)據(jù)。當(dāng)它做得好時(shí)得到「鼓勵(lì)」，做得不好的時(shí)候，比如讓人類接管了，得到「反饋」。

同時(shí)，理想汽車搭建了一個(gè)非常逼真的虛擬「交通世界」，有點(diǎn)像一個(gè)超高水平的模擬器，讓AI在里面自己練習(xí)。

最后，有了這個(gè)VLA「司機(jī)大腦」后，理想汽車還設(shè)計(jì)了一個(gè)「司機(jī)Agent」。用戶可以像跟你自己的司機(jī)說話一樣，用自然語言告訴車想去哪、怎么開，Agent會(huì)把你的指令傳達(dá)給VLA，讓它去執(zhí)行。

不過，李想也表示，VLA（司機(jī)大模型）能夠解決到全自動(dòng)駕駛，但未來可能還有效率更高的架構(gòu)。雖然目前的Transformer是能力最強(qiáng)的架構(gòu)，甚至有機(jī)會(huì)超過人類，但它對(duì)算力的要求還是很高。這也意味著VLA可能并非終極解決方案，未來的技術(shù)演進(jìn)仍充滿變數(shù)。

擁抱開源，感謝 DeepSeek

DeepSeek 的出現(xiàn)，加速了 AI 領(lǐng)域的進(jìn)化，也影響了理想在 AI 領(lǐng)域的研發(fā)進(jìn)程。

在原有的計(jì)劃里，理想原計(jì)劃在今年 9 月先推出一個(gè)足夠好的語音模型（即 VLA 里的「L」部分），在此基礎(chǔ)上再繼續(xù)訓(xùn)練 VLA 模型。DeepSeek 的出現(xiàn)讓理想看到了「站在巨人肩膀上」的機(jī)會(huì)。

據(jù)李想回憶，今年 1 月 DeepSeek R1 模型發(fā)布并開源后，他很快就和 CTO 謝炎、基座模型負(fù)責(zé)人陳偉達(dá)成了共識(shí)。團(tuán)隊(duì)內(nèi)部認(rèn)為應(yīng)該以此為基礎(chǔ)，加速 VLA 研發(fā)進(jìn)展，并研究如何在芯片上也跑到同樣的訓(xùn)練和推理的效率。

李想說，公司「擁抱 DeepSeek 的過程比想象得快」。而更加令人意外的是，李想披露了公司開源自研四年的整車操作系統(tǒng)——理想星環(huán) OS，其核心動(dòng)因并非戰(zhàn)略考量，而是受到 DeepSeek 開源精神的鼓舞，「說白了純粹是感謝 DeepSeek」。

李想在 AI Talk 中發(fā)表觀點(diǎn) | 圖片來源：直播截圖

當(dāng)然，AI 的研究和投入也在繼續(xù)。李想說，2025 年理想購買的訓(xùn)練卡比預(yù)期大概「多了 3 倍」。

目前，理想正在訓(xùn)練兩個(gè)基座大模型，分別是：

一個(gè)用于「理想同學(xué)」App 的模型基座，參數(shù)量約為 300B（3000 億），使用場景是用在類似豆包、KIMI 的語音模型應(yīng)用上
VL（Vision+Language）模型底座，參數(shù)量大約在 32B（320 億），為 VLA 模型的訓(xùn)練基座

在李想看來，VLA 模型是一條 DeepSeek、OpenAI、Waymo 等公司都沒有走過的「無人區(qū)」，和目前通用語言模型最大的不同之處就在于，訓(xùn)練 VLA 模型，需要加入足夠過視覺和語言聯(lián)合的語料，即三維圖像和模型對(duì)世界的理解語義要同時(shí)產(chǎn)生的，而這樣的模型并沒有原始數(shù)據(jù)。

在春節(jié)之后理想的第一次例會(huì)上，李想將 DeepSeek 的出現(xiàn)比作 Linux 的推出，并表示理想要追逐人工智能的「安卓時(shí)刻」。理想希望可以在專業(yè)和垂直領(lǐng)域里，訓(xùn)練出一個(gè)專用大模型，以提升垂直領(lǐng)域的 AI 能力，并最終交付價(jià)值。

在訪談最后，李想也提到了競爭對(duì)手特斯拉。他表示目前特斯拉 FSD 在國內(nèi)的模型水平，并不代表特斯拉的真實(shí)實(shí)力，「大概在用 V12.5 以前的模型」。但整體來看，他依然認(rèn)為特斯拉 FSD 系統(tǒng)的基本功很扎實(shí)，是理想真正需要學(xué)習(xí)的能力。

「基本功」也是這場 AI Talk 中李想反復(fù)提到的高頻詞匯。他認(rèn)為「不可能不做前面的積累，直接吃到第 10 個(gè)包子」。他認(rèn)為在內(nèi)卷的環(huán)境下，更要重視基本功，否則創(chuàng)新會(huì)變成曇花一現(xiàn)。

而人工智能，顯然是當(dāng)下李想和他的團(tuán)隊(duì)認(rèn)可并正在大力投入的那個(gè)方向。

理想汽車李想

馬上登錄