今日金價,一克 1000.06 元;
95 號汽油,每升 8 塊 5 毛 7;
電費是階梯計價,家庭用電最多每千瓦時 8 毛 9;
……
克、升、千瓦時——單位一旦確定,便可以被標(biāo)注價格,而價格決定了消費,也潛移默化地塑造著每個人的生活。大多數(shù)時候,我們并不關(guān)心這些單位本身,只要它們足夠穩(wěn)定,穩(wěn)定到可以比較、可以結(jié)算,它們就會默默隱藏自己,退回到繳費單和購物小票背后。
但現(xiàn)在,一種全新的、陌生的計量單位,正浮出水面,走入更多人的生活。
它叫 Token。
如果你最近玩過、聽說過,甚至自己試著調(diào)用過各種 AI 助手或“智能體”(比如近期流行起來的 Openclaw “小龍蝦”),那么你應(yīng)該已經(jīng)和它打過照面了。你與 AI 的每一次對話,無論是讓它回答一個問題、寫一封郵件,還是總結(jié)一篇論文,后臺那個默默跳動的計價數(shù)字,單位就是 Token。
Token,就是 AI 世界的“克”“升”和“千瓦時”。
Token 到底在計量什么?
在 OpenAI 的官方頁面上,用一句話簡單地概括了 Token:Token 是自然語言的數(shù)學(xué)表示。
在中文里,Token 常被翻譯為“詞元”,你可以將它理解成為大模型用來處理自然語言的基本單位,或大模型處理信息的最小信息單元。一段話、一個問題在進(jìn)入 AI 模型被計算機(jī)處理前,首先要被“分詞器(Tokenizer)”拆分成一個個 Token。
一個 Token 可能是一個標(biāo)點、一個漢字、一個英文單詞,或者一個常見的詞組——這取決于不同 AI 模型分詞器的設(shè)計。比如“朋友買了西瓜手機(jī)!”可能被拆為“朋友”“買”“了”“西瓜”“手機(jī)”“!”,“Transformer”可能被拆成“Trans”“former”。
這些被拆分好的 Token,對于你我來說是有意義的文字,但對于大模型而言,它并不認(rèn)識,更不理解。為了讓 AI “理解”,大模型會先給每個 Token 分配一個數(shù)字編號,然后將這個編號轉(zhuǎn)化為一組數(shù)字坐標(biāo)(向量)。這個坐標(biāo)決定了 AI 如何“理解”這個詞。
更重要的是,AI 理解任何一個詞,都要看它和其他詞的關(guān)系。比如“西瓜”這個詞,AI 在訓(xùn)練中既見過它和“手機(jī)”“汽車”“公司”“發(fā)布會”一起出現(xiàn),也見過它和“吃”“食物”“好吃”一起出現(xiàn)。當(dāng) AI 看到“西瓜手機(jī)”這個組合時,它會通過“汽車”這個詞的坐標(biāo),來調(diào)整“西瓜”在當(dāng)前這句話里的含義——讓它的坐標(biāo)更接近“品牌”,遠(yuǎn)離“食物”。
AI 的整個“思考”過程,就是計算一整句話里所有 Token 坐標(biāo)之間的復(fù)雜關(guān)系。它不會死記硬背“西瓜=品牌”或“西瓜=食物”,而是根據(jù)上下文動態(tài)計算。
圖源:用 AI 生成的
聊到這里,你還會以為,Token 的消耗就是你輸入和輸出的字?jǐn)?shù)簡單相加嗎?接下來,我們通過一次普通對話,看看 Token 到底是如何被消耗掉的。
我們讓 AI 寫一封信給十年后的自己:
圖片來源:自己截取的
指令輸入十幾個字,AI 回復(fù)四五百字,看起來不過幾百個Token,但事實上消耗的 Token 遠(yuǎn)不止屏幕上那幾行字:
系統(tǒng)預(yù)設(shè)指令(System prompt):在你開口之前,AI 已經(jīng)被輸入了一段看不見的指令,被用來規(guī)定和你聊天的 AI 的身份,語氣,回復(fù)用詞特征和安全邊界。很多人會感覺不同公司的 AI 產(chǎn)品有不同的性格特征,秘密就在這里。這段指令不會顯示在對話中,但是也參與了模型的計算,會消耗掉一部分 Token。
對話的歷史上下文(Context):如果你不是第一次提問,模型通常就需要考慮之前的上下文信息,才能知道整個對話在聊什么,保證對話的連續(xù)性。所以之前的提問與它之前的回答,都會進(jìn)入最新這輪對話的計算。也就是說,對話越長,對話的輪次越多,最新的單輪請求消耗的 Token 也就越多。
思考過程(Reasoning):這是更隱蔽的消耗,很多具備深度推理模式的模型,在回答之前,它會進(jìn)行一輪內(nèi)部計算去比較推演不同的回答,最終將它認(rèn)為最優(yōu)的回答呈現(xiàn)出來。這些不展示出來的“思考步驟”,同樣消耗資源。
總之,Token 計量的,并不只是你看到 AI 模型給出的答案,而是生成這個答案所需的全部計算資源。而進(jìn)入以 Openclaw 為代表的 agent 場景,這種 Token 的消耗會被指數(shù)級擴(kuò)大。
比如讓一只小龍蝦替你干活,把“幫我整理一下文件夾”這句話甩給它之后,它可能需要先讀懂這個要求,然后拆解成十幾個子任務(wù),每個子任務(wù)分別調(diào)用一次 AI,每次調(diào)用都帶著完整的系統(tǒng)指令和上下文,必要的時候還要反復(fù)檢查有沒有做對,是否需要修正。
這背后可能是幾十輪對話、幾萬個 Token 的連鎖消耗,這也是它看起來只干了點普通的活,但卻格外消耗 Token 的原因。
為什么“輸出 Token”
比“輸入 Token”貴 6 倍?
關(guān)于 Token 的價格,很多人可能沒什么感知,畢竟無論和哪個 AI 聊天,對話 Token 的消耗都打包在了免費額度或者訂閱制里,很難直接感受到。
我們以 OpenAI 為例,來研究一下它的價格表:
圖源:自己做的
可以看出,模型越強(qiáng)大,Token 越貴,從 Nano 到標(biāo)準(zhǔn)版,每百萬 Token 價格差距高達(dá)十倍。這很容易理解:參數(shù)規(guī)模越大、模型能力越強(qiáng),越能解決越復(fù)雜問題的模型,Token 的價格當(dāng)然越貴。
而對比起不同公司,同為目前頂級的 AI 模型,每百萬 TokenGPT-5.4 的報價是 15 美元,Claude Opus 4.6 是 25 美元,Gemini 3.1 Pro 的報價則根據(jù) prompt 長度不同列出了 12 美元和 18 美元兩個價格。差距依然存在,這里的定價策略就比較復(fù)雜了,公司的定位與商業(yè)模式,模型的成本、受眾、能力都會有所影響。
這些道理都很容易理解,但真正的謎題還不是這個。仔細(xì)看看,同一個模型的“輸入 Token”和“輸出 Token”竟然也存在 6 倍的定價差距,這是怎么回事?
輸入(prefill)的時候,AI 要理解你的全部問題,每個詞都要和其他所有詞做關(guān)聯(lián)計算(即“自注意力機(jī)制”,計算量會隨著文本長度的增加急劇增長);而輸出(decode)時,模型已經(jīng)將輸入的內(nèi)容分析計算完畢,只需要把結(jié)果一個字一個字“吐”出來即可,似乎應(yīng)該更輕松才對。
其實,答案并不在計算量,而在計算效率上。
處理輸入時,所有的 Token 都是同時送入處理器的,成千上萬個計算核心并行運行,這是大規(guī)模的矩陣乘矩陣運算,GPU 本來就是為了這種大規(guī)模并行計算而設(shè)計的。所以在應(yīng)對這類任務(wù)時,計算效率極高,甚至可以說在允許范圍內(nèi),Token 輸入越長,越容易讓 GPU 的計算核心接近滿載工作狀態(tài)。
但輸出的時候,情況截然相反了。模型必須一個 Token 一個 Token 生成回答,每一個都需要依賴上一個生成的結(jié)果,無法并行展開。每次生成,模型都需要從顯存中讀取一次參數(shù),同時結(jié)合已經(jīng)生成的上下文進(jìn)行計算,整體更接近矩陣乘向量的運算。
這個過程的瓶頸取決于內(nèi)存帶寬,也就是說,GPU 絕大多數(shù)時間沒有在計算,而是在等待數(shù)據(jù)從顯存被傳過來,真正做計算的時間占比僅有 1%~5%,計算效率驟降。
用更準(zhǔn)確的話說,處理輸入是計算密集型(compute-intensive)工作,GPU 在做它最擅長的事,生成輸出是內(nèi)存帶寬密集型(memory-bound)工作,GPU 的計算核心大部分時間在空轉(zhuǎn)等數(shù)據(jù)。
所以,輸出 Token 的高昂價格,本質(zhì)上是在為一塊每小時租金幾美元的芯片,以不到百分之一的效率運轉(zhuǎn)而被迫等待的時長付費。
這也就是為什么即使是同一種模型,輸出 Token 的價格會比輸入 Token 貴那么多,這是算力和內(nèi)存帶寬之間根深蒂固的不對稱不匹配。
圖源:nvidia
GPU 的計算能力在飛速增長,但是顯存的傳輸速度卻跟不上,這種矛盾由來已久。它源于馮·諾依曼架構(gòu)中計算與存儲分離帶來的瓶頸問題,而幾乎所有現(xiàn)代計算機(jī)都沒能徹底繞開它。
算力每一代翻倍,內(nèi)存帶寬的進(jìn)步速度大約只有它的一半,這意味著每一代新芯片出來,處理輸入會變得更快更便宜,但生成輸出的改善幅度要小得多。
業(yè)界當(dāng)然有在試圖緩解這個問題。例如投機(jī)采樣(Speculative Decoding)讓一個小模型先快速猜出幾個詞,再讓大模型一次性驗證,把串行計算的一部分變成并行計算。又或者 MoE 架構(gòu)讓每個 Token 只激活一小部分參數(shù),減少每次需要搬運的數(shù)據(jù)量。
這些技術(shù)都在緩解癥狀,但沒有一種能根治病因,只要計算和存儲還是物理上分開的兩個東西,數(shù)據(jù)搬運的瓶頸就會一直存在。這也就是為什么 Groq、Cerebras、Etched 這些推理芯片創(chuàng)業(yè)公司,本質(zhì)上都在賭自己能繞開這個七十多年前的設(shè)計遺產(chǎn)。
Token 價格到底由什么決定?
為什么近幾年一直暴跌?
在聊這個問題之前,我們要先理清楚 Token 的成本由什么決定。
我們可以用一個簡單的思路來分析,以目前數(shù)據(jù)中心主流使用的 Nvidia H100 為例,云租賃的價格大約在每小時 2.5~3.5 美元之間。這筆錢里,電費的花銷占 10%~20%,水冷、網(wǎng)絡(luò)、運維這些加在一起也沒有多少,大頭還是在芯片本身的采購成本、硬件折舊以及服務(wù)商的利潤上。
一度電能產(chǎn)出多少 Token,和電本身的關(guān)系不大,主要取決于這度電供給了什么芯片、跑的是什么架構(gòu)、優(yōu)化做到了什么程度。同樣一度電,喂給一塊在處理輸入時滿載運行的 GPU,和一塊在生成輸出時空轉(zhuǎn)百分之九十九的 GPU,處理的 Token 數(shù)就可以差出數(shù)量級。
所以當(dāng)我們問“Token 的價格由什么決定”時,最準(zhǔn)確的回答是:由一塊芯片在單位時間內(nèi)能處理多少 Token 決定。
問題來了:既然 Token 的價格不是被某一個因素單獨決定的,而是由芯片物理結(jié)構(gòu)、能源成本、模型架構(gòu)甚至是市場競爭共同作用的結(jié)果。那它的價格按說應(yīng)該相對穩(wěn)定,畢竟電費不會一年跌十倍,芯片也不會每個季度降價一半。
那么,為什么這幾年 Token 的價格在暴跌?
2023 年初,要達(dá)到 GPT-4 水平的性能,每百萬 Token 大約要 20 美元。到 2026 年,同等性能已經(jīng)降到了 0.4 美元附近,五十倍的差距是怎么來的?
這并非來自某一項技術(shù)的突破,而是幾個因素在同時影響,其影響結(jié)果是以乘法體現(xiàn)的。
首先是硬件在更新?lián)Q代,GPU 更快更便宜了,H100 的云租賃價格也從 2023 年峰值的接近 8 美元/小時降到了 2.5~3.5 美元。
然后是軟件的優(yōu)化,連續(xù)批處理和 PagedAttention 這類改進(jìn),提高了 KV cache 的利用率和并發(fā)能力,在合適的負(fù)載下,吞吐提升可達(dá)數(shù)倍。
接下來,模型架構(gòu)也在變聰明,混合專家架構(gòu)(MoE)讓模型不用為處理每個 Token 動用所有參數(shù),這一項又能將推理成本顯著降低。
單獨每一項看都不算太驚人,乘起來效果就很明顯,硬件一層、系統(tǒng)一層、架構(gòu)一層,再加上開源帶來的價格競爭,推理成本就被一層層壓了下去。
同時,模型本身在用更少的參數(shù)做到更多的事。過去的模型往往依賴不斷擴(kuò)大參數(shù)規(guī)模來提升能力,但近兩年,更多數(shù)據(jù)、更好的訓(xùn)練方法以及更成熟的架構(gòu)設(shè)計,使得較小規(guī)模的模型也能逼近甚至在部分任務(wù)上超過上一代更大的模型。
這意味著,同樣的能力不再需要同樣規(guī)模的計算資源。模型變小,帶來的不僅是顯存占用下降,更重要的是每一步推理所需的數(shù)據(jù)搬運和計算開銷都隨之降低了。
所以 Token 便宜了。
便宜了多少?
或許可以拿我們更熟悉的手機(jī)流量來對比。從 2014 年到現(xiàn)在,中國的手機(jī)流量價格降了幾十倍甚至幾百倍。雖然大家的話費賬單差距不大,但流量便宜后催生的各色使用方式,網(wǎng)絡(luò)應(yīng)用、短視頻、手機(jī)游戲,已經(jīng)完全改變了我們的生活。
盡管 Token 并不算一個完美的計量單位,價格細(xì)節(jié)繁復(fù),變化太多,大多數(shù)用戶對它無比陌生,但它也應(yīng)該也會和流量走上同一條路,可能速度更快,可能帶來的變化更大。
克、升、千瓦時,從現(xiàn)在開始,你或許需要多認(rèn)識一個計量單位——Token。
策劃制作
來源 | 臨界點Post(id:AIBIooooooooom)
作者丨antares 計算機(jī)圖形學(xué)碩士、游戲行業(yè)從業(yè)者、科普作家
審核丨曹俊杰 大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院副教授 遼寧省計算數(shù)學(xué)與數(shù)據(jù)智能重點實驗室秘書
于乃功 北京工業(yè)大學(xué)教授 中國人工智能學(xué)會理事
于旸 騰訊玄武實驗室負(fù)責(zé)人
策劃丨張林林
責(zé)編丨張林林
審校丨徐來
本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫
轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛




來 源:
時 間:2026-04-02 16:51:48
















