国产对白在线观看视频,又爽又色的视频国产在线观看

今日金價，一克 1000.06 元；

95 號汽油，每升 8 塊 5 毛 7；

電費是階梯計價，家庭用電最多每千瓦時 8 毛 9；

……

克、升、千瓦時——單位一旦確定，便可以被標(biāo)注價格，而價格決定了消費，也潛移默化地塑造著每個人的生活。大多數(shù)時候，我們并不關(guān)心這些單位本身，只要它們足夠穩(wěn)定，穩(wěn)定到可以比較、可以結(jié)算，它們就會默默隱藏自己，退回到繳費單和購物小票背后。

但現(xiàn)在，一種全新的、陌生的計量單位，正浮出水面，走入更多人的生活。

它叫 Token。

如果你最近玩過、聽說過，甚至自己試著調(diào)用過各種 AI 助手或“智能體”（比如近期流行起來的 Openclaw “小龍蝦”），那么你應(yīng)該已經(jīng)和它打過照面了。你與 AI 的每一次對話，無論是讓它回答一個問題、寫一封郵件，還是總結(jié)一篇論文，后臺那個默默跳動的計價數(shù)字，單位就是 Token。

Token，就是 AI 世界的“克”“升”和“千瓦時”。

Token 到底在計量什么？

在 OpenAI 的官方頁面上，用一句話簡單地概括了 Token：Token 是自然語言的數(shù)學(xué)表示。

在中文里，Token 常被翻譯為“詞元”，你可以將它理解成為大模型用來處理自然語言的基本單位，或大模型處理信息的最小信息單元。一段話、一個問題在進(jìn)入 AI 模型被計算機(jī)處理前，首先要被“分詞器（Tokenizer）”拆分成一個個 Token。

一個 Token 可能是一個標(biāo)點、一個漢字、一個英文單詞，或者一個常見的詞組——這取決于不同 AI 模型分詞器的設(shè)計。比如“朋友買了西瓜手機(jī)！”可能被拆為“朋友”“買”“了”“西瓜”“手機(jī)”“！”，“Transformer”可能被拆成“Trans”“former”。

這些被拆分好的 Token，對于你我來說是有意義的文字，但對于大模型而言，它并不認(rèn)識，更不理解。為了讓 AI “理解”，大模型會先給每個 Token 分配一個數(shù)字編號，然后將這個編號轉(zhuǎn)化為一組數(shù)字坐標(biāo)（向量）。這個坐標(biāo)決定了 AI 如何“理解”這個詞。

更重要的是，AI 理解任何一個詞，都要看它和其他詞的關(guān)系。比如“西瓜”這個詞，AI 在訓(xùn)練中既見過它和“手機(jī)”“汽車”“公司”“發(fā)布會”一起出現(xiàn)，也見過它和“吃”“食物”“好吃”一起出現(xiàn)。當(dāng) AI 看到“西瓜手機(jī)”這個組合時，它會通過“汽車”這個詞的坐標(biāo)，來調(diào)整“西瓜”在當(dāng)前這句話里的含義——讓它的坐標(biāo)更接近“品牌”，遠(yuǎn)離“食物”。

AI 的整個“思考”過程，就是計算一整句話里所有 Token 坐標(biāo)之間的復(fù)雜關(guān)系。它不會死記硬背“西瓜=品牌”或“西瓜=食物”，而是根據(jù)上下文動態(tài)計算。

圖源：用 AI 生成的

聊到這里，你還會以為，Token 的消耗就是你輸入和輸出的字?jǐn)?shù)簡單相加嗎？接下來，我們通過一次普通對話，看看 Token 到底是如何被消耗掉的。

我們讓 AI 寫一封信給十年后的自己：

圖片來源：自己截取的

指令輸入十幾個字，AI 回復(fù)四五百字，看起來不過幾百個Token，但事實上消耗的 Token 遠(yuǎn)不止屏幕上那幾行字：

系統(tǒng)預(yù)設(shè)指令（System prompt）：在你開口之前，AI 已經(jīng)被輸入了一段看不見的指令，被用來規(guī)定和你聊天的 AI 的身份，語氣，回復(fù)用詞特征和安全邊界。很多人會感覺不同公司的 AI 產(chǎn)品有不同的性格特征，秘密就在這里。這段指令不會顯示在對話中，但是也參與了模型的計算，會消耗掉一部分 Token。

對話的歷史上下文（Context）：如果你不是第一次提問，模型通常就需要考慮之前的上下文信息，才能知道整個對話在聊什么，保證對話的連續(xù)性。所以之前的提問與它之前的回答，都會進(jìn)入最新這輪對話的計算。也就是說，對話越長，對話的輪次越多，最新的單輪請求消耗的 Token 也就越多。

思考過程（Reasoning）：這是更隱蔽的消耗，很多具備深度推理模式的模型，在回答之前，它會進(jìn)行一輪內(nèi)部計算去比較推演不同的回答，最終將它認(rèn)為最優(yōu)的回答呈現(xiàn)出來。這些不展示出來的“思考步驟”，同樣消耗資源。

總之，Token 計量的，并不只是你看到 AI 模型給出的答案，而是生成這個答案所需的全部計算資源。而進(jìn)入以 Openclaw 為代表的 agent 場景，這種 Token 的消耗會被指數(shù)級擴(kuò)大。

比如讓一只小龍蝦替你干活，把“幫我整理一下文件夾”這句話甩給它之后，它可能需要先讀懂這個要求，然后拆解成十幾個子任務(wù)，每個子任務(wù)分別調(diào)用一次 AI，每次調(diào)用都帶著完整的系統(tǒng)指令和上下文，必要的時候還要反復(fù)檢查有沒有做對，是否需要修正。

這背后可能是幾十輪對話、幾萬個 Token 的連鎖消耗，這也是它看起來只干了點普通的活，但卻格外消耗 Token 的原因。

為什么“輸出 Token”

比“輸入 Token”貴 6 倍？

關(guān)于 Token 的價格，很多人可能沒什么感知，畢竟無論和哪個 AI 聊天，對話 Token 的消耗都打包在了免費額度或者訂閱制里，很難直接感受到。

我們以 OpenAI 為例，來研究一下它的價格表：

圖源：自己做的

可以看出，模型越強(qiáng)大，Token 越貴，從 Nano 到標(biāo)準(zhǔn)版，每百萬 Token 價格差距高達(dá)十倍。這很容易理解：參數(shù)規(guī)模越大、模型能力越強(qiáng)，越能解決越復(fù)雜問題的模型，Token 的價格當(dāng)然越貴。

而對比起不同公司，同為目前頂級的 AI 模型，每百萬 TokenGPT-5.4 的報價是 15 美元，Claude Opus 4.6 是 25 美元，Gemini 3.1 Pro 的報價則根據(jù) prompt 長度不同列出了 12 美元和 18 美元兩個價格。差距依然存在，這里的定價策略就比較復(fù)雜了，公司的定位與商業(yè)模式，模型的成本、受眾、能力都會有所影響。

這些道理都很容易理解，但真正的謎題還不是這個。仔細(xì)看看，同一個模型的“輸入 Token”和“輸出 Token”竟然也存在 6 倍的定價差距，這是怎么回事？

輸入（prefill）的時候，AI 要理解你的全部問題，每個詞都要和其他所有詞做關(guān)聯(lián)計算（即“自注意力機(jī)制”，計算量會隨著文本長度的增加急劇增長）；而輸出（decode）時，模型已經(jīng)將輸入的內(nèi)容分析計算完畢，只需要把結(jié)果一個字一個字“吐”出來即可，似乎應(yīng)該更輕松才對。

其實，答案并不在計算量，而在計算效率上。

處理輸入時，所有的 Token 都是同時送入處理器的，成千上萬個計算核心并行運行，這是大規(guī)模的矩陣乘矩陣運算，GPU 本來就是為了這種大規(guī)模并行計算而設(shè)計的。所以在應(yīng)對這類任務(wù)時，計算效率極高，甚至可以說在允許范圍內(nèi)，Token 輸入越長，越容易讓 GPU 的計算核心接近滿載工作狀態(tài)。

但輸出的時候，情況截然相反了。模型必須一個 Token 一個 Token 生成回答，每一個都需要依賴上一個生成的結(jié)果，無法并行展開。每次生成，模型都需要從顯存中讀取一次參數(shù)，同時結(jié)合已經(jīng)生成的上下文進(jìn)行計算，整體更接近矩陣乘向量的運算。

這個過程的瓶頸取決于內(nèi)存帶寬，也就是說，GPU 絕大多數(shù)時間沒有在計算，而是在等待數(shù)據(jù)從顯存被傳過來，真正做計算的時間占比僅有 1%~5%，計算效率驟降。

用更準(zhǔn)確的話說，處理輸入是計算密集型（compute-intensive）工作，GPU 在做它最擅長的事，生成輸出是內(nèi)存帶寬密集型（memory-bound）工作，GPU 的計算核心大部分時間在空轉(zhuǎn)等數(shù)據(jù)。

所以，輸出 Token 的高昂價格，本質(zhì)上是在為一塊每小時租金幾美元的芯片，以不到百分之一的效率運轉(zhuǎn)而被迫等待的時長付費。

這也就是為什么即使是同一種模型，輸出 Token 的價格會比輸入 Token 貴那么多，這是算力和內(nèi)存帶寬之間根深蒂固的不對稱不匹配。

圖源：nvidia

GPU 的計算能力在飛速增長，但是顯存的傳輸速度卻跟不上，這種矛盾由來已久。它源于馮·諾依曼架構(gòu)中計算與存儲分離帶來的瓶頸問題，而幾乎所有現(xiàn)代計算機(jī)都沒能徹底繞開它。

算力每一代翻倍，內(nèi)存帶寬的進(jìn)步速度大約只有它的一半，這意味著每一代新芯片出來，處理輸入會變得更快更便宜，但生成輸出的改善幅度要小得多。

業(yè)界當(dāng)然有在試圖緩解這個問題。例如投機(jī)采樣（Speculative Decoding）讓一個小模型先快速猜出幾個詞，再讓大模型一次性驗證，把串行計算的一部分變成并行計算。又或者 MoE 架構(gòu)讓每個 Token 只激活一小部分參數(shù)，減少每次需要搬運的數(shù)據(jù)量。

這些技術(shù)都在緩解癥狀，但沒有一種能根治病因，只要計算和存儲還是物理上分開的兩個東西，數(shù)據(jù)搬運的瓶頸就會一直存在。這也就是為什么 Groq、Cerebras、Etched 這些推理芯片創(chuàng)業(yè)公司，本質(zhì)上都在賭自己能繞開這個七十多年前的設(shè)計遺產(chǎn)。

Token 價格到底由什么決定？

為什么近幾年一直暴跌？

在聊這個問題之前，我們要先理清楚 Token 的成本由什么決定。

我們可以用一個簡單的思路來分析，以目前數(shù)據(jù)中心主流使用的 Nvidia H100 為例，云租賃的價格大約在每小時 2.5～3.5 美元之間。這筆錢里，電費的花銷占 10%~20%，水冷、網(wǎng)絡(luò)、運維這些加在一起也沒有多少，大頭還是在芯片本身的采購成本、硬件折舊以及服務(wù)商的利潤上。

一度電能產(chǎn)出多少 Token，和電本身的關(guān)系不大，主要取決于這度電供給了什么芯片、跑的是什么架構(gòu)、優(yōu)化做到了什么程度。同樣一度電，喂給一塊在處理輸入時滿載運行的 GPU，和一塊在生成輸出時空轉(zhuǎn)百分之九十九的 GPU，處理的 Token 數(shù)就可以差出數(shù)量級。

所以當(dāng)我們問“Token 的價格由什么決定”時，最準(zhǔn)確的回答是：由一塊芯片在單位時間內(nèi)能處理多少 Token 決定。

問題來了：既然 Token 的價格不是被某一個因素單獨決定的，而是由芯片物理結(jié)構(gòu)、能源成本、模型架構(gòu)甚至是市場競爭共同作用的結(jié)果。那它的價格按說應(yīng)該相對穩(wěn)定，畢竟電費不會一年跌十倍，芯片也不會每個季度降價一半。

那么，為什么這幾年 Token 的價格在暴跌？

2023 年初，要達(dá)到 GPT-4 水平的性能，每百萬 Token 大約要 20 美元。到 2026 年，同等性能已經(jīng)降到了 0.4 美元附近，五十倍的差距是怎么來的？

這并非來自某一項技術(shù)的突破，而是幾個因素在同時影響，其影響結(jié)果是以乘法體現(xiàn)的。

首先是硬件在更新?lián)Q代，GPU 更快更便宜了，H100 的云租賃價格也從 2023 年峰值的接近 8 美元/小時降到了 2.5~3.5 美元。

然后是軟件的優(yōu)化，連續(xù)批處理和 PagedAttention 這類改進(jìn)，提高了 KV cache 的利用率和并發(fā)能力，在合適的負(fù)載下，吞吐提升可達(dá)數(shù)倍。

接下來，模型架構(gòu)也在變聰明，混合專家架構(gòu)（MoE）讓模型不用為處理每個 Token 動用所有參數(shù)，這一項又能將推理成本顯著降低。

單獨每一項看都不算太驚人，乘起來效果就很明顯，硬件一層、系統(tǒng)一層、架構(gòu)一層，再加上開源帶來的價格競爭，推理成本就被一層層壓了下去。

同時，模型本身在用更少的參數(shù)做到更多的事。過去的模型往往依賴不斷擴(kuò)大參數(shù)規(guī)模來提升能力，但近兩年，更多數(shù)據(jù)、更好的訓(xùn)練方法以及更成熟的架構(gòu)設(shè)計，使得較小規(guī)模的模型也能逼近甚至在部分任務(wù)上超過上一代更大的模型。

這意味著，同樣的能力不再需要同樣規(guī)模的計算資源。模型變小，帶來的不僅是顯存占用下降，更重要的是每一步推理所需的數(shù)據(jù)搬運和計算開銷都隨之降低了。

所以 Token 便宜了。

便宜了多少？

或許可以拿我們更熟悉的手機(jī)流量來對比。從 2014 年到現(xiàn)在，中國的手機(jī)流量價格降了幾十倍甚至幾百倍。雖然大家的話費賬單差距不大，但流量便宜后催生的各色使用方式，網(wǎng)絡(luò)應(yīng)用、短視頻、手機(jī)游戲，已經(jīng)完全改變了我們的生活。

盡管 Token 并不算一個完美的計量單位，價格細(xì)節(jié)繁復(fù)，變化太多，大多數(shù)用戶對它無比陌生，但它也應(yīng)該也會和流量走上同一條路，可能速度更快，可能帶來的變化更大。

克、升、千瓦時，從現(xiàn)在開始，你或許需要多認(rèn)識一個計量單位——Token。

策劃制作

來源 | 臨界點Post（id：AIBIooooooooom）

作者丨antares 計算機(jī)圖形學(xué)碩士、游戲行業(yè)從業(yè)者、科普作家

審核丨曹俊杰大連理工大學(xué)數(shù)學(xué)科學(xué)學(xué)院副教授遼寧省計算數(shù)學(xué)與數(shù)據(jù)智能重點實驗室秘書

于乃功北京工業(yè)大學(xué)教授中國人工智能學(xué)會理事

于旸騰訊玄武實驗室負(fù)責(zé)人

策劃丨張林林

責(zé)編丨張林林

審校丨徐來

本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫

轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

国产91久久精品一区二区字幕,亚洲一区二区三区久久九,色哟哟在线观看免费高清大,亚洲国产污污黄无遮挡网站,8x8x视频一区二区三区,开心激情四射五月天,白浆熟女精品国产91,超清亚洲欧美中文日韩,可以免费看的黄页视频

科海聽濤

Token，這個藏在AI背后的計價單位，終于有人說清了

視頻更多>>

站內(nèi)公告更多>>

熱點推薦

友情鏈接