高加索AV无码,99尹人网毛,韩日337p99,一级a片久久无,97色区综合,激情日韩在线一二三,日韩精品久久精品草比,婷婷久久91,亚洲天堂艹比

訂閱
糾錯(cuò)
加入自媒體

產(chǎn)業(yè)丨谷歌TurboQuant算法引發(fā)連鎖反應(yīng),新技術(shù)或重構(gòu)AI內(nèi)存供需

前言:

近日,谷歌研究院官方博客發(fā)布了一篇關(guān)于TurboQuant壓縮算法的技術(shù)解讀。

這篇原本屬于學(xué)術(shù)圈的內(nèi)容,在短短48小時(shí)內(nèi),演變成了席卷全球科技產(chǎn)業(yè)與資本市場的超級變量。

全球存儲(chǔ)芯片板塊應(yīng)聲下挫,美光科技股價(jià)跌幅達(dá)3%,西部數(shù)據(jù)下跌4.7%,閃迪更是重挫5.7%。

計(jì)算瓶頸→記憶瓶頸,KV緩存的困境

要理解TurboQuant為何能引發(fā)如此大的市場震蕩,首先需要弄清楚大語言模型運(yùn)行過程中一個(gè)長期被忽視的性能瓶頸[鍵值緩存](Key-Value Cache,簡稱KV緩存)。

當(dāng)用戶與AI大模型進(jìn)行對話時(shí),模型并不是一次性處理所有信息再給出回答,而是采用一種[逐字生成]的工作方式。

在生成每一個(gè)新詞元(token)的過程中,模型都需要回顧之前已經(jīng)處理過的所有上下文信息。

為了避免重復(fù)計(jì)算這些歷史數(shù)據(jù),模型會(huì)將這些中間計(jì)算結(jié)果存儲(chǔ)在一個(gè)臨時(shí)的[記憶倉庫]中,這就是KV緩存。

當(dāng)用戶需要AI處理長篇文檔分析、復(fù)雜代碼調(diào)試、或者進(jìn)行多輪深度對話時(shí),KV緩存的內(nèi)存占用會(huì)隨著上下文長度線性增長。

這種[內(nèi)存焦慮]已經(jīng)成為制約AI大模型商業(yè)化部署的核心障礙,不是模型本身不夠智能,而是運(yùn)行時(shí)有限的內(nèi)存資源根本支撐不了它的雄心。

傳統(tǒng)量化的困境,按下葫蘆浮起瓢

面對KV緩存的內(nèi)存困境,業(yè)界此前并非沒有嘗試過解決方案。

傳統(tǒng)的高維向量量化技術(shù),是用低精度的數(shù)據(jù)類型替代高精度浮點(diǎn)數(shù)來存儲(chǔ)數(shù)據(jù),從而在存儲(chǔ)空間上實(shí)現(xiàn)壓縮。

然而,這種看似美好的方案在實(shí)際應(yīng)用中卻遭遇了[按下葫蘆浮起瓢]的尷尬。

傳統(tǒng)量化技術(shù)在進(jìn)行數(shù)據(jù)壓縮時(shí),需要為每一個(gè)微小的數(shù)據(jù)塊計(jì)算和存儲(chǔ)額外的量化參數(shù),可以把它理解為壓縮時(shí)產(chǎn)生的[門票]和[說明書]。

這些量化參數(shù)本身就是一種內(nèi)存開銷,而且這種額外負(fù)擔(dān)會(huì)隨著壓縮精度的提升而變得更加嚴(yán)重。

結(jié)果就是,壓縮本身帶來的內(nèi)存節(jié)省,有相當(dāng)一部分被量化參數(shù)吃掉了,實(shí)際收益大打折扣。

更糟糕的是,還需要借助校準(zhǔn)數(shù)據(jù)集來進(jìn)行模型適配,嚴(yán)重的還需要對模型進(jìn)行重新訓(xùn)練或微調(diào)。

因此,盡管量化技術(shù)在學(xué)術(shù)論文中看起來效果不錯(cuò),但在實(shí)際商業(yè)部署中,真正能夠做到[零門檻、零損失]的方案寥寥無幾。

TurboQuant的技術(shù)突破,6倍壓縮與8倍提速

正是在這樣的背景下,谷歌研究院推出的TurboQuant算法才顯得格外引人注目。

這項(xiàng)技術(shù)的核心創(chuàng)新在于它徹底重構(gòu)了向量量化的底層邏輯,通過兩項(xiàng)關(guān)鍵技術(shù)的協(xié)同工作,實(shí)現(xiàn)了真正意義上的[無損壓縮]。

①PolarQuant(極坐標(biāo)量化):傳統(tǒng)方法處理高維向量時(shí),通常沿用笛卡爾坐標(biāo)系來描述數(shù)據(jù),這種方式的數(shù)值分布往往是散亂無序的,給高效壓縮帶來了天然障礙。

PolarQuant則另辟蹊徑,通過將數(shù)據(jù)從笛卡爾坐標(biāo)轉(zhuǎn)換為極坐標(biāo),利用極坐標(biāo)天然的[歸一化]特性,將數(shù)據(jù)映射到邊界已知的固定[圓形]網(wǎng)格上。

這種轉(zhuǎn)換讓原本散亂的數(shù)值分布變得規(guī)律而集中,從而在根本上消除了對額外量化參數(shù)的依賴。

省去了昂貴的[門票]和[說明書],數(shù)據(jù)本身就自帶壓縮屬性。

②QJL(量化Johnson-Lindenstrauss變換):任何壓縮過程都會(huì)不可避免地引入微小的精度損失,PolarQuant也不例外。

QJL的作用就是充當(dāng)一個(gè)[數(shù)學(xué)糾錯(cuò)機(jī)],用僅僅1比特的極小算力來捕捉和消除第一階段遺留的偏差。

這就像是在精密制造中引入的質(zhì)量檢驗(yàn)員,專門負(fù)責(zé)修正流水線上的微小誤差,確保最終產(chǎn)品。

也就是AI模型的注意力分?jǐn)?shù)計(jì)算,依然保持高精度。

TurboQuant的工作流程可以這樣理解:

PolarQuant完成高質(zhì)量的主體壓縮,保留向量最核心的概念和特征。

QJL接手處理殘余的微小誤差,確保壓縮后的計(jì)算結(jié)果與原始結(jié)果完全一致。

兩階段組合拳打下來,TurboQuant在3-bit的總位寬下,實(shí)現(xiàn)了接近無損的壓縮效果。

全程不需要任何模型重訓(xùn)、不需要校準(zhǔn)數(shù)據(jù),對GPU加速器極其友好,真正做到了拿來即用。

谷歌研究團(tuán)隊(duì)在Gemma和Mistral兩個(gè)主流開源大模型上進(jìn)行了嚴(yán)格的基準(zhǔn)測試,測試結(jié)果令人振奮。

TurboQuant可以直接將KV緩存壓縮至每通道僅3比特的精度,相比傳統(tǒng)的16比特或32比特浮點(diǎn)存儲(chǔ),內(nèi)存占用減少了至少6倍,降幅高達(dá)83%。

在NVIDIA H100 GPU上,采用4比特精度的TurboQuant方案,其注意力核心步驟的運(yùn)算速度比未量化的32比特基準(zhǔn)版本快了整整8倍。

資本市場的過山車,新技術(shù)重構(gòu)供需格局

TurboQuant發(fā)布后的市場反應(yīng),堪稱一場情緒過山車。

消息公布當(dāng)日,美國存儲(chǔ)芯片板塊遭遇集體拋售,美光、西部數(shù)據(jù)、閃迪等主要廠商股價(jià)紛紛下跌。

有分析估算,整個(gè)存儲(chǔ)板塊單日蒸發(fā)的市值高達(dá)約6200億美元。

然而冷靜下來之后,分析師們開始對TurboQuant的實(shí)際影響范圍進(jìn)行更精細(xì)的評估。

摩根士丹利的分析報(bào)告指出,TurboQuant技術(shù)的適用范圍存在明顯邊界:它主要作用于推理階段的KV緩存,并不影響模型權(quán)重的存儲(chǔ)需求,也不涉及訓(xùn)練環(huán)節(jié)。

這意味著,新技術(shù)帶來的效率提升,本質(zhì)上是[提升單位硬件的利用效率],讓同樣的硬件能處理更長的上下文或服務(wù)更多的并發(fā)用戶,而不是從根本上消滅對內(nèi)存的需求。

有分析師搬出了經(jīng)濟(jì)學(xué)中著名的[杰文斯悖論]作為參照:當(dāng)資源使用效率提升時(shí),價(jià)格會(huì)下降,需求反而可能增加。

如果TurboQuant能夠讓運(yùn)行成本大幅下降,可能會(huì)激發(fā)更多此前因成本過高而無法實(shí)現(xiàn)的AI應(yīng)用場景,從而在另一個(gè)維度拉動(dòng)對內(nèi)存資源的需求。

從供給側(cè)來看,如果這項(xiàng)技術(shù)能夠順利落地并得到廣泛采用,全球AI行業(yè)對內(nèi)存芯片的需求增速可能會(huì)出現(xiàn)階段性放緩。

不過從需求側(cè)來看,事情可能恰恰相反。

更低的推理成本意味著更多的應(yīng)用場景變得具有商業(yè)可行性。

此前因?yàn)槌杀具^高而無法實(shí)現(xiàn)的[超長文檔AI分析],現(xiàn)在可能變得觸手可及。

邊緣設(shè)備和移動(dòng)終端上的AI應(yīng)用,也可能因?yàn)閮?nèi)存占用的下降而獲得更廣闊的發(fā)展空間。

這種[需求創(chuàng)造]效應(yīng),最終可能會(huì)在另一個(gè)方向上拉動(dòng)內(nèi)存消費(fèi)。

此外,如果TurboQuant能夠順利遷移到向量檢索領(lǐng)域,搜索行業(yè)的基礎(chǔ)設(shè)施成本也將迎來顯著下降。

結(jié)尾:

一旦[記憶]不再是剛性資源,整個(gè)AI產(chǎn)業(yè)的游戲規(guī)則,就已經(jīng)悄然改變。

但TurboQuant的出現(xiàn)證明,極致的算法優(yōu)化,同樣能帶來顛覆性的效率提升,甚至能掀翻硬件堆料的牌桌。

部分資料參考:電手:《存儲(chǔ)大廠遭老罪了!谷歌黑科技讓AI內(nèi)存需求暴降6倍》,丁靈波:《夯爆了!谷歌最新壓縮算法掀起AI效率革命,可將大模型鍵值緩存內(nèi)存占用減少6倍,精度零損失》,半導(dǎo)體行業(yè)觀察:《谷歌新論文,重創(chuàng)存儲(chǔ)芯片》,財(cái)聯(lián)社AI daily:《谷歌突破性算法震驚硅谷》

       原文標(biāo)題 : 產(chǎn)業(yè)丨谷歌TurboQuant算法引發(fā)連鎖反應(yīng),新技術(shù)或重構(gòu)AI內(nèi)存供需

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號

    诏安县| 通许县| 汝城县| 湘乡市| 莫力| 湖口县| 台前县| 叶城县| 岫岩| 牙克石市| 南昌市| 枝江市| 婺源县| 射洪县| 叙永县| 丰城市| 晋州市| 商南县| 思南县| 梁平县| 永嘉县| 巴林右旗| 青阳县| 平顺县| 怀集县| 乾安县| 綦江县| 杭锦旗| 万载县| 万山特区| 盐山县| 瑞丽市| 吉林省| 偃师市| 黄冈市| 白朗县| 额敏县| 临沭县| 金沙县| 通江县| 双流县|