作者:梁思琦?編輯:董雨晴
2月25日,開源放福利的DeepSeek甩出了一張王炸——開源全球首個面向MoE模型的全棧通信庫DeepEP。因?yàn)橹苯咏鉀Q了AI算力焦慮,GitHub瞬間飆出1500星(指收藏量),圈內(nèi)集體炸鍋,其重要性可見一斑。
很多人好奇DeepEP意味著什么?想象一下雙十一的快遞驛站:2048個快遞小哥(GPU)在200個倉庫(服務(wù)器)間瘋狂搬運(yùn)包裹(AI數(shù)據(jù)),傳統(tǒng)運(yùn)輸系統(tǒng)就相當(dāng)于讓小哥們蹬三輪送貨,而DeepEP直接給全員配上了“磁懸浮+量子傳送”套裝,穩(wěn)定高效的傳遞信息。
特點(diǎn)一:直接改變運(yùn)輸規(guī)則
在2024年8月29日的英偉達(dá)電話會議上,黃仁勛曾經(jīng)專門強(qiáng)調(diào)了NVLink(英偉達(dá)開發(fā)的一種讓GPU之間直接互連的技術(shù),雙向互傳速度可達(dá)1.8TB/S)對于低延遲、高輸出和大型語言模型的重要性,認(rèn)為它是推動大模型發(fā)展的關(guān)鍵技術(shù)之一。
然而這個被吹爆的NVLink技術(shù),這次直接被中國團(tuán)隊玩出了新高度。DeepEP玄妙之處就在于對NVLink的優(yōu)化,這意味著在同個倉庫的快遞員之間,用磁懸浮軌道運(yùn)輸,速度高達(dá)每秒158個集裝箱(GB/s),相當(dāng)于把北京到上海的距離縮短到喝一口水的時間。
黑科技二是其所包含的RDMA技術(shù)的低延遲內(nèi)核,試想下,不同城市的倉庫之間,貨物直接“量子傳送”,每架飛機(jī)(網(wǎng)卡)運(yùn)力達(dá)每秒47個集裝箱,還能讓飛機(jī)一邊裝貨一邊飛行,計算與通信重疊,徹底告別停機(jī)等待。
特點(diǎn)二:智能分揀黑科技:AI版“最強(qiáng)大腦”
當(dāng)貨物需要分發(fā)給不同專家(MoE模型中的子網(wǎng)絡(luò))時,傳統(tǒng)分揀員要逐個拆箱檢查,而DeepEP的“調(diào)度-組合”系統(tǒng)就像擁有預(yù)知能力:在訓(xùn)練預(yù)填充模式,4096個數(shù)據(jù)包同時走智能傳送帶,自動識別同城或跨城件;在推理預(yù)填充模式,128個加急包裹走VIP通道,163微秒送達(dá)比人類眨眼快5倍。與此同時采用動態(tài)變軌技術(shù),遇到流量洪峰秒切傳輸模式,完美適配不同場景需求。
特點(diǎn)三:FP8“縮骨術(shù)”
普通貨物用標(biāo)準(zhǔn)箱子(FP32/FP16格式)運(yùn)輸,而DeepEP能把貨物壓縮成微型膠囊(FP8格式),同樣卡車能多裝3倍貨物。更神奇的是,這些膠囊到達(dá)目的地后會自動恢復(fù)原狀,既省郵費(fèi)又省時間。
這套系統(tǒng)已在DeepSeek自家倉庫(H800 GPU集群)實(shí)測:同城貨運(yùn)速度提升3倍,跨城延遲降低到人類難以感知的程度,而最顛覆性的是它實(shí)現(xiàn)了真正的"無感傳輸"——就像快遞小哥邊騎車邊往快遞柜里塞包裹,整個過程行云流水。
現(xiàn)在DeepSeek把這張王牌開源,相當(dāng)于把順豐的無人分揀系統(tǒng)圖紙公之于眾,原本需要2000臺GPU的重型任務(wù),現(xiàn)在幾百臺就能輕松拿捏。
在更早之前,DeepSeek發(fā)布了其“開源周”的第一項成果:FlashMLA(直譯為快速多頭潛在注意力機(jī)制)的代碼,同樣是減少大模型訓(xùn)練過程中成本的關(guān)鍵技術(shù)之一。為了緩解產(chǎn)業(yè)鏈上下游的成本焦慮,DeepSeek正在傾囊相授。
此前潞晨科技創(chuàng)始人尤洋在社交媒體發(fā)文表示,“短期內(nèi),中國的MaaS模式可能是最差的商業(yè)模式”,其簡單估算,如果每日輸出1000億token,基于DeepSeek的服務(wù)每月的機(jī)器成本是4.5億元,虧損4億元;用AMD芯片月收入4500萬元,月機(jī)器成本2.7億元,這意味著虧損也超過2億元。
登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。