1024手机看片欧美日韩,同桌爽好舒服宝贝,热99re久久精品精品免费,国产欧美日韩中文视频在线 ,韩国午夜理伦三级,Av精品扣淫穴国产精品,1024精品一区国产在线播放,亚洲免费精品视频,秋霞鲁丝一区二区三区精品,欧美黄色网站

關于我們 | English | 網站地圖

AI存儲暗藏玄機 中國原創技術在美國大放異彩

2026-01-14 08:01:00 5e
        近日,一篇《2100億獨角獸即將誕生!被英偉達、谷歌、xAI同時看中》的文章在AI業內流傳,揭開了一個被國人忽略的AI新賽道——AI存儲。

在中美科技競爭的大背景下,芯片一直是重中之重,說舉國之力也不為過,而以Deepseek為代表的中國公司在芯片被“卡脖子”的情況下,在算法上的突破也獲得了足夠多的關注,但在這場大模型的全球爭霸賽中,芯片(算力)和模型(算法)之外,還有一個至關重要甚至稱得上“卡脖子”的領域,卻被國人忽視,那就是AI存儲。

AI 存儲是AI產業的 “剛需”

公眾一般都知道AI算力靠GPU,GPU尤其是高端GPU是稀缺資源,實際上在AI計算時還有一個“效率中樞”,決定著GPU的運行效率,這就是AI存儲。

大模型訓練/推理不只是算力競賽,也是“數據管道”競賽:把成山的訓練樣本、檢查點(checkpoint)、特征向量在微秒級送進上萬張 GPU。如果存儲端跟不上節奏,昂貴的 GPU 就會閑著“等數據”,高額的算力投資被浪費。

從Google、英偉達、Hugging Face等公司的論文中可以看出,GPU的利用率往往只有50%左右。昂貴的GPU算力在AI計算時大約有一半被浪費,“是可忍孰不可忍”,于是AI產業界就削尖腦袋加以改進。提高存儲性能,避免讀寫時卡頓就成為“剛需”。

AI存儲是創新技術的藍海

傳統的存儲技術并非為滿足當今AI訓練推理而設計,現有存儲技術在面對規模越來越大的AI訓練推理集群時已經越來越力不從心。

AI 訓練需要處理海量數據,且數萬張GPU卡都要共享訓練參數。要保證讀訓練數據時數據流穩定,哪怕只有1%的微小抖動,都會導致高達數百GPU卡頓;AI訓練還需要頻繁寫Check Point(相當于訓練參數存檔),寫Check Point時這么多GPU同時集中寫,這是傳統存儲系統不會經常遇到的情況;在分配訓練數據時,海量小文件的讀寫是傳統存儲一直未能解決的難題, 有時僅文件列表加載就需耗時數小時;在推理時,長上下文又有新的存儲需求……華為 MLPerf 測試數據顯示,傳統存儲在AI訓練場景中 GPU 利用率僅 30%。

因此迫切需要構建為AI專門設計的數據存儲架構,能夠低成本高效率地處理數據,讓昂貴的算力不再被浪費。

Shared-Everything架構撐起300億美元巨頭

分布式存儲是很多臺服務器(稱為服務器集群)組成的存儲系統。傳統分布式存儲是Shared-Nothing架構的,即數據盤屬于存儲服務器私有。這就像商品都歸本地供銷社管理,每個人只能在本地供銷社買東西,要去買其它地方的商品就必須讓本地供銷社和對方供銷社協商,將對方貨物調過來才能買。這種供銷社之間的協商和調貨被稱為Cross Talk,是分布式存儲最大的性能瓶頸。

而Shared-Everything架構則是數據盤在共享存儲池,任何服務器都可以不經過其它服務器讀寫所有的盤。這就像電商,任何人不管在什么地點都可以直接下單購買,而無需供銷社之間協商調貨。Shared-Everything架構下數據路徑更短,消除了Cross Talk這一性能瓶頸,性能有質的飛躍。

美國創業公司VAST Data宣稱,Shared-Everything是分布式存儲20年來第一次架構性創新,傳統Shared-Nothing架構正在走向末路。我們可以理解為相當于電商會取代供銷社。

VAST Data基于Shared-Everything架構的AI存儲系統使得GPU利用率比傳統存儲技術提升 10–25 %,Checkpoint 時間從 10 分鐘級降到 1分鐘級。數據恢復速度提升 5–8倍,迅速成為了AI存儲市場的獨角獸。該公司2016年成立以來,獲得了包括英偉達在內的多輪投資,客戶名單包括馬斯克旗下大模型創企x AI、皮克斯動畫、zoom、谷歌,最新一輪估值更是高達驚人的300億美元。

300億美元估值意味著什么?要知道世界上最大的傳統存儲廠商EMC(也就是常說的“去IOE”中的“E”),2016年EMC被Dell時存儲業務價值也不過245億美元。這就像特斯拉的市值超越豐田、奔馳、寶馬等傳統汽車廠商一樣,代表新架構對傳統架構的超越。同時,這個數字甚至也超過了中國聯通的市值。

Shared-Everything是中國原創技術

雖然Shared-Everything技術在美國大放異彩,但事實上該技術卻是中國首創。多年前,中國的IT科學家王東臨和他領銜的書生公司技術團隊就發明了Shared-Everything技術(當時稱為分布式共享存儲技術),并研發了基于該技術的第一代SurFS分布式存儲系統,性能非常出色,在當時世界上最快的分布式存儲系統性能在500微秒左右時,SurFS提高到了60微秒左右,充分展現了Shared-Everything技術的優越性。

王東臨是得過多項國家級科技榮譽、在中國IT業歷史上留下多個足印的技術專家,陸續發明了多項國際領先的創新技術,有的(如電子印章技術)已經得到廣泛應用,有的(如果中國軟件業首個國際標準)樹立了中國IT業的里程碑,有的(如Shared-Everything架構)仍然待字閨中。就在今年,他基于Shared-Everything架構設計的量子模擬機集群也同樣打破了記錄,用兩顆普通CPU跑出了比英偉達8張GPU卡還高的性能;前不久,他還帶領南開大學人工智能團隊和北京大學量子神經網絡團隊做出了全球首個基于量子算力實現智能對話的AI大模型成果,其預印版論文剛剛發表……

2016年2月,書生公司申請了一批Shared-Everything技術架構的發明專利,并隨后對第一代SurFS進行了開源,倪光南院士、時任工信部電子信息發展產業研究院院長盧山等領導出席了SurFS開源儀式。

 

image.png

 

開源的意義在于讓公眾都能共享創新成果(尤其是架構性的重大創新),讓新技術能得到更廣泛的應用。但開源也會被不勞而獲的同行竊取,經常有人調侃說“美國一開源,中國就有了創新技術”。但這一次,在書生公司SurFS開源后不久,VAST Data公司成立了;在SurFS開源21個月后,VAST Data“發明了”Shared-Everything技術,并于2017年11月在美國申請了相關技術的專利。根據知識產權專業機構的分析,雙方專利高度相似,技術方案完全覆蓋,屬同一個技術。

中國原創技術,會被美國用來收割中國嗎?

目前,書生公司已經重啟了新一代SurFS技術的研發,宣稱新技術在核心技術指標上將超越VAST Data。日前,書生公司還向專利局提交了宣告VAST Data專利無效的申請。

AI競賽的大幕已經拉開,芯片、模型……刀光劍影,電力、基礎設施枕戈待旦,現在,存儲領域的漁陽鼙鼓聲響起。當VAST Data身后集結了英偉達、迪士尼、谷歌、x AI、chatGPT、CoreWeave等一系列美國AI公司,其客戶名單中還包括NASA和美國能源部時,王東臨、書生公司和他的Shared-Everything專利背后,應該有誰?VAST Data數月前剛在中國設立了總代理,將來會不會出現美國人用中國技術卡中國脖子的景象?

 




責任編輯: 江曉蓓