摘要:

硅星人對 GMI Cloud 創始人&CEO Alex Yeh 進行了專訪,內容包含了對 AI Cloud 市場判斷、公司願景等問題,作者週一笑,下文為對話實錄。



今年,AI 算力市場的重心正在發生偏移。DeepSeek 等開源模型的爆發是一個明確信號,AI 的主戰場正從昂貴的訓練場景,被拽入高頻、碎片化的推理場景。在這個節點上,Alex Yeh 和他的 GMI Cloud 站在了一個微妙的位置。


這家成立僅 3 年的公司,正在以一種罕見的速度完成資本與產能的原始積累。去年 10 月,GMI Cloud 拿到了 8200 萬美元的 A 輪融資 ,今年上半年又獲得了 NVIDIA NCP(Reference Platform NVIDIA Cloud Partner)認證 。這個認證,截至目前全球僅有 7 家公司持有 ,在緊缺的算力市場,它意味着擁有最高優先級的拿貨權和原廠技術支持 。


上週,GMI Cloud 宣佈與 NVIDIA 在中國台灣合作建設 AI Factory,GMI Cloud 自行總投資 5 億美元 。這座超級數據中心計劃部署基於 GB300 NVL72 架構的萬卡集羣 。據官方透露的獨家消息,該工廠的第一期算力已經售出,第二期也已有 50% 被預定 。


這背後是當前算力市場的真實供需,儘管芯片產能不再像兩年前那樣極度緊缺,但優質、可用的集羣資源依然稀缺。Alex Yeh 將這種狀態形容為一種複雜的壓力。作為 GMI Cloud 掌舵者,他必須在產能與需求之間走鋼絲,同時警惕懸在所有 GPU 雲廠商頭頂的達摩克利斯之劍:當 GPU 最終變成像水電煤一樣的大宗商品,一家創業公司如何避免淪為巨頭陰影下的流量管道?


Alex Yeh 並非典型的極客創業者。在創辦 GMI Cloud 之前,他在私募股權和風險投資領域工作多年,曾是區塊鏈生態中最年輕的合夥人 。資本市場的訓練讓他習慣於剝離技術泡沫,尋找資產的底層邏輯。


他曾目睹區塊鏈行業的興衰。在他看來,那個市場唯一恆定的資產是BT幣,而獲取它的路徑只有兩條,算力和能源。並沒有選擇炒作幣價,他投身於數據中心建設和電力佈局 。如今,他將這套邏輯複用到了 AI 領域。無論應用層如何演變,無論最終勝出的是 Coding 還是視頻生成模型,算力是唯一的確定性剛需。


但他拒絕做純粹的算力租賃商。在 AWS、Azure 和 Google Cloud 等超大規模雲廠商統治的市場“牌桌”中,GMI Cloud 試圖走出一條“符合 AI 應用企業需求的全鏈條算力支持”的新路子。


不同於巨頭主要圍繞 CPU 構建的通用雲底座,GMI Cloud 選擇了重資產模式:底層裸金屬採買自持英偉達高端 GPU,在全球建設多個數據中心;中間 IaaS 層自研集羣調度引擎——Cluster Engine(集羣引擎)平台,上層提供 MaaS 服務——Inference Engine (推理引擎)平台。同時,據一手消息,他們還即將上線一款名為“GMI Studio”的 Workflow 產品,以及在年底陸續孵化強化學習類產品。這種從裸金屬到 Token,再到應用層產品的全棧支持能力,讓他們在面對 CoreWeave 等北美友商時,依然能在亞太和出海市場找到生存空間。


Alex 並不避諱談論行業的殘酷。他看到單純的 GPU 租賃生意終將面臨利潤攤薄,為了在紅海到來前建立壁壘,所以他正在做兩件事,一是在全球範圍內鎖定 2027 年的電力資源,因為電力將是數據中心最大的硬約束;二是構建軟件生態,通過深度優化模型提供比原生平台更快、更低成本的推理服務、模型服務 。值得一提的是,在行業裏大家都還沒有將“電”視為第一生產力影響要素的時候,Alex 早就已經提前做電廠的部署規劃。


GMI Cloud 是這一輪 AI 基礎設施玩家洗牌的縮影,是 AI Cloud 時代下的當紅新貴。當熱錢退去,只有那些能解決供應鏈、電力和深度技術服務的公司,才能留在牌桌上。


近期,我們與 GMI Cloud 創始人 Alex Yeh 進行了一次對話,談到了他對算力市場的判斷、公司的策略選擇,以及這門生意的本質。以下是對話實錄,經不改變原意的編輯。


01 

看不清哪個 AI 應用會跑出來,但算力是確定的


硅星人:在創立 GMI Cloud 之前,你有着非常豐富的 AI 和 VC/PE 投資背景。是什麼契機讓你從“看項目的人”轉變為下場“做項目的人”,並投身到 AI 基礎設施賽道?


Alex:這其實源於我做投資時的一個核心訓練,叫 First Principle Thinking(第一性原理思考)。我習慣去問五個“為什麼”,一層層剝開表象,直到推導出一個市場裏不變的真理。


舉個例子,如果不看科技看養老,那個市場裏不變的真理就是“老齡化”,所有的看護、醫療需求都圍繞這個不變的邏輯展開。當年我看區塊鏈行業也是一樣,為了尋找市場中的 Alpha,我發現那個賽道里唯一恆定的其實是BT幣。而要想持續獲得BT幣,最底層的邏輯就是“算力”和“能源”。所以我當時沒有選擇去炒啊幣,而是直接投身去做了最底層的事,也就是數據中心的建設和電力資源的佈局。


現在的 AI 賽道雖然五花八門,從通用的 LLM 到各種垂直賽道——心理治療、數學科研、視頻模型、Coding 等等,但它們中間核心不變的是什麼?推導到最後,它們都需要消耗巨大的算力。


就像 1995 年互聯網剛起步時,我們根本無法預見到 20 年後會出現 Facebook、Amazon 或是阿里巴巴。同樣的,我現在可能看不清未來哪個具體的 AI App 會跑出來,但我能確定整個賽道對 GPU 算力的需求是確定的。所以,相比於去賭某一個具體的應用或工具(風險較大),賭整個 GPU 算力賽道對我來説是風險最小、確定性最高的選擇。加上之前做區塊鏈基礎設施積累的機房建設經驗和電力資源,也讓我能比較快速地切入這個領域。


硅星人:與 AWS、Google Cloud 等雲服務商(Hyperscalers)相比,GMI Cloud 的核心差異化是什麼?業界有聲音認為專業的 AI Cloud 效率能高出 40%,你們有觀察到類似的優勢嗎?


Alex:Hyperscalers 和我們最大的區別,我覺得主要體現在三個維度:位置(Location)、服務顆粒度(Service)和產品形態(Product)。


首先是位置。Hyperscalers 通常只圍繞特定的幾個核心大區(Region)服務。但在很多特定市場,比如東南亞,公有云的覆蓋其實並不完整,往往需要連接到東京或其他大節點的機房,這在延遲和數據合規上會有很大問題。GMI Cloud 創立之初就是一家 Global Company,我們在全球多個地區有多個節點,能更靈活地滿足當地客户對數據駐留和低延遲的需求。


其次是服務的深度。這個行業裏,除非你是全球 500 強或者每年預算在 2000 萬美金以上,否則你很難在 Hyperscalers 那裏獲得專屬的 Account Executive 或技術支持。但在 AI 訓練中,機器與模型的綁定非常深,訓練過程極不穩定,非常需要 TAM(技術客户經理)和 SA(解決方案架構師)的深度支持。GMI Cloud 能提供這種高強度的技術支持,幫助客户優化 Token 和 Infra,這是很大的體感差距。


最後是產品。Hyperscalers 的底座大多是圍繞 CPU 雲構建的,GPU 只是其中一部分,很多產品是基於 CPU 架構做的變通。而 GMI Cloud 是 AI Native 的,我們不僅是賣算力,還做到了底層的 Model Optimization 和 Memory Optimization。例如在 Llama 模型的推理上,我們的吞吐量和首字延遲能比傳統雲廠商快 2-3 倍;在視頻生成模型上,我們的速度甚至能比某些官方 API 快 3 倍。這就是專注帶來的紅利。


硅星人:面對與 CoreWeave、Lambda 等模式相似的競爭對手,GMI Cloud 在技術、服務以及定價策略上,最核心的優勢是什麼?


Alex:CoreWeave 和 Lambda 都是非常值得尊敬的友商。CoreWeave 主要專注於 Training 和超大規模集羣,客户集中度很高,Microsoft 和 OpenAI 佔了很大比例,但在推理層面,比如按秒計費、全球多點部署(特別是亞洲),他們目前涉及較少。Lambda 的優勢在於 Container 和租賃本身,但在模型層的適配上做得相對少一些。


GMI Cloud 的打法是提供 Vertical Stack(垂直全棧)的能力。我們不僅提供裸金屬做訓練,還提供 Inference Engine,支持按 Token 計費。這就好比我們既賣“麪粉”(算力),也賣“麪包”(API)。無論客户是需要裸金屬做訓練,還是作為創作者只需要調用 DeepSeek 或 Qwen 的 API,我們都能提供。而且我們在視頻模型的優化上下了很大功夫,提供了 Video 相關的垂直服務,這是目前很多競品還沒覆蓋到的。


02

不只是“套殼”,是底層優化


硅星人:你們的 Inference Engine 平台,和很多公司都有類似的業務。你們的核心附加值到底是什麼?


Alex:這問到了點子上。主要有兩個核心區別,全球化能力和對底層硬件的掌控力。


據我瞭解,國內同類廠商的算力主要集中在國內,如果是做 AI 出海應用,會遇到明顯的延遲問題。GMI Cloud 的節點遍佈全球,能解決出海客户的地理位置痛點。


更重要的是,我們擁有自己的物理算力(Own Hardware),而不是純粹的 Serverless API 聚合商。如果你去租阿里雲或火山引擎,通常拿到的是 VM(虛擬機),很難做底層的“騷操作”來優化 GPU 集羣的通信和推理效率。因為我們擁有底層的 GPU 卡,我們可以控制到 Bare Metal 甚至底層防火牆級別。只有控制硬體,才能把成本壓下去,同時把性能提上來。這就是為什麼我們能比原生平台跑得更快、更便宜。


硅星人:作為 NVIDIA 的 Reference Platform NVIDIA Cloud Partner,除了能優先拿到新卡,這個身份還帶來了哪些“看不見”的好處?


Alex:這個認證確實不僅是拿卡那麼簡單。我們在研發層面與 NVIDIA 有非常緊密的 Bi-weekly Catch-up(雙週技術會議)。


舉個具體的例子,我們正在推進全亞洲第一個 GB300 液冷萬卡集羣的建設。這種級別的集羣建設,業內幾乎沒有先例可循,難度非常大。NVIDIA 的團隊會直接介入,幫我們一起調整參數、建設部署。


這種從 Confidential Computing 到 Infiniband 網絡層面的深度技術支持,是我們能搞定這種超大規模集羣的關鍵。此外,能提前接觸到像 Rubin 這樣下一代架構的信息和 Demo,也讓我們在技術規劃上能搶佔先機。


硅星人:我們看到市場正出現 NVIDIA 之外的專用 AI 芯片(ASIC)。GMI Cloud 的長期硬件戰略,是會繼續深度綁定 NVIDIA,還是會擁抱一個更多元化的算力底層?


Alex:這是一個基於理性和時間的考量。目前光是適配 NVIDIA 的迭代——從 H100 到 H200 再到 Blackwell,以及 CUDA 的升級,就已經消耗了我們大量的人力資源。


再加上模型層也在瘋狂迭代,像 DeepSeek、Qwen、Wan 這些新模型層出不窮。光是做好 NVIDIA 架構下的模型適配就已經很難了。所以短期內,我們會集中精力把英偉達芯片資源做深。當我們的規模擴展到一定程度後,可能會組建獨立的團隊去探索新的硬件生態。


硅星人:GMI Cloud 的容器化服務,與傳統 GPU 租賃有什麼不同?這些 PaaS/MaaS 層的服務,為客户帶來的最終業務價值是什麼?


Alex:傳統的容器服務只是給你一張卡租多少時間。而我們的 MaaS 服務是經過深度優化的。


根據第三方平台的對比,我們的 API 相比其他提供商有 2.4 倍到 3 倍的提速。這背後的技術包括 GPU 並行計算(Parallelism),讓我們能在多個節點間高效分配推理任務;以及自動擴縮容(Auto-scaling)和顯存訪問優化。最終給客户帶來的價值就是:速度更快,成本更低。


03

算力還不是大宗商品,機器壞掉是不會挑日子的


硅星人:在你們與歐洲 AI 音樂平台的合作案例中,提到了“聯合工作小組”進行調優。隨着客户羣擴大,你們將如何 Scale 這種定製化能力?


Alex:這種深度模式目前主要針對重點客户(Key Accounts)。這其實是一個互補和共同成長的過程。


比如我們有一個案例,客户同時使用 Qwen 和 DeepSeek 兩個模型。他們擅長調優 Qwen,我們擅長調優 DeepSeek。於是我們決定 Share Repo(共享代碼庫),把各自優化的節點和加速經驗共享出來,避免重複造輪子。通過這種深度合作,我們能將 GPU 集羣的穩定性調得非常高,通過降低故障率和優化 Checkpointing,讓客户的訓練速度提升了 20%。


雖然這是高接觸服務,但我們在合作中學到的技能,比如特定 Video 模型的優化,會沉澱下來,標準化後服務於更多同類客户。這本身也是我們在打磨產品。


硅星人:單純的 GPU 租賃利潤會越來越薄。GMI Cloud 計劃如何通過構建自己的軟件和服務生態,來避免陷入低利潤的“算力紅海”?


Alex:很多人認為算力最終會變成 Commodity(大宗商品),但至少目前來看,它還不是。


在這個行業,即使你買了 GPU,如果網絡服務和穩定性做不好,客户是沒法用的。我們見過有廠商機器經常斷網,或者週末找不到人維護。但你知道,機器壞掉是不會挑日子的。所以,服務品質和集羣穩定性本身就是極高的壁壘。口碑越好,客户越多。


另外,規模(Scale)也是壁壘。現在能提供 8 卡、16 卡集羣的廠商一抓一大把,但能提供單一集羣 2000 卡甚至萬卡級別的廠商非常少。隨着模型越來越大,客户對大規模集羣的需求在增加,這實際上是在進行一場去蕪存菁的行業洗牌。只有具備大規模交付和服務能力的廠商才能在紅海中生存下來。


硅星人:從行業視角看,先租後買(Buy-to-Own)在 AI 算力採購版圖中的位置是什麼?它會走向主流嗎?


Alex: 它不會是全市場的主流,而是服務於特定階段、比較成熟的客户。這類客户通常願意籤 3 年以上的長約,他們算過賬,認為付完 3 年租金後,資產折舊也差不多了,希望能擁有資產的所有權。這是針對特定高端需求的一種靈活服務。


硅星人:與服務本土企業相比,服務海外企業和 AI 出海企業對你們的技術、服務和全球化能力提出了哪些不同的要求?


Alex: 中國出海企業通常有三個核心需求:1、成本可控的混合架構:出海初期預算有限,需要高性價比。2、用户體驗:落地到日本、東南亞或北美時,需要當地的節點來保證低延遲。3、中文服務與合規:我們能提供普通話服務,同時解決當地的合規問題。


硅星人:目前來看,哪些行業對你們的 GPU 雲服務需求最旺盛?能分享一兩個最有意思的應用案例嗎?


Alex:目前看最火的三個賽道是:AI Software Copilot(編程輔助)、Image & Video Generation(圖像視頻生成)和 AI Companions(AI 陪伴)


最有意思的一個案例是我們有個做 Video 的客户。他們的產品發佈後瞬間爆火,算力需求在 1 個月內翻了 8 倍。我們必須在極短時間內幫他們完成極速擴容,從幾百卡瞬間擴到幾千卡。


這對我們的供應鏈和調度能力是巨大的考驗,但我們也因此贏得了客户的極度信任。這也帶來了一個“甜蜜的負擔”,我們的卡經常處於售罄狀態,需要在 Capacity(產能)和 Demand(需求)之間不斷玩“蹺蹺板”遊戲。


04

只做“出海”與“本地化”


硅星人:在亞洲市場(如中國大陸、東南亞、東北亞),你們的佈局和競爭策略是什麼?


Alex:我們在不同市場的打法非常明確。


在中國大陸,我們不碰本土 GPU 業務,只做“出海服務”。幫助中國企業落地東南亞、日本和北美。中國出海企業有三個核心需求:成本可控的混合架構、低延遲的用户體驗(Local 節點),以及中文服務與合規。我們在亞太某些地區,因為有本地節點,解決了很多金融或 IC 設計公司在 AWS/GCP 上找不到本地算力的痛點。


在東北亞,我們已經拿下了日本第二大電力公司作為客户,並組建了日本團隊,提供從 GPU 到模型管理的全流程服務,服務本土大客户和出海落地的客户。


在東南亞,我們有豐富的機房 partner 資源,幾乎可以做到快速幫國內 AI 應用出海企業快速拉到資源。


硅星人:去年的 A 輪融資取得了哪些關鍵進展?基於這些成果,公司對下一輪融資有何規劃?


Alex:A 輪資金主要用於獲取 NCP 認證和建設早期的千卡/萬卡集羣。這一年的成果是顯著的,我們拿到了 NVIDIA 的核心認證,建設了萬卡規模的算力,並贏得了投資人和客户的認可。


對於 B 輪融資,我們預計規模是 2 億美金,預計本年底就可以 Close。這筆資金將主要用於建設 AI Factory,將我們的集羣規模在現有基礎上翻倍甚至翻三倍,特別是在北美、日本和台灣地區的擴容。


05

巨石、鵝卵石和沙


硅星人:你覺得未來兩三年,GPU 雲算力這個市場,最大的機會和挑戰會是什麼?


Alex:最大的挑戰絕對是電力。真的不夠用。


我們最早找機房時只需半兆瓦(0.5MW),現在找機房起步就是 40MW。整個規模發展非常可怕。我們現在做規劃已經不是看 6 個月後,而是要直接去鎖定 2027 年的電力資源。這也迫使我們往上游走,直接跟 Hyperscalers 和電力公司合作。未來的競爭,很大程度上會是能源的競爭。


硅星人:怎麼看待開源和閉源大模型的競爭?這對你們有什麼影響?


Alex:我覺得開源是整個產業的推進器。像今年的 DeepSeek V3 一出來,市場反應非常熱烈,企業發現終於可以低成本地控制自己的數據和模型了。


以前大家覺得開源閉源差距很大,現在這個 Gap 正在迅速縮小(Converge)。之前像 Cursor 這樣的產品一火,大廠馬上就能出一個 Cloud Code 把它覆蓋掉,因為成本太高了。但開源模型讓大家有了反擊的機會。我有一個大膽的預測,在 Video 賽道,也會出現“DeepSeek Moment”。像阿里的 Wan 2.5 已經非常強了,未來視頻模型也會像 LLM 一樣,出現一個開源的高光時刻。這對我們這種基礎設施廠商是巨大的利好。


硅星人:最後一個問題,我們正進入一個“推理時代”。GMI Cloud 的理想狀態,會是一個什麼樣的角色?


Alex:我們不希望只做一個單純的“算力提供商”,那樣只會越做越窄。我們希望做一個可以解決 AI 應用企業所有技術及算力需求的 Verticalized AI Service Platform(垂直化 AI 服務平台)。


我有一個比喻,叫做 "Rock, Pebble and Sand"(巨石、鵝卵石和沙子):


Rock(巨石):像 CoreWeave 那樣,提供超大規模集羣給大模型公司做 Training。


Pebble(鵝卵石):通過 K8s 和 Container,服務於需要靈活性、中等規模算力的初創企業。


Sand(沙子):通過 Inference Engine 提供 API 服務,讓創作者和開發者能像抓沙子一樣,隨時隨地調用 DeepSeek、Qwen 等模型。同時針對開發者和創作者,我們也會孵化更多好用的服務,比如 Workflow 等。


我們的終局是把這三層全部打通,從最小的 API 調用到最大的萬卡集羣訓練,提供一個全棧式的解決方案。