在當前的全球AI競賽中,許多非洲的AI計劃依靠於現有的大型語言模型,例如OpenAI的GPT、Google的Gemini或Meta的Llama。然而,中國初創公司DeepSeek的成功證明了AI產業並不只是一條固定的軌道。小型公司亦有機會通過突破性想法打破原有的假設,挑戰普遍認為的建構強大模型的必要條件。

重新思考AI產業的現狀

一年前,AI的競賽格局似乎是已定局的,由OpenAI、Google和Meta等巨頭主導。這些公司投入數十億美元不斷訓練更強大的模型。常識指出,AI突破僅屬於擁有最深口袋和最先進計算能力的公司,這是一個排他的俱樂部,僅有最富有的科技巨頭被邀請。

然而,DeepSeek猝不及防地打破了AI競賽的慣例。

這家中國的初創公司推出了DeepSeek-V3,其AI模型可與Meta的Llama 3.1媲美,同時據稱其訓練成本僅為560萬美元。相比之下,Meta的類似模型據稱耗費大約6000萬美元並需要超過3080萬個GPU小時的運算時間。即使是OpenAI的GPT-4,其訓練成本亦被估算超過1億美元。但是,DeepSeek卻只用到了上述成本的很小一部分,便生產出可競爭的模型。

更令人驚訝的是DeepSeek如何實現這一突破。這家初創公司沒有使用最新、最昂貴的Nvidia H100 GPU,而是依賴於較舊的H800晶片,同時通過優化的訓練技術降低計算成本。結果是,DeepSeek只用了2000個晶片便完成了它的模型訓練,而如OpenAI和Google這些巨頭通常需要使用超過16000個晶片。

DeepSeek的突破挑戰了AI的現狀

DeepSeek的效率不僅影響中國科技業,更是對全球AI技術力量佈局產生啟示。AI產業長期以來的假設是大科技公司主導提已不可避免,因為只有最富有的公司才能負擔起建立AI模型所需的巨大基礎設施。DeepSeek的成功讓這個假設面臨挑戰。

如果一個中國企業可以在資金有限且獲取高端硬件受限的情況下達成如此成就,那麼這不僅僅是金錢和資源的競賽。

金融界當然也注意到了這一點。DeepSeek宣布後,Nvidia的股價一度下跌,因為投資者擔心其最大的客戶——那些在AI基礎設施上花費巨資的公司未來可能不再需要那麼多的晶片。行業一直以來運行於AI開發需要無盡的計算能力的信念,然而DeepSeek證明了更聰明、更高效的訓練方法同樣能夠產出競爭性結果。

對非洲的啟示

DeepSeek的意外成功應該成為非洲AI初創企業的喚醒。長期以來,非洲在AI中的角色被限制在整合而非創新,使用外國的模型而非構建新的模型。普遍的看法是,由於計算能力資源有限,資金缺乏,與專業人才的匱乏,非洲無法訓練基礎性的AI模型。

但是,DeepSeek的崛起可能會改變這種思維模式。如果一家在美國晶片出口嚴格限制下運營的中國公司可以找到創意的解決方案並優化其訓練技術,為什麼非洲的公司不能?

這並不是說非洲現在就能立即開始像DeepSeek這樣規模的模型訓練,但它證明了AI競賽並未結束——而是在演進。

DeepSeek的崛起顯示,創新可以來自任何地方。去年,很少有人預測一家中國公司會對OpenAI和Google構成嚴重威脅。同樣,今天也沒有人預計非洲會構建出具有競爭力的AI模型。但正如DeepSeek所展現的那樣,意想不到的事情是可能發生的。