DeepSeek

DeepSeek創辦人梁文鋒,少年股神變AI大神

DeepSeek創辦人梁文鋒靠著程式交易成為少年股神,他如何靠著北大、清華天才少男、少女團隊,打造出令矽谷聞之色變的DeepSeek。

DeepSeek-梁文鋒-AI DeepSeek創辦人梁文鋒(右)。圖片來源:CCTV+螢幕截圖
其他
  • 天下Web only

即便是在中國AI產業,DeepSeek都是非典型玩家,而背後的創辦人是「少年股神」梁文鋒。

1985年出生,梁文鋒浙江大學資訊與通信工程研究所畢業,學生時期就與同學摸索如何透過機器學習,寫程式縱橫股海。 (看更多:DeepSeek讓輝達單日蒸發6000億美元,輝達還可以買嗎?

2015年,梁文鋒攜手兩位浙江大學校友,共同創立了程式交易對沖基金幻方量化(High-Flyer)。幻方量化迅速在中國金融界嶄露頭角,靠著輝達晶片訓練的超級電腦,以AI驅動交易,績效持續領跑市場,順理成章寫下歷史性里程碑——中國第一個募資破1000億人民幣的程式對沖基金。

不過,DeepSeek自認花600萬美元就達成媲美OpenAI和 Meta大型語言模型的效果,引發不少質疑。

梁文鋒確實是在2023年創辦DeepSeek研究室進軍人工智慧領域,終極目標是打造通用人工智慧。但幻方量化早在好幾年前就慢慢累積購入輝達圖形處理器(GPU)了。

梁文鋒曾透露,早在2021 年就有先見之明地儲備了1 萬個GPU。

梁文鋒一位不具名商業夥伴告訴金融時報,梁文鋒2021年開始為他的人工智慧副業購買數千個輝達GPU,但業內人士多沒放在心上,只把它當成億萬富翁有了新嗜好。

一位商業夥伴說,「第一次見到梁文鋒,他是一個髮型糟糕的書呆子,說要由一萬個晶片集群訓練自己的模型。我們並沒有認真對待他。」

廣告

「他除了說『我想建立這個,以及它會是game changer之外』,他根本無法清楚闡述他的願景。」

梁文鋒鮮少受訪,但他在接受中國科技與財經的新媒體36氪訪問時說,他是出於科學好奇心創辦DeepSeek,而不是想要賺錢。

他說,「過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。」

梁文鋒也談到,從商業角度來講,基礎研究就是投入回報比很低的。「OpenAI 早期投資人投錢時,想的一定不是我要拿回多少回報,而是真的想做這個事。我們現在比較確定的是,既然我們想做這個事,又有這個能力,這個時間點上,我們就是最合適人選之一。」

不用海歸,打造北大、清華天才團隊

DeepSeek中沒有任何人是海歸。梁文鋒把對沖基金裡最優秀的同仁都帶到DeepSeek,也用自己投資累積的財富找來最優秀人才,與TikTok母公司字節跳動並列為中國AI領域提供最高薪資的企業之一。

廣告

梁文鋒說,從一開始他就沒想找有經驗的工程師組團,而是鎖定來自中國菁英學府北大和清華急於證明自己的博士生。

他告訴中國媒體量子位(Qbitai),許多博士生都曾在頂尖期刊發表論文,他們只是缺乏業界經驗。

梁文鋒說,DeepSeek的核心技術職位主要是當年度或是僅畢業一、兩年的新鮮人擔任。公司文化鼓勵協作,讓研究人員可以自由地利用充足的計算資源來開展非常規的研究項目。這與中國傳統科技公司形成了鮮明對比,在那裡,團隊常常需要搶錢、搶資源。

當梁文鋒談DeepSeek使命,你彷彿聽見那些站在風口浪尖的美股七巨頭領導人在說話,梁文鋒說DeepSeek的誕生「是為了解決世界上最艱難問題」。

中國血統、中國體制教育出來的研究人員似乎增強了他們的動力。研究中國創新的雪梨科技大學副教授說,「這些年輕一代體現出一種愛國主義精神,這在他們應對美國對關鍵硬體和軟體技術的限制時,更是完全展現出來。」

廣告

美國政府於2022年10月開始統整各個出口管制,其中包含嚴格限制中國企業取得輝達H100等高階晶片。儘管囤了1萬個,但為了競爭顯然需要更多。

梁文鋒受訪坦言,「資金從來不是問題,出口管制是。」

出口管制逼得DeepSeek 必須想出更有效率的方法來訓練模型。

美國知名AI研究機構EPOCH AI認證,DeepSeek 最新模型的效率如此之高,以至於訓練所需的算力只有 Meta 可比較的 Llama 3.1 模型的十分之一。

前DeepSeek員工Zihan Wang,現在在美國西北大學電腦科學當博士生。她說,為了開發R1,DeepSeek不得不重新設計其訓練過程,以減輕對GPU的壓力。她也說,DeepSeek用的就是專為中國市場推出的降規GPU,性能被限制在頂級產品的一半。(看更多:直擊中國科幻現場:科技自主不靠輝達晶片?誤會大了

就現在最高光?DeepSeek三大挑戰

許多業內人士分析,DeepSeek在有限資源下展示了令人驚豔的成果,但能否保持競爭力仍是一個問題。

廣告

一方面,幻方量化對沖基金2024年投資報酬率落後,許多人將此歸咎於梁文鋒的分心於DeepSeek。如果現在的頂尖人才都是靠他的財庫撐起來的,他的投資眼光必須持續精準。否則,就必須引入外部資金,或接受中國政府幫忙,但中國政府的介入,將讓這家新創走向完全不一樣的路子。

再者,DeepSeek的網路聲量如此之大,川普政府不會充耳不聞。如果DeepSeek成功釋放輝達「降規」晶片的潛能,是否應該考慮把管制高牆再蓋得更高,將是川普政府必須面對的抉擇。

最後,輝達新一代Blackwell晶片集群出貨中,可能再次拉開與中國競爭對手的差距。本週,川普與OpenAI和日本軟銀站在一起,為「星際之門」(Stargate)專案背書,計劃四年在美國投資至少4000億美元用於人工智慧基礎設施。馬斯克的xAI正在大規模擴展超級電腦。

梁文鋒的商業夥伴說,「DeepSeek現在確實擁有中國最大的先進計算集群之一,目前能力足夠,但優勢不會持續太久。」

廣告

套句中國式用語,DeepSeek可能正在享受生涯最高光時刻。

(資料來源:WIRED, FT, 36氪, MIT Technology Review)

相關熱門主題
你可能有興趣
#Shorts|光與鹽管理顧問創辦人陳淑芬:天下學習幫助我們的學員,更加進步和成長。
最新訊息
立即下載為您量身打造無廣告的閱讀環境
訂閱天下雜誌電子報

天下雜誌當期內容的精華與延伸,每周三發送最具時效性的深度內容