作者:Sam Gao,Author of ElizaOS
?
最近一段時間,接連出現(xiàn)的DeepSeek V3,R1讓美國的AI研究員,創(chuàng)業(yè)者和投資人們開始Fomo。這一場盛宴,甚至可以和ChatGPT在2022年年底問世一樣讓人驚訝。
憑借DeepSeek R1的徹底開源(HuggingFace可免費下載模型進行本地推理)和極低的價格(是OpenAI o1的1/100的價格),DeepSeek在短短5天時間內(nèi),登上了美區(qū)Apple AppStore的冠軍。
那么,這家神秘的,由一家中國量化公司所孵化出來的AI新勢力,究竟源自何方?
我第一次聽說DeepSeek,還是在2021年,當時,在達摩院工作時,隔壁組的天才少女,一年發(fā)表8篇ACL(自然語言處理頂會)的北大碩士羅福莉,離職加入了幻方量化(High-Flyer Quant)。當時大家都非常好奇,非常掙錢的量化公司,為何要招募AI領域的人才: 難道幻方也需要發(fā)paper么?
當時,據(jù)我所知,幻方招募的AI研究員大多是各自為戰(zhàn),找一些前沿的方向進行探索,其中最核心的方向當屬大模型(LLM)以及文生圖模型(當時的OpenAI Dall-e)相關。
時間轉眼來到了2022年底,幻方逐漸開始吸納越來越多的頂級AI人才(大部分是清華北大的在校生)。在ChatGPT的刺激下,讓在AI領域積累多年的幻方CEO梁文鋒下定決心要進軍通用人工智能領域了:“我們建了一個新公司,從語言大模型開始,后邊也會有視覺等?!?/u>
是的,這個公司就是DeepSeek,在2023年初,以智譜,月之暗面,百川智能等為代表的六小龍公司逐步走勢舞臺中央,在熱鬧繁華的中關村和五道口中間,DeepSeek的存在感很大程度上被這些熱錢擊中的公司奪走了"注意力"(Attention)。
因此,在2023年,作為一個純研究機構,沒有明星創(chuàng)始人的DeepSeek(如李開復的零一萬物,楊植麟的月之暗面,王小川的百川智能等)很難獨立從市場上融資。因此,幻方?jīng)Q定剝離DeepSeek,并全資資助DeepSeek的開發(fā)。在2023年這個烈火烹油的時代,沒有風險投資公司愿意為DeepSeek提供資金,一是DeepSeek里面大多是剛畢業(yè)的PHD們,沒有非常有知名度的頂級研究員坐鎮(zhèn),二是因為資本退出遙遙無期。
在充滿噪音和浮躁的環(huán)境下,DeepSeek開始書寫其在AI探索上的一個個故事:
2023 年 11 月,DeepSeek 推出了 DeepSeek LLM,其參數(shù)多達 670 億個,其性能接近 GPT-4。
2024 年 5 月,DeepSeek-V2 正式上線。
2024 年 12 月,DeepSeek-V3 發(fā)布,基準測試表明,它的表現(xiàn)優(yōu)于 Llama 3.1 和 Qwen 2.5,同時與 GPT-4o 和 Claude 3.5 Sonnet 相當,引爆了業(yè)內(nèi)關注。
2025 年 1 月,第一代有推理能力的大模型模型DeepSeek-R1發(fā)布,以OpenAI o1 1/100不到的價格和卓越的性能,讓全世界科技界為之戰(zhàn)栗: 世界真正意識到,中國力量真的來了... 開源永遠贏!
我很早期的時候認識一些DeepSeek的研究員,主要是研究AIGC方向的,如2024年11月發(fā)布的Janus的作者以及DreamCraft3D的作者,其中還有一位幫助我優(yōu)化過最新的論文 @xingchaoliu。
根據(jù)我的發(fā)現(xiàn),我認識的研究員們大多是非常年輕,基本都是在讀博士生或者畢業(yè)3年以內(nèi)的。
其中,這些人大都是在北京地區(qū)讀研究生或者博士的學生,在學術方面有著極強的造詣: 多為發(fā)表了3-5篇頂會論文的研究員。
我問過DeepSeek的朋友,為什么梁文峰只招募年輕人?
他們給我轉了幻方CEO梁文峰的話,其原話如下:
DeepSeek團隊的神秘面紗讓人們好奇:它的秘密武器是什么?外媒說,這一秘密武器是“年輕天才”,他們足以與財力雄厚的美國巨頭展開競爭。
在AI行業(yè),聘請經(jīng)驗豐富的老將是常態(tài),許多中國本土的AI初創(chuàng)公司更傾向于招聘資深研究人員或擁有海外博士學位的人才。然而,DeepSeek卻反其道而行,偏愛沒有工作履歷的年輕人。
一名曾與DeepSeek合作的獵頭透露,DeepSeek不招資深技術人員,“工作經(jīng)驗在3-5年已經(jīng)是最多的了,工作超8年的基本就pass了?!绷何匿h在2023年5月接受36氪采訪時也表示,DeepSeek的大多數(shù)開發(fā)人員要么是應屆畢業(yè)生,要么是剛開始從事人工智能職業(yè)的人。他強調(diào):“我們的核心技術崗位大多由應屆畢業(yè)生或具有一兩年工作經(jīng)驗的人擔任?!?/strong>
沒有工作履歷,DeepSeek是如何選人的?答案是,看潛力。
梁文鋒曾說,做一件長期的事,經(jīng)驗其實沒那么重要,相比之下基礎能力、創(chuàng)造性和熱愛等更重要。他認為,或許目前世界排名前50的頂尖AI人才還不在中國,“但我們能自己打造這樣的人。”
這個戰(zhàn)略讓我想起了OpenAI的早期策略,OpenAI在2015年底成立的時候,Sam Altman的核心思路就是找年輕有野心的研究員,因此,除了總裁Greg Brockman和首席科學家Ilya Sutskever以外,剩下四個核心創(chuàng)始技術團隊成員(Andrew Karpathy,Durk Kingma,John Schulman,Wojciech Zaremba)都是應屆的博士畢業(yè)生,分別畢業(yè)于斯坦福大學,荷蘭阿姆斯特丹大學,加州伯克利分校以及紐約大學。
從左到右: Ilya Sutskever(前首席科學家),Greg Brockman(前總裁),Andrej Karpathy(前技術負責人),Durk Kingma(前研究員),John Schulman(前強化學習團隊負責人)以及Wojciech Zaremba(現(xiàn)任技術負責人)
這種"幼狼戰(zhàn)略",已經(jīng)讓OpenAI嘗到了甜頭,孵化出了如GPT之父Alec Radford(相當于民辦三本畢業(yè)),文生圖模型DALL-E之父Aditya Ramesh(NYU本科生),以及GPT-4o的多模態(tài)負責人,三屆奧賽金牌得主Prafulla Dhariwal等。讓成立初期,拯救世界計劃并不明確的OpenAI,在年輕人的橫沖直撞中,生生的撞開了一條生路,將OpenAI從DeepMind身邊的無名小卒,成長為巨擘。
梁文峰正是看到了Sam Altman這個成功的戰(zhàn)略,才堅定的選擇了這條路,不過,不同于OpenAI等待了7年時間才見到了ChatGPT。梁文峰的投入,用了2年多就見到了成效,可謂是中國速度。
在DeepSeek R1的文章中,其各項指標驚人的優(yōu)異。但也引發(fā)了大家的懷疑: 有兩個疑點,
① 它所使用的專家混合 (MoE)技術,對訓練要求高,對數(shù)據(jù)要求高,這表明了,大家質(zhì)疑Deepseek使用OpenAI數(shù)據(jù)訓練是有道理的。
② Deepseek使用強化學習 (RL)的強化學習技術,有對硬件要求很高,但相比Meta,OpenAI的萬卡集群,Deepseek的訓練只用了2048張H800。
由于算力的限制和MoE的復雜性,這讓只用500萬美元就一次成功的DeepSeek R1看著有些可疑,但是,無論你對R1的態(tài)度是頂禮膜拜其“低成本奇跡”,還是質(zhì)疑其“華而不實”,都無法忽視其功能性創(chuàng)新的炫目。
BitMEX聯(lián)合創(chuàng)始人Arthur Hayes發(fā)文表示:?DeepSeek崛起是否會導致全球投資者質(zhì)疑美國超卓主義?美國的資產(chǎn)價值是否被嚴重高估?
斯坦福大學教授吳恩達在今年的達沃斯論壇公開表示: "我對 DeepSeek 的進展印象深刻。我認為他們能夠以非常經(jīng)濟的方式訓練模型。他們最新發(fā)布的推理模型,非常出色……‘加油’!"
A16z的創(chuàng)始人,Marc Andreessen表示,"Deepseek R1 是我見過的最令人驚嘆、最令人印象深刻的突破之一——而且作為開源,它是給世界的一份深刻的禮物。"
2023年站在舞臺角落的DeepSeek,終于在2025年,農(nóng)歷春節(jié)前,站上了世界AI之巔.
作為Argo的技術開發(fā)者和AIGC研究者,我將Argo里面的重要功能進行了DeepSeek化: 作為一個工作流(workflow)系統(tǒng),粗糙的原始工作流生成工作,Argo是用DeepSeek R1進行的。此外,Argo將LLM內(nèi)置為標準的DeepSeek R1,并選擇拋棄閉源昂貴的OpenAI模型,原因是Workflow系統(tǒng)通常包含大量的Token消耗和上下文信息(平均>=10k token),這就導致了如果使用高價的OpenAI或Claude 3.5,Workflow的執(zhí)行成本非常昂貴,在web3用戶沒有得到真正的價值捕獲之前,這種提前透支的花銷,是一種對產(chǎn)品的傷害。
隨著DeepSeek越來越好,Argo會和DeepSeek為代表的中國力量進行更密切的合作: 包括不限于Text2Image/Video接口的中國化,LLM的中國化。
在合作方面,Argo將會在未來邀請DeepSeek的研究員分享技術成果,并為頂級AI研究員提供grants,為web3投資人和用戶了解AI進展,提供助力。
登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內(nèi)容僅供參考,不構成投資建議。投資者據(jù)此操作,風險自擔。