導航:首頁>> 最新資訊>> 起底 DeepSeek,為什么 DeepSeek 偏愛沒有工作履歷的年輕人?

起底 DeepSeek,為什么 DeepSeek 偏愛沒有工作履歷的年輕人?

67天前 50 技術

作者:Sam Gao,Author of ElizaOS

?

0. 寫在前面

最近一段時間,接連出現(xiàn)的DeepSeek V3,R1讓美國的AI研究員,創(chuàng)業(yè)者和投資人們開始Fomo。這一場盛宴,甚至可以和ChatGPT在2022年年底問世一樣讓人驚訝。

憑借DeepSeek R1的徹底開源(HuggingFace可免費下載模型進行本地推理)和極低的價格(是OpenAI o1的1/100的價格),DeepSeek在短短5天時間內(nèi),登上了美區(qū)Apple AppStore的冠軍。

那么,這家神秘的,由一家中國量化公司所孵化出來的AI新勢力,究竟源自何方?

1.DeepSeek的由來

我第一次聽說DeepSeek,還是在2021年,當時,在達摩院工作時,隔壁組的天才少女,一年發(fā)表8篇ACL(自然語言處理頂會)的北大碩士羅福莉,離職加入了幻方量化(High-Flyer Quant)。當時大家都非常好奇,非常掙錢的量化公司,為何要招募AI領域的人才: 難道幻方也需要發(fā)paper么?

當時,據(jù)我所知,幻方招募的AI研究員大多是各自為戰(zhàn),找一些前沿的方向進行探索,其中最核心的方向當屬大模型(LLM)以及文生圖模型(當時的OpenAI Dall-e)相關。

時間轉眼來到了2022年底,幻方逐漸開始吸納越來越多的頂級AI人才(大部分是清華北大的在校生)。在ChatGPT的刺激下,讓在AI領域積累多年的幻方CEO梁文鋒下定決心要進軍通用人工智能領域了:“我們建了一個新公司,從語言大模型開始,后邊也會有視覺等?!?/u>

是的,這個公司就是DeepSeek,在2023年初,以智譜,月之暗面,百川智能等為代表的六小龍公司逐步走勢舞臺中央,在熱鬧繁華的中關村和五道口中間,DeepSeek的存在感很大程度上被這些熱錢擊中的公司奪走了"注意力"(Attention)。

因此,在2023年,作為一個純研究機構,沒有明星創(chuàng)始人的DeepSeek(如李開復的零一萬物,楊植麟的月之暗面,王小川的百川智能等)很難獨立從市場上融資。因此,幻方?jīng)Q定剝離DeepSeek,并全資資助DeepSeek的開發(fā)。在2023年這個烈火烹油的時代,沒有風險投資公司愿意為DeepSeek提供資金,一是DeepSeek里面大多是剛畢業(yè)的PHD們,沒有非常有知名度的頂級研究員坐鎮(zhèn),二是因為資本退出遙遙無期。

在充滿噪音和浮躁的環(huán)境下,DeepSeek開始書寫其在AI探索上的一個個故事:

  • 2023 年 11 月,DeepSeek 推出了 DeepSeek LLM,其參數(shù)多達 670 億個,其性能接近 GPT-4。

  • 2024 年 5 月,DeepSeek-V2 正式上線。

  • 2024 年 12 月,DeepSeek-V3 發(fā)布,基準測試表明,它的表現(xiàn)優(yōu)于 Llama 3.1 和 Qwen 2.5,同時與 GPT-4o 和 Claude 3.5 Sonnet 相當,引爆了業(yè)內(nèi)關注。

  • 2025 年 1 月,第一代有推理能力的大模型模型DeepSeek-R1發(fā)布,以OpenAI o1 1/100不到的價格和卓越的性能,讓全世界科技界為之戰(zhàn)栗: 世界真正意識到,中國力量真的來了... 開源永遠贏!

2.人才戰(zhàn)略

我很早期的時候認識一些DeepSeek的研究員,主要是研究AIGC方向的,如2024年11月發(fā)布的Janus的作者以及DreamCraft3D的作者,其中還有一位幫助我優(yōu)化過最新的論文 @xingchaoliu。

根據(jù)我的發(fā)現(xiàn),我認識的研究員們大多是非常年輕,基本都是在讀博士生或者畢業(yè)3年以內(nèi)的。

其中,這些人大都是在北京地區(qū)讀研究生或者博士的學生,在學術方面有著極強的造詣: 多為發(fā)表了3-5篇頂會論文的研究員。

我問過DeepSeek的朋友,為什么梁文峰只招募年輕人?

他們給我轉了幻方CEO梁文峰的話,其原話如下:

DeepSeek團隊的神秘面紗讓人們好奇:它的秘密武器是什么?外媒說,這一秘密武器是“年輕天才”,他們足以與財力雄厚的美國巨頭展開競爭。

在AI行業(yè),聘請經(jīng)驗豐富的老將是常態(tài),許多中國本土的AI初創(chuàng)公司更傾向于招聘資深研究人員或擁有海外博士學位的人才。然而,DeepSeek卻反其道而行,偏愛沒有工作履歷的年輕人。

一名曾與DeepSeek合作的獵頭透露,DeepSeek不招資深技術人員,“工作經(jīng)驗在3-5年已經(jīng)是最多的了,工作超8年的基本就pass了?!绷何匿h在2023年5月接受36氪采訪時也表示,DeepSeek的大多數(shù)開發(fā)人員要么是應屆畢業(yè)生,要么是剛開始從事人工智能職業(yè)的人。他強調(diào):“我們的核心技術崗位大多由應屆畢業(yè)生或具有一兩年工作經(jīng)驗的人擔任?!?/strong>

沒有工作履歷,DeepSeek是如何選人的?答案是,看潛力。

梁文鋒曾說,做一件長期的事,經(jīng)驗其實沒那么重要,相比之下基礎能力、創(chuàng)造性和熱愛等更重要。他認為,或許目前世界排名前50的頂尖AI人才還不在中國,“但我們能自己打造這樣的人。”

這個戰(zhàn)略讓我想起了OpenAI的早期策略,OpenAI在2015年底成立的時候,Sam Altman的核心思路就是找年輕有野心的研究員,因此,除了總裁Greg Brockman和首席科學家Ilya Sutskever以外,剩下四個核心創(chuàng)始技術團隊成員(Andrew Karpathy,Durk Kingma,John Schulman,Wojciech Zaremba)都是應屆的博士畢業(yè)生,分別畢業(yè)于斯坦福大學,荷蘭阿姆斯特丹大學,加州伯克利分校以及紐約大學。

從左到右: Ilya Sutskever(前首席科學家),Greg Brockman(前總裁),Andrej Karpathy(前技術負責人),Durk Kingma(前研究員),John Schulman(前強化學習團隊負責人)以及Wojciech Zaremba(現(xiàn)任技術負責人)

這種"幼狼戰(zhàn)略",已經(jīng)讓OpenAI嘗到了甜頭,孵化出了如GPT之父Alec Radford(相當于民辦三本畢業(yè)),文生圖模型DALL-E之父Aditya Ramesh(NYU本科生),以及GPT-4o的多模態(tài)負責人,三屆奧賽金牌得主Prafulla Dhariwal等。讓成立初期,拯救世界計劃并不明確的OpenAI,在年輕人的橫沖直撞中,生生的撞開了一條生路,將OpenAI從DeepMind身邊的無名小卒,成長為巨擘。

梁文峰正是看到了Sam Altman這個成功的戰(zhàn)略,才堅定的選擇了這條路,不過,不同于OpenAI等待了7年時間才見到了ChatGPT。梁文峰的投入,用了2年多就見到了成效,可謂是中國速度。

3.為DeepSeek發(fā)聲

在DeepSeek R1的文章中,其各項指標驚人的優(yōu)異。但也引發(fā)了大家的懷疑: 有兩個疑點,

  • ① 它所使用的專家混合 (MoE)技術,對訓練要求高,對數(shù)據(jù)要求高,這表明了,大家質(zhì)疑Deepseek使用OpenAI數(shù)據(jù)訓練是有道理的。

  • ② Deepseek使用強化學習 (RL)的強化學習技術,有對硬件要求很高,但相比Meta,OpenAI的萬卡集群,Deepseek的訓練只用了2048張H800。

由于算力的限制和MoE的復雜性,這讓只用500萬美元就一次成功的DeepSeek R1看著有些可疑,但是,無論你對R1的態(tài)度是頂禮膜拜其“低成本奇跡”,還是質(zhì)疑其“華而不實”,都無法忽視其功能性創(chuàng)新的炫目。

BitMEX聯(lián)合創(chuàng)始人Arthur Hayes發(fā)文表示:?DeepSeek崛起是否會導致全球投資者質(zhì)疑美國超卓主義?美國的資產(chǎn)價值是否被嚴重高估?

斯坦福大學教授吳恩達在今年的達沃斯論壇公開表示: "我對 DeepSeek 的進展印象深刻。我認為他們能夠以非常經(jīng)濟的方式訓練模型。他們最新發(fā)布的推理模型,非常出色……‘加油’!"

A16z的創(chuàng)始人,Marc Andreessen表示,"Deepseek R1 是我見過的最令人驚嘆、最令人印象深刻的突破之一——而且作為開源,它是給世界的一份深刻的禮物。"

2023年站在舞臺角落的DeepSeek,終于在2025年,農(nóng)歷春節(jié)前,站上了世界AI之巔.

4.Argo和DeepSeek

作為Argo的技術開發(fā)者和AIGC研究者,我將Argo里面的重要功能進行了DeepSeek化: 作為一個工作流(workflow)系統(tǒng),粗糙的原始工作流生成工作,Argo是用DeepSeek R1進行的。此外,Argo將LLM內(nèi)置為標準的DeepSeek R1,并選擇拋棄閉源昂貴的OpenAI模型,原因是Workflow系統(tǒng)通常包含大量的Token消耗和上下文信息(平均>=10k token),這就導致了如果使用高價的OpenAI或Claude 3.5,Workflow的執(zhí)行成本非常昂貴,在web3用戶沒有得到真正的價值捕獲之前,這種提前透支的花銷,是一種對產(chǎn)品的傷害。

隨著DeepSeek越來越好,Argo會和DeepSeek為代表的中國力量進行更密切的合作: 包括不限于Text2Image/Video接口的中國化,LLM的中國化。

在合作方面,Argo將會在未來邀請DeepSeek的研究員分享技術成果,并為頂級AI研究員提供grants,為web3投資人和用戶了解AI進展,提供助力。

登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內(nèi)容僅供參考,不構成投資建議。投資者據(jù)此操作,風險自擔。

最新快訊
來源:jinse
時間:2025-04-05 18:20:00
金色財經(jīng)報道,以太坊基金會執(zhí)行總監(jiān) Tomasz K. Stańczak 表示,“World (原 Worldcoin)正在以太坊上構建。我在 1 到 2 月份花費超過 100 小時分析 World ...
來源:chaincatcher
時間:2025-04-05 18:19:00
ChainCatcher 消息,以太坊基金會執(zhí)行總監(jiān) Tomasz K. Stańczak 表示,“World (原 Worldcoin)正在以太坊上構建。我在 1 到 2 月份花費超過 100 小時...
來源:blockbeats
時間:2025-04-05 18:18:00
BlockBeats 消息,4 月 5 日,據(jù) Coinglass 數(shù)據(jù),目前主流 CEX、DEX 資金費率顯示加密市場已回歸中性,不再全面看空,但也并未看漲。具體主流幣種資金費率如附圖所示。Bloc...
來源:chaincatcher
時間:2025-04-05 18:17:00
ChainCatcher 消息,據(jù) 8marketcap 最新數(shù)據(jù)顯示,因白銀價格持續(xù)走低,其市值在全球資產(chǎn)中的市值已被比特幣超越。目前白銀市值約為 1.662 萬億美元,24 小時跌幅 7.65%,...
來源:panewslab
時間:2025-04-05 18:16:01
PANews 4月5日消息,8marketcap 最新數(shù)據(jù)顯示,因白銀價格持續(xù)走低,其市值在全球資產(chǎn)中的市值已被比特幣超越。目前白銀市值約為 1.662 萬億美元,24 小時跌幅 7.65%,位列全球...
最新文章
作者專欄 查看更多>
chaincatcher
chaincatcher
3242
文章
186056
瀏覽
3472
訪問
  • 交易所
  • 幣種
排名 交易所 24h成交額
1 BinanceBinance ¥1,527.57 億
2 BybitBybit ¥576.23 億
3 Coinbase ExchangeCoinbase Exchange ¥71.57 億
4 OKXOKX ¥519.71 億
5 UpbitUpbit ¥77.13 億
6 KrakenKraken ¥43.20 億
7 BitgetBitget ¥494.79 億
8 RaydiumRaydium ¥11.50 億
9 BitfinexBitfinex ¥6.09 億
10 Uniswap v2Uniswap v2 ¥3.72 億
查看更多
日本永久免费Aⅴ在线观看,亚洲一区二区在线aⅴ,成人无码精品无码,久久机热这里只有精品23 www.sucaiwu.net