新闻详情

DeepSeek 霸榜 App Store,中国 AI 引发美国科技圈地震的一周

2025-01-27
DeepSeek 霸榜 App Store,中国 AI 引发美国科技圈地震的一周_欧易官网登录中心-OKX官网登录入口

欧意APP下载

欧意交易app是数字货币交易平台

作者:APPSO

过去一周,来自中国的DeepSeekR1模型搅动整个海外AI圈。

一方面,它以较低的训练成本实现了媲美OpenAIo1性能的效果,诠释了中国在工程能力和规模创新上的优势;另一方面,它也秉持开源精神,热衷分享技术细节。

最近,来自加州伯克利大学在读博士JiayiPan的研究团队更是成功地以极低的成本(低于30美元)复现了DeepSeekR1-Zero的关键技术——「顿悟时刻」。

所以也难怪MetaCEO扎克伯格、图灵奖得主YannLeCun以及DeepmindCEODemisHassabis等人都对DeepSeek给予了高度评价。

随着DeepSeekR1的热度不断攀升,今天下午,DeepSeekApp因用户访问量激增而短暂出现服务器繁忙的状况,甚至一度「崩了」。

OpenAICEOSamAltman刚刚也试图剧透o3-mini使用额度,来抢回国际媒体的头版头条——ChatGPTPlus会员每天可查询100次。

然而,鲜为人知的是,在声名鹊起之前,DeepSeek母公司幻方量化其实是国内量化私募领域的头部企业之一。

DeepSeek模型震撼硅谷,含金量还在上升

2024年12月26日,DeepSeek正式发布了DeepSeek-V3大模型。

这款模型在多项基准测试表现优异,超越业内主流顶尖模型,特别是在知识问答、长文本处理、代码生成和数学能力等方面。例如,在MMLU、GPQA等知识类任务中,DeepSeek-V3的表现接近国际顶尖模型Claude-3.5-Sonnet。

在数学能力方面,更是在AIME2024和CNMO2024等测试中创造了新的记录,超越所有已知的开源和闭源模型。同时,其生成速度较上代提升了200%,达到60TPS,大幅改善了用户体验。

根据独立评测网站ArtificialAnalysis的分析,DeepSeek-V3在多项关键指标上超越了其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不分伯仲。

DeepSeek-V3的核心技术优势包括:

混合专家(MoE)架构:DeepSeek-V3拥有6710亿参数,但在实际运行中,每个输入仅激活370亿参数,这种选择性激活的方式大大降低了计算成本,同时保持了高性能。

多头潜在注意力(MLA):该架构在DeepSeek-V2中已经得到验证,能够实现高效的训练和推理。

无辅助损失的负载平衡策略:这一策略旨在最小化因负载平衡对模型性能产生的负面影响。

多tokens预测训练目标:该策略提升了模型的整体性能。

高效的训练框架:采用HAI-LLM框架,支持16-wayPipelineParallelism(PP)、64-wayExpertParallelism(EP)和ZeRO-1DataParallelism(DP),并通过多种优化手段降低了训练成本。

更重要的是,DeepSeek-V3的训练成本仅为558万美元,远低于如训练成本高达7800万美元的GPT-4。并且,其API服务价格也延续了过往亲民的打法。

输入tokens每百万仅需0.5元(缓存命中)或2元(缓存未命中),输出tokens每百万仅需8元。

《金融时报》将其描述为「震惊国际科技界的黑马」,认为其性能已与资金雄厚的OpenAI等美国竞争对手模型相媲美。Maginative创始人ChrisMcKay更进一步指出,DeepSeek-V3的成功或将重新定义AI模型开发的既定方法。

换句话说,DeepSeek-V3的成功也被视为对美国算力出口限制的直接回应,这种外部压力反而刺激了中国的创新。

DeepSeek创始人梁文锋,低调的浙大天才

DeepSeek的崛起让硅谷寝食难安,这个搅动全球AI行业模型的背后创始人梁文锋则完美诠释了中国传统意义上天才的成长轨迹——少年功成,历久弥新。

一个好的AI公司领导者,需要既懂技术又懂商业,既要有远见又要务实,既要有创新勇气又要有工程纪律。这种复合型人才本身就是稀缺资源。

17岁考入浙江大学信息与电子工程学专业,30岁创办幻方量化(Hquant),开始带领团队探索全自动量化交易。梁文锋的故事印证了天才总会在正确的时间做对的事。

2010年:随着沪深300股指期货推出,量化投资迎来发展机遇,幻方团队乘势而上,自营资金迅速增长。

2015年:梁文锋与校友共同创立幻方量化,次年推出首个AI模型,上线深度学习生成的交易仓位。

2017年:幻方量化宣称实现投资策略全面AI化。

2018年:确立AI为公司主要发展方向。

2019年:资金管理规模突破百亿元,成为国内量化私募「四巨头」一。

2021年:幻方量化成为国内首家突破千亿规模的量化私募大厂。

你不能只在成功的时候才想起这家公司在过去几年坐冷板凳的日子。不过,就像量化交易公司转型AI,看似意外,实则顺理成章——因为它们都是数据驱动的技术密集型行业。

黄仁勋只想卖游戏显卡,赚我们这些臭打游戏的三瓜两枣,却没想到成了全球最大的AI军火库,幻方踏进AI领域也是何其相似。这种演进比当下许多行业生搬硬套AI大模型更有生命力。

幻方量化在量化投资过程中积累了大量数据处理和算法优化经验,同时拥有大量A100芯片,为AI模型训练提供了强大硬件支持。从2017年开始,幻方量化大规模布局AI算力,搭建「萤火一号」「萤火二号」等高性能计算集群,为AI模型训练提供强大算力支持。

2023年,幻方量化正式成立DeepSeek,专注于AI大模型研发。DeepSeek继承了幻方量化在技术、人才和资源方面的积累,迅速在AI领域崭露头角。

在接受《暗涌》的深度访谈中,DeepSeek创始人梁文锋同样展现出独特的战略视野。

不同于大多数选择复制Llama架构的中国公司,DeepSeek直接从模型结构入手,只为瞄准AGI的宏伟目标。

梁文锋毫不讳言当前的差距当前中国AI与国际顶尖水平存在显著差距,在模型结构、训练动力学和数据效率上的综合差距导致需要投入4倍的算力才能达到同等效果。

▲图片来自央视新闻截图

这种直面挑战的态度源于梁文锋在幻方多年的经验积累。

他强调,开源不仅是技术分享,更是一种文化表达,真正的护城河在于团队的持续创新能力。DeepSeek独特的组织文化鼓励自下而上的创新,淡化层级,重视人才的热情和创造力。

团队主要由顶尖高校的年轻人组成,采用自然分工模式,让员工自主探索和协作。在招聘时更看重员工的热爱和好奇心,而非传统意义上的经验和背景。

对于行业前景,梁文锋认为AI正处于技术创新的爆发期,而非应用爆发期。他强调,中国需要更多原创技术创新,不能永远处于模仿阶段,需要有人站到技术前沿。

即使OpenAI等公司目前处于领先地位,但创新的机会仍然存在。

卷翻硅谷,Deepseek让海外AI圈坐立不安

尽管业界对DeepSeek的评价不尽相同,但我们也搜集了一些业内人士的评价。

英伟达GEARLab项目负责人JimFan对DeepSeek-R1给予了高度评价。

他指出这代表着非美国公司正在践行OpenAI最初的开放使命,通过公开原始算法和学习曲线等方式实现影响力,顺便还内涵了一波OpenAI

DeepSeek-R1不仅开源了一系列模型,还披露了所有训练秘密。它们可能是首个展示RL飞轮重大且持续增长的开源项目。

影响力既可以通过『ASI内部实现』或『草莓计划』等传说般的项目实现,也可以简单地通过公开原始算法和matplotlib学习曲线来达成。

华尔街顶级风投A16Z创始人MarcAndreesen则认为DeepSeekR1是他所见过的最令人惊奇和令人印象深刻的突破之一,作为开源,这是给世界的一份意义深远的礼物。

腾讯前高级研究员、北京大学人工智能方向博士后卢菁从技术积累的角度进行分析。他指出DeepSeek并非突然爆火,它承接了上一代模型版本中的很多创新,相关模型架构、算法创新经过迭代验证,震动行业也有其必然性。

图灵奖得主、Meta首席AI科学家YannLeCun则提出了一个新的视角:

「给那些看到DeepSeek的表现后,觉得「中国在AI方面正在超越美国」的人,你们的解读是错的。正确的解读应该是,「开源模型正在超越专有模型」。」

DeepmindCEODemisHassabis的评价则透露出一丝忧虑:

「它(DeepSeek)取得的成就令人印象深刻,我认为我们需要考虑如何保持西方前沿模型的领先地位,我认为西方仍然领先,但可以肯定的是,中国具有极强的工程和规模化能力。」

微软CEOSatyaNadella在瑞士达沃斯世界经济论坛上表示,DeepSeek切实有效地开发出了一款开源模型,不仅在推理计算方面表现出色,而且超级计算效率极高。

他强调,微软必须以最高度的重视来应对中国的这些突破性进展。

MetaCEO扎克伯格评价则更加深入,他认为DeepSeek展现出的技术实力和性能令人印象深刻,并指出中美之间的AI差距已经微乎其微,中国的全力冲刺使得这场竞争愈发激烈。

来自竞争对手的反应或许是对DeepSeek最好的认可。据Meta员工在匿名职场社区TeamBlind上的爆料,DeepSeek-V3和R1的出现让Meta的生成式AI团队陷入了恐慌。

Meta的工程师们正在争分夺秒地分析DeepSeek的技术,试图从中复制任何可能的技术。

原因在于DeepSeek-V3的训练成本仅为558万美元,这个数字甚至不及Meta某些高管的年薪。如此悬殊的投入产出比,让Meta管理层在解释其庞大的AI研发预算时倍感压力。

国际主流媒体对DeepSeek的崛起也给予了高度关注。

《金融时报》指出,DeepSeek的成功颠覆了「AI研发必须依赖巨额投入」的传统认知,证明精准的技术路线同样能实现卓越的研究成果。更重要的是,DeepSeek团队对技术创新的无私分享,让这家更注重研究价值的公司成为了一个格外强劲的竞争对手。

《经济学人》表示,认为中国AI技术在成本效益方面的快速突破,已经开始动摇美国的技术优势,这可能会影响美国未来十年的生产力提升和经济增长潜力。

《纽约时报》则从另一个角度切入,DeepSeek-V3在性能上与美国公司的高端聊天机器人相当,但成本大大降低。

这表明即使在芯片出口管制的情况下,中国公司也能通过创新和高效利用资源来竞争。并且,美国政府的芯片限制政策可能适得其反,反而推动了中国在开源AI技术领域的创新突破。

DeepSeek「报错家门」,自称是GPT-4

在一片赞誉声中,DeepSeek也面临着一些争议。

不少外界人士认为DeepSeek可能在训练过程中使用了ChatGPT等模型的输出数据作为训练材料,通过模型蒸馏技术,这些数据中的「知识」被迁移到DeepSeek自己的模型中。

这种做法在AI领域并非罕见,但质疑者关注的是DeepSeek是否在未充分披露的情况下使用了OpenAI模型的输出数据。这似乎在DeepSeek-V3的自我认知上也有所体现。

早前就有用户发现,当询问模型的身份时,它会将自己误认为是GPT-4。

高质量数据一直是AI发展的重要因素,就连OpenAI也难以避免数据获取的争议,其从互联网大规模爬取数据的做法同样因此吃了许多版权官司,截至目前,OpenAI与纽约时报的一审裁决尚未靴子落地,又再添新案。

所以DeepSeek也因此遭到了SamAltman和JohnSchulman的公开内涵。

「复制你知道行得通的东西是(相对)容易的。当你不知道它是否行得通时,做一些新的、有风险的、困难的事情是非常困难的。」

不过,DeepSeek团队在R1的技术报告中明确表示未使用OpenAI模型的输出数据,并表示通过强化学习和独特的训练策略实现了高性能。

例如,采用了多阶段训练方式,包括基础模型训练、强化学习(RL)训练、微调等,这种多阶段循环训练方式有助于模型在不同阶段吸收不同的知识和能力。

省钱也是技术活,DeepSeek背后技术的可取之道

DeepSeek-R1技术报告里提到一个值得关注的发现,那就是R1zero训练过程里出现的「ahamoment(顿悟时刻)」。在模型的中期训练阶段,DeepSeek-R1-Zero开始主动重新评估初始解题思路,并分配更多时间优化策略(如多次尝试不同解法)。

换句话说,通过RL框架,AI可能自发形成类人推理能力,甚至超越预设规则的限制。并且这也将有望为开发更自主、自适应的AI模型提供方向,比如在复杂决策(医疗诊断、算法设计)中动态调整策略。

与此同时,许多业内人士正试图深入解析DeepSeek的技术报告。OpenAI前联创AndrejKarpathy则在DeepSeekV3发布后曾表示:

DeepSeek(这家中国的AI公司)今天让人感到轻松,它公开发布了一个前沿级的语言模型(LLM),并且在极低的预算下完成了训练(2048个GPU,持续2个月,花费600万美元)。

作为参考,这种能力通常需要16K个GPU的集群来支持,而现在这些先进的系统大多都使用大约100K个GPU。例如,Llama3(405B参数)使用了3080万个GPU小时,而DeepSeek-V3似乎是一个更强大的模型,仅用了280万个GPU小时(约为Llama3的1/11计算量)。

如果这个模型在实际测试中也表现出色(例如,LLM竞技场排名正在进行,我的快速测试表现不错),那么这将是一个在资源受限的情况下,展现出研究和工程能力的非常令人印象深刻的成果。

那么,这是不是意味着我们不再需要大型GPU集群来训练前沿LLM了?并非如此,但它表明,你必须确保自己使用的资源不浪费,这个案例展示了数据和算法优化仍然能带来很大进展。此外,这份技术报告也非常精彩和详细,值得一读。

面对DeepSeekV3被质疑使用ChatGPT数据的争议,Karpathy则表示,大语言模型本质上并不具备人类式的自我意识,模型是否能正确回答自己身份,完全取决于开发团队是否专门构建了自我认知训练集,如果没有特意训练,模型会基于训练数据中最接近的信息作答。

此外,模型将自己识别为ChatGPT并非问题所在,考虑到ChatGPT相关数据在互联网上的普遍性,这种回答实际上反映了一种自然的「邻近知识涌现」现象。

JimFan在阅读DeepSeek-R1的技术报告过后则指出:

这篇论文的最重要观点是:完全由强化学习驱动,完全没有任何监督学习(SFT)的参与,这种方法类似于AlphaZero——通过「冷启动(ColdStart)」从零开始掌握围棋、将棋和国际象棋,而不需要模仿人类棋手的下法。

–使用基于硬编码规则计算的真实奖励,而不是那些容易被强化学习“破解”的学习型奖励模型。

–模型的思考时间随着训练进程的推进稳步增加,这不是预先编程的,而是一种自发的特性。

–出现了自我反思和探索行为的现象。

–使用GRPO代替PPO:GRPO去除了PPO中的评论员网络,转而使用多个样本的平均奖励。这是一种简单的方法,可以减少内存使用。值得注意的是,GRPO是由DeepSeek团队在2024年2月发明的,真的是一个非常强大的团队。

同一天Kimi也发布了类似的研究成果时,JimFan发现两家公司的研究殊途同归:

都放弃了MCTS等复杂树搜索方法,转向更简单的线性化思维轨迹,采用传统的自回归预测方式

都避免使用需要额外模型副本的价值函数,降低了计算资源需求,提高了训练效率

都摒弃密集的奖励建模,尽可能依靠真实结果作为指导,确保了训练的稳定性

但两者也存在显著差异:

DeepSeek采用AlphaZero式的纯RL冷启动方法,Kimik1.5选择AlphaGo-Master式的预热策略,使用轻量级SFT

DeepSeek以MIT协议开源,Kimi则在多模态基准测试中表现出色,论文系统设计细节上更为丰富,涵盖RL基础设施、混合集群、代码沙箱、并行策略

不过,在这个快速迭代的AI市场中,领先优势往往稍纵即逝。其他模型公司必将迅速汲取DeepSeek的经验并加以改进,或许很快就能迎头赶上。

大模型价格战的发起者

很多人都知道DeepSeek有一个名为「AI届拼多多」的称号,却并不知道这背后的含义其实源于去年打响的大模型价格战。

2024年5月6日,DeepSeek发布了DeepSeek-V2开源MoE模型,通过如MLA(多头潜在注意力机制)和MoE(混合专家模型)等创新架构,实现了性能与成本的双重突破。

推理成本被降至每百万token仅1元人民币,约为当时Llama370B的七分之一,GPT-4Turbo的七十分之一。这种技术突破使得DeepSeek能够在不贴钱的情况下,提供极具性价比的服务,同时也给其他厂商带来了巨大的竞争压力。

DeepSeek-V2的发布引发了连锁反应,字节跳动、百度、阿里、腾讯、智谱AI纷纷跟进,大幅下调其大模型产品的价格。这场价格战的影响力甚至跨越太平洋,引起了硅谷的高度关注。

DeepSeek也因此被冠以「AI届的拼多多」之称。

面对外界的质疑,DeepSeek创始人梁文锋在接受暗涌的采访时回应称:

「抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了;另一方面,我们也觉得无论是API还是AI,都应该是普惠的、人人可以用得起的东西。」

事实上,这场价格战的意义远超竞争本身,更低的准入门槛让更多企业和开发者得以接触和应用前沿AI,同时也倒逼整个行业重新思考定价策略,正是在这个时期,DeepSeek开始进入公众视野,崭露头角。

千金买马骨,雷军挖角AI天才少女

几周前,DeepSeek还出现了一个引人注目的人事变动。

据第一财经报道,雷军花千万年薪以千万年薪成功挖角了罗福莉,并委以小米AI实验室大模型团队负责人重任。

罗福莉于2022年加入幻方量化旗下的DeepSeek,在DeepSeek-V2和最新的R1等重要报告中都能看到她的身影。

再后来,一度专注于B端的DeepSeek也开始布局C端,推出移动应用。截至发稿前,DeepSeek的移动应用在苹果AppStore免费版应用最高排到第二,展现出强劲的竞争力。

一连串的小高潮让DeepSeek声名鹊起,但同时也在叠加着更高的高潮,1月20日晚,拥有660B参数的超大规模模型DeepSeekR1正式发布。

这款模型在数学任务上表现出色,如在AIME2024上获得79.8%的pass@1得分,略超OpenAI-o1;在MATH-500上得分高达97.3%,与OpenAI-o1相当。

编程任务方面,如Codeforces上获得2029Elo评级,超越96.3%的人类参与者。在MMLU、MMLU-Pro和GPQADiamond等知识基准测试中,DeepSeekR1得分分别为90.8%、84.0%和71.5%,虽略低于OpenAI-o1,但优于其他闭源模型。

在最新公布的大模型竞技场LMArena的综合榜单中,DeepSeekR1排名第三,与o1并列。

在「HardPrompts」(高难度提示词)、「Coding」(代码能力)和「Math」(数学能力)等领域,DeepSeekR1位列第一。

在「StyleControl」(风格控制)方面,DeepSeekR1与o1并列第一。

在「HardPromptwithStyleControl」(高难度提示词与风格控制结合)的测试中,DeepSeekR1也与o1并列第一。

在开源策略上,R1采用MITLicense,给予用户最大程度的使用自由,支持模型蒸馏,可将推理能力蒸馏到更小的模型,如32B和70B模型在多项能力上实现了对标o1-mini的效果,开源力度甚至超越了此前一直被诟病的Meta。

DeepSeekR1的横空出世,让国内用户首次能够免费使用到媲美o1级别的模型,打破了长期存在的信息壁垒。其在小红书等社交平台掀起的讨论热潮,堪比发布之初的GPT-4。

走出海去,去内卷

回望DeepSeek的发展轨迹,其成功密码清晰可见,实力是基础,但品牌认知才是护城河。

在与《晚点》的对话中,MiniMaxCEO闫俊杰深入分享了他对AI行业的思考和公司战略的转变。他强调了两个关键转折点:一是认识到技术品牌的重要性,二是理解开源策略的价值。

闫俊杰认为在AI领域,技术进化速度比当前成就更重要,而开源可以通过社区反馈加速这一进程;其次,强大的技术品牌对吸引人才、获取资源至关重要。

OpenAI为例,尽管后期遭遇管理层动荡,但其早期树立的创新形象和开源精神已为其积攒了第一波好印象。即便Claude后续在技术上已势均力敌,逐步蚕食OpenAI的B端用户,但凭借着用户的路径依赖,OpenAI依然在C端用户上遥遥领先。

在AI领域,真正的竞争舞台永远在全球,走出海去,去内卷,去宣传也是一条不折不扣的好路。

这股出海浪潮早已在业内激起涟漪,更早时候的Qwen、面壁智能、以及最近DeepSeekR1、kimiv1.5、豆包v1.5Pro都早已在海外闹起了不小的动静。

2025年虽被冠上了智能体元年,AI眼镜元年等诸多标签,但今年也将是中国AI企业拥抱全球市场的重要元年,走出去将成为绕不开的关键词。

并且,开源策略也是一步好棋,吸引了大量技术博主和开发者自发成为DeepSeek的「自来水」,科技向善,不该只是口号,从「AIforAll」的口号到真正的技术普惠,DeepSeek走出了一条比OpenAI更纯粹的道路。

如果说OpenAI让我们看到了AI的力量,那么DeepSeek则让我们相信:

这股力量终将惠及每个人。

欧易数字货币交易所 更快、更好、更强