文章来源:FounderPark
图片来源:由无界AI生成
DeepSeek无疑是2025年春节期间的焦点,从App登顶苹果商店免费榜、到各个云厂商争相部署DeepSeek-R1,DeepSeek甚至成了很多人第一次体验的AI产品。而对于创业者来说,从技术创新点的讨论、训练和推理成本的分析到对整个AI行业的影响等,大家都在聊。
2月2日,FounderPark和同为极客公园旗下的全球化闭门社区GlobalReady组织了一场闭门讨论,邀请了硅谷、国内、伦敦、新加坡、日本等地AI公司的60余位创始人与技术专家,从技术创新、产品落地、算力紧缺等角度,对DeepSeek引发的技术新方向和产品趋势,进行了一场深度探讨。
在脱敏处理后,我们整理了本次闭门讨论的要点内容。
01DeepSeek的创新在哪里?DeepSeek于12月底发布了V3基座模型,是业界目前开源的最强大的模型之一,包含37B激活参数,整体参数规模为671B,是一个大型MoE(混合专家)模型。
2025年1月份发布的R1模型的「Ahamoment」指的是当模型在进行推理时能够表现出一定的反思能力。例如,在解决问题过程中,模型可能会意识到某种方法不再适用,并在过程中调整为更有效的方法。这种反思能力源自强化学习(RL)。
R1是DeepSeek的旗舰模型,R1在推理能力方面与OpenAIo1相当,具体的实现方法可以总结为:R1通过两步强化学习和两步SFT,前两步的RL和SFT主要用于构建一个数据生成的教师模型,去指导第三步的数据生成。这个模型致力于成为目前最强大的推理模型。
DeepSeekR1-Zero模型的核心创新在于跳过了传统的微调(SFT)过程,直接通过强化学习(RL)进行推理优化。此外,用DeepSeekR1作为教师模型,去蒸馏一个开源的中小模型(如Qwen1.7B/7B/14B/32B),能够显著提升小模型的能力。
代码能力,DeepSeek的R1和openAI刚出的o3mini不相上下,整体能力o3mini稍强一些。不同之处在于R1是开源的,会刺激更多应用方使用R1。
DeepSeek成功的核心在于用一个高度集成化的工程方案把价格打下来。把他们的方法拆开来看,每个方法都能够在去年的论文上找到,而DeepSeek则会非常激进地使用最新的方法。这些方法本身其实会有副作用,会带来额外的存储开销,但对降低集群的空转率有极大提升。
如果不是一个大规模集群,去给大规模的人服务的模型,MLA架构反而会有副作用。DeepSeek大量的方法如果不在特定的场景和环境下去做,达不到最大的性能优化,单独使用这些技术反而会有副作用。他们的系统设计是非常精巧的,精巧到但凡把这些技术单独拿出来做,都产生不了他们这样的效果。
不应该仅仅训练一个过程奖励模型(processrewardmodel),因为如果只训练这种模型,最终的效果可能无法达到预期,甚至会导致过拟合。DeepSeek选择了最原始的强化学习方法,通过启发式规则来对最终结果进行评分,然后利用传统的强化学习方法对过程进行修正。他们选择的这种方法也是在不断的试错中做出来的,这得益于DeepSeek有足够高效的infra。
即使DeepSeek没有公开其推理代码,其他团队也可以大概推出来用了哪些方法。开源的模型权重已经足够让其他团队复现其性能,但困难在于怎么把里面的一些特殊配置试出来,这个需要时间。
只依赖数据标注的奖励模型,很难达到superhumanintelligence的能力。需要一个基于真实数据或真实环境反馈的真实奖励模型,才能实现更高级的奖励优化,从而产生超人类智能的能力。
技术角度的推测:如果基座模型本身具有较强的通用性,再加上数学和代码的能力,两个部分的结合就会产生更强的泛化能力。比如有一个比较智能的基座模型,假设这个模型在写作方面已经不错了,那么结合一些数学和代码的强化学习,它有可能实现良好的泛化,最终产生一些非常强的能力。具体表现为它能写出从骈文到绝句律诗等各种体裁的作品,而其他几家模型在这个方面则不太行。
02为什么DeepSeek的成本这么低?模型的稀疏度非常高。尽管这是一个超过600B参数的大模型,但在推理的时候,每个token的实际激活参数非常小,只有37B,意味着它在推理时的速度和资源消耗相当于一个37B参数的模型。但要实现这一点,需要对整个系统进行大量的设计改动。
在DeepSeekV3中,MoE架构包含256个专家模块,但每次推理时只激活其中的一小部分。在高负载情况下,它可以动态调整资源使用率,理论上可以将成本压缩到原来的1/256。这种设计体现了DeepSeek在软件架构上的前瞻性。如果系统优化做的足够好,在同样的量级下,价格就能大幅降低。
模型训练时一般会有三把斧,也就是在三个维度上做并行切分。第一个是数据层面做切分并行,这个叫DataParallelism。第二个是在模型层面,因为模型的各层之间是相互独立的,所以会在这方面做切分,这个叫PipelineParallelism。第三个是对模型的权重做切分,分配到不同的GPU上,这个叫TensorParallelism。为了配合稀疏模型设计,DeepSeek对训练框架和管线做了大量调整,在训练过程中摒弃了TensorParallelism,只使用了DataParallelism和PipelineParallelism,并在此基础上进行了更为精细的专家并行(ExpertParallelism)。通过对专家数量(多达256个专家)进行精细划分,将不同的专家分配到不同的GPU上。此外,DeepSeek舍弃了TensorParalleism,可以绕过硬件限制,使得H800和H100在训练效能上接近。
在模型部署方面,实验表明,其算力成本可控,且技术难度并不高,通常只需一到两周的时间就能完成复现,这对于许多应用开发者来说是非常有利的。
一个可能的模型架构:让reasoningRL不再局限于大语言模型本身,而是在外面加一个thinkingmachine,来完成整个推理能力,这样整体成本还能下降好几个数量级。
03Chatbot不一定会是用户的第一款AI产品DeepSeekR1的成功不仅在于其推理能力,还在于其结合搜索功能,reasoningmodel+搜索某种程度上相当于一个microagent的框架。对于大多数用户来说,这是他们第一次体验推理模型。对于已经使用过其他推理模型(如OpenAI的o1)的用户来说,结合搜索功能的DeepSeekR1又是一种全新的体验。
对于没有使用过AI产品的用户,他们的第一款AI产品不一定是ChatGPT这样的语言交互类产品,可能是由模型驱动的另外一个场景下的产品。
AI领域应用型公司的竞争壁垒在于产品体验。谁能做得更快、更好,提供让用户觉得更舒适的功能,谁就能在市场中占据竞争优势。
目前能够看到模型呈现出的思考过程是一个令人满意的设计,但它更像是用强化学习(RL)来提升模型能力的一个比较早期的工作。推理过程的长度并不是衡量最终结果正确性的唯一标准,未来会从复杂的长推理过程转向更简洁的短推理过程。
04垂直场景AI落地更容易了对于相对垂直的任务(verticaltask),任务评估可通过规则系统(rulesystem)完成,不需要依赖复杂的奖励模型(rewardingmodel)。在设定好的垂直任务上,类似TinyZero或者是7B的模型能够快速得到可用结果。
在一个设定好的垂直任务上,用DeepSeek蒸馏过的70亿参数或更大的模型做训练,能够快速得到「ahamoment」。从成本角度看,在7B模型上做简单算术题或21点等有明确答案的任务,只需要2-4张H100或H200,花不到半天时间,模型即可收敛到可用状态。
在垂直领域,尤其是在处理有明确答案的任务,如数学计算、物理规则判断(物品摆放、运动是否符合规律),DeepSeekR1的效果确实比其他模型好且成本可控,因此可以将其应用在广泛的垂直领域。不过,在没有明确答案的任务中,比如判断某样东西是否美观,或者某个答案是否让人开心,这种主观性较强的评估无法通过基于规则(rule-based)的方法很好地解决。这方面可能需要等待三个月、半年,直到有更好的方法出现来解决这些问题。
使用监督微调(SFT)或类似方法时,很难解决耗时的数据集查询,且这些数据集的领域分布(domaindistribution)往往难以全面覆盖任务的所有层级。现在有了一个新的、更好的工具库,配备一个高质量模型,可以解决过去数据收集困难和有明确答案的垂直任务。
仅仅基于规则系统(rule-based),虽然数学和代码可以定义出比较明确的规则,但如果要应对更复杂或者更开放的任务,依赖规则系统会变得非常困难。所以大家最终可能会探索出更合适的模型,用来评估这些复杂场景的结果。可能会采用ORM(结果导向的奖励函数)而不是PRM(过程导向的奖励函数)的方法,或者探索其他类似的方法。最终,可能会构建出类似「世界模型」的模拟器,为各种模型的决策提供更好的反馈。
用小模型去训练推理能力的时候,甚至不需要依赖基于token的解决方案。在某个电商方向的解决方案中,直接将整个推理能力从基于Transformer的模型中剥离出来,使用另一个小模型来完成所有的推理工作,结合Transformer来实现整个任务。
对于那些研发模型是为自己所用的公司(如对冲基金),挑战在于成本问题。大公司可以通过拉客户摊平成本,但小团队或公司难以承受高昂的研发成本。DeepSeek的开源对他们的意义重大,相当于之前无法承担高昂研发成本的团队现在也能够搭建模型了。
在金融领域,尤其是量化基金中,通常需要分析大量财务数据,例如公司财报和Bloomberg数据等。这些公司通常会构建自己的数据集并进行监督训练(supervisedtraining),但数据标注的成本非常高。对于这些公司而言,强化学习(RL)在微调(fine-tuning)阶段的应用,可以显著提升模型性能,实现质的飞跃。
05国产芯片有望解决推理算力问题国内现在对标A100、A800芯片还是挺多的,但国产芯片最大的瓶颈不在于芯片设计,而是在于流片。DeepSeek去适配华为也是因为后者相对而言能稳定出片,在后续更严苛的制裁下也能够保证稳定的训推。
英伟达往后发展,从单卡训练的角度来看,这些高端芯片在某些应用场景下存在算力过剩的情况。例如,单卡的算力在训练阶段可能因额外的缓存和内存限制而无法充分发挥,导致其并非最适合训练任务。
国内芯片市场,如果完全专注于AI应用,不考虑科学计算,将高位浮点运算能力大幅削减,只专注于AI任务,可以在部分性能指标上追赶英伟达的旗舰芯片。
06更强大的Agent、以及跨应用调用能力对于很多垂直领域来说,agent的能力会有较大的提升。可以先拿出一个基础模型,把一些规则做成规则模型(rulemodel),这个规则模型可能是一个纯粹的工程解决方案(pureengineeringsolution)。然后,可以用这个工程解决方案来让基础模型在上面进行迭代(iteration)和训练(training)。你可能会得到一个结果,这个结果已经出现一些超人类智能(superhumanintelligence)的能力。在这个基础上,再进行一些偏好调整(preferencetuning),让它的回答更加符合人类的阅读习惯(human-readable),这样你可能就能得到一个在某个垂直领域上更强大的推理agent;
这可能会带来一个问题,你可能无法拥有在所有垂直领域都具有很强泛化能力的agent。在一个特定领域训练出一个agent后,它只能在那个领域工作,而无法泛化到其他垂直领域。但这是一个可能的(落地)方向,因为DeepSeek本身带来的推理成本(inferencecost)很低,可以选择一个模型,然后进行一系列强化训练,训练完成后,它只服务于某个垂直领域,不再关心其他垂直领域。对于垂类AI公司来说,这是一个可以接受的解决方案。
从学术视角来看,未来一年的一个重要趋势是,强化学习中的一些既有方法将会被转移到大模型的应用中,解决当前泛化性不足或评估不准确的问题。通过这种方式,可以进一步提升模型的性能和泛化能力。随着强化学习的应用,结构化信息输出的能力将大大提升,最终能够更好地支持各类应用场景,尤其是提高图表和其他结构化内容的生成效果。
越来越多人可以用R1做posttraining,每个人都可以做出自己的agent。模型层会变成不同的agentmodel,用不同的工具来解决不同领域的问题,最终实现multiagentsystem。
2025年可能成为智能体(agent)元年,许多公司将推出具备规划任务能力的智能体。然而,目前缺乏足够的数据来支持这些任务。例如,规划任务可能包括帮助用户点外卖、预订旅行、判断景点门票的余量等。这些任务需要大量的数据和奖励机制来评估模型的准确性,例如规划去张家界的行程,如何判断正确与错误,以及如何进行模型学习。这些问题将成为下一步的研究热点,推理能力最终将用于解决实际问题。
2025年跨应用调用的能力将成为一个热点。在安卓系统中,由于其开源特性,开发者可以通过底层权限实现跨应用操作,agent未来能够控制你的浏览器、手机、电脑等设备。然而在苹果生态中,由于严格的权限管理,agent要完全控制设备上的所有应用还面临很大困难,苹果必须自主开发能够控制所有应用的智能体。安卓系统虽然是开源的,但仍需与OPPO、华为等厂商合作,才能在手机、平板和电脑等设备上实现底层权限的开放,从而获取数据并支持智能体的发展。