DeepSeek开源第四弹“教”优化,梁文锋参与研发

DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek于2月27日在X上宣告这次开源的是三项优化并行战略,并在Github上具体展开了DeepSeek-V3和R1模型背面的并行核算优化技能,经过这些论述可以明晰了解团队是怎么精细地优化核算和通讯,最大极限使用GPU才能的。

这三项优化并行战略其间包含DualPipe,这是一种用于V3/R1模型练习中核算与通讯堆叠的双向流水线并行算法,这种算法可以彻底堆叠前向和后向核算通讯阶段,与传统办法比较减少了“流水线气泡”(设备在某些时间的闲暇等候)。 在DualPipe的开发团队署名中,包含创始人梁文锋。

就在昨日,DeepSeek还在海内外一起宣告了API 错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间闲暇时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。DeepSeek鼓舞用户充分使用这一时段,享用更经济更流通的服务体会。

别的,也有音讯称,DeepSeek正寻求稳固本身优势,尽早推出R2模型,音讯说到DeepSeek本来计划在5月初发布R2模型,现在会加速这一速度。DeepSeek现在并未对此回应。

此前DeepSeek在R1论文中说到,R1 的功能将在下一个版别得到改进,由于相关的RL(强化学习)练习数据还很少。跟着RL数据的添加,模型处理杂乱推理使命的才能继续安稳提高,且会天然涌现出一些杂乱行为才能。

业界以为,DeepSeek-R2的发布可能是AI职业的一个要害节点。

来历:

榜首财经

返回资讯列表