文章来源:AI范儿

中国公司在人工智能(AI)领域的创新实力正日益受到全球瞩目。此前,DeepSeek率先通过大规模强化学习(Reinforcement Learning, RL)显著提升了模型的推理性能,这一突破性进展引发了世界轰动。在此背景下,阿里巴巴(阿里)QwQ-32B的新型大语言模型,取得了更加惊艳的效果。
DeepSeek的开创性贡献
DeepSeek作为一家中国公司,率先将大规模强化学习应用于AI模型的后训练中,成功大幅提升了模型在推理任务上的表现。其旗舰模型DeepSeek-R1拥有6710亿参数(其中370亿激活参数),在数学推理、编程能力等领域的优异表现让全球AI研究界为之振奋。这一创新为AI模型性能的提升开辟了新的可能性,也为后续研究奠定了基础。
阿里QwQ-32B:更高效的性能突破
阿里基于DeepSeek的开创性工作,进一步验证并优化了大规模强化学习技术,推出了QwQ-32B模型。该模型仅拥有320亿参数,参数规模远小于DeepSeek-R1,却在多个基准测试中展现出与之媲美的性能,包括:
- 数学推理:能够高效解决复杂的数学问题。
- 编程能力:生成高质量代码并通过测试用例验证。
- 通用能力:在广泛的任务中表现出色。
更令人惊叹的是,QwQ-32B还集成了智能体(Agent)相关能力,使其在使用工具时具备批判性思考能力,并能根据环境反馈动态调整推理过程。这一特性显著增强了模型在实际应用中的灵活性和实用性。
创新的强化学习策略
阿里团队在QwQ-32B的训练中采用了独特的强化学习策略,从冷启动开始,针对数学和编程任务进行大规模优化。具体方法包括:
- 直接反馈机制:
- 数学任务:通过验证答案正确性提供反馈。
- 编程任务:利用代码执行服务器检查生成的代码是否通过测试用例。
- 两阶段强化学习:
- 第一阶段专注于数学和编程能力的提升。
- 第二阶段引入针对通用能力的训练,结合通用奖励模型和基于规则的验证器,仅通过少量步骤就显著提升了整体性能,同时保持了数学和编程任务的高水平表现。
这一策略不仅验证了强化学习在提升模型智能方面的潜力,还通过高效的训练流程实现了性能的最大化。
开源共享,推动全球AI发展
为了加速AI技术的普及与发展,阿里将QwQ-32B以Apache 2.0开源协议在Hugging Face和ModelScope上发布,供全球研究人员和开发者免费使用。此外,公众还可以通过Qwen Chat直接体验这一模型的强大功能,进一步拉近了尖端技术与普通用户之间的距离。
QwQ-32B的成功再次表明,将强大的基础模型与大规模强化学习相结合,能够在较小的参数规模下实现卓越性能,这为未来通向通用人工智能(AGI)提供了可行路径。
从DeepSeek的创新性探索到阿里的惊艳优化,中国企业在AI领域的接力突破正推动着全球技术的前进。
本文链接:https://www.aixinzhijie.com/article/6848268
转载请注明文章出处