Kimi 发布视觉思考模型 k1

k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
Kimi 发布视觉思考模型 k1
根据Kimi官方介绍:
k1 模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。
其中,在数理化方面取得了很不错的成绩,完全超越其他SOTA级别模型 - OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
Kimi 发布视觉思考模型 k1

关于「Kimi 视觉思考版」这一强化学习下的新势力选手:可以完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。

再概括下 k1 视觉思考模型的训练过程

1、训练阶段划分:本质上还是预训练及基于预训练模型后的强化学习后训练,这两个阶段

2、基础模型特点

- 重点优化字符识别能力

- 在多个基准测试集上取得卓越成绩:如OCRBench:903分(SOTA);

3、强化学习后训练 - 划重点:强化学习后训练在数据质量和学习效率方面做了进一步优化

4、科学测试集创新

- 自主构建 Science Vista 测试集:覆盖不同难度的数理化图片题目;其分布与用户需求匹配

 

以下是Kimi官方的解数学题的demo:

Kimi 发布视觉思考模型 k1

 

除了数学能力,Kimi还展示了 k1 视觉思考模型解答经典物理电路题的例子:

Kimi 发布视觉思考模型 k1

看到这里,还留下了一个问题:

你认为Kimi的「视觉思考模型」,对哪个大模型对手产生的威胁最大呢?

 

来源:为AI发电

0赞

好文章,需要你的鼓励

2024

12/20

09:04

分享

点赞

为AI发电

记录随想和认知笔记,为当下及下一代范式AGI,以及广义上人类文明贡献自己的思考

最近文章 :