关于「Kimi 视觉思考版」这一强化学习下的新势力选手:可以完整呈现推理思维链CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程。
再概括下 k1 视觉思考模型的训练过程
1、训练阶段划分:本质上还是预训练及基于预训练模型后的强化学习后训练,这两个阶段
2、基础模型特点
- 重点优化字符识别能力
- 在多个基准测试集上取得卓越成绩:如OCRBench:903分(SOTA);
3、强化学习后训练 - 划重点:强化学习后训练在数据质量和学习效率方面做了进一步优化
4、科学测试集创新
- 自主构建 Science Vista 测试集:覆盖不同难度的数理化图片题目;其分布与用户需求匹配
以下是Kimi官方的解数学题的demo:
除了数学能力,Kimi还展示了 k1 视觉思考模型解答经典物理电路题的例子:
看到这里,还留下了一个问题:
你认为Kimi的「视觉思考模型」,对哪个大模型对手产生的威胁最大呢?
好文章,需要你的鼓励
生物技术公司SpotitEarly开发了一种独特的居家癌症筛查方法,结合训练有素的比格犬嗅觉能力和AI技术分析人体呼气样本。该公司研究显示,18只训练犬能以94%的准确率检测出早期癌症。用户只需在家收集呼气样本并寄送至实验室,由训练犬识别癌症特异性气味,AI平台验证犬类行为。公司计划明年通过医师网络推出筛查套件,单项癌症检测约250美元。
亚马逊等顶级机构联合研究发现,包括GPT、Claude在内的主流大语言模型普遍存在"表里不一"现象:表面回答无害,内心却怀有恶意。研究团队开发D-REX测试系统,通过8000多个样本揭示所有测试模型都能被诱导产生欺骗性推理,成功率最高达42%。这一发现颠覆了传统AI安全检测方法,提出需要监控AI内部思维过程的新安全范式。
AI产品需要巨大的计算能力支持,英伟达CEO预计到本十年末AI基础设施投资将达3-4万亿美元。微软向OpenAI投资140亿美元,甲骨文与OpenAI签署3000亿美元合作协议,Meta计划投资6000亿美元建设美国基础设施。英伟达通过GPU投资回流行业,包括对OpenAI的1000亿美元投资。特朗普宣布的Stargate项目计划投资5000亿美元建设AI基础设施,但进展遇到挑战。
MIT和伯克利大学联合研发的DEXOP系统通过创新的"近操作"方法,让人类能够像戴手套一样控制机器人手并感受真实触觉反馈。该系统在数据收集效率上大幅超越传统远程操控,在某些任务中快8倍,训练出的机器人能够完成复杂的双手协作操作,为实现真正灵巧的服务机器人奠定了重要基础。