MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。自2024年2月以来,我们共发布了4个版本模型,旨在实现领先的性能和高效的部署,目前该系列最值得关注的模型包括:
(1)MiniCPM-Llama3-V 2.5:MiniCPM-V系列的最新、性能最佳模型。总参数量8B,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力进一步提升,并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术,MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
(2)MiniCPM-V 2.0:MiniCPM-V系列的最轻量级模型。总参数量2B,多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型,可接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。


参考文献:
[1] https://github.com/OpenBMB/MiniCPM-V
[2] MiniCPM 系列开源地址:https://github.com/OpenBMB/MiniCPM
[3] Hugging Face 下载地址:https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
[4] MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型:https://openbmb.vercel.app/minicpm-v-2
好文章,需要你的鼓励
本轮优惠涵盖多款热门科技产品:Galaxy S26 Ultra捆绑Galaxy Buds 4 Pro可享325美元折扣,翻新开箱版最高优惠435美元;Galaxy Z Flip 7全新机型立减200美元,翻新版最低仅需701.99美元;谷歌最新款Nest门铃翻新版近百美元优惠;TCL TAB 10 Gen 4安卓平板降至150美元历史低位。三星旗舰产品翻新开箱版正成为当前最具性价比的选择。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。