MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。自2024年2月以来,我们共发布了4个版本模型,旨在实现领先的性能和高效的部署,目前该系列最值得关注的模型包括:
(1)MiniCPM-Llama3-V 2.5:MiniCPM-V系列的最新、性能最佳模型。总参数量8B,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力进一步提升,并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术,MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
(2)MiniCPM-V 2.0:MiniCPM-V系列的最轻量级模型。总参数量2B,多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型,可接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。
参考文献:
[1] https://github.com/OpenBMB/MiniCPM-V
[2] MiniCPM 系列开源地址:https://github.com/OpenBMB/MiniCPM
[3] Hugging Face 下载地址:https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5
[4] MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型:https://openbmb.vercel.app/minicpm-v-2
好文章,需要你的鼓励
Writer首席执行官May Habib指出,企业在构建和扩展AI智能体时面临重大挑战。智能体在构建、运行和改进方式上与传统软件截然不同,需要抛弃传统软件开发生命周期。智能体不会可靠地遵循规则,而是结果导向、具备解释和适应能力。企业需要采用目标导向方法,设计业务逻辑蓝图而非工作流程。质量保证也需要评估非二元行为和实际应用表现。智能体维护需要新的版本控制系统,涵盖提示、模型设置等所有影响行为的因素。
中科院团队开发的SimpleGVR系统革新了AI视频增强技术,通过直接在潜在空间处理和创新的分阶段训练策略,能够将AI生成的低分辨率视频高效提升至高清画质。该系统不仅提升分辨率,还能修正AI视频特有的颜色混合等问题,在多项指标上超越现有顶级方法,为AI视频生成领域提供了实用的解决方案。
Salesforce首席执行官马克·贝尼奥夫表示,公司正大力推进人工智能应用,AI代理现在承担了公司30%至50%的工作。他认为员工应适应AI替代人工的趋势,转向更高价值的工作。然而,这一变化导致约1000名员工被裁,虽然公司计划招聘同等数量新员工,但主要专注于销售AI技术。这一趋势在科技行业普遍存在,今年已有超过63000个科技岗位消失,AI被认为是重要原因之一。
浙江大学联合腾讯AI实验室提出KnowRL方法,通过在强化学习中集成事实性奖励机制,有效解决慢思维AI模型在推理过程中的幻觉问题。该方法在保持原有推理能力的同时,显著提升了模型的事实准确性,为构建更可靠的AI系统提供了新思路。