7月23日凌晨,有人爆料,Meta的Llama 3.1-405B评测数据遭遇泄漏,明天可能会发布Llama 3系列中最大的参数模型,同时还会发布一个Llama 3.1-70B版本。
这也是在3.0版本基础之上进行了功能迭代,即便是70B的基础模型的性能也超过了GPT-4o。
就连磁力链接都流出来了,试了一下大约有763.84G。本来huggingface上也有的,后来库被删除了。
磁力地址:Magnet: magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%http://2Ftracker.openbittorrent.com%3A80
下载速度也还可以,每秒14M左右,看来确实是有不少人在下这个模型。
但这个模型一般的GPU肯定是跑不起来,如此大的参数在部署方面个人开发者也负担不起(如果你有一些H100也没问题),估计是给企业、政务公共部门用的。
对于Meta即将发布的模型,就有网友泼冷水。相比OpenAI最新的GPT-4o mini版本,Llama 3.1-70B推理成本提升了3倍,但编码的性能却要差很多。
从性价比、功能来看,Meta的新模型也没什么值得期待的。
还有人甚至在GitHub上看到了上述发布的模型,但很快就拿下来了,估计有一些人可能已经能使用了。
也有人表示,对于这个泄漏事件他认为是真的,因为这是从微软的Azure Github流出来的。
但是这个模型参数较大,对GPU的要求太高了,不如GPT-4o mini性价比高。
虽然模型是免费的,想运行起来还是相当费劲的,没有企业级的算力基础真的无法使用。所以,这对于企业来说是一个不错的好消息。
有人指出即便对Llama 3.1-405B模型进行大幅度优化,量化到5位数,仍然无法适用于消费级GPU,真的是对硬件要求特别高。
如果这份评测数据是真的,那么对于全球多数国家来说都是一个天大的福利。因为这是Meta的Llama 3系列的顶级模型并且是全部开放权重,也就是说人人都能用上免费的AI模型。
但是如果想开发生成式AI应用,也需要强大的AI算力基础、高质量数据以及微调技术。
由于监管机构和各种法案的原因,Meta一直在推迟405B系列模型的发布。那么,本次泄漏是否是Meta特意放出来的呢,因为这是他们的老传统了,去年的Llama模型就干过一次。
好文章,需要你的鼓励
RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环境源和用户源两大类,通过风险目标意图和完成两个维度进行评估。对十个代表性MLLM代理的测试结果表明,当前代理在风险目标意图上的不安全率高达84.93%,在风险目标完成上达59.64%,揭示了AI代理在计算机使用安全性方面存在的严重隐患,为未来可信AI系统的开发提供了重要参考。
牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连贯视频。研究团队还构建了包含20,170个视频对的高质量数据集,实验表明IllumiCraft在视觉质量、提示对齐和时间一致性方面显著优于现有方法,开创了可控视频生成的新可能。
中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160K。研究不仅提供了公开的评估框架,还总结了提高超导温度的物理策略,如空穴掺杂和轻元素引入。该基准已在GitHub开源,为AI驱动的超导材料发现提供了重要支持。
MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出了ChainEval评估指标,同时评估最终答案正确性和中间推理步骤一致性。对30个大语言模型的测试表明,即使最先进模型在处理复杂金融推理时仍有很大提升空间,且模型规模是决定推理能力的关键因素。