1. Meta如约发布Llama3.1 405B模型
Meta 上周如约正式发布了 Llama3.1 版本模型,与泄露的内容一致包含8B、70B、405B 三个型号。
提供了更好的推理能力、更大的 128K token 上下文窗口,并改进了对8种语言的支持等其他改进。
2.Open AI推出AI搜索SearchGPT
泄露了三四个月的 Open AI AI 搜索 SearchGPT 终于发布了,他们说这个功能的目标是,通过结合 AI 模型的对话能力和实时网络信息,让用户更快地找到所需答案。
目前从演示以及一些获得资格的用户测试来看,相较于其他 AI 搜索 SearchGPT 为不同的数据展示形式做了非常多的工作。
比如搜索到的 youtube 视频可以在搜索结果直接播放,天气搜索结果会展示带图标的天气列表,数据类的结果会直接匹配适合的图表展示。
虽然 Open AI 的产品能力确实堪忧,但这次又给 AI 搜索展示了下一步的发展方向,就是获取到的信息打撒重新按照用户方便阅读的方式组合,尤其是除了文字之外的更多模态内容,实现图文、视频、数据混排。
3.Deepmind数学模型获得国际数学奥林匹克竞赛银牌
数学和代码LLM 推理能力的两个最重要的领域。
谷歌 Deepmind 上周宣布自己通过两个专门的数学模型解答了这次国际数学奥林匹克竞赛6 道题中的 4 道,获得了银牌。
两个模型分别是 AlphaProof 和 AlphaGeometry 2,AlphaProof 是一个基于自然语言和形式语言的 AI 系统,它通过强化学习自我训练,能够证明数学论断。
AlphaGeometry 2 是一个神经象征混合系统,语言模型基于Gemini,它在解决几何问题方面有了显著提升,包括关于物体运动和角度、比例或距离方程的问题。
另外在推上有个博主拿着谷歌的图询问如果 Open AI 的模型的话可以的几分,Sam 给了一个很有趣的语气词回答,可能在暗示 Open AI 可以获得金牌。
如果 Open AI 真的可以在 IMO 中获得金牌的话,按照 RLHF 的发明者 Paul Christiano 几年前的预测如果 LLM 可以在 2025 年前在 IMO 中获得金牌,AGI 很快就会到来,如果不能的话 AGI 的到来可能需要几十年的时间。
期待 Open AI 在年底的新模型,很多的迹象都说明他们在集中攻克 LLM 的推理能力问题。
4.AI音乐生成工具Udio大规模更新
https://x.com/op7418/status/1816321699434139774
https://chatglm.cn/?redirect=/video
https://mistral.ai/news/mistral-large-2407/
https://huggingface.co/stabilityai/sv4d
https://klingai.kuaishou.com/
https://klingai.com/
https://pixverse.ai/
https://x.com/elonmusk/status/1815325410667749760
https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases/tag/v1.10.0
https://x.com/GoogleDeepMind/status/1816804250313457804
https://blogs.bing.com/search/July-2024/generativesearch
https://x.com/OpenAIDevs/status/1815836887631946015
精选文章 ?
据 404 Media 获得的一份大规模内部训练数据表格显示,市值数十亿美元的公司 Runway 开发的一款备受赞誉的 AI 视频生成工具,在训练过程中秘密使用了数千个来自知名 YouTube 创作者和品牌的视频,以及未经授权的电影内容。泄露这个消息的内部人士还给出了这些 youtube 频道的详细内容。
今年 6 月,当科技新闻网站 Techcrunch 询问 Runway 联合创始人 Anastasis Germanidis 关于 Gen-3 训练数据的来源时,Germanidis 并未透露具体细节。
他对 Techcrunch 表示:"我们有专门的内部研究团队负责监督所有训练过程,我们使用经过精心筛选的内部数据集来训练我们的模型。"
作者提出了一个双层评估框架,通过一个更高级别的 LLM 评委(最高 LLM 评委)来评估第一层 LLM 评委的评估结果。这个框架旨在提高评估的准确性和可靠性,减少不正确的评估。
作者通过实验验证了这个框架的有效性,发现最高 LLM 评委能够识别出第一层 LLM 评委错误评估的 70% 的案例。这一发现对于持续改进 LLM 应用的评估过程具有重要意义。
Sam Altman认为,我们正面临一个战略性选择:是由美国和盟国推进的民主愿景主导AI的未来,还是由不认同美国价值观的威权国家掌控。
为确保民主愿景胜出,Altman提出了四个关键策略:加强安全措施、发展基础设施、制定AI商业外交政策、建立全球AI治理机制。他强调了行动的紧迫性,指出美国虽然目前在AI领域领先,但这种领先地位并非永久。
文章呼吁美国及其盟友立即采取行动,以确保AI技术的发展能够最大化其益处,同时最小化风险,从而创造一个更加民主的世界。
探讨了人工智能(AI)未来发展的不确定性,指出尽管 AI 的未来充满不确定性,但组织和个人应该为多种可能性进行规划。他指出,尽管 AI 的未来发展存在分歧,但许多 AI 实验室的内部人士相信在不久的将来实现人工通用智能(AGI)是可能的。
Mollick 强调,即使不考虑 AI 的进一步进步,现有的 AI 技术已经足够引起颠覆性变化,因此需要现在就开始规划和思考如何使用 AI。他还批评了 AI 系统的不透明性,认为 AI 文档对非技术用户来说不够友好,导致人们对 AI 当前能力的了解不足。
文章中还提到了 AI 能力的锐角形成,即 AI 在某些任务上表现出超过人类的能力,而在其他看似简单的任务上却表现出限制。
谷歌研究,对图像中对象材质属性的参数化编辑。
能够在保持图像逼真性的同时,对对象的颜色、光泽度或透明度等材质属性进行精确控制。
本质上还是滑块Lora的思路,数据集创建的思路可以借鉴,基于SD1.5做的。
Diffree,一种文本引导的对象插入技术,它能够在不改变图像背景一致性和空间适当性的前提下,根据文本描述将新对象自然地融入图像。
Diffree 通过在 OABench 数据集上训练,该数据集由 74K 个实世界的图像组成,包括原始图像、经过物体移除后的图像、物体掩码和物体描述。
OABench 数据集是通过高级图像修复技术移除物体后构建的,以实现高质量的文本引导对象添加。Diffree 不仅能够添加多种对象,而且能够通过生成的掩码在单个图像中迭代插入对象,同时保持背景的一致性。
提出了一种新的方法,同时兼顾视觉质量和内容一致性。我们通过设计一种新的损失函数 (loss function) 来确保内容一致性,该函数能够保持输入的结构特征。同时,我们利用预训练扩散模型的去噪过程来提升视觉质量。
为了解决这个优化问题,我们开发了一种即插即用 (plug-and-play) 的噪声优化策略,称为噪声校准 (Noise Calibration)。通过对初始随机噪声进行几轮迭代优化,我们可以在很大程度上保留原始视频的内容,同时显著改善增强效果。
腾讯开源的 SD 换装项目,支持对服装的灵活控制、可选的面部、姿势和场景。
模型包含一个服装 UNet,用于捕获来自 CLIP 的语义特征和来自 VAE 的纹理特征。还设计了一个混合注意力模块,包括一个冻结的自注意力 (self-attention) 和一个可训练的交叉注意力 (cross-attention),将服装 UNet 的特征整合到冻结的去噪 UNet 中,确保用户可以通过文本控制不同的场景。
IMAGDressing-v1 可以与其他扩展插件结合使用,如 ControlNet 和 IP-Adapter,以增强生成图像的多样性和可控性。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。