谷歌首席执行官Sundar Pichai表示,谷歌正在努力使旗下的人工智能和机器学习模型更加透明,以此抵御系统的偏差。
Pichai提及一系列人工智能增强技术(https://blog.google/technology/developers/io19-helpful-google- everyone /)以及将更多的机器学习模型放在设备上的举动,而对于开发人员和数据科学家而言他说的重点则在于TCAV。 TCAV是概念激活向量测试(Testing with Concept Activation Vectors)的英文缩写(https://ai.google/research/pubs/pub47077)。简而言之,TCAV是一种可解释性的方法,可用于了解神经网络模型用来预测的信号。
理论上,TCAV具有理解信号可能表现出偏差的能力(https://github.com/tensorflow/tcav),因为这些信号会强调男性是否是有别于女性,信号还会表现出其他的问题,如种族、收入和位置。计算机科学家利用TCAV就可以看到价值概念到底有多高的价值(https://arxiv.org/abs/1711.11279)。
偏差是人工智能里的一个重要概念,一些学者呼吁引进更多的自我监管和法例(https://www.zdnet.com/article/why-businesses-will-have-to-audit-algorithms-ai-and-account-for-risk/)。此外,诸如IBM一类的行业参与者也在推动更大的透明度和具有监控算法层的软件,以达到了解算法是如何产生偏见的目的(https://www.zdnet.com/article/ibm-launches-tools -to-detect-ai-fairness-bias-and-open-sources-some-code /)。而与此同时,一些企业也在向着可解释人工智能方向努力(https://www.zdnet.com/article/capital-one-ai-chief-sees-path- to-explainable-ai /)。对于谷歌来说,透明度很重要,因为谷歌的技术包括Duplex和下一代谷歌智能助理(https://www.zdnet.com/article/google-sees-next-gen-duplex- assistant-as-next-step-in-taking-over-your-tasks/ )。这些工具现在为用户执行任务时的功能越来越多。模型的透明度可能意味着对谷歌技术的更多信任和使用。
最关键的一点:透明度和防范偏差对于企业以及为我们提供大多数模型即服务的所有云提供商都至关重要(https://www.zdnet.com/article/top-cloud- providers -2019-aws-microsoft-azure-google-cloud-ibm-makes-hybrid-move-salesforce-dominates-saas/)。
TCAV的使用不需要重新训练模型,TCAV做的是解剖模型即说明模型为何做出某种决定。例如,识别斑马的模型可以使用更高级别的概念来识别斑马。来看一个示例:
Pichai表示,“要为每个人建立一个更有帮助的谷歌就意味着解决偏差问题。你需要知道模型是如何工作的,并且清楚其中可能存在偏差。为此,我们将提高模型的透明度。”
他补充表示,谷歌的人工智能团队正在开发TCAV,这项技术可以允许模型使用更多的高级概念。TCAV的目标是将支撑模型的变量表现出来。“还有做很多的工作,但我们奉行的原则是打造适合所有人的人工智能。”Pichai表示。
由于谷歌能够将模型的大小缩小到可以驻留在设备上,谷歌现在正朝着降低延迟及使用联合学习等技术减少数据使用并增强用户隐私的方向努力。
好文章,需要你的鼓励
这项研究介绍了CRAWLDoc,一种创新的文献排序系统,能从网络中自动识别与学术论文相关的文档。德国乌尔姆大学的研究团队利用小型语言模型,将论文登陆页面作为查询,对所有链接资源进行排序,有效解决了学术元数据提取面临的网页布局多样性问题。基于600篇来自六大出版商的论文测试,系统展现出卓越的排序性能和跨出版商适应能力,为改进学术信息提取奠定了基础。
西安交通大学与昆明理工大学研究团队开发了一种基于集成学习的婴幼儿语音情感识别方法,能有效分辨饥饿、困倦、不舒服和高兴四种情绪状态。研究采用三层分类器架构,整合SVM、随机森林和KNN算法,达到85.82%的准确率,显著优于单一分类器。这项技术有望应用于智能婴儿监护和早期疾病筛查,为理解婴幼儿非语言表达开辟了新途径。
这项来自普渡大学和微软的研究探索如何让AI助手更好地保护用户隐私。研究团队通过让大型语言模型在回答前先思考"语境完整性"(即在特定场景下什么信息适合分享),并结合强化学习技术进行训练,成功降低了隐私信息泄露风险高达40%,同时保持了任务完成能力。研究仅使用约700个合成数据样本进行训练,却在真实场景测试中展现出色效果,为构建更隐私友好的AI助手提供了实用方法。
SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。