AI正在渗透到我们生活的方方面面,从手机应用到搜索引擎,甚至是汽车驾驶系统。如今连网络浏览器都开始内置AI助手和聊天机器人,这表明人们使用互联网搜索和获取信息的方式与几年前相比已经发生了根本性变化。
然而,AI工具越来越多地要求获得用户个人数据的广泛访问权限,声称这是其正常运行所必需的。这种级别的数据访问既不正常,也不应该被视为理所当然。
不久之前,当一个看似无害的免费"手电筒"或"计算器"应用试图请求访问你的联系人、照片甚至实时位置数据时,我们都会质疑其动机。这些应用可能并不需要这些数据来实现功能,但如果它们认为可以通过变现你的数据来赚钱,就会提出这些请求。
如今的AI其实也没什么不同。
以Perplexity最新推出的AI驱动网络浏览器Comet为例。Comet允许用户通过其内置的AI搜索引擎寻找答案,并自动化处理日常任务,如总结邮件和日历事件。
在最近的实际体验中,TechCrunch发现,当Perplexity请求访问用户的Google日历时,该浏览器会要求获得用户Google账户的广泛权限,包括管理草稿和发送邮件的能力、下载联系人、查看和编辑所有日历上的事件,甚至包括复制整个公司员工目录的权限。
Perplexity声称大部分数据都存储在用户设备本地,但用户仍然在授予该公司访问和使用个人信息的权利,包括用于改进其为所有人提供的AI模型。
Perplexity并非唯一要求访问用户数据的公司。有一种AI应用的趋势,它们承诺通过转录通话或工作会议来节省时间,但这需要AI助手访问用户的实时私人对话、日历、联系人等信息。Meta也一直在测试其AI应用可以请求访问的数据边界,包括访问用户相机胶卷中尚未上传的照片。
Signal总裁Meredith Whittaker最近将使用AI智能体和助手比作"把你的大脑装进罐子里"。Whittaker解释了一些AI产品如何承诺完成各种日常任务,比如在餐厅预订桌位或预订音乐会门票。但要做到这一点,AI会说它需要你的许可来打开浏览器加载网站(这可能让AI访问你存储的密码、书签和浏览历史)、需要信用卡来进行预订、需要你的日历来标记日期,还可能要求打开你的联系人,这样你就可以与朋友分享预订信息。
使用依赖于你数据的AI助手存在严重的安全和隐私风险。在允许访问的那一刻,你就立即且不可逆转地交出了那个时间点你最个人信息的完整快照的权利,包括你的收件箱、消息和可以追溯数年的日历条目等等。所有这些都是为了执行一个表面上为你节省时间的任务——或者用Whittaker的话说,让你不必主动思考这件事。
你还授予了AI智能体代表你自主行动的权限,这需要你对一项本来就容易出错或完全编造信息的技术给予极大的信任。使用AI还需要你信任开发这些AI产品的追求利润的公司,这些公司依赖你的数据来尝试让他们的AI模型表现更好。当事情出错时(而且经常出错),AI公司的人工审核人员查看你的私人提示以找出问题所在是常见做法。
从安全和隐私的角度来看,将AI连接到你最个人数据的简单成本效益分析表明,放弃对你最私密信息的访问权限是不值得的。任何要求这种级别权限的AI应用都应该让你警铃大作,就像手电筒应用想要随时知道你的位置一样。
考虑到你交给AI公司的大量数据,问问自己从中得到的回报是否真的值得。
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。