上周,韩国SK电信在全球AI竞赛中发布了一款新产品:A.X 3.1 Lite,这是一个拥有70亿参数的大语言模型,完全从零开始为韩语应用场景训练。它足够小,可以在智能手机上运行,但仍能处理广泛的任务,无需云服务。
在韩国本土从零构建
大多数区域性语言模型都是在海外大型架构基础上进行微调的版本。但这款不是。SK电信的团队完全自主开发了A.X 3.1 Lite,使用1.65万亿个多语言Token进行训练,重点关注韩语内容。该项目在SK电信的TITAN超级计算机上运行,公司控制了从Token化器到推理的每一层。
回报是什么?一个将数据保留在国内并避免依赖外国技术的系统。
"基于我们稳步建立的韩语大语言模型开发能力,我们将努力增强AI生态系统的独立性,并为提升国家AI竞争力做出贡献,"SK电信基础模型经理Kim Tae-yoon说道。
模型背后的技术
按照2025年的标准,70亿参数听起来可能不算庞大,但这正是关键所在。较小的模型加载更快、耗电更少、微调成本更低,这些优势对于移动应用、小型企业和研究实验室来说至关重要。
为了达到这个最佳平衡点,SK电信的工程师构建了一个32层Transformer,配备32个注意力头、4096维隐藏层大小和32768个Token的上下文长度。简而言之:它紧凑、快速,并且在性能上表现出色。
数据支持了这一点。在韩语多任务推理基准KMMLU上,A.X 3.1 Lite得分61.7,约为SK电信更大的A.X 4.0 Lite模型的96%。在CLIcK文化智能测试中,它超越了更大的同类产品:71.22对69.97。在更广泛的韩语问答基准KoBALT-700上,它得分27.43,与几倍于其规模的模型竞争力相当。
对于韩语提示,它产生的响应使用的Token数量比同类GPT模型少约三分之一。这意味着更低的延迟和更长的手机电池寿命。
该模型是开源的,可在GitHub和Hugging Face上获得,采用Apache 2.0许可证。
已投入实际应用
SK电信不仅仅是在实验室测试A.X 3.1 Lite。它已经为公司的A.dot语音助手提供动力,可以实时总结通话。开发者可以将同样的技术集成到翻译应用、客户支持工具或离线聊天界面中,全部无需数据中心或外部API。
对于大规模部署,SK电信还提供API和基于Docker的容器选项,可在本地运行。这对于需要将敏感数据保留在国内的银行、医院和公共机构来说意义重大。
分层策略:轻量级和大型
SK电信的路线图采用双轨模式。A.X 3系列,如3.1 Lite,完全从零开始构建,专注于主权、紧凑性和速度。相比之下,4系列要大得多,通过持续预训练针对性能进行优化。
这为韩国组织提供了选择:使用快速、高效的Lite模型处理日常任务,或使用更强大的A.X 4系列进行扩展,全程无需更换供应商。
A.X 3.1 Lite也不是终点。SK电信计划在2025年8月底发布一个340亿参数的版本,同样从零开发。该模型旨在改善创意写作和代码生成,同时保持韩语效率。
韩国在AI独立性上的重大押注
SK电信的努力是更广泛国家战略的一部分。韩国政府已承诺投入数十亿韩元来构建自己的基础AI模型。相关合同正在制定中,预计SK电信将与竞争对手Naver和Kakao争夺这一合同。
目标是什么?通过构建真正理解韩国语言的工具,减少对外国API和模型的依赖,无论是从字面意义还是政治意义上。
这一趋势不仅限于韩国。法国的Mistral AI正在使用18000GPU超级计算机在本土训练模型。阿联酋的技术创新研究所发布了Falcon 180B和更轻量的Falcon 3系列,都是完全开源的。在印度,在Google Cloud帮助下构建的BharatGPT支持十多种地方语言。沙特阿拉伯正在资助HUMAIN,这是一个由该国主权财富基金支持的阿拉伯语模型。
信息很明确:主权AI不再只是一个流行词。
对于SK电信来说,A.X 3.1 Lite不仅仅是另一个产品。它是一个标志,证明韩国可以自主构建有能力、有竞争力的语言模型,并在人们随身携带的设备上运行。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。