上周,韩国SK电信在全球AI竞赛中发布了一款新产品:A.X 3.1 Lite,这是一个拥有70亿参数的大语言模型,完全从零开始为韩语应用场景训练。它足够小,可以在智能手机上运行,但仍能处理广泛的任务,无需云服务。
在韩国本土从零构建
大多数区域性语言模型都是在海外大型架构基础上进行微调的版本。但这款不是。SK电信的团队完全自主开发了A.X 3.1 Lite,使用1.65万亿个多语言Token进行训练,重点关注韩语内容。该项目在SK电信的TITAN超级计算机上运行,公司控制了从Token化器到推理的每一层。
回报是什么?一个将数据保留在国内并避免依赖外国技术的系统。
"基于我们稳步建立的韩语大语言模型开发能力,我们将努力增强AI生态系统的独立性,并为提升国家AI竞争力做出贡献,"SK电信基础模型经理Kim Tae-yoon说道。
模型背后的技术
按照2025年的标准,70亿参数听起来可能不算庞大,但这正是关键所在。较小的模型加载更快、耗电更少、微调成本更低,这些优势对于移动应用、小型企业和研究实验室来说至关重要。
为了达到这个最佳平衡点,SK电信的工程师构建了一个32层Transformer,配备32个注意力头、4096维隐藏层大小和32768个Token的上下文长度。简而言之:它紧凑、快速,并且在性能上表现出色。
数据支持了这一点。在韩语多任务推理基准KMMLU上,A.X 3.1 Lite得分61.7,约为SK电信更大的A.X 4.0 Lite模型的96%。在CLIcK文化智能测试中,它超越了更大的同类产品:71.22对69.97。在更广泛的韩语问答基准KoBALT-700上,它得分27.43,与几倍于其规模的模型竞争力相当。
对于韩语提示,它产生的响应使用的Token数量比同类GPT模型少约三分之一。这意味着更低的延迟和更长的手机电池寿命。
该模型是开源的,可在GitHub和Hugging Face上获得,采用Apache 2.0许可证。
已投入实际应用
SK电信不仅仅是在实验室测试A.X 3.1 Lite。它已经为公司的A.dot语音助手提供动力,可以实时总结通话。开发者可以将同样的技术集成到翻译应用、客户支持工具或离线聊天界面中,全部无需数据中心或外部API。
对于大规模部署,SK电信还提供API和基于Docker的容器选项,可在本地运行。这对于需要将敏感数据保留在国内的银行、医院和公共机构来说意义重大。
分层策略:轻量级和大型
SK电信的路线图采用双轨模式。A.X 3系列,如3.1 Lite,完全从零开始构建,专注于主权、紧凑性和速度。相比之下,4系列要大得多,通过持续预训练针对性能进行优化。
这为韩国组织提供了选择:使用快速、高效的Lite模型处理日常任务,或使用更强大的A.X 4系列进行扩展,全程无需更换供应商。
A.X 3.1 Lite也不是终点。SK电信计划在2025年8月底发布一个340亿参数的版本,同样从零开发。该模型旨在改善创意写作和代码生成,同时保持韩语效率。
韩国在AI独立性上的重大押注
SK电信的努力是更广泛国家战略的一部分。韩国政府已承诺投入数十亿韩元来构建自己的基础AI模型。相关合同正在制定中,预计SK电信将与竞争对手Naver和Kakao争夺这一合同。
目标是什么?通过构建真正理解韩国语言的工具,减少对外国API和模型的依赖,无论是从字面意义还是政治意义上。
这一趋势不仅限于韩国。法国的Mistral AI正在使用18000GPU超级计算机在本土训练模型。阿联酋的技术创新研究所发布了Falcon 180B和更轻量的Falcon 3系列,都是完全开源的。在印度,在Google Cloud帮助下构建的BharatGPT支持十多种地方语言。沙特阿拉伯正在资助HUMAIN,这是一个由该国主权财富基金支持的阿拉伯语模型。
信息很明确:主权AI不再只是一个流行词。
对于SK电信来说,A.X 3.1 Lite不仅仅是另一个产品。它是一个标志,证明韩国可以自主构建有能力、有竞争力的语言模型,并在人们随身携带的设备上运行。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。