AI驱动的记录应用Granola估值达2.5亿美元,在科技行业创始人和风险投资人中备受欢迎。但一位开发者认为市场需要一款更注重隐私、本地运行的替代产品,采用一次性付费而非订阅模式。这促使了新的Mac应用Talat的诞生。
来自英格兰约克郡的开发者Nick Payne自称是计算机极客,他表示构建本地AI记录工具的想法主要源于一系列巧合。
"我认为Granola很棒,它是Electron应用框架在精心打造下能实现功能的典型例子,"他告诉TechCrunch。"当我第一次尝试时,我惊讶地发现它能在我的Mac上录制系统音频而不录制视频,这在当时是标准的解决方案。这引发了大量研究,让我发现了一个相对较新且文档不完善的苹果API。"
为了更容易地使用该API(Core Audio Taps,允许开发者接入Mac音频流),Payne决定创建一个开源音频库AudioTee。
"在那段时间里,我慢慢组建了一个工具包,但始终没有找到能独立成为产品而非仅仅是酷炫技术演示的东西,"Payne说。"最先进的托管转录模型——Granola等应用使用的同类服务提供商——非常出色,看到自己的语音几乎实时展现在屏幕上确实很酷。但我始终担心这种权衡需要提供的不仅是我的数据,还有我的音频数据;我真实的声音。"
随后他偶然发现了名为FluidAudio的软件工具包,这是一个Swift框架,能在苹果设备上实现完全本地化、低延迟的音频AI。它允许你直接在Mac的神经引擎(苹果专用的AI处理硬件)上运行小型、快速的转录模型。
这一发现让Payne意识到他可以将自己的研究转化为实际产品——一个音频永不离开Mac、转录内容不存储在其他公司服务器的产品。
Talat是Payne与长期朋友兼前同事Mike Franklin共同开发的成果,体现了Payne对音频领域的兴趣。最终产品仅20MB大小,采用一次性购买模式,无需创建账户甚至不会向开发者回传分析数据。也没有持续费用。
虽然一些AI记录工具可能功能更丰富,但Talat提供精简的功能集。当你在Zoom、Teams、Meet等会议应用中时,它会捕获计算机麦克风的音频并实时转录。应用会尝试实时分配发言者,但你可以根据需要重新分配。你还可以记笔记,编辑、删除或拆分转录片段。会议结束后,本地大语言模型会生成包含要点、决策和行动项的摘要。
Talat中的笔记、转录和摘要都支持搜索功能。
除了隐私保护,Payne表示目标是为用户提供更多选择。
"我们注重可配置性,让用户控制数据去向:选择自己的大语言模型,自动导出到笔记应用Obsidian,会议结束时推送数据的webhooks,以及按需提取数据的MCP服务器,"他解释道。MCP服务器是AI工具连接外部数据源的标准化方式。
在底层,AI采用混合方案——"主要通过FluidAudio拼接和抽象化,"Payne指出,他认为FluidAudio承担了大部分繁重工作。对于摘要功能,应用默认使用名为Qwen3-4B-4bit的AI模型,即使在相当普通的硬件上也能运行。
不过,用户可以选择切换到任何云端大语言模型提供商,或在两个Parakeet变体(英伟达开发的语音识别模型)之间选择,或指向Ollama(本地运行AI模型的工具),从而更好地控制体验。未来,Talat将增加对更多内置选项的支持,并集成其他应用,如Google Calendar和Notion。
发布时,拥有M系列Mac电脑(运行苹果自主处理器,从M1开始)的用户可以下载应用,免费试用10小时录制时间后再决定是否购买。
Talat在预发布版本中售价49美元,目前仍在积极开发中。
当应用发布1.0版本时,价格将上涨至99美元。
Payne和Franklin正在自筹资金开发Talat,计划继续将核心产品保持为一次性购买模式。
Q&A
Q1:Talat与Granola等AI记录工具相比有什么不同?
A:Talat最大的区别是完全本地运行,用户的音频数据永不离开Mac,转录内容也不存储在其他公司服务器上。它采用一次性付费模式而非订阅制,仅20MB大小,无需创建账户,也不会收集用户分析数据。
Q2:Talat支持哪些会议软件和AI模型?
A:Talat支持Zoom、Teams、Meet等主流会议应用的音频捕获和实时转录。在AI模型方面,默认使用Qwen3-4B-4bit模型,用户也可以选择任何云端大语言模型提供商、英伟达的Parakeet语音识别模型变体,或通过Ollama运行本地AI模型。
Q3:Talat的价格和试用政策是怎样的?
A:目前预发布版本售价49美元,拥有M系列Mac的用户可以免费试用10小时录制时间。当应用发布1.0正式版本时,价格将上涨至99美元。这是一次性购买,没有订阅费用或持续收费。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。