2017 年,Raghav Gupta 为了解决个人问题而开始探索:他希望轻松享用童年时吃到的家常菜,而不必花时间烹饪,也不用花钱订外卖或者聘请私人厨师。他选择了机器人技术,这也促使他创立了初创公司 Posha。
Posha 曾参加过 TechCrunch Startup Battlefield,公司开发的台面机器人利用计算机视觉技术来烹饪美食。用户只需浏览食谱列表,选择想要的菜谱,加入要求量的食材,机器人便会从开始到完成全程制作这道菜。
Gupta 告诉 TechCrunch,该系统在设计上既可定制又宽容容错,因此用户可以进行食材替换,即使没有精确称量食材,Posha 依然能正常工作。
Gupta 表示,“它就像一台制作咖啡的机器,只不过是为食物服务。比如当你想喝一杯咖啡时,会在咖啡机上选择一种咖啡,用不同的容器分别加入咖啡豆、糖和牛奶,轻点‘萃取’键,一杯咖啡就现成了。Posha 也做类似的事情,不过是针对食物而设计。”
虽然将咖啡机与 Posha 相比是个不错的比喻,但还不完全贴切,因为使用 Posha 需要比使用咖啡机付出更多劳力。
虽然 Posha 在烹饪过程中完成了大量工作,但消费者依然要主动参与采购食材和事前准备工作。尤其是切菜环节,往往会耗费配方烹饪时长中的相当一部分。
Gupta 也承认,有些人不会选择一个依然要求他们自己动手烹饪的解决方案。他表示,到目前为止,Posha 在那些一周做饭两到六次、希望在某些晚上减轻负担的用户中获得了最大成功。
Gupta 说,“这些人每天都要在厨房花上一个小时,决定吃什么、采购食材、烹饪以及清理后续工作。而我们帮助他们至少节省 70% 的时间,使他们每天只需花大约 10 至 20 分钟。”
Gupta 称,Posha 最初名为 Nymble,原本只是一个机器人臂,但在 Bosch 的加速器项目中的经历促使他们改变方向。他们了解到消费者不希望有一个在厨房内四处移动或难以清洁的设备。此后,公司一直与早期客户保持紧密联系。
Gupta 说,“从第一天起,我们就非常专注并痴迷于客户。我们不用 Zendesk 与他们聊天,而是通过 WhatsApp 和超过 100 位客户保持对话。大多数客户都认识我本人。疫情期间,我甚至搬到了美国,只为了离客户更近。”这种方式虽然难以扩展,但目前对 Posha 来说效果显著。
Gupta 表示,到目前为止,Posha 的 1750 美元直销台面设备主要依靠口碑营销。最近,Posha 完成了一轮 800 万美元的 A 轮融资,由 Accel 领投,现有投资者 Xeed Ventures、Waterbridge Ventures 和 Flipkart 联合创始人 Binny Bansal 等也参与其中。
Gupta 表示,Posha 将利用这些资金继续开发产品。具体来说,公司希望增加更多食谱选项,并赋予用户提出食谱创意的能力,由生成式 AI 将这些创意快速转化为操作说明并整合进设备中。
该公司于 2025 年 1 月推出了 Posha 机器人,目前首批产品已售罄,第二批产品现正接受预订。
Gupta 说,“如果你看看微波炉、洗碗机、冰箱,在某个时间点,这些设备最初都是台面设备,但随着时间的推移,它们在消费者家庭中变得不可或缺,以至于建筑商开始在房屋中直接预装这些设备。我们相信,Posha 在不久的将来也会拥有相同的命运。”
好文章,需要你的鼓励
这项研究探索了语言神经元视角下多语言对齐如何增强大语言模型(LLMs)的多语言能力。研究团队提出了一种更精细的神经元识别算法,将激活神经元分为语言特定、语言相关和语言无关三类,克服了现有方法的局限性。基于这种分类,研究将LLMs多语言处理过程划分为四个阶段:多语言理解、共享语义空间推理、多语言输出空间转换和词汇空间输出。通过分析对齐前后不同类型神经元的变化,发现多语言对齐促进了更多语言相关神经元的共享使用,减少了对语言特定神经元的依赖,这也解释了"自发多语言对齐"现象。
这项由弗吉尼亚大学与Adobe研究院合作的研究突破了传统图像到视频生成的空间限制,提出了"Frame In-N-Out"技术,使物体可以自然地离开画面或新物体能够进入画面。研究团队创建了专门的数据集和评估方法,并设计了一种融合运动控制、身份参考和无边界画布的扩散变换器架构。实验结果表明,该方法在生成质量和控制精度上显著优于现有技术,为电影制作和创意内容创作提供了新可能。
浙江大学研究团队开发了首个评估视觉语言模型多视角空间定位能力的综合基准ViewSpatial-Bench,并揭示了现有模型在视角转换理解上的严重缺陷。通过自动化3D标注流水线构建的大规模数据集,他们训练出的多视角空间模型(MVSM)实现了46.24%的性能提升,为人机空间交互提供了新的解决方案,使AI系统能更好地理解人类视角下的空间关系,促进更直观的人机交流。
ByteDance团队提出的DetailFlow是一种创新的图像生成方法,通过"下一细节预测"策略实现从粗到细的自回归生成。它将图像编码为仅需128个令牌的1D序列,比传统方法少5倍,却实现了更高质量(2.96 gFID)和更快速度(提速约8倍)。该方法巧妙地模拟人类创作过程:先勾勒整体结构,再逐步添加细节,并通过自我纠错机制解决并行推理中的错误累积问题,为高分辨率图像生成提供了高效解决方案。