ComfyUI是一家帮助创作者通过基于节点的工作流程,精细控制扩散模型图像、视频及音频输出的初创公司,近日完成了一轮3000万美元的融资,估值达到5亿美元。
本轮融资由Craft Ventures领投,Pace Capital、Chemistry和TruArrow等投资机构跟投。
ComfyUI于2023年作为开源项目启动,彼时扩散模型刚刚兴起。那个阶段,Midjourney和OpenAI的DALL-E等模型功能尚不完善,经常出现明显错误,例如在手部图像中生成多余的手指。
为解决上述局限性,项目创始人开发了一套模块化框架,让创作者能够对生成流程中的每个环节实施精细控制。
这款工具在创意专业人士中迅速获得广泛认可,最终发展成为一家正式运营的初创公司。2024年底,ComfyUI完成了由Chemistry Ventures、Cursor Capital以及Vercel创始人Guillermo Rauch参与的1900万美元A轮融资。
尽管最新的扩散模型已经大幅进步,不再频繁出现手指数量错误等问题,但市场对ComfyUI所提供的精细控制能力的需求却与日俱增。
ComfyUI联合创始人兼CEO严友兰在接受TechCrunch采访时表示:"如果你使用Midjourney或ChatGPT这类典型的提示词驱动工具,输入需求后,结果往往只能达到预期的60%至80%。而要改变剩余的20%,你只能不停地碰运气。"
严友兰将这一过程比作在赌场里玩老虎机——因为对模型稍加提示以进行微小调整,可能导致输出结果完全不同,甚至覆盖掉原本已经完美的部分。
ComfyUI的节点式界面允许创作者将生成流程中的特定组件相互关联,从而完全掌控最终输出的质量。
"在基础模型的提示词输入框里,你无法轻易传达这种细致的意图。"严友兰说道。
创作者们的选择印证了这一点——ComfyUI目前声称已拥有超过400万用户。
该工具已被创意专业人士广泛应用于视觉特效、动画制作、广告营销乃至工业设计等领域。
这家初创公司表示,其产品已成为技术艺术家和其他创意从业者不可或缺的专业工具,在各大工作室的招聘启事中,"ComfyUI艺术家或工程师"作为职位名称出现已不鲜见。
尽管视频和图像基础模型仍在持续进化,严友兰认为它们距离完美仍有相当差距,像ComfyUI这样的工具将持续保持强劲需求。
"在AI滥制内容泛滥的时代,ComfyUI所倡导的'人在回路'方式,最终将赢得绝大多数用户的青睐。"他说。
ComfyUI的竞争对手包括Weavy——一家去年被Figma收购的初创公司。
Q&A
Q1:ComfyUI是什么?它主要用来做什么?
A:ComfyUI是一款基于节点工作流的创意生成工具,帮助创作者对扩散模型的图像、视频和音频输出进行精细化控制。与Midjourney、ChatGPT等提示词驱动工具不同,ComfyUI允许用户将生成流程中的各个环节模块化连接,从而对最终输出实现全面掌控,广泛应用于视觉特效、动画、广告和工业设计等领域。
Q2:ComfyUI相比Midjourney等工具有什么优势?
A:传统提示词工具(如Midjourney或ChatGPT)生成的结果往往只能达到用户预期的60%至80%,若要调整剩余部分,只能反复尝试,存在极大不确定性。而ComfyUI的节点式界面让创作者可以精准控制生成流程的每个环节,避免因小幅调整导致整体输出面目全非,极大提升了创作的可控性和稳定性。
Q3:ComfyUI目前的用户规模和融资情况如何?
A:ComfyUI目前拥有超过400万用户,并于近期完成3000万美元新一轮融资,估值达5亿美元,由Craft Ventures领投。此前在2024年底,该公司已完成1900万美元的A轮融资。其用户群体以技术艺术家和创意专业人士为主,"ComfyUI艺术家或工程师"已成为部分工作室的正式招聘职位。
好文章,需要你的鼓励
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
作者对Chrome、Edge和Firefox三款主流浏览器的内置AI功能进行了实测对比。Chrome依托Gemini提供搜索摘要与提示词保存功能;Edge集成Copilot,可针对网页、PDF及多标签页进行问答;Firefox则支持多款AI聊天机器人,并提供更强的隐私保护。综合体验后,作者最终选择Edge作为AI辅助浏览的首选,但仍以Firefox作为默认浏览器。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。