一、哪些Agent能活下来?
Karpathy 宣称:“未来十年是 Agent 的时代。”
这一论断虽有 VC 式的豪言壮语,语句流畅,富有远见,还带着几分规划感。
我却深以为然。
如今 token 价格持续走低,MCP 生态日益丰富,用户对较长时间的 AI 处理也愈发包容。
过去半年,Agent 产品从概念演示快速迈向 B/C 端应用,如 Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及开源的超级麦吉。
邀请码被炒至数千元,甚至内测阶段已有企业询问私有化部署的可能性。
但在使用中,不禁让人思索,面对众多 Agent,究竟什么样的产品能在市场洗牌后屹立不倒?
产品价值 = 能力 × 信任 × 频率
- 能力:指你能为用户完成什么任务?是否能提供稳定、可交付的成果?
- 信任:用户是否愿意将任务交给你?过程是否可控、结果是否可解释?
- 频率:你是否能在用户需要的场景中,随时被便捷调用?
每个维度最高分是 3 分;分为 高中低与 0。
基础线是 8 分,超过 8 分属于好 Agent, 低于 8 分属于存疑产品。

公式融合了多位一线投资人的意见:
Reid Hoffman 曾表示,“未来每个人身边将有多个 AI 伙伴,组成一个协作的团队”,但关键在于:用户信任它、能管理它、能反复使用它。
a16z 建议创业者,Agent 的发展从辅助 Copilot 到独立 Agent,核心在于能否精准满足用户需求。
红杉资本用“Always-On Economy”描绘 Agent 的未来图景,但前提仍是:你是否具备交付能力、赢得信任,并融入用户日常操作的能力。

所以,Agent 产品不是谁跑得快、干得像人,就能活得下来。
而是谁在这三个维度上,每个都不能是零。
二、代表性 Agent
选了六款过去半年频频被提及、且在B端和C端均有实际用户使用的Agent产品:
Manus、扣子空间、Lovart、Flowith Neo、Skywork和超级麦吉。
对这些产品进行测评,基于以下公式,从三个维度分析它们的核心特点:
- 能力:它具体能为你完成哪些任务?
- 信任:生成结果的质量是否能一次达标?
- 频率:它能否高频满足你的使用需求?
评分基于个人主观感受,欢迎在评论区分享不同观点。
Manus:爆得快,掉得也很快
一句话描述任务,它就能自动拆解、规划、执行,再拼出一个完整的结果页面,甚至会自动写总结。
那一瞬间我确实动心了:这是不是已经比 Copilot 更像 Agent了!
但真正用下去之后,我看到…
- 它只能在独立网页上跑流程,入口重,没法嵌进任何我日常工作的地方;
- 流程跑一半经常上下文断掉,中间卡住一环,等好久回头就挂了;
- 它能做事,但我说不上它做得是不是我真正想要的:我给命题,他还结果。
然后…这个结果,是不是你心里那个目标?难说。
后来它限流,我就再没点开了。
它确实给了“能用”的场景,但没留下“好用”的理由。
Manus 的问题不在于交互多么牛逼,而在于我用了一次,我没有信心开第二次。
用「能力 × 信任 × 频率」的评估公式,来看看它:
- 能力一般,成功率基本上在 20% 以下,给 1 分;
- 信任也有暴露,中间步骤、引用内容都可查,给 2 分;
- 但 Manus 很难融到用户的工作环境中,满血版不支持国内网络环境,给 1 分。
最终分数是:2 分,基本上归类到玩具一类。
但是但是!
Manus 的意义,还是得单独拿出来说。

它让很多用户第一次意识到,甚至是AI 产品从业者意识到:Agent 不是更聪明的对话,而是更完整的动作链。
你可以说它只是缝合怪、demo 感太重,
但它确实让我们看见了一个新的范式。
Agent 不再是 Chat bot,而是:你说一个任务,它替你走完全流程。
就像硅谷 101 那篇文章标题写的:
Manus 不够好,但天快亮了。
扣子空间:路线对,链路完整,但还在找用户留存的理由
那时候我的判断是,它的意义不在“用起来多聪明”,而在于:
它是我第一次看到有 Agent 系统,能真的把「MCP 调用、任务编排、结果交付」稳定地跑完。
因为这件事不是谁想做就能做,MCP 接入只是门槛,更大的难题在于:
- 有没有牛逼的调度系统帮助跑完;
- 有没有工程化机制能兜住各种异常;
- 有没有敢做全链的基础架构。
它做得不完美,体验还不够顺滑,但它的路径清晰,方向可信。
但拉回现在这套「能力 × 信任 × 频率」的评估公式,再来看看它:
- 能力没问题,链路完整、MCP 体系化使用,给 3 分;
- 信任也有暴露,中间步骤、引用内容都可查,给 2 分;
- 频率稍弱,它更多是被挂在扣子空间的页面里,需要用户收藏页面,给 2 分。
- 如果哪天扣子空间合并到了飞书中… 那就是 3 分。

最终 12 分,属于后续更新了新版本,我会愿意积极尝试的程度。
我甚至觉得,如果今年内会出现一款杀手级 All In One 的 Agent 应用,
扣子空间的胜率很大。
因为…豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力;
天时地利人和几乎占尽…
如果扣子空间的运营看到,请给我打钱谢谢…
而且,在架构上,扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。
虽然迭代路径清晰,架构完整,但它要留下来,可能还得回答一个问题:
由于扣子空间是通用 Agent,那么…
在哪个任务场景里,用户能第一时间想起你?
至少现在,我还没建立起这个直觉。
Lovart:直接给你交稿
Lovart 是为数不多,我真正当做生产力工具的 Agent。
也是我真的用钱投票的产品。
因为它实实在在做到直接交稿的事情:
- 我提需求,它自己拆成任务;
- 中间怎么画、用什么风格、怎么配色、怎么分层,它全程自己决定;


这真·是生产力工具。
他带来的价值,是我不具备的 “关于设计的 Know How”。
我不需要再思考 prompt 写得够不够好,反正我没有它好,我只要习惯只表达目标。
如果用「能力 × 信任 × 频率」这个公式来看:
- 能力,几乎是“以交付为核心的整合型能力”,不是拼拼图而是真能做成事,我给 3 分;
- 信任,在于你知道它交得出来,哪怕你点“生成”前会犹豫,但点完后大概率会满意,同样给 3 分;
- 频率,目前还是偏工具型,入口依赖用户主动保存并打开,我给 2 分。
总分 18 分,属于优秀 Agent。
我很喜欢 Lovart,它几乎能满足我的大部分设计场景,我只需要发起多次任务,然后收割结果。
很多人说它是个缝合怪,但我觉得它是缝合得特别好的缝合怪。
Flowith Neo:交互非常独特的 Agent
在没出 Agent 的时候,我就很喜欢这样的交互了。
我和 Chat bot 对话的过程中,会基于某个节点进行新提问, Flowith 将这部分具象化了。
Neo 发布之后,我觉得是真的遵循好 Planning 、Action 范式的 Agent。
比如,我让他分析股票

它没有二次确认,上手自己开始拆:
- 筛选股票、抓市场新闻、汇总分析;
- 一步步走工作流、结构化生成、分模块输出。
页面上每个流程节点都能看到内容,生成速度很不错,最后结果汇总成报告。
很大程度上缓解了我对AI 掌控的焦虑。
但仔细拆了之后,我发现它有两个关键能力特别牛逼:
- 一个是并发。不是并行调几次这种Level,而是它可以在一个任务里同时起N个执行链,互不冲突、稳定输出;
- 另一个是并发之后的串联机制。并发带来的超长上下文,要怎么不超 模型 Token 上限?
这个是很令人头痛的工程化瓶颈,而 Neo 在这一步做得很好,能把并发节点自动组织、排序、压缩甚至推给下一步模型继续用。
它能把推理结构具象化,这是一种很酷的 AI 设计,我很喜欢。
不过,我不能代表所有用户,这个酷酷的交互,对大部分基础用户来说…
很多用户并不需要一个画布,他们只要一个开始,一个结束。
因为画布的交互,不是所有普通用户都能玩明白,自由的画布反而会让人无所适从。
所以如果你真有任务需要 Agent 跑流程,那它值得一试。
但如果你想找一个每天都能给你干活的搭子,它可能还不够顺手。
如果用「能力 × 信任 × 频率」来拆:
- 能力没得说,它能拆能跑、执行链完整、支持高并发,后处理能力也在线,给 3 分;
- 信任也可以,流程透明、失败可查、输出有状态,给 3 分;
- 频率偏低,太开放的命题让我不知道他能做哪些,给 1 分。
总分 9 分;我对它的评价可能更多是一个玩具。

Skywork:Manus Pro Ultra,办公界的 Lovart
Skywork 是我目前看到“办公场景最强 Agent”的产品。
虽然它长得像 Manus,但我得说一句公道话:
它比 Manus 强太多了。
其实很多 Agent 产品的基本形态都像 Manus,可见:Manus 还是走得挺超前。
但 Skywork 不是简单的模板,它是把 Manus 产品框架理解、吃透,
再结合用户的真实需求,重新做了一遍。
在用户交互、任务结构、执行逻辑这几件事上,彻底补上了“能用”与“好用”之间的Gap。
我测试它的时候,是让它分析「金山办公股票值不值得买」,给我做个 PPT。
一句话输入之后,它并不会立刻开跑,而是先确认任务范围:
-
明确分析维度(财务、行业、风险、时间跨度);
-
分模块列出任务计划:公司概况、主营业务、行业对比、竞争格局、投资建议;
-
接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面,自动抓数;
-
最后通过 HTML 生成一组完整的页面,然后再把 HTML 转成完整的 PPT。
-
更离谱的是,它加了溯源功能!


没有废话、不炫技,没有找点资料糊弄我一脸,老老实实查数据、跑引用、出图表、做 PPT。
虽然中间因为访问来源太多,被反爬挂了一两个链接,但对最终结果几乎没影响。
我觉得,这也是 Skywork 的真正价值所在:
它不是 ChatBot,不是 CoPilot,也不是 Flowith 那种玩流程自由的系统。
它就是这是一个班味很重的牛马 Agent,知道我要啥的 Agent。
如果说 Lovart 是最懂设计的 AI ,那 Skywork 就是最懂写 PPT 的 AI。
接下来, 我想说:它强调的不是充满个性,而是稳定 & 可信。
因为:
- PPT 是有架构的;
- 推荐理由是清楚的,甚至每段带引用;
- 执行链是可查的,数据来源可回溯;
- 输出文件是能直接用的,而不是那种表演型的 Agent。
这也是我用完它之后,特别认同红杉资本那句判断:
“你最好给客户一个端到端的解决方案,而不是把工具怼到他脸上。”
Skywork 给的就是一个完整、能交、能解释、能改的结果。
如果按「能力 × 信任 × 频率」来拆:
- 能力不在多,而在准。它知道你要一份什么样的稿子,也知道怎么分步骤完成它,我给 3 分;
- 信任值很高,每一段都有出处、有结构、不跑题、能兜底,我给 3 分;
- 频率不算日常,但凡你要做个材料,天工肯定是我首选的外包对象,我给 2 分。
天工在我心里是 18 分,很优秀。
超级麦吉:融入到 OA 里的 Agent
麦吉是我特地加入的一个 Agent。
它代表着另一类我们平时看不到的,真正跑在 B 端系统里的 Agent。
如果你是创业团队,需要协作软件,推荐你试试麦吉,它很接近我理想中 AI 驱动产品的形态。

甚至… 它也有深度研究 & 生成 HTML 或者 PPTX。
它的界面和天工很像,只不过它开源得更早。

开源的结果,就是:如果一些闭源产品的产品力赶不上他,那闭源产品对于小团队而言的吸引力会降低。
不同于 Flowith、Lovart 那样强调 AIGC ,麦吉关注的是:
OA 里那些没人愿意干、但又天天得人干的事情,谁来替你干?
比如:
- 发票识别、校验、归档;我每次都在Q快结束的时候,匆匆报销…
- 审批流程的权限路径判断,不需要你手动添加审批人;
- 企业内报表的匹配、统计、还有解读以及可视化;
- 供应链表单的结构化填写、字段关联与表单转化…
所以,麦吉产品和AIGC Agent 不一样在于,
Agent 不是一定要交付内容才能成立,有时候它是替你跑流程的 Agent。
所以如果按「能力 × 信任 × 频率」来拆:
- 能力是流程执行能力,而不是 基模的 AIGC 能力, 产品团队做好了转换,我给 3 分;
- 信任必须是系统级的,它必须极度可靠、权限明确,否则是公司级的弃用,我给 2 分;
- 频率极高,只要公司流程在,麦吉就要在,不需要员工主动点开;这种在 OA 环境里,妥妥的 3 分。
同样的 18 分。
通用模型在变,基模越来越强,现在已经能深度思考、调MCP、结构化输出、甚至还是多模态N 合一。
那如果再往前走一步,是不是这些专才 Agent 做的事,也很快能被通用模型升级之后顺手一锅端?