【测评】主流Agent这么多，真好用的没几个

技术交流 · 2025-6-12 11:20:06

一、哪些Agent能活下来？

Karpathy 宣称：“未来十年是 Agent 的时代。”
这一论断虽有 VC 式的豪言壮语，语句流畅，富有远见，还带着几分规划感。
我却深以为然。

如今 token 价格持续走低，MCP 生态日益丰富，用户对较长时间的 AI 处理也愈发包容。
过去半年，Agent 产品从概念演示快速迈向 B/C 端应用，如 Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及开源的超级麦吉。
邀请码被炒至数千元，甚至内测阶段已有企业询问私有化部署的可能性。

但在使用中，不禁让人思索，面对众多 Agent，究竟什么样的产品能在市场洗牌后屹立不倒？

产品价值 = 能力 × 信任 × 频率

能力：指你能为用户完成什么任务？是否能提供稳定、可交付的成果？

信任：用户是否愿意将任务交给你？过程是否可控、结果是否可解释？

频率：你是否能在用户需要的场景中，随时被便捷调用？

每个维度最高分是 3 分；分为高中低与 0。

基础线是 8 分，超过 8 分属于好 Agent，低于 8 分属于存疑产品。

公式融合了多位一线投资人的意见：

Reid Hoffman 曾表示，“未来每个人身边将有多个 AI 伙伴，组成一个协作的团队”，但关键在于：用户信任它、能管理它、能反复使用它。
a16z 建议创业者，Agent 的发展从辅助 Copilot 到独立 Agent，核心在于能否精准满足用户需求。
红杉资本用“Always-On Economy”描绘 Agent 的未来图景，但前提仍是：你是否具备交付能力、赢得信任，并融入用户日常操作的能力。

所以，Agent 产品不是谁跑得快、干得像人，就能活得下来。

而是谁在这三个维度上，每个都不能是零。

二、代表性 Agent

选了六款过去半年频频被提及、且在B端和C端均有实际用户使用的Agent产品：

Manus、扣子空间、Lovart、Flowith Neo、Skywork和超级麦吉。

对这些产品进行测评，基于以下公式，从三个维度分析它们的核心特点：

能力：它具体能为你完成哪些任务？
信任：生成结果的质量是否能一次达标？
频率：它能否高频满足你的使用需求？
评分基于个人主观感受，欢迎在评论区分享不同观点。

Manus：爆得快，掉得也很快

一句话描述任务，它就能自动拆解、规划、执行，再拼出一个完整的结果页面，甚至会自动写总结。

那一瞬间我确实动心了：这是不是已经比 Copilot 更像 Agent了！

但真正用下去之后，我看到…

它只能在独立网页上跑流程，入口重，没法嵌进任何我日常工作的地方；
流程跑一半经常上下文断掉，中间卡住一环，等好久回头就挂了；
它能做事，但我说不上它做得是不是我真正想要的：我给命题，他还结果。

然后…这个结果，是不是你心里那个目标？难说。

后来它限流，我就再没点开了。

它确实给了“能用”的场景，但没留下“好用”的理由。

Manus 的问题不在于交互多么牛逼，而在于我用了一次，我没有信心开第二次。

用「能力 × 信任 × 频率」的评估公式，来看看它：

能力一般，成功率基本上在 20% 以下，给 1 分；
信任也有暴露，中间步骤、引用内容都可查，给 2 分；
但 Manus 很难融到用户的工作环境中，满血版不支持国内网络环境，给 1 分。

最终分数是：2 分，基本上归类到玩具一类。

但是但是！

Manus 的意义，还是得单独拿出来说。

它让很多用户第一次意识到，甚至是AI 产品从业者意识到：Agent 不是更聪明的对话，而是更完整的动作链。

你可以说它只是缝合怪、demo 感太重，

但它确实让我们看见了一个新的范式。

Agent 不再是 Chat bot，而是：你说一个任务，它替你走完全流程。

就像硅谷 101 那篇文章标题写的：

Manus 不够好，但天快亮了。

扣子空间：路线对，链路完整，但还在找用户留存的理由

那时候我的判断是，它的意义不在“用起来多聪明”，而在于：

它是我第一次看到有 Agent 系统，能真的把「MCP 调用、任务编排、结果交付」稳定地跑完。

因为这件事不是谁想做就能做，MCP 接入只是门槛，更大的难题在于：

有没有牛逼的调度系统帮助跑完；
有没有工程化机制能兜住各种异常；
有没有敢做全链的基础架构。

它做得不完美，体验还不够顺滑，但它的路径清晰，方向可信。

但拉回现在这套「能力 × 信任 × 频率」的评估公式，再来看看它：

能力没问题，链路完整、MCP 体系化使用，给 3 分；
信任也有暴露，中间步骤、引用内容都可查，给 2 分；
频率稍弱，它更多是被挂在扣子空间的页面里，需要用户收藏页面，给 2 分。
- 如果哪天扣子空间合并到了飞书中… 那就是 3 分。

最终 12 分，属于后续更新了新版本，我会愿意积极尝试的程度。

我甚至觉得，如果今年内会出现一款杀手级 All In One 的 Agent 应用，

扣子空间的胜率很大。

因为…豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力；

天时地利人和几乎占尽…

如果扣子空间的运营看到，请给我打钱谢谢…

而且，在架构上，扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。

虽然迭代路径清晰，架构完整，但它要留下来，可能还得回答一个问题：

由于扣子空间是通用 Agent，那么…

在哪个任务场景里，用户能第一时间想起你？
至少现在，我还没建立起这个直觉。

Lovart：直接给你交稿

Lovart 是为数不多，我真正当做生产力工具的 Agent。

也是我真的用钱投票的产品。

因为它实实在在做到直接交稿的事情：

我提需求，它自己拆成任务；
中间怎么画、用什么风格、怎么配色、怎么分层，它全程自己决定；

这真·是生产力工具。

他带来的价值，是我不具备的 “关于设计的 Know How”。

我不需要再思考 prompt 写得够不够好，反正我没有它好，我只要习惯只表达目标。

如果用「能力 × 信任 × 频率」这个公式来看：

能力，几乎是“以交付为核心的整合型能力”，不是拼拼图而是真能做成事，我给 3 分；
信任，在于你知道它交得出来，哪怕你点“生成”前会犹豫，但点完后大概率会满意，同样给 3 分；
频率，目前还是偏工具型，入口依赖用户主动保存并打开，我给 2 分。

总分 18 分，属于优秀 Agent。

我很喜欢 Lovart，它几乎能满足我的大部分设计场景，我只需要发起多次任务，然后收割结果。

很多人说它是个缝合怪，但我觉得它是缝合得特别好的缝合怪。

Flowith Neo：交互非常独特的 Agent

在没出 Agent 的时候，我就很喜欢这样的交互了。

我和 Chat bot 对话的过程中，会基于某个节点进行新提问， Flowith 将这部分具象化了。

Neo 发布之后，我觉得是真的遵循好 Planning 、Action 范式的 Agent。

比如，我让他分析股票

它没有二次确认，上手自己开始拆：

筛选股票、抓市场新闻、汇总分析；
一步步走工作流、结构化生成、分模块输出。

页面上每个流程节点都能看到内容，生成速度很不错，最后结果汇总成报告。

很大程度上缓解了我对AI 掌控的焦虑。

但仔细拆了之后，我发现它有两个关键能力特别牛逼：

一个是并发。不是并行调几次这种Level，而是它可以在一个任务里同时起N个执行链，互不冲突、稳定输出；
另一个是并发之后的串联机制。并发带来的超长上下文，要怎么不超模型 Token 上限？

这个是很令人头痛的工程化瓶颈，而 Neo 在这一步做得很好，能把并发节点自动组织、排序、压缩甚至推给下一步模型继续用。

它能把推理结构具象化，这是一种很酷的 AI 设计，我很喜欢。

不过，我不能代表所有用户，这个酷酷的交互，对大部分基础用户来说…

很多用户并不需要一个画布，他们只要一个开始，一个结束。
因为画布的交互，不是所有普通用户都能玩明白，自由的画布反而会让人无所适从。

所以如果你真有任务需要 Agent 跑流程，那它值得一试。

但如果你想找一个每天都能给你干活的搭子，它可能还不够顺手。

如果用「能力 × 信任 × 频率」来拆：

能力没得说，它能拆能跑、执行链完整、支持高并发，后处理能力也在线，给 3 分；
信任也可以，流程透明、失败可查、输出有状态，给 3 分；
频率偏低，太开放的命题让我不知道他能做哪些，给 1 分。

总分 9 分；我对它的评价可能更多是一个玩具。

Skywork：Manus Pro Ultra，办公界的 Lovart

Skywork 是我目前看到“办公场景最强 Agent”的产品。

虽然它长得像 Manus，但我得说一句公道话：

它比 Manus 强太多了。

其实很多 Agent 产品的基本形态都像 Manus，可见：Manus 还是走得挺超前。

但 Skywork 不是简单的模板，它是把 Manus 产品框架理解、吃透，

再结合用户的真实需求，重新做了一遍。

在用户交互、任务结构、执行逻辑这几件事上，彻底补上了“能用”与“好用”之间的Gap。

我测试它的时候，是让它分析「金山办公股票值不值得买」，给我做个 PPT。

一句话输入之后，它并不会立刻开跑，而是先确认任务范围：

明确分析维度（财务、行业、风险、时间跨度）；
分模块列出任务计划：公司概况、主营业务、行业对比、竞争格局、投资建议；
接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面，自动抓数；
最后通过 HTML 生成一组完整的页面，然后再把 HTML 转成完整的 PPT。
更离谱的是，它加了溯源功能！

没有废话、不炫技，没有找点资料糊弄我一脸，老老实实查数据、跑引用、出图表、做 PPT。

虽然中间因为访问来源太多，被反爬挂了一两个链接，但对最终结果几乎没影响。

我觉得，这也是 Skywork 的真正价值所在：

它不是 ChatBot，不是 CoPilot，也不是 Flowith 那种玩流程自由的系统。
它就是这是一个班味很重的牛马 Agent，知道我要啥的 Agent。

如果说 Lovart 是最懂设计的 AI ，那 Skywork 就是最懂写 PPT 的 AI。

接下来，我想说：它强调的不是充满个性，而是稳定 & 可信。

因为：
- PPT 是有架构的；
- 推荐理由是清楚的，甚至每段带引用；
- 执行链是可查的，数据来源可回溯；
- 输出文件是能直接用的，而不是那种表演型的 Agent。
这也是我用完它之后，特别认同红杉资本那句判断：

“你最好给客户一个端到端的解决方案，而不是把工具怼到他脸上。”

Skywork 给的就是一个完整、能交、能解释、能改的结果。

如果按「能力 × 信任 × 频率」来拆：

能力不在多，而在准。它知道你要一份什么样的稿子，也知道怎么分步骤完成它，我给 3 分；
信任值很高，每一段都有出处、有结构、不跑题、能兜底，我给 3 分；
频率不算日常，但凡你要做个材料，天工肯定是我首选的外包对象，我给 2 分。

天工在我心里是 18 分，很优秀。

超级麦吉：融入到 OA 里的 Agent

麦吉是我特地加入的一个 Agent。

它代表着另一类我们平时看不到的，真正跑在 B 端系统里的 Agent。

如果你是创业团队，需要协作软件，推荐你试试麦吉，它很接近我理想中 AI 驱动产品的形态。

微信图片_2025-06-12_113122_203.png

甚至… 它也有深度研究 & 生成 HTML 或者 PPTX。

它的界面和天工很像，只不过它开源得更早。

开源的结果，就是：如果一些闭源产品的产品力赶不上他，那闭源产品对于小团队而言的吸引力会降低。

不同于 Flowith、Lovart 那样强调 AIGC ，麦吉关注的是：

OA 里那些没人愿意干、但又天天得人干的事情，谁来替你干？

比如：

发票识别、校验、归档；我每次都在Q快结束的时候，匆匆报销…
审批流程的权限路径判断，不需要你手动添加审批人；
企业内报表的匹配、统计、还有解读以及可视化；
供应链表单的结构化填写、字段关联与表单转化…

所以，麦吉产品和AIGC Agent 不一样在于，

Agent 不是一定要交付内容才能成立，有时候它是替你跑流程的 Agent。

所以如果按「能力 × 信任 × 频率」来拆：

能力是流程执行能力，而不是基模的 AIGC 能力，产品团队做好了转换，我给 3 分；
信任必须是系统级的，它必须极度可靠、权限明确，否则是公司级的弃用，我给 2 分；
频率极高，只要公司流程在，麦吉就要在，不需要员工主动点开；这种在 OA 环境里，妥妥的 3 分。

同样的 18 分。

通用模型在变，基模越来越强，现在已经能深度思考、调MCP、结构化输出、甚至还是多模态N 合一。

那如果再往前走一步，是不是这些专才 Agent 做的事，也很快能被通用模型升级之后顺手一锅端？

奥利给 · 2025-6-12 19:42:10

我还是喜欢manus，对新人小白十分友好，一句话，只要表达清楚，就能生成你想要的结果。

dxl0812 · 2025-7-9 13:30:03

Agent竞争好激烈

		自动登录	找回密码
密码			立即注册

【测评】主流Agent这么多，真好用的没几个

一、哪些Agent能活下来？

二、代表性 Agent

Manus：爆得快，掉得也很快

扣子空间：路线对，链路完整，但还在找用户留存的理由

Lovart：直接给你交稿

Flowith Neo：交互非常独特的 Agent

Skywork：Manus Pro Ultra，办公界的 Lovart

超级麦吉：融入到 OA 里的 Agent

2 回复

元老级人物

第一篇帖

渐入佳境

CV工程师

缝合怪