【测评】主流Agent这么多，真好用的没几个_技术交流_BigSeek AI社区

g18553988q 发表于 2025-6-12 11:20:06

【测评】主流Agent这么多，真好用的没几个

<h3>一、哪些Agent能活下来？</h3>
Karpathy 宣称：“未来十年是 Agent 的时代。” 
这一论断虽有 VC 式的豪言壮语，语句流畅，富有远见，还带着几分规划感。 
我却深以为然。
如今 token 价格持续走低，MCP 生态日益丰富，用户对较长时间的 AI 处理也愈发包容。 
过去半年，Agent 产品从概念演示快速迈向 B/C 端应用，如 Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及开源的超级麦吉。 
邀请码被炒至数千元，甚至内测阶段已有企业询问私有化部署的可能性。
但在使用中，不禁让人思索，面对众多 Agent，究竟什么样的产品能在市场洗牌后屹立不倒？
<blockquote>
产品价值 = 能力 × 信任 × 频率
<ul>
<li>能力：指你能为用户完成什么任务？是否能提供稳定、可交付的成果？</li>
<li>信任：用户是否愿意将任务交给你？过程是否可控、结果是否可解释？</li>
<li>频率：你是否能在用户需要的场景中，随时被便捷调用？</li>
</ul>
</blockquote>
每个维度最高分是 3 分；分为高中低与 0。
基础线是 8 分，超过 8 分属于好 Agent，低于 8 分属于存疑产品。 
<img src="https://images.bigseek.com//forum/202506/12/110054eiljii5m5i8ijiwr.png" alt="4979444a8dcabe42f5ced58ab418302d.png" title="4979444a8dcabe42f5ced58ab418302d.png" />
公式融合了多位一线投资人的意见：
Reid Hoffman 曾表示，“未来每个人身边将有多个 AI 伙伴，组成一个协作的团队”，但关键在于：用户信任它、能管理它、能反复使用它。 
a16z 建议创业者，Agent 的发展从辅助 Copilot 到独立 Agent，核心在于能否精准满足用户需求。 
红杉资本用“Always-On Economy”描绘 Agent 的未来图景，但前提仍是：你是否具备交付能力、赢得信任，并融入用户日常操作的能力。
<img src="https://images.bigseek.com//forum/202506/12/110240at1111930n91n1xl.png" alt="1eddb94d68177e380584075f8aac7450.png" title="1eddb94d68177e380584075f8aac7450.png" />
所以，Agent 产品不是谁跑得快、干得像人，就能活得下来。
而是谁在这三个维度上，每个都不能是零。
<h2>二、代表性 Agent</h2>
选了六款过去半年频频被提及、且在B端和C端均有实际用户使用的Agent产品：
<blockquote>
Manus、扣子空间、Lovart、Flowith Neo、Skywork和超级麦吉。
</blockquote>
对这些产品进行测评，基于以下公式，从三个维度分析它们的核心特点：
<ol>
<li>能力：它具体能为你完成哪些任务？</li>
<li>信任：生成结果的质量是否能一次达标？</li>
<li>频率：它能否高频满足你的使用需求？ 
<code>评分基于个人主观感受，欢迎在评论区分享不同观点。</code></li>
</ol>
<h3>Manus：爆得快，掉得也很快</h3>
一句话描述任务，它就能自动拆解、规划、执行，再拼出一个完整的结果页面，甚至会自动写总结。
那一瞬间我确实动心了：这是不是已经比 Copilot 更像 Agent了！
但真正用下去之后，我看到…
<ul>
<li>它只能在独立网页上跑流程，入口重，没法嵌进任何我日常工作的地方；</li>
<li>流程跑一半经常上下文断掉，中间卡住一环，等好久回头就挂了；</li>
<li>它能做事，但我说不上它做得是不是我真正想要的：我给命题，他还结果。</li>
</ul>
然后…这个结果，是不是你心里那个目标？难说。
后来它限流，我就再没点开了。
它确实给了“能用”的场景，但没留下“好用”的理由。
Manus 的问题不在于交互多么牛逼，而在于我用了一次，我没有信心开第二次。
用「能力 × 信任 × 频率」的评估公式，来看看它：
<ul>
<li>能力一般，成功率基本上在 20% 以下，给 1 分；</li>
<li>信任也有暴露，中间步骤、引用内容都可查，给 2 分；</li>
<li>但 Manus 很难融到用户的工作环境中，满血版不支持国内网络环境，给 1 分。</li>
</ul>
最终分数是：2 分，基本上归类到玩具一类。
但是但是！
Manus 的意义，还是得单独拿出来说。
<img src="https://images.bigseek.com//forum/202506/12/110820pl7u95am98z99zzl.png" alt="image.png" title="image.png" />
它让很多用户第一次意识到，甚至是AI 产品从业者意识到：Agent 不是更聪明的对话，而是更完整的动作链。
你可以说它只是缝合怪、demo 感太重，
但它确实让我们看见了一个新的范式。
Agent 不再是 Chat bot，而是：你说一个任务，它替你走完全流程。
就像硅谷 101 那篇文章标题写的：
Manus 不够好，但天快亮了。
<hr />
<h3>扣子空间：路线对，链路完整，但还在找用户留存的理由</h3>
那时候我的判断是，它的意义不在“用起来多聪明”，而在于：
它是我第一次看到有 Agent 系统，能真的把「MCP 调用、任务编排、结果交付」稳定地跑完。
因为这件事不是谁想做就能做，MCP 接入只是门槛，更大的难题在于：
<ul>
<li>有没有牛逼的调度系统帮助跑完；</li>
<li>有没有工程化机制能兜住各种异常；</li>
<li>有没有敢做全链的基础架构。</li>
</ul>
它做得不完美，体验还不够顺滑，但它的路径清晰，方向可信。
但拉回现在这套「能力 × 信任 × 频率」的评估公式，再来看看它：
<ul>
<li>能力没问题，链路完整、MCP 体系化使用，给 3 分；</li>
<li>信任也有暴露，中间步骤、引用内容都可查，给 2 分；</li>
<li>频率稍弱，它更多是被挂在扣子空间的页面里，需要用户收藏页面，给 2 分。
<ul>
<li>如果哪天扣子空间合并到了飞书中… 那就是 3 分。</li>
</ul>
</li>
</ul>
<img src="https://images.bigseek.com//forum/202506/12/111058qsps6tdex424sstp.jpg" alt="e3bbd30da873067bb3ba6b5d04bf2590.jpg" title="e3bbd30da873067bb3ba6b5d04bf2590.jpg" />
最终 12 分，属于后续更新了新版本，我会愿意积极尝试的程度。
我甚至觉得，如果今年内会出现一款杀手级 All In One 的 Agent 应用，
扣子空间的胜率很大。
因为…豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力；
天时地利人和几乎占尽…
如果扣子空间的运营看到，请给我打钱谢谢…
而且，在架构上，扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。
虽然迭代路径清晰，架构完整，但它要留下来，可能还得回答一个问题：
由于扣子空间是通用 Agent，那么…
在哪个任务场景里，用户能第一时间想起你？ 
至少现在，我还没建立起这个直觉。
<hr />
<h3>Lovart：直接给你交稿</h3>
Lovart 是为数不多，我真正当做生产力工具的 Agent。
也是我真的用钱投票的产品。
因为它实实在在做到直接交稿的事情：
<ul>
<li>我提需求，它自己拆成任务；</li>
<li>中间怎么画、用什么风格、怎么配色、怎么分层，它全程自己决定；</li>
</ul>
<img src="https://images.bigseek.com//forum/202506/12/111254k6wflwj1ljel1j8w.png" alt="5cd32991571f11c8f06d93498f9c8240.png" title="5cd32991571f11c8f06d93498f9c8240.png" />
<img src="https://images.bigseek.com//forum/202506/12/111258r89xeyepgc544cyb.png" alt="07e759f5fcc507503bdf6d0a190eeeb4.png" title="07e759f5fcc507503bdf6d0a190eeeb4.png" />
这真·是生产力工具。
他带来的价值，是我不具备的 “关于设计的 Know How”。
<blockquote>
我不需要再思考 prompt 写得够不够好，反正我没有它好，我只要习惯只表达目标。
</blockquote>
如果用「能力 × 信任 × 频率」这个公式来看：
<ul>
<li>能力，几乎是“以交付为核心的整合型能力”，不是拼拼图而是真能做成事，我给 3 分；</li>
<li>信任，在于你知道它交得出来，哪怕你点“生成”前会犹豫，但点完后大概率会满意，同样给 3 分；</li>
<li>频率，目前还是偏工具型，入口依赖用户主动保存并打开，我给 2 分。</li>
</ul>
总分 18 分，属于优秀 Agent。
我很喜欢 Lovart，它几乎能满足我的大部分设计场景，我只需要发起多次任务，然后收割结果。
很多人说它是个缝合怪，但我觉得它是缝合得特别好的缝合怪。
<hr />
<h3>Flowith Neo：交互非常独特的 Agent</h3>
在没出 Agent 的时候，我就很喜欢这样的交互了。
我和 Chat bot 对话的过程中，会基于某个节点进行新提问， Flowith 将这部分具象化了。
Neo 发布之后，我觉得是真的遵循好 Planning 、Action 范式的 Agent。
比如，我让他分析股票 
<img src="https://images.bigseek.com//forum/202506/12/111407piuagcmcag1a6mlg.png" alt="84777a7410df552a0328a5ec3154e3e6.png" title="84777a7410df552a0328a5ec3154e3e6.png" />
它没有二次确认，上手自己开始拆：
<ul>
<li>筛选股票、抓市场新闻、汇总分析；</li>
<li>一步步走工作流、结构化生成、分模块输出。</li>
</ul>
页面上每个流程节点都能看到内容，生成速度很不错，最后结果汇总成报告。
很大程度上缓解了我对AI 掌控的焦虑。
但仔细拆了之后，我发现它有两个关键能力特别牛逼：
<ul>
<li>一个是并发。不是并行调几次这种Level，而是它可以在一个任务里同时起N个执行链，互不冲突、稳定输出；</li>
<li>另一个是并发之后的串联机制。并发带来的超长上下文，要怎么不超模型 Token 上限？</li>
</ul>
这个是很令人头痛的工程化瓶颈，而 Neo 在这一步做得很好，能把并发节点自动组织、排序、压缩甚至推给下一步模型继续用。
它能把推理结构具象化，这是一种很酷的 AI 设计，我很喜欢。
不过，我不能代表所有用户，这个酷酷的交互，对大部分基础用户来说…
<blockquote>
很多用户并不需要一个画布，他们只要一个开始，一个结束。 
因为画布的交互，不是所有普通用户都能玩明白，自由的画布反而会让人无所适从。
</blockquote>
所以如果你真有任务需要 Agent 跑流程，那它值得一试。
但如果你想找一个每天都能给你干活的搭子，它可能还不够顺手。
如果用「能力 × 信任 × 频率」来拆：
<ul>
<li>能力没得说，它能拆能跑、执行链完整、支持高并发，后处理能力也在线，给 3 分；</li>
<li>信任也可以，流程透明、失败可查、输出有状态，给 3 分；</li>
<li>频率偏低，太开放的命题让我不知道他能做哪些，给 1 分。</li>
</ul>
总分 9 分；我对它的评价可能更多是一个玩具。 
<img src="https://images.bigseek.com//forum/202506/12/111523ozyyakc9zyk3gbwk.png" alt="d14eb1d41197947f6a801974ae6cc07f.png" title="d14eb1d41197947f6a801974ae6cc07f.png" />
<hr />
<h3>Skywork：Manus Pro Ultra，办公界的 Lovart</h3>
Skywork 是我目前看到“办公场景最强 Agent”的产品。
虽然它长得像 Manus，但我得说一句公道话：
它比 Manus 强太多了。
其实很多 Agent 产品的基本形态都像 Manus，可见：Manus 还是走得挺超前。
但 Skywork 不是简单的模板，它是把 Manus 产品框架理解、吃透，
再结合用户的真实需求，重新做了一遍。
在用户交互、任务结构、执行逻辑这几件事上，彻底补上了“能用”与“好用”之间的Gap。
我测试它的时候，是让它分析「金山办公股票值不值得买」，给我做个 PPT。
一句话输入之后，它并不会立刻开跑，而是先确认任务范围：
<ul>
<li>
明确分析维度（财务、行业、风险、时间跨度）；
</li>
<li>
分模块列出任务计划：公司概况、主营业务、行业对比、竞争格局、投资建议；
</li>
<li>
接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面，自动抓数；
</li>
<li>
最后通过 HTML 生成一组完整的页面，然后再把 HTML 转成完整的 PPT。
</li>
<li>
更离谱的是，它加了溯源功能！ 
<img src="https://images.bigseek.com//forum/202506/12/111559cvj2v6vtav1ta4zv.png" alt="facb09d3e5a17ab07504bca2453fc005.png" title="facb09d3e5a17ab07504bca2453fc005.png" />
<img src="https://images.bigseek.com//forum/202506/12/111605yb5p065wou0wpt9r.png" alt="b71bed2984af8550ccf756710775e863.png" title="b71bed2984af8550ccf756710775e863.png" />
没有废话、不炫技，没有找点资料糊弄我一脸，老老实实查数据、跑引用、出图表、做 PPT。
虽然中间因为访问来源太多，被反爬挂了一两个链接，但对最终结果几乎没影响。
我觉得，这也是 Skywork 的真正价值所在：
<blockquote>
它不是 ChatBot，不是 CoPilot，也不是 Flowith 那种玩流程自由的系统。 
它就是这是一个班味很重的牛马 Agent，知道我要啥的 Agent。
</blockquote>
如果说 Lovart 是最懂设计的 AI ，那 Skywork 就是最懂写 PPT 的 AI。
接下来，我想说：它强调的不是充满个性，而是稳定 & 可信。
因为：
<ul>
<li>PPT 是有架构的；</li>
<li>推荐理由是清楚的，甚至每段带引用；</li>
<li>执行链是可查的，数据来源可回溯；</li>
<li>输出文件是能直接用的，而不是那种表演型的 Agent。</li>
</ul>
这也是我用完它之后，特别认同红杉资本那句判断：
<blockquote>
“你最好给客户一个端到端的解决方案，而不是把工具怼到他脸上。”
</blockquote>
</li>
</ul>
Skywork 给的就是一个完整、能交、能解释、能改的结果。
如果按「能力 × 信任 × 频率」来拆：
<ul>
<li>能力不在多，而在准。它知道你要一份什么样的稿子，也知道怎么分步骤完成它，我给 3 分；</li>
<li>信任值很高，每一段都有出处、有结构、不跑题、能兜底，我给 3 分；</li>
<li>频率不算日常，但凡你要做个材料，天工肯定是我首选的外包对象，我给 2 分。</li>
</ul>
天工在我心里是 18 分，很优秀。
<hr />
<h3>超级麦吉：融入到 OA 里的 Agent</h3>
麦吉是我特地加入的一个 Agent。
它代表着另一类我们平时看不到的，真正跑在 B 端系统里的 Agent。
如果你是创业团队，需要协作软件，推荐你试试麦吉，它很接近我理想中 AI 驱动产品的形态。
<img src="data/attachment/forum/202506/12/113137f5gngu9jifs0nvun.png" alt="微信图片_2025-06-12_113122_203.png" title="微信图片_2025-06-12_113122_203.png" />
甚至… 它也有深度研究 & 生成 HTML 或者 PPTX。
它的界面和天工很像，只不过它开源得更早。
<img src="data/attachment/forum/202506/12/113152kffzfchri8hgyzfw.png" alt="0bf52f5a45591b6af5f3f21b4d7d82db.png" title="0bf52f5a45591b6af5f3f21b4d7d82db.png" />
开源的结果，就是：如果一些闭源产品的产品力赶不上他，那闭源产品对于小团队而言的吸引力会降低。
不同于 Flowith、Lovart 那样强调 AIGC ，麦吉关注的是：
<blockquote>
OA 里那些没人愿意干、但又天天得人干的事情，谁来替你干？
</blockquote>
比如：
<ul>
<li>发票识别、校验、归档；我每次都在Q快结束的时候，匆匆报销…</li>
<li>审批流程的权限路径判断，不需要你手动添加审批人；</li>
<li>企业内报表的匹配、统计、还有解读以及可视化；</li>
<li>供应链表单的结构化填写、字段关联与表单转化…</li>
</ul>
所以，麦吉产品和AIGC Agent 不一样在于，
Agent 不是一定要交付内容才能成立，有时候它是替你跑流程的 Agent。
所以如果按「能力 × 信任 × 频率」来拆：
<ul>
<li>能力是流程执行能力，而不是基模的 AIGC 能力，产品团队做好了转换，我给 3 分；</li>
<li>信任必须是系统级的，它必须极度可靠、权限明确，否则是公司级的弃用，我给 2 分；</li>
<li>频率极高，只要公司流程在，麦吉就要在，不需要员工主动点开；这种在 OA 环境里，妥妥的 3 分。</li>
</ul>
同样的 18 分。
<hr />
通用模型在变，基模越来越强，现在已经能深度思考、调MCP、结构化输出、甚至还是多模态N 合一。
那如果再往前走一步，是不是这些专才 Agent 做的事，也很快能被通用模型升级之后顺手一锅端？

奥利给 发表于 2025-6-12 19:42:10

我还是喜欢manus，对新人小白十分友好，一句话，只要表达清楚，就能生成你想要的结果。

dxl0812 发表于 2025-7-9 13:30:03

Agent竞争好激烈

页: [1]

BigSeek_AI社区_AI论坛's Archiver

【测评】主流Agent这么多，真好用的没几个