【测评】主流Agent这么多,真好用的没几个
<h3>一、哪些Agent能活下来?</h3><p>Karpathy 宣称:“未来十年是 Agent 的时代。”<br />
这一论断虽有 VC 式的豪言壮语,语句流畅,富有远见,还带着几分规划感。<br />
我却深以为然。</p>
<p>如今 token 价格持续走低,MCP 生态日益丰富,用户对较长时间的 AI 处理也愈发包容。<br />
过去半年,Agent 产品从概念演示快速迈向 B/C 端应用,如 Manus、扣子空间、Lovart、Flowith Neo、Skywork 以及开源的超级麦吉。<br />
邀请码被炒至数千元,甚至内测阶段已有企业询问私有化部署的可能性。</p>
<p>但在使用中,不禁让人思索,面对众多 Agent,究竟什么样的产品能在市场洗牌后屹立不倒?</p>
<blockquote>
<p>产品价值 = 能力 × 信任 × 频率</p>
<ul>
<li><strong>能力</strong>:指你能为用户完成什么任务?是否能提供稳定、可交付的成果?</li>
<li><strong>信任</strong>:用户是否愿意将任务交给你?过程是否可控、结果是否可解释?</li>
<li><strong>频率</strong>:你是否能在用户需要的场景中,随时被便捷调用?</li>
</ul>
</blockquote>
<p>每个维度最高分是 3 分;分为 高中低与 0。</p>
<p>基础线是 8 分,超过 8 分属于好 Agent, 低于 8 分属于存疑产品。<br />
<img src="https://images.bigseek.com//forum/202506/12/110054eiljii5m5i8ijiwr.png" alt="4979444a8dcabe42f5ced58ab418302d.png" title="4979444a8dcabe42f5ced58ab418302d.png" /></p>
<p>公式融合了多位一线投资人的意见:</p>
<p>Reid Hoffman 曾表示,“未来每个人身边将有多个 AI 伙伴,组成一个协作的团队”,但关键在于:用户信任它、能管理它、能反复使用它。<br />
a16z 建议创业者,Agent 的发展从辅助 Copilot 到独立 Agent,核心在于能否精准满足用户需求。<br />
红杉资本用“Always-On Economy”描绘 Agent 的未来图景,但前提仍是:你是否具备交付能力、赢得信任,并融入用户日常操作的能力。</p>
<p><img src="https://images.bigseek.com//forum/202506/12/110240at1111930n91n1xl.png" alt="1eddb94d68177e380584075f8aac7450.png" title="1eddb94d68177e380584075f8aac7450.png" /></p>
<p>所以,Agent 产品不是谁跑得快、干得像人,就能活得下来。</p>
<p>而是谁在这三个维度上,每个都不能是零。</p>
<h2>二、代表性 Agent</h2>
<p>选了六款过去半年频频被提及、且在B端和C端均有实际用户使用的Agent产品:</p>
<blockquote>
<p>Manus、扣子空间、Lovart、Flowith Neo、Skywork和超级麦吉。</p>
</blockquote>
<p>对这些产品进行测评,基于以下公式,从三个维度分析它们的核心特点:</p>
<ol>
<li><strong>能力</strong>:它具体能为你完成哪些任务?</li>
<li><strong>信任</strong>:生成结果的质量是否能一次达标?</li>
<li><strong>频率</strong>:它能否高频满足你的使用需求?<br />
<code>评分基于个人主观感受,欢迎在评论区分享不同观点。</code></li>
</ol>
<h3>Manus:爆得快,掉得也很快</h3>
<p>一句话描述任务,它就能自动拆解、规划、执行,再拼出一个完整的结果页面,甚至会自动写总结。</p>
<p>那一瞬间我确实动心了:这是不是已经比 Copilot 更像 Agent了!</p>
<p>但真正用下去之后,我看到…</p>
<ul>
<li>它只能在独立网页上跑流程,入口重,没法嵌进任何我日常工作的地方;</li>
<li>流程跑一半经常上下文断掉,中间卡住一环,等好久回头就挂了;</li>
<li>它能做事,但我说不上它做得是不是我真正想要的:我给命题,他还结果。</li>
</ul>
<p>然后…这个结果,是不是你心里那个目标?难说。</p>
<p>后来它限流,我就再没点开了。</p>
<p>它确实给了“能用”的场景,但没留下“好用”的理由。</p>
<p>Manus 的问题不在于交互多么牛逼,而在于我用了一次,我没有信心开第二次。</p>
<p>用「能力 × 信任 × 频率」的评估公式,来看看它:</p>
<ul>
<li>能力一般,成功率基本上在 20% 以下,给 1 分;</li>
<li>信任也有暴露,中间步骤、引用内容都可查,给 2 分;</li>
<li>但 Manus 很难融到用户的工作环境中,满血版不支持国内网络环境,给 1 分。</li>
</ul>
<p>最终分数是:2 分,基本上归类到玩具一类。</p>
<p>但是但是!</p>
<p>Manus 的意义,还是得单独拿出来说。</p>
<p><img src="https://images.bigseek.com//forum/202506/12/110820pl7u95am98z99zzl.png" alt="image.png" title="image.png" /></p>
<p>它让很多用户第一次意识到,甚至是AI 产品从业者意识到:<strong>Agent 不是更聪明的对话,而是更完整的动作链。</strong></p>
<p>你可以说它只是缝合怪、demo 感太重,</p>
<p>但它确实让我们看见了一个新的范式。</p>
<p>Agent 不再是 Chat bot,而是:你说一个任务,它替你走完全流程。</p>
<p>就像硅谷 101 那篇文章标题写的:</p>
<p>Manus 不够好,但天快亮了。</p>
<hr />
<h3>扣子空间:路线对,链路完整,但还在找用户留存的理由</h3>
<p>那时候我的判断是,它的意义不在“用起来多聪明”,而在于:</p>
<p>它是我第一次看到有 Agent 系统,能真的把「MCP 调用、任务编排、结果交付」稳定地跑完。</p>
<p>因为这件事不是谁想做就能做,MCP 接入只是门槛,更大的难题在于:</p>
<ul>
<li>有没有牛逼的调度系统帮助跑完;</li>
<li>有没有工程化机制能兜住各种异常;</li>
<li>有没有敢做全链的基础架构。</li>
</ul>
<p>它做得不完美,体验还不够顺滑,但它的路径清晰,方向可信。</p>
<p>但拉回现在这套「能力 × 信任 × 频率」的评估公式,再来看看它:</p>
<ul>
<li>能力没问题,链路完整、MCP 体系化使用,给 3 分;</li>
<li>信任也有暴露,中间步骤、引用内容都可查,给 2 分;</li>
<li>频率稍弱,它更多是被挂在扣子空间的页面里,需要用户收藏页面,给 2 分。
<ul>
<li>如果哪天扣子空间合并到了飞书中… 那就是 3 分。</li>
</ul>
</li>
</ul>
<p><img src="https://images.bigseek.com//forum/202506/12/111058qsps6tdex424sstp.jpg" alt="e3bbd30da873067bb3ba6b5d04bf2590.jpg" title="e3bbd30da873067bb3ba6b5d04bf2590.jpg" /></p>
<p>最终 12 分,属于后续更新了新版本,我会愿意积极尝试的程度。</p>
<p>我甚至觉得,如果今年内会出现一款杀手级 All In One 的 Agent 应用,</p>
<p>扣子空间的胜率很大。</p>
<p>因为…豆包模型 + 火山 MCP + 豆包的体量 + 扣子的Agent 调度能力;</p>
<p>天时地利人和几乎占尽…</p>
<p>如果扣子空间的运营看到,请给我打钱谢谢…</p>
<p>而且,在架构上,扣子空间是系统最完整、迭代路径最清晰的 Agent 产品之一。</p>
<p>虽然迭代路径清晰,架构完整,但它要留下来,可能还得回答一个问题:</p>
<p>由于扣子空间是通用 Agent,那么…</p>
<p>在哪个任务场景里,用户能第一时间想起你?<br />
至少现在,我还没建立起这个直觉。</p>
<hr />
<h3>Lovart:直接给你交稿</h3>
<p>Lovart 是为数不多,我真正当做生产力工具的 Agent。</p>
<p>也是我真的用钱投票的产品。</p>
<p>因为它实实在在做到直接交稿的事情:</p>
<ul>
<li>我提需求,它自己拆成任务;</li>
<li>中间怎么画、用什么风格、怎么配色、怎么分层,它全程自己决定;</li>
</ul>
<p><img src="https://images.bigseek.com//forum/202506/12/111254k6wflwj1ljel1j8w.png" alt="5cd32991571f11c8f06d93498f9c8240.png" title="5cd32991571f11c8f06d93498f9c8240.png" /></p>
<p><img src="https://images.bigseek.com//forum/202506/12/111258r89xeyepgc544cyb.png" alt="07e759f5fcc507503bdf6d0a190eeeb4.png" title="07e759f5fcc507503bdf6d0a190eeeb4.png" /></p>
<p>这真·是生产力工具。</p>
<p>他带来的价值,是我不具备的 “关于设计的 Know How”。</p>
<blockquote>
<p>我不需要再思考 prompt 写得够不够好,反正我没有它好,我只要习惯只表达目标。</p>
</blockquote>
<p>如果用「能力 × 信任 × 频率」这个公式来看:</p>
<ul>
<li>能力,几乎是“以交付为核心的整合型能力”,不是拼拼图而是真能做成事,我给 3 分;</li>
<li>信任,在于你知道它交得出来,哪怕你点“生成”前会犹豫,但点完后大概率会满意,同样给 3 分;</li>
<li>频率,目前还是偏工具型,入口依赖用户主动保存并打开,我给 2 分。</li>
</ul>
<p>总分 18 分,属于优秀 Agent。</p>
<p>我很喜欢 Lovart,它几乎能满足我的大部分设计场景,我只需要发起多次任务,然后收割结果。</p>
<p>很多人说它是个缝合怪,但我觉得它是缝合得特别好的缝合怪。</p>
<hr />
<h3>Flowith Neo:交互非常独特的 Agent</h3>
<p>在没出 Agent 的时候,我就很喜欢这样的交互了。</p>
<p>我和 Chat bot 对话的过程中,会基于某个节点进行新提问, Flowith 将这部分具象化了。</p>
<p>Neo 发布之后,我觉得是真的遵循好 Planning 、Action 范式的 Agent。</p>
<p>比如,我让他分析股票<br />
<img src="https://images.bigseek.com//forum/202506/12/111407piuagcmcag1a6mlg.png" alt="84777a7410df552a0328a5ec3154e3e6.png" title="84777a7410df552a0328a5ec3154e3e6.png" /></p>
<p>它没有二次确认,上手自己开始拆:</p>
<ul>
<li>筛选股票、抓市场新闻、汇总分析;</li>
<li>一步步走工作流、结构化生成、分模块输出。</li>
</ul>
<p>页面上每个流程节点都能看到内容,生成速度很不错,最后结果汇总成报告。</p>
<p>很大程度上缓解了我对AI 掌控的焦虑。</p>
<p>但仔细拆了之后,我发现它有两个关键能力特别牛逼:</p>
<ul>
<li>一个是并发。不是并行调几次这种Level,而是它可以在一个任务里同时起N个执行链,互不冲突、稳定输出;</li>
<li>另一个是并发之后的串联机制。并发带来的超长上下文,要怎么不超 模型 Token 上限?</li>
</ul>
<p>这个是很令人头痛的工程化瓶颈,而 Neo 在这一步做得很好,能把并发节点自动组织、排序、压缩甚至推给下一步模型继续用。</p>
<p>它能把推理结构具象化,这是一种很酷的 AI 设计,我很喜欢。</p>
<p>不过,我不能代表所有用户,这个酷酷的交互,对大部分基础用户来说…</p>
<blockquote>
<p>很多用户并不需要一个画布,他们只要一个开始,一个结束。<br />
因为画布的交互,不是所有普通用户都能玩明白,自由的画布反而会让人无所适从。</p>
</blockquote>
<p>所以如果你真有任务需要 Agent 跑流程,那它值得一试。</p>
<p>但如果你想找一个每天都能给你干活的搭子,它可能还不够顺手。</p>
<p>如果用「能力 × 信任 × 频率」来拆:</p>
<ul>
<li>能力没得说,它能拆能跑、执行链完整、支持高并发,后处理能力也在线,给 3 分;</li>
<li>信任也可以,流程透明、失败可查、输出有状态,给 3 分;</li>
<li>频率偏低,太开放的命题让我不知道他能做哪些,给 1 分。</li>
</ul>
<p>总分 9 分;我对它的评价可能更多是一个玩具。<br />
<img src="https://images.bigseek.com//forum/202506/12/111523ozyyakc9zyk3gbwk.png" alt="d14eb1d41197947f6a801974ae6cc07f.png" title="d14eb1d41197947f6a801974ae6cc07f.png" /></p>
<hr />
<h3>Skywork:Manus Pro Ultra,办公界的 Lovart</h3>
<p>Skywork 是我目前看到“办公场景最强 Agent”的产品。</p>
<p>虽然它长得像 Manus,但我得说一句公道话:</p>
<p>它比 Manus 强太多了。</p>
<p>其实很多 Agent 产品的基本形态都像 Manus,可见:Manus 还是走得挺超前。</p>
<p>但 Skywork 不是简单的模板,它是把 Manus 产品框架理解、吃透,</p>
<p>再结合用户的真实需求,重新做了一遍。</p>
<p>在用户交互、任务结构、执行逻辑这几件事上,彻底补上了“能用”与“好用”之间的Gap。</p>
<p>我测试它的时候,是让它分析「金山办公股票值不值得买」,给我做个 PPT。</p>
<p>一句话输入之后,它并不会立刻开跑,而是先确认任务范围:</p>
<ul>
<li>
<p>明确分析维度(财务、行业、风险、时间跨度);</p>
</li>
<li>
<p>分模块列出任务计划:公司概况、主营业务、行业对比、竞争格局、投资建议;</p>
</li>
<li>
<p>接着通过 MCP 工具访问证券网、年报、同花顺 F10 页面,自动抓数;</p>
</li>
<li>
<p>最后通过 HTML 生成一组完整的页面,然后再把 HTML 转成完整的 PPT。</p>
</li>
<li>
<p>更离谱的是,它加了溯源功能!<br />
<img src="https://images.bigseek.com//forum/202506/12/111559cvj2v6vtav1ta4zv.png" alt="facb09d3e5a17ab07504bca2453fc005.png" title="facb09d3e5a17ab07504bca2453fc005.png" /></p>
<p><img src="https://images.bigseek.com//forum/202506/12/111605yb5p065wou0wpt9r.png" alt="b71bed2984af8550ccf756710775e863.png" title="b71bed2984af8550ccf756710775e863.png" /></p>
<p>没有废话、不炫技,没有找点资料糊弄我一脸,老老实实查数据、跑引用、出图表、做 PPT。</p>
<p>虽然中间因为访问来源太多,被反爬挂了一两个链接,但对最终结果几乎没影响。</p>
<p>我觉得,这也是 Skywork 的真正价值所在:</p>
<blockquote>
<p>它不是 ChatBot,不是 CoPilot,也不是 Flowith 那种玩流程自由的系统。<br />
它就是这是一个班味很重的牛马 Agent,知道我要啥的 Agent。</p>
</blockquote>
<p>如果说 Lovart 是最懂设计的 AI ,那 Skywork 就是最懂写 PPT 的 AI。</p>
<p>接下来, 我想说:<strong>它强调的不是充满个性,而是稳定 & 可信。</strong></p>
<p>因为:</p>
<ul>
<li>PPT 是有架构的;</li>
<li>推荐理由是清楚的,甚至每段带引用;</li>
<li>执行链是可查的,数据来源可回溯;</li>
<li>输出文件是能直接用的,而不是那种表演型的 Agent。</li>
</ul>
<p>这也是我用完它之后,特别认同红杉资本那句判断:</p>
<blockquote>
<p>“你最好给客户一个端到端的解决方案,而不是把工具怼到他脸上。”</p>
</blockquote>
</li>
</ul>
<p>Skywork 给的就是一个完整、能交、能解释、能改的结果。</p>
<p>如果按「能力 × 信任 × 频率」来拆:</p>
<ul>
<li>能力不在多,而在准。它知道你要一份什么样的稿子,也知道怎么分步骤完成它,我给 3 分;</li>
<li>信任值很高,每一段都有出处、有结构、不跑题、能兜底,我给 3 分;</li>
<li>频率不算日常,但凡你要做个材料,天工肯定是我首选的外包对象,我给 2 分。</li>
</ul>
<p>天工在我心里是 18 分,很优秀。</p>
<hr />
<h3>超级麦吉:融入到 OA 里的 Agent</h3>
<p>麦吉是我特地加入的一个 Agent。</p>
<p>它代表着另一类我们平时看不到的,真正跑在 B 端系统里的 Agent。</p>
<p>如果你是创业团队,需要协作软件,推荐你试试麦吉,它很接近我理想中 AI 驱动产品的形态。</p>
<p><img src="data/attachment/forum/202506/12/113137f5gngu9jifs0nvun.png" alt="微信图片_2025-06-12_113122_203.png" title="微信图片_2025-06-12_113122_203.png" /></p>
<p>甚至… 它也有深度研究 & 生成 HTML 或者 PPTX。</p>
<p>它的界面和天工很像,只不过它开源得更早。</p>
<p><img src="data/attachment/forum/202506/12/113152kffzfchri8hgyzfw.png" alt="0bf52f5a45591b6af5f3f21b4d7d82db.png" title="0bf52f5a45591b6af5f3f21b4d7d82db.png" /></p>
<p>开源的结果,就是:如果一些闭源产品的产品力赶不上他,那闭源产品对于小团队而言的吸引力会降低。</p>
<p>不同于 Flowith、Lovart 那样强调 AIGC ,麦吉关注的是:</p>
<blockquote>
<p>OA 里那些没人愿意干、但又天天得人干的事情,谁来替你干?</p>
</blockquote>
<p>比如:</p>
<ul>
<li>发票识别、校验、归档;我每次都在Q快结束的时候,匆匆报销…</li>
<li>审批流程的权限路径判断,不需要你手动添加审批人;</li>
<li>企业内报表的匹配、统计、还有解读以及可视化;</li>
<li>供应链表单的结构化填写、字段关联与表单转化…</li>
</ul>
<p>所以,麦吉产品和AIGC Agent 不一样在于,</p>
<p>Agent 不是一定要交付内容才能成立,有时候它是替你跑流程的 Agent。</p>
<p>所以如果按「能力 × 信任 × 频率」来拆:</p>
<ul>
<li>能力是流程执行能力,而不是 基模的 AIGC 能力, 产品团队做好了转换,我给 3 分;</li>
<li>信任必须是系统级的,它必须极度可靠、权限明确,否则是公司级的弃用,我给 2 分;</li>
<li>频率极高,只要公司流程在,麦吉就要在,不需要员工主动点开;这种在 OA 环境里,妥妥的 3 分。</li>
</ul>
<p>同样的 18 分。</p>
<hr />
<p><strong>通用模型在变,基模越来越强,现在已经能深度思考、调MCP、结构化输出、甚至还是多模态N 合一。</strong></p>
<p><strong>那如果再往前走一步,是不是这些专才 Agent 做的事,也很快能被通用模型升级之后顺手一锅端?</strong></p>
我还是喜欢manus,对新人小白十分友好,一句话,只要表达清楚,就能生成你想要的结果。 Agent竞争好激烈
页:
[1]