美雷鹰 发表于 2025-8-13 09:36:17

ModelForge - 一个全面的AI测试系统

<p>GitHub:https://github.com/ShaoRou459/ModelForge</p>
<p><strong>它能帮你解决这些痛点:</strong><br />
✅ 把提示词 + 标准答案 + 题目分组,统一管理成“题库”<br />
✅ 添加多个模型(支持 OpenAI、Anthropic、Gemini 等),一键批量跑测试<br />
✅ 自动用中立模型打分,生成准确率榜单(Leaderboard)<br />
✅ 支持 HTML/CSS/JS 类任务,手动评审渲染效果(带沙箱预览)<br />
✅ 实时查看各模型输出流、响应速度</p>
<p><strong>技术亮点:</strong></p>
<ol>
<li>前端 React + 后端 Fastify + SQLite,轻量高效</li>
<li>API Key 全程 AES 加密存储,不暴露给前端</li>
<li>安全沙箱运行 HTML 任务,防止恶意代码</li>
<li>支持 ELO 排名、N 轮 Battle 对战、手动覆写评分</li>
</ol>
<p>Demo:<br />
<img src="data/attachment/forum/202508/13/094010x9rjq1jk5f9w1ff5.gif" alt="c6d1f1ff9bf9b0b5b3816cfccb41cb19b186704d.gif" title="c6d1f1ff9bf9b0b5b3816cfccb41cb19b186704d.gif" /></p>
<p><strong>安装:</strong></p>
<pre><code class="language-bash">git clone https://github.com/ShaoRou459/ModelForge
cd model-forge
npm run install:all
npm run start
</code></pre>
<p><strong>访问:</strong></p>
<ul>
<li>UI: http://localhost:5175</li>
<li>API: http://localhost:5174</li>
</ul>
<p><strong>完整功能</strong>包括:</p>
<ol>
<li>多题型支持(文本判断、正则匹配、HTML 渲染)</li>
<li>自动 + 手动混合评审模式</li>
<li>实时仪表盘,查看准确率、延迟、成本分布</li>
<li>问题难度分析 &amp; 模型胜率矩阵</li>
</ol>
<p><strong>安全提醒</strong>: 请<strong>仅在本地运行 Model Forge</strong>。目前暂未实现用户认证(auth)系统,所有数据默认明文存储在本地 SQLite 中。虽然 API Key 会加密保存,但仍建议不要在多人共享或公网环境中使用,以确保你的密钥安全。</p>
<p>如果你也经常做模型对比、提示工程、或者想搞一套自己的 benchmark 流程,<strong>Model Forge</strong> 可能正是你需要的那个“自动化裁判”。</p>

赵彤 发表于 2025-8-13 15:55:17

很实用 ,感谢老友分享

茫茫雨 发表于 2025-8-13 17:06:00

以前测试人工智能的时候,我把所有的提示词都存放在OpenWebUI里面。每次想要测试模型,都得先把提示词找出来,然后再粘贴给模型。

但是时间久了,模型的数量也增多了,想要回顾之前哪个模型的表现最佳,以及按照性能强弱进行排序,就变得越来越让人头疼。而且提示词的数量一多,查找起来速度很慢,分类也十分混乱。

维🌽 发表于 2025-8-14 00:55:04

这大佬太厉害了

bjc4845 发表于 2025-8-14 09:59:07

感谢大佬 。

yomiko2004 发表于 2025-8-15 07:26:03

这个不错~

xingke 发表于 2025-8-26 21:30:02

功能看着还不错
页: [1]
查看完整版本: ModelForge - 一个全面的AI测试系统