ModelForge - 一个全面的AI测试系统

资源分享 · 2025-8-13 09:36:17

GitHub：https://github.com/ShaoRou459/ModelForge

它能帮你解决这些痛点：
✅ 把提示词 + 标准答案 + 题目分组，统一管理成“题库”
✅ 添加多个模型（支持 OpenAI、Anthropic、Gemini 等），一键批量跑测试
✅ 自动用中立模型打分，生成准确率榜单（Leaderboard）
✅ 支持 HTML/CSS/JS 类任务，手动评审渲染效果（带沙箱预览）
✅ 实时查看各模型输出流、响应速度

技术亮点：

前端 React + 后端 Fastify + SQLite，轻量高效
API Key 全程 AES 加密存储，不暴露给前端
安全沙箱运行 HTML 任务，防止恶意代码
支持 ELO 排名、N 轮 Battle 对战、手动覆写评分

Demo：

安装：

git clone https://github.com/ShaoRou459/ModelForge
cd model-forge
npm run install:all
npm run start

访问：

UI: http://localhost:5175
API: http://localhost:5174

完整功能包括：

多题型支持（文本判断、正则匹配、HTML 渲染）
自动 + 手动混合评审模式
实时仪表盘，查看准确率、延迟、成本分布
问题难度分析 & 模型胜率矩阵

安全提醒: 请仅在本地运行 Model Forge。目前暂未实现用户认证（auth）系统，所有数据默认明文存储在本地 SQLite 中。虽然 API Key 会加密保存，但仍建议不要在多人共享或公网环境中使用，以确保你的密钥安全。

如果你也经常做模型对比、提示工程、或者想搞一套自己的 benchmark 流程，Model Forge 可能正是你需要的那个“自动化裁判”。

赵彤 · 2025-8-13 15:55:17

很实用，感谢老友分享

茫茫雨 · 2025-8-13 17:06:00

以前测试人工智能的时候，我把所有的提示词都存放在OpenWebUI里面。每次想要测试模型，都得先把提示词找出来，然后再粘贴给模型。

但是时间久了，模型的数量也增多了，想要回顾之前哪个模型的表现最佳，以及按照性能强弱进行排序，就变得越来越让人头疼。而且提示词的数量一多，查找起来速度很慢，分类也十分混乱。

维🌽 · 2025-8-14 00:55:04

这大佬太厉害了

bjc4845 · 2025-8-14 09:59:07

感谢大佬。

yomiko2004 · 2025-8-15 07:26:03

这个不错~

xingke · 2025-8-26 21:30:02

功能看着还不错

火神 · 2025-9-9 13:30:02

这个工具挺实用呀

		自动登录	找回密码
密码			立即注册

工具ModelForge - 一个全面的AI测试系统

相关帖子

7 回复

浏览过的版块