GitHub:https://github.com/ShaoRou459/ModelForge
它能帮你解决这些痛点:
✅ 把提示词 + 标准答案 + 题目分组,统一管理成“题库”
✅ 添加多个模型(支持 OpenAI、Anthropic、Gemini 等),一键批量跑测试
✅ 自动用中立模型打分,生成准确率榜单(Leaderboard)
✅ 支持 HTML/CSS/JS 类任务,手动评审渲染效果(带沙箱预览)
✅ 实时查看各模型输出流、响应速度
技术亮点:
- 前端 React + 后端 Fastify + SQLite,轻量高效
- API Key 全程 AES 加密存储,不暴露给前端
- 安全沙箱运行 HTML 任务,防止恶意代码
- 支持 ELO 排名、N 轮 Battle 对战、手动覆写评分
Demo:

安装:
git clone https://github.com/ShaoRou459/ModelForge
cd model-forge
npm run install:all
npm run start
访问:
- UI: http://localhost:5175
- API: http://localhost:5174
完整功能包括:
- 多题型支持(文本判断、正则匹配、HTML 渲染)
- 自动 + 手动混合评审模式
- 实时仪表盘,查看准确率、延迟、成本分布
- 问题难度分析 & 模型胜率矩阵
安全提醒: 请仅在本地运行 Model Forge。目前暂未实现用户认证(auth)系统,所有数据默认明文存储在本地 SQLite 中。虽然 API Key 会加密保存,但仍建议不要在多人共享或公网环境中使用,以确保你的密钥安全。
如果你也经常做模型对比、提示工程、或者想搞一套自己的 benchmark 流程,Model Forge 可能正是你需要的那个“自动化裁判”。