发帖
 找回密码
 立即注册
搜索
6 0 0
快问快答 328 6 6 小时前

我的使用场景:

  • 单次请求包含 Prompt + 对话上下文,总长度约 1w+ token;
  • 核心诉求是“响应速度”,希望生成延迟尽可能低;
  • 模型能力不能太弱,至少要达到 Qwen / DeepSeek 公众版聊天服务的水平;
  • 仅考虑国内服务商(国外 API 成本太高,暂不考虑)。

求推荐靠谱的 API 服务商或替代方案 —— 无论是官方 API、第三方平台、私有化部署方案,只要能兼顾速度和效果,都欢迎分享!

感谢各位大佬指点!

──── 0人觉得很赞 ────

使用道具 举报

模型能力不能太弱,至少得达到Qwen / DeepSeek公众版聊天服务的水平;
我试试看,我还没用过智谱家的
要追求速度的话,那就是选小一点的模型,对吧
使用场景不太一样吧。我这边对准确度的要求没那么高,更看重速度。因为我是结合代码进行多轮判断区域生成的,有兜底机制,所以问题不大。要是涉及编程和推理,那我肯定会用国外的 。  
追求速度和性能的平衡吧,也就是在发挥最大性能的前提下,能够保持高速运行。我感觉这还得考虑模型商的负载状况,所以我打算尝试做一个负载均衡方案,实现自动切换 。
我还没用过
24 分钟前
qwen挺好的,就是生成速度有点慢了
您需要登录后才可以回帖 立即登录
高级模式