Nous Research发布Hermes4系列模型

前沿情报 · 2025-8-28 17:21:22

基于Llama3 70B和405B后训练的混合推理模型，按官方说主要特色为没有公司强加的伦理道德，在争议话题上的拒绝率要更低，并且角色扮演和创意性写作的表现也更好

HuggingFace：https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728
官方对话网页：https://chat.nousresearch.com/login

思考模式下在 RefusalBench 上第一，非思考模式仅次于Grok4
不过智力跑分和其他开源模型的平均分对比就很会玩

Lucentio · 2025-8-28 17:35:05

不知道其他能力如何，不过我感觉在写作方面，还比不上微软的3B小模型。

yoki1366 · 2025-8-28 18:13:35

还不如我之前在本地部署的Qwen2呢，那还是2.5版本零点几个B的模型

hh2008 · 2025-8-28 18:32:06

看着不厉害，比不上R1，特色大概就是没有伦理道德方面的限制吧

fly8.za.net · 2025-8-28 20:14:05

换句话说，它全是用黄色废料训练出来的？

Sprite · 2025-8-29 07:46:39

基于Llama3 70B和405B进行后训练的混合推理模型，按照官方说法，其主要特色在于没有公司强行施加的伦理道德限制，在争议话题上的拒绝率更低，而且在角色扮演和创意性写作方面的表现也更出色。

t608 · 2025-8-29 09:20:22

要说玩llama3啊，还得是英伟达厉害。把405b大幅改造变成了253b

r49794833c · 2025-8-29 10:18:24

别老惦记那llama了，看看远方的DeepSeek、k2、qwen3、glm4.5吧。底子不行的话，再怎么后训练都没用。

所以为啥基本模型结构都大差不差，训练方式也都是照猫画虎呢？难道真的是llama的训练数据里掺了什么东西，导致怎么训练都救不回来了？

125372883 · 6 天前

思考方面稍微好一些了，不过感觉比时代水平落后了一年。有思考和没思考，简直就像是两个不同的模型。提示词能触发思考。

灰花花 · 3 天前

我测试了一回，这讲故事的水平可太烂了。
感觉跟GPT3.5有得一拼。

		自动登录	找回密码
密码			立即注册

新品Nous Research发布Hermes4系列模型