Nous Research发布Hermes4系列模型
<p>基于Llama3 70B和405B后训练的混合推理模型,按官方说主要特色为没有公司强加的伦理道德,在争议话题上的拒绝率要更低,并且角色扮演和创意性写作的表现也更好</p><p>HuggingFace:https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728<br />
<img src="data/attachment/forum/202508/28/172220e2ziu3fcxaau2xoc.png" alt="dfbf390df0ccdfd8053875643d475ebc47a6a82d_2_690x372.png" title="dfbf390df0ccdfd8053875643d475ebc47a6a82d_2_690x372.png" />官方对话网页:https://chat.nousresearch.com/login<br />
<img src="data/attachment/forum/202508/28/172251pf0ki11yklhzz0ty.jpeg" alt="246f1f71a9575fc055312491d956bf4bb81983b2_2_690x388.jpeg" title="246f1f71a9575fc055312491d956bf4bb81983b2_2_690x388.jpeg" /></p>
<p><img src="data/attachment/forum/202508/28/172255bhga1c3l0921prpr.webp" alt="ba2a9cb752a1f89354f1c3b701467d363cb1c2e5.webp" title="ba2a9cb752a1f89354f1c3b701467d363cb1c2e5.webp" /><br />
思考模式下在 RefusalBench 上第一,非思考模式仅次于Grok4<br />
<img src="data/attachment/forum/202508/28/172305icphvt4asrhqa6nl.webp" alt="e3953f29729026fda6d02780d5a01808f803229c.webp" title="e3953f29729026fda6d02780d5a01808f803229c.webp" />不过智力跑分和其他开源模型的平均分对比就很会玩</p>
不知道其他能力如何,不过我感觉在写作方面,还比不上微软的3B小模型。 还不如我之前在本地部署的Qwen2呢,那还是2.5版本零点几个B的模型 看着不厉害,比不上R1,特色大概就是没有伦理道德方面的限制吧 换句话说,它全是用黄色废料训练出来的? 基于Llama3 70B和405B进行后训练的混合推理模型,按照官方说法,其主要特色在于没有公司强行施加的伦理道德限制,在争议话题上的拒绝率更低,而且在角色扮演和创意性写作方面的表现也更出色。 要说玩llama3啊,还得是英伟达厉害。把405b大幅改造变成了253b 别老惦记那llama了,看看远方的DeepSeek、k2、qwen3、glm4.5吧。底子不行的话,再怎么后训练都没用。
所以为啥基本模型结构都大差不差,训练方式也都是照猫画虎呢?难道真的是llama的训练数据里掺了什么东西,导致怎么训练都救不回来了? 思考方面稍微好一些了,不过感觉比时代水平落后了一年。有思考和没思考,简直就像是两个不同的模型。提示词能触发思考。 我测试了一回,这讲故事的水平可太烂了。
感觉跟GPT3.5有得一拼。
页:
[1]