在 Design Arena 上,这是一个评估大型语言模型前端能力的众包基准测试平台,Mistral Medium 3.1 最初表现相当不错(虽然样本量仍然很小),目前排名第 8。 它的前身 Mistral Medium 3 排名第 14,但自从 6 周前发布该基准测试以来,它一直是前 10 名的常客,直到被 GLM 4.5 和 Qwen3 模型等较新的模型挤出。
Mistral 的顶级模型非常出色,显然他们现在是欧洲人工智能领域的领导者。 苹果公司以 Mistral 为目标,这开始变得有道理了。
