longxx888 发表于 2025-7-8 10:13:18

目前的大模型中文水平和英文水平差距有多少?

<p>我技术问题或者其他重要问题默认都是用英文对话,还是不太信赖中文的回复质量。我常用的几个(Gemini、DeepSeek)中文回复明显都有英文翻译痕迹。不知道其他的模型情况如何。</p>
<p>还有可能出现原生(指语言本土化、思维以中文为主、流畅自然)的高质量中文模型吗?</p>

dowell 发表于 2025-7-8 10:17:05

首先是在目前的情况下需要有高效的数据训练

hslxwu 发表于 2025-7-8 10:17:41

dowell 发表于 2025-7-8 10:17
首先是在目前的情况下需要有高效的数据训练

中文没有高质量语料,如何训练高质量模型?
难道用贴吧,抖音?

FineRIk 发表于 2025-7-8 10:17:52

嗯…我感觉是需要更多高质量的语料

edaole 发表于 2025-7-8 10:18:05

hslxwu 发表于 2025-7-8 10:17
中文没有高质量语料,如何训练高质量模型?
难道用贴吧,抖音?

你的这个问题,问ai会给你一个完美解答

johnwar 发表于 2025-7-8 10:18:24

edaole 发表于 2025-7-8 10:18
你的这个问题,问ai会给你一个完美解答

太封闭了,感觉微信公众号的数据还行

chouwa 发表于 2025-7-8 10:18:55

说实话我觉得推理模型不会差很多…

阿强123 发表于 2025-7-8 10:20:19

<p>小参量的大模型,用中文真不行(用英文没出现过这种情况),这是Qwen3-30B-A3B的弱智表现</p>
<p><img src="data/attachment/forum/202507/08/102017komdsj39493yrzfd.jpeg" alt="14417680eeccd9fe03b463706860632b3ed6377e.jpeg" title="14417680eeccd9fe03b463706860632b3ed6377e.jpeg" /></p>

示指哥 发表于 2025-7-8 10:20:50

编程本身就是英文主导的,大模型的输出也受到其训练所使用的语料影响,因此我推测,无论什么大模型,回答编程相关的内容基本上默认都是英文,这其实无关模型的中英文水平差距,而是训练数据本身所决定的,比如国内的大模型在文言文和古诗词的表现上普遍比国外的好一些。

猎人阿祥 发表于 2025-7-8 10:20:58

之前A社发过研究论文,不同语言输入的同一语义会导致相同区域的模型参数被激活,最后翻译成输出语言。

heyond 发表于 2025-7-21 19:30:03

中文模型会有的吧
页: [1]
查看完整版本: 目前的大模型中文水平和英文水平差距有多少?