目前的大模型中文水平和英文水平差距有多少?
<p>我技术问题或者其他重要问题默认都是用英文对话,还是不太信赖中文的回复质量。我常用的几个(Gemini、DeepSeek)中文回复明显都有英文翻译痕迹。不知道其他的模型情况如何。</p><p>还有可能出现原生(指语言本土化、思维以中文为主、流畅自然)的高质量中文模型吗?</p>
首先是在目前的情况下需要有高效的数据训练 dowell 发表于 2025-7-8 10:17
首先是在目前的情况下需要有高效的数据训练
中文没有高质量语料,如何训练高质量模型?
难道用贴吧,抖音? 嗯…我感觉是需要更多高质量的语料 hslxwu 发表于 2025-7-8 10:17
中文没有高质量语料,如何训练高质量模型?
难道用贴吧,抖音?
你的这个问题,问ai会给你一个完美解答 edaole 发表于 2025-7-8 10:18
你的这个问题,问ai会给你一个完美解答
太封闭了,感觉微信公众号的数据还行 说实话我觉得推理模型不会差很多…
<p>小参量的大模型,用中文真不行(用英文没出现过这种情况),这是Qwen3-30B-A3B的弱智表现</p>
<p><img src="data/attachment/forum/202507/08/102017komdsj39493yrzfd.jpeg" alt="14417680eeccd9fe03b463706860632b3ed6377e.jpeg" title="14417680eeccd9fe03b463706860632b3ed6377e.jpeg" /></p>
编程本身就是英文主导的,大模型的输出也受到其训练所使用的语料影响,因此我推测,无论什么大模型,回答编程相关的内容基本上默认都是英文,这其实无关模型的中英文水平差距,而是训练数据本身所决定的,比如国内的大模型在文言文和古诗词的表现上普遍比国外的好一些。 之前A社发过研究论文,不同语言输入的同一语义会导致相同区域的模型参数被激活,最后翻译成输出语言。 中文模型会有的吧
页:
[1]