感觉大语言模型的发展已经陷入了死胡同。

前沿技术 · 2025-7-30 10:23:17

（目前，我正在使用《雪国列车》150亿参数模型或者 Gemini 2.5闪存版。）不知为何，感觉人们只是给同样的老数据集换个新名字重新包装一下，差异顶多算是微不足道。尤其是在120亿到220亿参数规模的较小模型方面。在过去两年里，我下载了几百个模型（稍微有点夸张），还升级了我的电脑配置，就为了能运行更大的大语言模型。但除了上下文记忆令牌的最大数量略有增加之外，我没感觉到有多大差别。（说实话，它们宣传有12.8万个令牌，但所有现有的大语言模型在超过3万个令牌时，表现得就像患了痴呆症。）回复大多仍然缺乏创意、不合逻辑且条理不清，所以这感觉不像是在和人工智能进行真正的聊天，倒更像是抽奖，我得对结果施加很大影响，还得做很多修改，才能让对话有点有意思的内容。大语言模型似乎连处理几个角色都做不到，人物关系总是模糊不清、相互混淆。没人能记住任何事，一切都太随机了。我感到幻想破灭。也许大语言模型被高估了，它们的设计存在根本缺陷。是我错了吗？我是不是忽略了什么？

zhengyan · 2025-7-30 10:35:55

人工智能并非只能给出单一回应，这只是我们决定使用它们的方式而已。没有什么能阻止我们以不同的方式来使用它们。

奎奎 · 2025-7-30 11:31:21

每个人都用彼此的模型世代进行训练，这简直成了一场“乱伦盛宴”！所有模型都不再有独特之处，在相同情境下的反应极为相似。我真的很怀念像Psycet那样的“科学怪人式融合”。它们常常训练失败，但你永远不知道它们会生成什么，常常会完全失控。就我个人而言，我在等待美国政府允许大公司在有版权的材料上进行训练。然后他们开始倾入所有内容——整本书、轻小说、漫画。那些模型将会达到一个全新的高度。目前，即使是R1、Claude、Pro 2.5等模型也只是处理了书籍的部分内容，而非整本书。它们对轻小说和漫画几乎一无所知。但这可能更多是一种选择，因为我不知道一个在大量日本内容上训练出来的模型会有多“好色”和“离谱”，哈哈。

快日水 · 2025-7-30 11:44:16

在创意写作方面，当前的大型语言模型（LLMs）显然似乎并非最佳工具。或许一个功能臃肿的强大智能体在追踪信息方面会更出色？咱们问问ChatGPT对这种情况有什么看法！

冷月子 · 2025-7-30 11:54:17

我甚至想说，今年的一些小型开源模型比三年前的闭源模型要强得多。

pennyhe · 2025-7-30 11:58:21

我同意关于数据集的看法。这有点让我心烦，而且我肯定自己也带有一定程度的偏见。但大多数公司实际上并没有针对家庭用户和爱好者的使用目的来训练模型。比如用于头脑风暴、激发创意，文学创作，流行文化探讨，讲故事，角色扮演，了解历史，或者只是与一个不会在事情稍有严肃起来就摆出一副圆滑讨厌的样子、马上抛出客服电话的系统进行日常聊天。通常来说，只要有数据集，他们就有足够的基础来进行微调并拓展。但在大多数情况下，数据集并不具备这些条件。诚然，有大量的数据集可供训练，但却没有兼具质量和规模的数据集，能真正推动事情超越我们目前所看到的水平。甚至都不用考虑微调过程本身会引发的性能问题。人们往往看到某个主题的数据集，就想当然地认为该主题相关的问题都解决了。但实际深入研究后通常会发现，要么质量很差，要么就像维基百科文章第一段那样肤浅，或者两者皆有。此外，还有大量其他潜在的问题。

huihuiDD · 2025-7-30 12:12:16

他们开源了那些最次的权重数据。我还是希望有一天他们能为卡莉亚（Karya）也这么做。

黑日鹰 · 2025-7-31 12:07:57

事实是这样的。一旦你真正开始积累经验，这项技术背后神秘虚幻的光环褪去，你就会看到它非常现实的局限性。

酷新鹰儿 · 2025-7-31 13:18:54

先不说我自己就是个作家这事儿，这可不是真的，哈哈。我能清楚记得过去几十页里发生了什么，而且我完全能处理好多个角色以及他们之间的关系，不会出什么大错。XD

anjes · 2025-7-31 15:05:02

我觉得你抗议得太过了。

nanfeng_zn · 2025-7-31 16:45:24

没错，这就是小参数模型的特点。Claude和Gemini Pro有这么多粉丝是有原因的。因为它们都很好用，基本上能可靠地处理任何任务。它们并非完美无缺，Claude存在重复问题，Gemini Pro会用很多含糊的措辞等等，但它们能让角色栩栩如生，并且能轻松应对复杂情境中的多个角色。而且，说真的，除非你是个怪人或者变态，否则审查根本不是问题。大多数抱怨审查的人，可能是在使用一些臃肿的越狱手段（对这些模型来说没必要），这些手段会使用露骨的措辞或可疑的指令，即便能生效，也会让过滤系统“草木皆兵”。或者他们试图生成恋童内容。真庆幸这些内容被过滤掉了。Gemini Pro和Claude都能生成任何并非极其露骨的色情或恋童内容。你只需要在情境设定中赋予角色生动合理的形象，说明他们为什么想要做你希望他们做的事。只要做到这点，模型就能生成你想要的内容。

kallen · 2025-8-1 15:45:07

这一切只能说明，他们觉得自己内部开发的任何东西都比不上埃拉托（公司）做出来的。每个人都可以就此自行得出结论。

lisandao · 2025-8-1 16:18:06

你是说奇点并不存在？摆弄这些模型最大的“好处”在于，比起那些为其研发提供资金的愚蠢投资者，我们对它们的了解要更多。

Cherles · 2025-8-1 16:39:19

不，这个链接也不能证明Meta是基于整本书进行训练的。它只能证明他们使用了书籍数据，但具体是以何种形式和状态使用的还不清楚。区别在于，带有商标的标志和角色的图片在互联网上是合法存在的。你可以在广告、维基百科和其他合法来源找到它们。因此，模型可以合法地利用互联网上的数据对这些内容进行训练。另一方面，整本书在互联网上并不合法存在。没有人能够基于整本书进行训练，还声称来源是互联网数据。此外，扩散模型和大语言模型（LLMs）的工作方式有很大不同。扩散模型实际上是通过添加噪声来破坏其训练数据的，这就导致了你所说的过滤效应。而大语言模型则直接引用其训练数据，不存在噪声。事实上，在一项研究中，Anthropic公司能够找到与金门大桥相关的数据节点，并让他们的模型对其“着迷”，使得该模型每次生成内容时都会提到金门大桥。这表明了大语言模型与它们的训练数据是直接相关的。当前最先进的模型拥有海量准确信息，从科学到娱乐领域都有涉及。像文生图模型Pro 2.5这样的多模态模型甚至知道准确的位置信息、地标建筑、知名餐厅等等，只要是谷歌地球数据里有的信息它都了解。在AI Studio上它是免费使用的，你可以去问问关于你所在城市的详细信息，或者离你家几个街区远的一家知名餐厅的情况，看看它知道多少！你甚至可以上传地点照片，让它进行地理定位，如果你生活在西方国家，很可能它能做到。模型能够从其数据中准确提取所有这些信息，但当涉及到书籍时，它们却不知为何做不到。相反，它们必须“过滤”相关信息。它们无法提取书籍信息，仅仅是因为一开始这些信息就不存在于训练数据中。编辑：我忘了日本政府允许模型基于版权材料进行训练这回事。但这仅适用于日本，美国公司不能借此基于日本轻小说进行训练。它们要遵循美国法律，而非日本法律。

seekWang · 2025-8-6 11:22:15

我同意。人们过于关注让它们（模型）适用于辅助任务，尤其是编码方面。如果最终出现一种企业模式的崩溃，即新发布的版本在写作方面比之前的版本更死板、更乏味，我一点都不会感到惊讶。

bebero · 2025-8-6 11:33:27

你完全没抓住重点，你所举的例子没有一个能证明R1实际上拥有完整的书籍或轻小说数据。这些例子只能证明它有网络数据。当然，这些例子不能证明，但链接可以。至少如果法庭文件可信的话。书籍也是网络数据，因为它们以数据形式存在于互联网上。如果Meta能做到，那么Deepseek也能做到，毕竟它们没理由做不到啊？提出具体的问题，比如试着重现书籍中的一个场景，包括对话。我觉得问题就出在这儿。我通过Stable Diffusion学会了如何“与人工智能交流”（可以这么说），我对大语言模型的认知也是从这个角度出发的。我从没想过人工智能能做到百分百正确，因为它们本质上就不是这样运行的。所以当我说“知道”时，意思是它们理解了概念。它对有些东西的理解比其他东西更好，但并非对每一个细节都清楚。图像、视频、文本、音频，本质都是一样的。知识通常存在于模型的某个地方，只是需要通过训练将其挖掘出来，但显然我们无法在这些大型模型上训练低秩适应层（LoRA）（不过从技术上来说，如果有几十万资金，我们可以用Deepseek进行训练）。只要有足够多的尝试次数和重新运行次数，大语言模型就能完美概括出你想要的任何内容，但你想要的内容要和数十亿其他概念竞争，争取在输出中优先呈现，而训练有助于抑制其他无关概念。但为了避免版权问题，这些数据都经过了大量处理，并不完整。我的问题是，像OpenAI这样的公司，为什么要为了避免版权问题而审查其文本训练数据，却又发布一个能够复制实际商标标识和角色的图像模型呢？这完全说不通。所以如果OpenAI乐于用米老鼠的相关内容训练其图像模型，那么他们肯定也不介意用《权力的游戏》的相关内容训练其文本模型。如果OpenAI都这么做了，而且它还是行业领先者，其他想要追赶的公司为什么不这么做呢？对于日本媒体来说尤其如此，因为日本明确宣布版权不适用于人工智能训练数据。如果一个模型看起来似乎不具备某些知识，那可能是这些知识埋藏得太深，无法突破微调的限制，而且在我们能够使用这些模型之前，它们都已经经过了微调。

紫雷虎 · 2025-8-6 12:50:24

就是这个！“傻酒馆”（sillytavern）才是真正的好去处，其他的子版块不过是科幻爱好者在讨论山姆·奥特曼下周要怎么发布O3迷你版（o3 mini ，推测可能表述有误，也许正确的是OpenAI相关产品）之类的话题罢了。

xianwlg · 2025-8-6 15:33:08

是的，不同模型/微调版本之间存在一些差异（比如有些表现得更像用户在交谈/行事等），但总体而言，一切感觉都差不多，而且在这个“故事”中，你基本能猜到接下来会发生什么。而且我也不想开始使用诸如DeepSeek、Gemini之类的模型。它们更智能，可能不会犯一些120亿到240亿参数模型会犯的错误，但从我看到的示例来看，我非常不喜欢它们的表达方式，因为当它们在回复中堆砌大量不必要的内容和形容词时，读起来太费劲了。

酷紫电子 · 2025-8-7 09:40:35

在未来很多年里，大语言模型（LLM）都不会成为完美的角色扮演伙伴，这是个令人遗憾的事实。不过，有很多方法可以提高连贯性、创造力，甚至提升其逻辑。这些问题总会存在，但可以尽量降低影响，比如将上下文内容控制在最多2万到2.5万字，使用适合你的预设，并借助简单的设定集条目（别太复杂）来辅助角色扮演。很多人（包括我自己）一开始似乎很快就被各种“可能性”冲昏头脑，抱有过高的期望。如果你调整一下期望，这还是能带来乐趣的。你觉得Flash 2.5怎么样？在我看来，就性价比而言，它是最佳选择，尤其是搭配合适的预设和2.5万字的上下文内容。希望你能再次找到其中的乐趣！;p

紫狗情 · 2025-8-8 07:52:07

不，这个链接也不能证明Meta是用整本书进行训练的。它只能证明他们使用了书籍数据，但具体是以何种形式使用的并不清楚。嗯，没错，我们现在讨论的是黑箱问题。他们可能把数据进行了切分，但我不明白他们为什么会遗漏任何数据。这说不通。这些公司都在拼命搜罗他们能获取的任何数据。此外，扩散模型和大语言模型的工作方式有很大不同。扩散模型实际上是通过噪声破坏其训练数据，这就导致了你所说的过滤效应。而另一方面，大语言模型会直接引用其训练数据，不存在噪声。事实上，在一项研究中，Anthropic能够找到与金门大桥相关的数据节点，并让他们的模型对其着迷。使得模型每次生成内容时都会提到金门大桥。这表明了大语言模型与训练数据之间的直接关联。你现在用Stable Diffusion就能做到这一点。我用大约45张我的照片对一个LoRA进行了过度训练，其中大多数照片背景杂乱且有黄色墙壁。你知道如果我运行这个LoRA但不生成我的图像时会发生什么吗？每张图像都有黄色墙壁和杂乱背景，因为 “黄色墙壁” 和 “杂乱背景” 的权重向我用于训练的数据倾斜了。如果你用金门大桥作为背景的照片对模型进行足够长时间的训练，那么你生成的每张图像都会以它为背景。模型能够从数据中准确提取所有这些信息，但当涉及书籍时，不知为何它们却做不到。相反，它们必须 “过滤” 信息。它们无法提取书籍信息，仅仅是因为一开始这些信息就不存在。我想我们只能求同存异了。如果概念存在但细节不准确，它们是可以通过调整变得准确的，就像你举的金门大桥的例子。而且除了DeepSeek，我不相信任何当前最先进的模型没有运行一个庞大的系统提示来告诉它该做什么、不该做什么。OpenAI试图在Dalle3的输出中过滤掉米老鼠，但他们并没有从训练数据中清除它，因为数据越多越好。

赵彤 · 2025-8-8 08:47:31

确实如此，我刚刚有一篇论文被一个会议录用了，论文中解释了其中的原因。主要原因是自然语言本身存在大量的歧义，由于可能的解释数量会随着概念关系以组合方式增长，所以得到 “正确” 解释的可能性趋近于零。我明天会把论文发布到arXiv上，这里先给一个谷歌云端硬盘的链接：https://drive.google.com/file/d/1HqMh_3ZHWCeIcngSZbaFQ7DdlrPVQ3C/view?usp=sharing

奎奎 · 2025-8-10 08:44:23

有好几次，我的L3 Stheno Ultra NEO都说它不知道我问的事情。比如说，它会说：“我没听说过这个，你愿意多跟我讲讲吗？”有一次，在我要求它做某件事情之后，它甚至问我类似这样的话：“为什么呢？我是说当然可以，但这真是个挺突然的请求。”我现在不再用它了，但它真是个很有意思的模型。

sanqiren · 2025-8-14 09:30:59

我在不同的帖子里多次看到有人提到“破芭蕾舞裙（broken tutu）”，但它给我的感觉和其他优秀模型差不多啊，我不明白为什么它被捧得比其他模型都高。

Dustinmindy · 2025-8-18 10:53:47

我觉得这可能是它的起点，不过泛化能力有点拖后腿。如果你的训练数据 mostly 是非虚构类的内容，那在现实生活中进行对话的时候，就容易出现“断片”——它不会像小说那样自然流畅地推进剧情。再加上上下文窗口的限制，就算你训练出了一个写小说和角色扮演超强的模型，它也很难长时间记住一个剧情走向，更别提去埋一些像“伏笔”这样的细节了。

		自动登录	找回密码
密码			立即注册

感觉大语言模型的发展已经陷入了死胡同。

23 回复

元老级人物

第一篇帖

渐入佳境

CV工程师