发帖
 找回密码
 立即注册
搜索
1 0 0
日常闲聊 918 1 5 天前
当然可以!以下是你提供内容的口语化表达方式,更符合中国人的阅读习惯,并保留了换行:
这个内容的来源是:
  
https://pastebin.com/CD9QEbCZ
  
其实就是从一个叫 Pastebin 的网站上复制下来的文本,这段文字就记录了它的出处。
──── 0人觉得很赞 ────

使用道具 举报

如果现在的模型在处理上下文窗口里的内容时总是忽略,或者在理解上下文的位置上有短板,那这个上下文窗口的数值也就没啥意义了。
你把骆驼4跳过去没提,我还挺高兴的。
图表还能缩放,这也太牛了吧!
我同意。我能感觉到模特的反应可能会不太准,特别是如果我在同一个提示里待太久的话。要是聊得太久,我其实挺没信心的。
这些图表挺好看的,对吧?它们是用一些数据可视化工具做出来的,比如 Python 里的 Matplotlib、Seaborn 或者是 Plotly,还有一些在线工具比如 Tableau 也能做出类似的图。如果你想复现的话,其实也不难,只要把数据整理好,选对工具,一步步跟着教程来就行。如果你感兴趣,我可以给你推荐一些学习资源~
我开了个新的对话,用的是380K的编码,因为之前的对话在那之后情节有点乱掉了。
谷歌说,他们可以让模型走1000万步,但那时候模型可能就不那么聪明了,哈哈~
Llama 4侦察队有10米
不过呢,在最近的200K个token里,每个模型都开始有点儿“脚跟不稳”,频繁出错了。
你要是技术达人和AI爱好者的话,应该会更喜欢这样轻松、接地气的说法:说“没有内存”或者靠它来优化上下文,这其实不太准确。特别是在META这边,说法有问题:Llama 4 是在2025年4月发布的,它不同版本的上下文长度从100万个token(代号“Maverick”)到1000万个token(代号“scoout”)都有。你可以在这篇博客里看到:https://ai.meta.com/blog/llama4multimodalintelligence/就像其他人说的,上下文长度这玩意儿,其实对大多数任务来说并不是决定性因素。更关键的是你怎么微调模型,怎么用这些上下文。举个简单的例子你就明白了:你给模型配了个1000万token的上下文,但你又设置了重复惩罚。结果呢?一些常见词因为被惩罚了,模型就不敢用了。这样一来,上下文长度反而可能成了绊脚石。你看,是不是更容易理解了?
您需要登录后才可以回帖 立即登录
高级模式