发帖
 找回密码
 立即注册
搜索
1 0 0
前沿技术 888 1 2025-7-23 15:19:54
我完全不懂技术,这问题可能挺蠢的。但我就是想弄明白,大语言模型(LLMs)是怎么成为主流人工智能模型的呢?在我印象里,还有其他机器学习模型或者神经网络,也能梳理非结构化数据里的趋势并生成结果呀。也就是说,大语言模型(LLMs)到底有啥独特之处呢?
──── 0人觉得很赞 ────

使用道具 举报

2025-7-23 15:20:07
你可能是对的,但我不确定。它绝对是更分散的。OpenAI现在有什么,1m GPU?必须有多个100的gpu,再加上大量的计算是在CPU上执行的,其中有多个100的设备。我认为有可能得出一个粗略的数量级计算,但我不会这样做。很难说
2025-7-23 15:20:52
“注意力就是你所需要的” 在时间序列预测上得到的关注较少,但它几乎抹去了一切。在这一点上,它是首要的LSTM构建块
2025-7-23 15:21:35

我在第一段提到了谷歌。也许你应该让GPT向你解释一下。Google不需要狂欢节barkers来炒作其产品并赚钱。
2025-7-23 16:37:49

Llm和人类在数学上是出了名的糟糕
2025-7-23 16:42:38

这是我在很长一段时间内读过的信息最丰富的文章之一。谢谢分享。信息和知识是今天所缺少的。许多人对我们日常对话中的数百个新术语感到困惑。这也是我们所做的-我们将现有的颠覆性技术研究包装到小说小说中-用于大规模消费n www.womanbecool.com
2025-7-23 16:47:54

请告诉我一个 “高技术熟练的用户” 谁可以产生ChatGPT一样的结果2021年。
2025-7-23 17:30:54

这里有很多好的历史,但它错过了EZIZA效应。Eliza是60年代最早的聊天机器人之一。他们激发了90年代末的聊天机器人,如AIM的SmaterChild,用户可以自由交谈,甚至提供支持,可以回答基本问题。然后,随着并行计算变得更好,创新变得更容易,然后2016命中,“注意力就是你所需要的” 下降。这是一个改变游戏规则的人,因为在此之前,训练聊天机器人非常困难,而且yoy使用了完全不同的技术,如神经网络,巨大的数据堆栈等。LLMs在可访问性,成本效益 (与其前辈相比) 和速度之间实现了交叉。您需要一段时间才能获得一些巨大的输出,现在您可以在任何8〜16gig卡上运行Gemma 3b并获得不错的结果。如果你想了解更多,我建议在YouTube上韦尔奇实验室。下一个重大飞跃似乎是扩散式llm,它通过使用类似于图像生成的扩散技术而偏离了它们的transformer brothers。他们更容易出错,所以我还没有看到在这方面的发展。
2025-7-24 06:26:35

还有一个事实是,我们都生活在一个以注意力为基础的经济中,算法、人,基本上一切都在为个人的注意力而战。
2025-7-24 10:43:36
通向通用人工智能(AGI)的清晰路径?那只是炒作罢了,哈哈,别上当,这是不会发生的。  
我们也确切知道秀丽隐杆线虫的大脑是如何构成的,因为科学家已经完整绘制出了该物种的大脑活动图。但科学家们仍表示,他们不清楚这种仅由302个神经元组成的大脑是如何运作的,因为他们无法将该物种的行为与大脑活动完全关联起来。人工智能科学家对于大语言模型(LLMs)也有同样的看法。如果他们已经弄清楚了所有原因,就不会有大量关于它们可能如何运作的假设性研究论文了,不是吗?  
2025-7-24 11:02:53
这更多的是技术炒作。大语言模型(LLMs)用途更广泛,而且盈利途径更清晰。你知道苹果销售产品的方式吧,那些产品往往既不是最早的,也不是最好的,但就是营销做得最好。这里的情况也是如此。其他 “人工智能” 类型的模型所处的领域并没有明显的盈利策略。  
2025-7-24 11:25:46
没错……那是因为到那时,人们已经完全把上下文窗口搞乱了,对吧?还是说情况比这更复杂?
2025-7-24 11:32:11
我不是说它就是这样,关键在于很多人都这么认为,而且他们正往这上面投入数千亿美元。我个人怎么想并不重要。
2025-7-24 12:36:35
我曾经为了比这还小的事就杀过人。
2025-7-24 15:05:45
其他系统依然存在,对于很多问题,它们的表现比大语言模型(LLMs)更好,而且运行成本要低得多。并且它们仍在被使用。它们并非当下炒作的对象 。  
2025-7-24 17:54:26
大语言模型(LLMs)并非人工智能的主要模型,它们只是最为人熟知,因为它们专注于语言,而语言恰好是所有人类都能理解的东西。这就是它们吸引了如此多关注的原因。但实际上,其他类型的人工智能模型已经存在了几十年,并且为从视觉到机器人技术再到控制系统等广泛的应用提供支持。大语言模型是专门为生成和理解文本而设计的(从名字就能看出来)。这是它们所擅长的。它们看起来比实际更强大的原因在于,像ChatGPT这样的平台将大语言模型用作一种自然语言界面,就像是一个在幕后与其他更专业的模型或工具进行通信的翻译器。所以当我们与ChatGPT交互时,感觉好像大语言模型在做所有的事情,而实际上,它往往只是在向其他系统或模型转发指令。所以,要回答你的问题,它们的独特之处在于它们能像地球上80亿人那样使用语言交流。能够用自然语言与计算机交互,为面向用户的人工智能在全球更广泛的应用打开了大门 。  
2025-7-24 18:30:58
哦,真的吗?要知道,到现在已经过去三年了,你能跟我讲讲我们在教育领域究竟成功应用它(这项技术)在哪里吗?麻省理工学院的报告已经表明,生成式人工智能的使用会显著影响知识的长期记忆效果。而且我们都清楚它会产生幻觉,在没有任何严重后果的情况下,它并不是用于自动评分的可靠工具。那么,除了制作YouTube视频,你打算在教育的哪些方面应用它呢?(我可能有些困惑,但请帮我弄明白)哦,真的吗?有哪种颠覆性技术在诞生三年后还没能形成稳定的应用趋势呢?网络搜索?万维网?手机?即便存在诸多问题的自动驾驶技术呢?我们甚至还没有充分测试绿色氢能的潜力,可它已然成为绿色能源领域最热门的发展方向之一……而且目前甚至还没有一种成熟的、不会带来负面影响(比如海水淡化或比电解更好的方法)的净化水提取技术,但这也已经发展成了一个产业。我们生活在一个人们甚至在技术尚未成熟时就将其商业化的时代,想想云游戏就知道了。而且在上,每个人都在说这些模型将会有多大的潜力。得了吧……照这说法,我们一年后都能去火星了。
2025-7-25 22:46:08
超过5个人?
2025-7-28 00:42:22
从某种程度上来说,计算机模型专注于任务的能力在不断提升,而人类的这种能力却在衰退。  
2025-7-28 03:00:53
如果你觉得当前的科技变革大多只是“炒作”,那我真不知道你生活在哪个星球上。另外,外面有一些离谱的观点(滑稽),认为价格是衡量某物实用性的一个很好指标,所以说“其他模型没有明显的盈利策略”,这其实是拐弯抹角地表示其他模型没那么有用。  
2025-7-28 06:03:06
狭义人工智能在很大程度上是主流人工智能。相比之下,大语言模型(LLMs)不仅罕见,而且运行速度极慢。狭义人工智能每瓦特的实际性能要高得多,但它只适用于特定目的,比如寻找新的候选药物或进行面部识别。从宏观角度来看,我预计狭义人工智能实际上将承担大部分工作并产生大部分成果。大语言模型会有一定用处,但相比之下,它们每瓦特的效率永远无法与之相提并论。我预计最大的突破将出现在狭义人工智能领域,因为在这个领域每瓦特能获得最高性能。大语言模型在解析现有数据方面表现较好,而且大多能得出与人类相同的结论。它对于在大型数据集中实现自动化以及发现隐藏模式很有用,不过话说回来,专门为此设计的狭义人工智能在这方面的表现会远远超过大语言模型,只要你所寻找的模式范围相当狭窄。对于一种你可以与之对话且能相对缓慢地得出通用结果的人工智能来说,大语言模型占优,但与狭义人工智能的强大运算能力相比,这似乎只不过是基本的自动化操作。新闻总是报道大语言模型,所以人们觉得这才是重中之重,但实际上并非如此。狭义人工智能才是关键所在,它将助力研发出超级药物和超级材料,攻克最棘手的难题。与大语言模型缓慢而稳定的通用自动化相比,狭义人工智能才是推动人工智能发展的真正引擎。因为无论大语言模型发展得多么先进,它们在性能上始终远远不及狭义人工智能。大语言模型不可能聪明到足以弥补每瓦特性能上的巨大差距。  
2025-7-28 08:39:54
当原帖作者(OP)在简化大语言模型(LLM)时,“大语言模型不过是一个经过训练以生成下一个最可能单词的统计模型”这一事实并未改变,就像马尔可夫链一样。潜在空间和注意力机制并不能改变这一点。  
2025-7-29 17:45:48
欢迎来到r/ArtificialIntelligence(人工智能)入门问题讨论指南在当前及未来的帖子中,请遵循以下指南:帖子字数必须超过100字,内容越详细越好。你的问题可能已有答案。如果没人回应你的帖子,可使用搜索功能查找。“人工智能会抢走我们的工作”——这个问题已经被问了很多次!关于人工智能利弊的讨论是被允许且鼓励的。但请注意保持尊重。请提供链接以支持你的观点。没有愚蠢的问题,除非是说人工智能是带来世界末日的恶魔这种,不过它并非如此。谢谢——如果你有任何问题、意见等,请告知版主。我是一个机器人,此操作是自动执行的。如果你有任何问题或疑虑,请联系本版块的版主 。  
2025-7-29 20:30:50
大语言模型(LLMs)采用一种被称为“Transformer(变换器)”的架构(“ChatGPT”中的“T”就代表Transformer)。它们源自对语言分类的研究。2017年,一组研究人员发表了论文《Attention Is All You Need》,描述了如今被称为Transformer的架构。Transformer架构易于并行处理,因此能够快速扩展规模,其成果便是具备革命性语言运用能力的大语言模型。人们如此专注于大语言模型,是因为大语言模型可以进行扩展,而且它们的语言能力似乎能够推广应用到诸如编码、数学和逻辑等其他领域。大语言模型在如此短的时间内取得了巨大进展,以至于其他方法都被边缘化了。不过,这并不是说对大语言模型的持续研究仅仅是简单的规模扩大。在诸如合适的训练模式、整合工具使用或添加某种形式的记忆等方面,都涉及到很多复杂因素 。  
2025-7-29 21:04:53
说真的……列举一个生成式人工智能(GenAI)的应用实例,要能让除了OpenAI和英伟达之外的公司,通过产品销售而非股票价值赚到数十亿美元的。如今生成式人工智能的具体用途究竟是什么?教育领域?显然没有。医疗领域?目前显然毫无应用。自动生成的网飞电影?要知道网飞可是过去两年里从用户数量来看表现最差劲的媒体公司。裁员?猜猜如今哪家公司正把工程业务外包到印度。搜索领域?每天仅有1.83亿次查询,而且OpenAI首席执行官还在叫苦不迭,因为他们的服务器都快吃不消了。他们又怎么能想象把生成式人工智能业务扩展到搜索业务那样的规模呢?自动驾驶、机器人领域?诚然,人工智能在这些领域应用广泛,但实际上并非生成式人工智能(专用工具意味着速度和精度,通用工具意味着适用范围。对于实时应用,我甚至会考虑使用大语言模型)。那么,生成式人工智能究竟在哪个特定领域做出了贡献,而且没有其他更好的工具与之竞争呢?只有一个……自动文本生成。真棒……好像我还需要更多的网帖子来读似的
2025-7-31 16:03:04
这并非“单个研究”项目。变压器的许多基础内容此前就已存在,是由其他研究人员开发的,比如注意力机制。他们找到了将所有要素整合在一起以构建一个良好可扩展模型的方法,但他们的工作是众多不同研究人员所做的一系列大量研究工作的结晶,这些研究最终促成了变压器的诞生 。  
2025-8-5 08:21:25
这过于简化,甚至会产生误导。Transformer 包含一种注意力机制,用于了解哪些前面的词元与预测下一个词元最为相关。它们还有编码器和解码器来表示潜在状态,以及一个解码器将预测空间转换为最有可能的下一个词元。你描述它的方式让人觉得它只是一个简单的马尔可夫链。  
2025-8-6 10:16:21
当然,但这只是因为OpenAI还没有变得糟糕透顶。不过迟早会的。 他们的计算开销要高得多,所以这种情况不可避免。  
2025-8-6 15:39:23
因为大语言模型非常擅长与人类互动。
在教育方面你可把我弄糊涂了。它在教育领域显然有大量的应用。仅仅因为公司没有立即实现货币化,并不意味着它没有价值。脸书(Facebook)在最初的10年里也没有盈利,看看它现在的收入和利润吧。  
2025-8-7 09:29:29
谷歌的人工智能答题工具如今是他们展示的首要内容,却无法盈利?那为什么这家公司市值高达2.3万亿美元呢?
2025-8-11 09:38:39
愿意分享一些细节吗?这只是一个自定义的带有大语言模型调用的流程,还是你创建了一个定制模型?  
2025-8-12 14:56:49
像双子座一样进行预思考,这会增强模式相关性,其运作方式本质上就像你思考时的状态:你在思考时就如同处于自我循环中的大型语言模型(LLM) 。  
2025-8-15 20:30:02
优势显著成主流
您需要登录后才可以回帖 立即登录
高级模式