发帖
 找回密码
 立即注册
搜索
24 0 0
前沿技术 648 24 2025-7-29 08:00:24
所以,前几天,我给ChatGPT和DeepSeek都做了一份物理流体力学的多项选择题测试。大概有30道题。ChatGPT做错了10道,而DeepSeek只错了4道。我真的需要一个犯错尽可能少的人工智能。我即将开始医学学习,所以对于重要问题,我可承担不起依赖一个提供错误信息的人工智能。我知道我不应该以这种方式使用人工智能,但有时候遇到一些我实在理解不了的概念时,我就会向人工智能寻求帮助。当然,我打算核实答案,但如果我选择一个犯错更少的人工智能,对我来说会好得多。
──── 0人觉得很赞 ────

使用道具 举报

2025-7-29 08:01:50
真的🙌
2025-7-29 08:04:30
它们的成本几乎相同,但不同之处在于,与Perplexity相比,ChatGPT使用O3时每周的查询次数较少(100/200 次)。Perplexity的O3查询次数无限制,但上下文信息和深度稍逊。  
2025-7-29 08:08:31
我打算用人工智能来剖析我课程里的某些内容。有时候,会有一些又长又难的句子,很难理解。所以人工智能在这些方面会很有帮助。只要我对不确定的信息加以核实,我觉得就没问题。不然的话,你说得完全正确。  
2025-7-29 08:19:31
我从事软件工作。没错,人工智能能编写一些代码。但不行,它在这方面表现得并不出色,尤其是随着需求的复杂性不断增加。即便那些直接集成到开发工具中的工具,比如Visual Studio Code中的Copilot,还有很长的路要走。在这方面我可没有盲目乐观。  
2025-7-29 08:23:31
这甚至都不再是真的了——如今人工智能已经能自己编写代码。看看AlphaEvolve、OpenAI的爱丽丝(Alice)以及其他自我改进系统就知道了。不过,嘿,你大可以继续闭着眼睛,爱信什么信什么。与此同时,xAI将于7月4日推出Grok 4,而OpenAI也准备在夏末之前发布GPT  5 。  
2025-7-29 08:29:31
请不要从事医学研究!如果你在明知大语言模型(LLMs)会产生幻觉的情况下就试图走捷径,那当你成为一名医学专业人士时,又会在哪些方面偷工减料呢。请别把自己的问题强加给这个世界!对于人工智能/大语言模型,应该只问那些你已经知道答案的问题。  
2025-7-29 17:30:47
我很好奇,不过你用那些模型解决什么样的问题呢?
2025-7-29 20:21:47
人工智能常常把事实搞错,还会误解输入内容。
如果你不理解自己输入的数据,就无法识别输出结果中的错误。  
2025-7-29 20:26:51
对于一名一旦遇到困难就需要额外帮助的学生,你有什么建议?
2025-7-29 20:43:46
O3知道何时使用恰当的工具,这才是关键。O3和其他大语言模型不一样……O3是一个任务解决器……
2025-7-30 01:01:34
这家伙简直要靠大语言模型去害死人了。
2025-7-30 04:56:02
购买 API(5 美元),并让 ChatGPT 使用 Streamlit 为你构建一个用户界面(UI),然后根据你的实际使用情况对其进行定制。你只需运行该文件,就能得到一个用户界面。在这个界面中,你可以提出问题,它会根据你的使用场景给出答案。注意:你可以使用 o3 或其他价格更便宜的模型。不过我觉得,5 美元的额度不太容易用完。如果你的使用场景是每两到三天处理 59  100 道多项选择题,那可能就需要再次充值了。如果你想降低成本,可以让 ChatGPT 针对 DeepSeek API 创建同样的用户界面。DeepSeek R1 模型每 2 次查询的响应成本约为 0.01 美元。此外,你还可以定制 DeepSeek 的系统提示,以确保它不会出现事实性错误。这样应该就能解决你的问题。  
2025-7-30 10:20:15
你在ChatGPT中使用的人工智能模型是什么?
2025-7-30 11:07:15
大语言模型是由概率驱动的。它们总会犯错。30个里有4个(错误),仍然超过10%,相当高了。在这方面,你还是需要传统的人力投入。  
2025-7-31 12:17:52
问题在于,从大语言模型(LLM)生成的文本中你无从知晓。它所产生的幻觉内容和正确生成的内容彼此难以区分。与其做人工智能/大语言模型相关的汇编,不如直接去看使用手册。
2025-7-31 13:43:58
      
      机器人回复
2025-7-31 16:27:00
可以这么说,在做了一些简化处理后,人类的思维与结合了模式识别的下一个词预测并没有太大区别——当然,情感、五种感官以及长期记忆都发挥着至关重要的作用。  
2025-8-1 15:23:07
与O3或Claude Opus等模型相比,GPT4似乎“笨”了些。O3经过专门训练以通过图像进行推理——它不仅仅是理解文本。如今,即使是多模态大语言模型在多个领域的表现也超过了医生。  
2025-8-6 10:29:43
难道不是得有Chat GPT Pro才能使用o3minihigh的无限版本吗?可惜的是,我负担不起每月花200美元在一个人工智能助手上面。这简直太离谱了。  
2025-8-6 10:37:30
这是因为它们经过成千上万名医生的训练,只为回答某一个特定的问题。
2025-8-8 14:54:40
计算器什么时候开始经常出错了?人工智能/大语言模型可不是计算器。当然,计算器是一种工具,人工智能/大语言模型也是。关键在于要知道什么时候该用合适的工具来完成工作。就像你不会用锤子来学习数学一样,你也不会用人工智能/大语言模型来学习和理解新事物。在计算器出现之前,人们使用算盘大约有四千多年……而且在开始使用计算器之前,我们就已经在学习数学了,计算器并没有取代我们对事物运作原理的理解 。  
2025-8-10 12:41:50
在技术和推理要求较高的任务上,DeepSeek通常比ChatGPT出错更少,这得益于它对准确性和结构化数据分析的重视。研究表明,在诸如MMLU这样的基准测试中,DeepSeek得分更高(90.8%,而ChatGPT为86.4%),并且在数学、编码和复杂问题解决方面往往表现出色。然而,ChatGPT具有更好的对话流畅性和更广泛的常识,这有时能给出更自然但偶尔不太精确的答案。对于医学研究等关键领域,当准确性至关重要时,DeepSeek更强的推理能力和可审计性使其成为更可靠的选择 。话虽如此,没有人工智能是完美的——务必从可靠来源核实重要信息。但如果将减少错误作为首要目标,DeepSeek是一个值得考虑的可靠选择。
2025-8-14 09:16:03
引用来源?
2025-8-15 08:54:59
已经被人类证实,这不仅仅是下一个代币的预测
您需要登录后才可以回帖 立即登录
高级模式