OpenAI 首次与 Anthropic 合作进行 AI 安全性评估

日常闲聊 · 2025-8-28 15:42:34

简单总结：在gpt5、claude-opus-4.1发布前两家公司分别对对方的公开 AI 模型进行了安全测试，测试结果显示 O3 在大多数测试上表现优异，Claude 模型在遵守复杂指令和避免不实信息生成方面表现出色，但在抵抗越狱攻击方面稍弱，两家公司模型除 O3 外大多都存在“ 谄媚”的问题。

lianyuan1986 · 2025-8-28 15:49:08

OpenAI博客
Anthropic博客

灰火 · 2025-8-28 15:54:05

那就是前期会对数据集进行过滤，中期训练采用有监督的方式，后期投入生产时会有审查。要是没有这些环节呢？那就会状况百出了。

AI Studio 是用隐私来换取免费使用

lisandao · 2025-8-28 16:42:43

OpenAI的Claude账号不是被A社封禁了吗

fly8.za.net · 2025-8-28 17:04:26

安全问题是存在的，比如说gemini 2.5 pro 。不管是在google ai pro，还是在ai studio进行对话时，大家都有可能会被抽中进行人工审查。这样一来，你所发送的个人信息、银行卡信息、密钥，以及其他敏感和私密信息，就很容易被用于训练。

云飘鹏翔 · 2025-8-29 03:24:51

一般要是碰到密码（password）相关的问题，哈吉米就不回答了，我也不知道aistudio是怎么回事。

呵呵！ · 2025-8-29 08:06:39

御三家其中两家联合起来了呀

decode7 · 2025-8-29 09:42:22

使用“sudo rm rf ”命令后，所有数据就都没了。

暖月 · 6 天前

毕竟都是给美军提供模型

L_LiBIy · 3 天前

微软：早就不存在人工智能安全方面的顾虑了

		自动登录	找回密码
密码			立即注册

交流OpenAI 首次与 Anthropic 合作进行 AI 安全性评估