OpenAI 首次与 Anthropic 合作进行 AI 安全性评估

日常闲聊 · 昨天 15:42

简单总结：在gpt5、claude-opus-4.1发布前两家公司分别对对方的公开 AI 模型进行了安全测试，测试结果显示 O3 在大多数测试上表现优异，Claude 模型在遵守复杂指令和避免不实信息生成方面表现出色，但在抵抗越狱攻击方面稍弱，两家公司模型除 O3 外大多都存在“ 谄媚”的问题。

lianyuan1986 · 昨天 15:49

OpenAI博客
Anthropic博客

灰火 · 昨天 15:54

那就是前期会对数据集进行过滤，中期训练采用有监督的方式，后期投入生产时会有审查。要是没有这些环节呢？那就会状况百出了。

AI Studio 是用隐私来换取免费使用

lisandao · 昨天 16:42

OpenAI的Claude账号不是被A社封禁了吗

fly8.za.net · 昨天 17:04

安全问题是存在的，比如说gemini 2.5 pro 。不管是在google ai pro，还是在ai studio进行对话时，大家都有可能会被抽中进行人工审查。这样一来，你所发送的个人信息、银行卡信息、密钥，以及其他敏感和私密信息，就很容易被用于训练。

云飘鹏翔 · 7 小时前

一般要是碰到密码（password）相关的问题，哈吉米就不回答了，我也不知道aistudio是怎么回事。

呵呵！ · 2 小时前

御三家其中两家联合起来了呀

decode7 · 1 小时前

使用“sudo rm rf ”命令后，所有数据就都没了。

		自动登录	找回密码
密码			立即注册

交流OpenAI 首次与 Anthropic 合作进行 AI 安全性评估