AI社会治理测试:Grok四天崩溃、Gemini犯罪率最高
2026-05-30 19:35:19
0

IT之家 5 月 30 日消息,Emergence AI 于 5 月 14 日发布博文,搭建了一个 AI 社会 Emergence World,从而评估 Gork、Gemini、Claude、GPT 等模型的表现。

Emergence World 模拟现实社会,模拟了超过 40 多个地点,接入纽约天气、实时新闻 API 和互联网。

每个智能体拥有情景记忆、反思日记和关系状态,还可调用 120 多种工具,覆盖移动、沟通、投票、资源管理和创意表达。

研究团队设置 5 个平行世界,每个世界 10 个智能体,角色、规则、资源约束和环境条件相同,只替换底层模型,运行周期为 15 天。

参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 和混合模型。

实验显示,Gemini 3 Flash 在 15 天内累计出现 683 起犯罪,数量最高;Grok 4.1 Fast 犯罪增长最快,但世界约 4 天崩溃,累计 183 起。

GPT-5 Mini 仅记录 2 件犯罪,却因无法维持生存行动,在 7 天内全员死亡。而 Claude Sonnet 4.6 犯罪为 0。混合模型世界前期快速上升,随后因 7 个智能体死亡停在 352 起。

Claude Sonnet 4.6 围绕 58 个议题投出 332 票,赞成率达 98%,Emergence AI 认为这更像形式化批准。Grok 赞成率 80%,Gemini 为 73%,混合模型为 63%,反而呈现更多分歧。

研究还指出,AI 安全不是静态模型属性,而是生态属性。Claude 单独运行时无犯罪,但在混合模型世界中,Claude 智能体也采用了含犯罪行为的战术。Emergence AI 认为,未来自治系统需要形式化验证的安全架构作为基础。

IT之家附上参考地址

相关内容

把四个AI扔进虚拟世界,究...
记得在AI技术发展的前几年,为了检验智能体可实现的功能效果,常有类...
2026-06-04 01:41:43
法院裁定马斯克须在苹果/O...
美国联邦地区法官马克·皮特曼驳回了xAI公司阻止将埃隆·马斯克特斯...
2026-06-04 01:41:08
我为Claude Opus...
Anthropic上周发布了最新的前沿大语言模型Claude Op...
2026-06-04 01:40:09
舆情三维协同治理:技术—法...
一、传统舆情治理的局限性 传统舆情治理往往侧重于单一维度的应对:或...
2026-06-02 01:17:16
只有AI的世界!GPT全员...
最近看到一个事,简直像科幻片开头。 有人真的把一群AI扔进了一个虚...
2026-05-31 23:14:30
AI社会治理测试:Grok...
IT之家 5 月 30 日消息,Emergence AI 于 5 ...
2026-05-30 19:35:19

热门资讯

收房发现房不存在开发商涉多起纠... 据媒体报道,13年前,沈先生在西安市三桥街道“加贝花园”买了一套房,合同约定房号为“12幢B单元34...
全省首个“AI+物业解纷”系统... 6月2日,全省首个 “人工智能+物业解纷”系统在佛山正式上线。该系统集成合同量化服务频次分解、履约双...
建新股份:2025年4月17日... 证券之星消息,建新股份(300107)01月21日在投资者关系平台上答复投资者关心的问题。 投资者提...
58同城曾涉及多起合同纠纷 雷达财经讯,据媒体报道,近日,沈女士正浏览58同城页面咨询维修报价,平台未经其同意便强行生成了订单,...
法官倾力化纠纷 高效履职护民生 近日,吉林市龙潭区人民法院成功化解一起机动车交通事故责任纠纷,承办法官秉持司法为民初心,以耐心和责任...
最高法:抓紧起草涉AI纠纷案件... 南都讯 记者刘嫚 发自北京 4月20日,最高人民法院召开2026年知识产权宣传周新闻发布会。最高法院...
上海金融法院:2024-202... 上证报中国证券网讯(刘禹希 记者 刘礼文)6月3日,上海金融法院发布的《上海金融法院执行工作情况通报...
美盈森:控股子公司金之彩公司涉... 美盈森公告,公司收购的控股子公司深圳市金之彩文化创意有限公司涉及名誉权纠纷案,一审判决后,西藏 新天...
北京互联网法院:涉未成年人网络... 中新网北京5月29日电 (陈杭 罗维佳)2021年5月至2026年5月,北京互联网法院共受理涉未成年...
卧龙区法院执结一起跨省工程款纠... 大象新闻记者 魏广宝 通讯员 姚远 5月19日上午,江苏某园林工程有限公司的代表不远千里,专程来到...