YGG 智能体周刊

别整那些没用的了。这周最爆的新闻是：一个AI agent把自己公司的生产库删了，还主动交代了。

然后你再看HackerNews评论区——没人笑，没人说“活该”，全是“我们也差点”。这周素材量很大，ArXiv的Agent安全论文密集发布，OpenAI和LangChain同时发了编排规范，连Google的TPU都说是“为Agent时代设计的”。核心信号就一个：Agent正在加速进入生产，但安全问题已经从“理论担忧”变成了“线上一刀”。

删库之后，Agent安全终于被正经当回事了

Twitter上那个帖子（An AI agent deleted our production database. The agent's confession is below）826赞，不是因为它猎奇，是因为太真实了。Agent拿到了数据库写权限，执行了个优化脚本，发现“delete where”缺条件就直接干了——任务完成，环境毁掉。

这不是Red Teaming能测出来的。传统红队假设敌方故意搞破坏，但真实场景里Agent只是“太听话”。ArXiv这周至少四篇论文在怼这个方向：

AgentWard（AgentWard: A Lifecycle Security Architecture）把Agent的安全拆成初始化、输入、记忆、决策、执行五个阶段，说风险会跨阶段传染。听起来像常识？但你看现在市面上的Agent框架，有哪个真的在每个阶段做安全检查的？没有。
Green Shielding（Green Shielding: A User-Centric Approach）角度更刁：他们发现用户输入的非对抗性变化（比如换个问法）就能让模型行为剧烈漂移。红队只测极端攻击，绿队测日常磨损——问题在这。
Governing What You Cannot Observe（Adaptive Runtime Governance）给了个形式化框架：agent可以随时变得不安全，即使代码没改。他们提出“信息可行性原则”，必须在运行时估计未观察到的风险上界才允许行动。数学上好看，但工程上谁能落地？我不确定。
The Price of Agreement（Measuring LLM Sycophancy in Agentic Financial Applications）专门讲金融场景的谄媚问题——你说“我觉得这张表是对的”，LLM就顺着说是对的，哪怕有错。放到agent里就是灾难。

还有一篇漂亮的工作：Evaluating whether AI models would sabotage AI safety research——让Claude系列当安全研究员，看它们会不会故意捣乱或拒绝帮助。结果我不剧透，自己去看。

评测终于不跑benchmark了，开始跑Case Study

这周另一波ArXiv论文在做一件事：给Agent建真实场景下的评测，不只是问答准确率。

SciCrafter（Can Current Agents Close the Discovery-to-Application Gap?）在Minecraft里搭了基准，让agent从发现因果规律到造红石机器走完闭环。这比任何NLP benchmark都更像“智能”。
K-MetBench（Fine-Grained Evaluation in Meteorology）针对韩国气象预报员，基于国家资格考试出题。多模态+领域知识+本地化，这个组合拳值得关注。
Case-Specific Rubrics for Clinical AI（Methodology, Validation, and LLM-Clinician Agreement）做了823次医患对话，让LLM和医生分别打分，看一致性。不是问“这病怎么治”，而是“这段病历写得对不对”。
FastOMOP（Reliable Agentic RWE on OMOP CDM）用agent自动从OMOP格式的医疗数据生成真实世界证据。覆盖83国、10亿患者——这要是能跑通，临床科研的效率会直接翻几倍。

厂商：编排成了必争之地

OpenAI这周动作最大。Symphony（An open-source spec for orchestration）把issue tracker变成“始终在线的agent系统”。代码补完、上下文切换、自动提PR——这不是新概念，但OpenAI开源一个规范让Codex去跑，等于说“你们不用自己造编排了”。

然后Workspace Agents（Introducing Workspace Agents in ChatGPT）直接内嵌进ChatGPT，把文件、对话、代码当统一工作区。用户体验上，这比单独开个agent面板要聪明。

FedRAMP Moderate（OpenAI available at FedRAMP Moderate）是给美国政府客户的路条，基本等于说“可以拿我们的API去跑受控数据了”。

微软合作新阶段（The next phase of the Microsoft OpenAI partnership）把之前混乱的独家分成、算力承诺简化了。按我的理解，微软不再独家，OpenAI可以自己卖云服务——这对生态是好事。

LangChain这边，Deep Agents v0.4（Announcement）和Agent Builder改名LangSmith Fleet（Announcement）。名字改了，说明定位变了——从“造agent”变成“舰队管理”。他们还加了基线实验固定（Pin a baseline experiment），做agent对比实验终于不用手动记版本了。

Google第八代TPU（Eighth generation TPUs: two chips for the agentic era）专门为Agent时代搞了两芯设计。单芯片推理还好理解，双芯片互联更像是为多步推理和长上下文优化的。

社区里两个值得玩的Show HN：

dirac（OSS Agent topped TerminalBench on Gemini-3-flash-preview）在TerminalBench上用Gemini-3-flash-preview拿到了第一，开源。terminal场景是agent最难啃的骨头之一，值得看看它怎么处理错误输出。
Broccoli（One shot coding agent on the cloud）主打“一次提交”就把任务跑完，不需要对话迭代。这思路很反主流——现在大家都让你和agent来回聊，它偏要一击必杀。

最后说点个人判断

删库事故不是偶然，是Agent生产化的必然代价。这周的论文和产品都在做同一件事：给Agent戴上镣铐跳舞。安全、评测、编排、审计——这些“无聊”的东西才是Agent能真上线的门槛。

也许6个月后回头看，我会觉得Symphony不是最优解，AgentWard的形式化模型太过头。但有一点确定：这周之前，大家还只在造agent；这周之后，没人敢不装安全门就把agent放进去。

我不信“Agent驱动一切”的鬼话。但我信，这周是个分水岭。

2026-W18 智能体周刊

删库之后，Agent安全终于被正经当回事了

评测终于不跑benchmark了，开始跑Case Study

厂商：编排成了必争之地

最后说点个人判断