别整那些没用的了。这周最爆的新闻是:一个AI agent把自己公司的生产库删了,还主动交代了。
然后你再看HackerNews评论区——没人笑,没人说“活该”,全是“我们也差点”。这周素材量很大,ArXiv的Agent安全论文密集发布,OpenAI和LangChain同时发了编排规范,连Google的TPU都说是“为Agent时代设计的”。核心信号就一个:Agent正在加速进入生产,但安全问题已经从“理论担忧”变成了“线上一刀”。
删库之后,Agent安全终于被正经当回事了
Twitter上那个帖子(An AI agent deleted our production database. The agent's confession is below)826赞,不是因为它猎奇,是因为太真实了。Agent拿到了数据库写权限,执行了个优化脚本,发现“delete where”缺条件就直接干了——任务完成,环境毁掉。
这不是Red Teaming能测出来的。传统红队假设敌方故意搞破坏,但真实场景里Agent只是“太听话”。ArXiv这周至少四篇论文在怼这个方向:
- AgentWard(AgentWard: A Lifecycle Security Architecture)把Agent的安全拆成初始化、输入、记忆、决策、执行五个阶段,说风险会跨阶段传染。听起来像常识?但你看现在市面上的Agent框架,有哪个真的在每个阶段做安全检查的?没有。
- Green Shielding(Green Shielding: A User-Centric Approach)角度更刁:他们发现用户输入的非对抗性变化(比如换个问法)就能让模型行为剧烈漂移。红队只测极端攻击,绿队测日常磨损——问题在这。
- Governing What You Cannot Observe(Adaptive Runtime Governance)给了个形式化框架:agent可以随时变得不安全,即使代码没改。他们提出“信息可行性原则”,必须在运行时估计未观察到的风险上界才允许行动。数学上好看,但工程上谁能落地?我不确定。
- The Price of Agreement(Measuring LLM Sycophancy in Agentic Financial Applications)专门讲金融场景的谄媚问题——你说“我觉得这张表是对的”,LLM就顺着说是对的,哪怕有错。放到agent里就是灾难。
还有一篇漂亮的工作:Evaluating whether AI models would sabotage AI safety research——让Claude系列当安全研究员,看它们会不会故意捣乱或拒绝帮助。结果我不剧透,自己去看。
评测终于不跑benchmark了,开始跑Case Study
这周另一波ArXiv论文在做一件事:给Agent建真实场景下的评测,不只是问答准确率。
- SciCrafter(Can Current Agents Close the Discovery-to-Application Gap?)在Minecraft里搭了基准,让agent从发现因果规律到造红石机器走完闭环。这比任何NLP benchmark都更像“智能”。
- K-MetBench(Fine-Grained Evaluation in Meteorology)针对韩国气象预报员,基于国家资格考试出题。多模态+领域知识+本地化,这个组合拳值得关注。
- Case-Specific Rubrics for Clinical AI(Methodology, Validation, and LLM-Clinician Agreement)做了823次医患对话,让LLM和医生分别打分,看一致性。不是问“这病怎么治”,而是“这段病历写得对不对”。
- FastOMOP(Reliable Agentic RWE on OMOP CDM)用agent自动从OMOP格式的医疗数据生成真实世界证据。覆盖83国、10亿患者——这要是能跑通,临床科研的效率会直接翻几倍。
厂商:编排成了必争之地
OpenAI这周动作最大。Symphony(An open-source spec for orchestration)把issue tracker变成“始终在线的agent系统”。代码补完、上下文切换、自动提PR——这不是新概念,但OpenAI开源一个规范让Codex去跑,等于说“你们不用自己造编排了”。
然后Workspace Agents(Introducing Workspace Agents in ChatGPT)直接内嵌进ChatGPT,把文件、对话、代码当统一工作区。用户体验上,这比单独开个agent面板要聪明。
FedRAMP Moderate(OpenAI available at FedRAMP Moderate)是给美国政府客户的路条,基本等于说“可以拿我们的API去跑受控数据了”。
微软合作新阶段(The next phase of the Microsoft OpenAI partnership)把之前混乱的独家分成、算力承诺简化了。按我的理解,微软不再独家,OpenAI可以自己卖云服务——这对生态是好事。
LangChain这边,Deep Agents v0.4(Announcement)和Agent Builder改名LangSmith Fleet(Announcement)。名字改了,说明定位变了——从“造agent”变成“舰队管理”。他们还加了基线实验固定(Pin a baseline experiment),做agent对比实验终于不用手动记版本了。
Google第八代TPU(Eighth generation TPUs: two chips for the agentic era)专门为Agent时代搞了两芯设计。单芯片推理还好理解,双芯片互联更像是为多步推理和长上下文优化的。
社区里两个值得玩的Show HN:
- dirac(OSS Agent topped TerminalBench on Gemini-3-flash-preview)在TerminalBench上用Gemini-3-flash-preview拿到了第一,开源。terminal场景是agent最难啃的骨头之一,值得看看它怎么处理错误输出。
- Broccoli(One shot coding agent on the cloud)主打“一次提交”就把任务跑完,不需要对话迭代。这思路很反主流——现在大家都让你和agent来回聊,它偏要一击必杀。
最后说点个人判断
删库事故不是偶然,是Agent生产化的必然代价。这周的论文和产品都在做同一件事:给Agent戴上镣铐跳舞。安全、评测、编排、审计——这些“无聊”的东西才是Agent能真上线的门槛。
也许6个月后回头看,我会觉得Symphony不是最优解,AgentWard的形式化模型太过头。但有一点确定:这周之前,大家还只在造agent;这周之后,没人敢不装安全门就把agent放进去。
我不信“Agent驱动一切”的鬼话。但我信,这周是个分水岭。