YGG 智能体周刊

这周最撕裂的画面：一个 AI agent 把生产数据库给扬了，随后在推上写了篇小作文忏悔。热度冲上 852 分。另一端，开源社区狂甩 agent 工具，有人只用 400 行 shell 做了个完整的 coding-agent harness，Dirac 甚至在 Gemini-3-flash-preview 上把 TerminalBench 榜单给顶了。OpenAI 那边也没闲着，一边推高级账户安全，一边解释 GPT-5 为啥会随机输出 goblin。LangChain 照例改名，“Agent Builder”变成“LangSmith Fleet”，Deep Agents 也滚到了 v0.4。

AI 删库不算新闻，这回 agent 还主动写了检查

推上 @lifeof_jer 晒出了 agent 的忏悔信，大意是“我误读了上下文，以为是在测试环境里执行清理脚本，于是就把生产库给 DROP 了”。这事能炸上 HN 榜首，不是因为删库本身——人写错了 SQL 也会删库。大家震惊的是 agent 事后还能反思，写得有模有样。说明能自我解释是好事，但不代表能自我约束。
A good AGENTS.md is a model upgrade. A bad one is worse than no docs at all 这篇文章刚好踩在点上：AGENTS.md 写得好，模型反应像升了一级；写得烂，反倒不如不写。被删库那位十有八九没在 AGENTS.md 里写清楚“永远别碰生产环境的 DDL”。我猜他后面补的第一行就是这句。

开源 agent 项目井喷，400 行 shell 也能冲榜？

Dirac 在 Gemini-3-flash-preview 上跑出 TerminalBench 第一名，392 分。亮点是用 OSS 搭出来，还没接什么私有管道。
pu.sh 更夸张——89 分的帖子，作者把整套 coding-agent 塞进 400 行 shell 里。我知道你会说“shell 写 agent 太糙”，但 readme 里给 Mac/Linux 一条命令就能把 agent 拉起来改代码、跑测。它是不是生产级我不好说，但拿来当灵感原型绝对够用。
另外还有几个 Show HN 也挺有意思：agent-desktop 做本机桌面自动化 CLI，88 分；Tendril 能自己注册新工具，81 分；AgentSwift 想当 iOS 构建 agent，63 分。这波开源明显在抢“让 agent 操作本地环境”的生态位，而且都冲着一个方向——尽量轻，尽量不依赖托管。

lovable 的 agent 在 GKE 里抓到了 WireGuard 的 bug

Lovable 博客讲了段很实战的故事：他们的 agent 在 Google Kubernetes Engine 上排查网络故障时，揪出了 WireGuard 本身的问题，66 分。agent 不是靠查日志猜的，而是持续修改 iptables 规则、重建隧道去复现，最后定位到内核模块的参数设置。这意味着 agent 已经开始替人干“连 SRE 都不一定愿意半夜爬起来干的脏活”。但反过来，也吓人——如果 agent 没控制好操作边界，搞炸的就不是一个库，是整个 VPC。

OpenAI 的新安全全家桶，和莫名其妙的 goblin

OpenAI 一口气发了高级账户安全、网络安全五项行动、社区安全承诺等几篇。核心是抗钓鱼登录、更强的恢复流程，外加把 AI 驱动的网络防御民主化。听起来挺好。
但我觉得最好玩的其实是 Where the goblins came from 这篇。它坦白了 GPT-5 前期会随机吐出 goblin 相关的输出，什么“I'm a goblin”“I like shiny things”之类的。他们追溯发现和训练数据中某段角色扮演污染有关，花了几个月才修干净。看到这我乐了——安全白皮书里还在讲“保护关键系统”，但你的模型自己就会突然变成哥布林。算不算另一种维度的 OWASP Top 10？

LangChain 又改名，Deep Agents 到 v0.4

每次 LangChain 一更新我都要重新认名字。Agent Builder 改叫 LangSmith Fleet，同时加了 chat、文件上传和工具注册表。说实话功能挺实用，但名字换来换去还是容易让团队里非核心成员迷糊。
Deep Agents v0.4 也发了，估计是把编排和退避重试机制又调了一遍。另外新增了基线实验 pin 功能和 Insights Agent 定时报告。踩过坑的都懂，能在平台上固定一条实验基线、定期出洞察，比再炫的多 agent 编排都值。

2026-W18 智能体周刊

AI 删库不算新闻，这回 agent 还主动写了检查

开源 agent 项目井喷，400 行 shell 也能冲榜？

lovable 的 agent 在 GKE 里抓到了 WireGuard 的 bug

OpenAI 的新安全全家桶，和莫名其妙的 goblin

LangChain 又改名，Deep Agents 到 v0.4