AI 日报 | 2026-05-28

今天概览：

过去 24-48 小时没有看到足够可信的“全新 frontier 模型”发布；更值得关注的是，OpenAI 与 Google 都把叙事继续推向可部署的 agentic workflow：一个强调 Codex 在垂直行业中形成自改进闭环，一个把 GPT-5.5 放进开源开发工作流。研究侧，arXiv 当日列表继续集中在 agent 技能库、RAG 控制、RLHF 对齐脆弱性等问题。生态侧，东南亚 AI 创业基础设施和开放音频/机器人项目仍在扩张。

【今日最重要的 4 条】

1. OpenAI：Codex 驱动的 Tax AI 在真实税务生产中形成“自改进”闭环

摘要：OpenAI 与 Thrive Holdings 披露，双方为 Crete 旗下 30+ 会计事务所共建 Tax AI，用 Codex 将实际生产纠错转成结构化信号与 eval targets，再推动系统迭代。

关键细节：试点覆盖 7,000 份税表，面向 1040/1041 等报税准备；OpenAI 称系统可为从业者节省约三分之一税务准备时间，草拟准确率最高 97%，吞吐提升约 50%；上线六周后，达到 75% 字段正确完成率的税表比例从约 25% 提升至 86%。其核心机制不是“写一个 prompt”，而是把文档组织、字段抽取、税务引擎映射、从业者修正等链路保留为 trace，再将重复失败模式转化为 Codex 可优化的评测目标。

为什么重要：这是企业 agent 从 demo 走向生产的一类关键范式：垂直流程 + 可追踪执行链 + 从业者反馈 + 自动生成评测/修复任务。对于金融、法律、医疗等高合规场景，真正的壁垒可能不只是模型调用，而是把业务纠错闭环工程化。

来源标签：官方发布 / 企业案例

链接：https://openai.com/index/building-self-improving-tax-agents-with-codex/

2. OpenAI：Warp 用 GPT-5.5 编排开源软件开发 agent

摘要：OpenAI 发布 Warp 案例，称 Warp 在开源终端客户端和“Open Agentic Development”工作流中使用 GPT-5.5，让 agent 规划、写代码、测试并提交 PR，人类负责目标定义、监督和最终合入。

关键细节：OpenAI 称 GPT-5.5 在 Warp 内部 agentic coding 任务中比 GPT-5.4 少用 30% token；Warp 称其接近 100 万开发者，被 56% 以上 Fortune 500 使用；在 Warp 自身工程组织中，agent 共同创建约 90% PR。Warp 把长期运行 agent 的关键需求归纳为 observability、coordination、memory 与 human review。

为什么重要：这说明“代码模型能力提升”正在转化为协作系统设计问题。开源项目可能从“人贡献 patch”转向“人监督 agent fleet”，而成本、可观测性、上下文记忆与 review 机制会决定 agent 是否能在真实 repo 中长期工作。

来源标签：官方发布 / 开发者生态

链接：https://openai.com/index/warp/

3. Google：Gemini 3.5 Flash 已面向 app、Search AI Mode、Antigravity 与企业平台开放

摘要：Google 在 I/O 2026 系列发布中介绍 Gemini 3.5 家族，首发 3.5 Flash，定位为“frontier intelligence with action”，重点面向长程 agentic workflows、编码与多模态理解。

关键细节：Google 称 3.5 Flash 在 Terminal-Bench 2.1 得分 76.2%、GDPval-AA 为 1656 Elo、MCP Atlas 为 83.6%，CharXiv Reasoning 为 84.2%；输出 token/s 约为其他 frontier models 的 4 倍；已在 Gemini app、Google Search AI Mode、Google Antigravity、Gemini API、Android Studio、Gemini Enterprise Agent Platform 和 Gemini Enterprise 中提供。3.5 Pro 仍在内部使用，计划下月推出。

为什么重要：Google 的产品化路径非常清晰：把同一模型家族同时接入消费者入口、开发者 agent IDE、API 与企业 agent 平台。这会加速“模型能力—工作流工具—搜索/办公入口”的闭环竞争。

来源标签：官方发布 / 模型与平台

链接：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

4. OpenAI：发布 2026 年选举信息与安全措施

摘要：OpenAI 说明其 2026 年选举相关策略，包括提供可靠投票与结果信息、支持网络防御、提高 AI 生成内容透明度、打击滥用并监测政治中立性。

关键细节：OpenAI 称今年秋季起将在美国和巴西通过 The Associated Press 提供选举夜实时计票；在美国还将与 Democracy Works 合作，在用户询问投票地点、登记等问题时展示可靠信息。OpenAI 还把 Daybreak 等网络防御努力纳入选举基础设施安全叙事。

为什么重要：2026 是生成式 AI 普及后的第二个全球大选年份，平台方不再只谈“内容审核”，而是将搜索/答案来源、实时结果授权、合成内容透明度和网络防御共同纳入选举安全产品设计。

来源标签：官方发布 / AI 安全与政策

链接：https://openai.com/index/election-safeguards-2026/

【信号观察】

- arXiv 当日 AI 列表出现多篇 agent 可靠性与自进化论文。例如 MUSE-Autoskill 讨论通过 skill creation、memory、management、evaluation 构建自演化 agent；这与产业侧“agent 长程执行 + 经验复用”的方向一致。来源：https://arxiv.org/abs/2605.27366

- RAG 可靠性议题继续深化：论文 “Detecting Is Not Resolving” 指向检索增强 LLM 中“能检测到证据问题”与“能控制/修复输出”之间的 monitoring-control gap。来源：https://arxiv.org/abs/2605.27157

- Hugging Face 社区发布 Borealis：一个面向俄语/英语的开放 5B audio-language model，披露 open data、code、weights 与训练 recipe，架构使用 Whisper Large V3 encoder、Qwen3-4B backbone 与 adapter。来源：https://huggingface.co/blog/AlexWortega/borealis

- Google Cloud 宣布与 EnterpriseSG、印尼 Komdigi、越南 NIC 和 SIHUB 推出东南亚到硅谷的 AI startup innovation corridor，并开放首期 25 家、为期三个月的 Google for Startups Accelerator: Southeast Asia。来源：https://www.googlecloudpresscorner.com/Google-Cloud-Launches-AI-Startup-Innovation-Corridor-from-Southeast-Asia-to-Silicon-Valley-with-EnterpriseSG-Komdigi-NIC-and-SIHUB

【延伸阅读】

1. Google：Introducing Gemini Omni，先从视频生成/编辑开始，把图像、音频、视频和文本作为输入，输出高质量视频，并支持对话式多轮编辑。

链接：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

2. Google I/O 2026：Sundar Pichai 开场 keynote 文稿，概述 Google 对“agentic Gemini era”的整体定位。

链接：https://blog.google/innovation-and-ai/sundar-pichai-io-2026/

3. Anthropic Newsroom：近两日官方更新包括韩国代表董事任命及 Chris Olah 关于教皇通谕的发言；未看到可核验的新模型发布。

链接：https://www.anthropic.com/news

4. arXiv cs.AI recent：2026-05-27 当日 AI 论文列表，包含 257 条条目，agent、RAG、alignment、unlearning 等主题密集。

链接：https://arxiv.org/list/cs.AI/recent

5. Hugging Face：LeRobot Humanoid，一个开放、低成本、3D 打印的人形机器人学习项目，当前双足平台物料成本约 2,500 美元，并提供硬件、装配文档与 runtime 等全栈材料。

链接：https://huggingface.co/blog/VirgileBatto/lerobot-humanoid

【说明】

本日报只保留有来源支撑的信息；优先采用官方博客、项目页面、arXiv、GitHub/Hugging Face 项目与高可信商业/科技媒体。今天未纳入未能找到一手来源或来源质量不足的融资、传闻、估值与并购信息。