AI 日报 | 2026-05-28

今天概览:

过去 24-48 小时没有看到足够可信的“全新 frontier 模型”发布;更值得关注的是,OpenAI 与 Google 都把叙事继续推向可部署的 agentic workflow:一个强调 Codex 在垂直行业中形成自改进闭环,一个把 GPT-5.5 放进开源开发工作流。研究侧,arXiv 当日列表继续集中在 agent 技能库、RAG 控制、RLHF 对齐脆弱性等问题。生态侧,东南亚 AI 创业基础设施和开放音频/机器人项目仍在扩张。

【今日最重要的 4 条】

1. OpenAI:Codex 驱动的 Tax AI 在真实税务生产中形成“自改进”闭环

摘要:OpenAI 与 Thrive Holdings 披露,双方为 Crete 旗下 30+ 会计事务所共建 Tax AI,用 Codex 将实际生产纠错转成结构化信号与 eval targets,再推动系统迭代。

关键细节:试点覆盖 7,000 份税表,面向 1040/1041 等报税准备;OpenAI 称系统可为从业者节省约三分之一税务准备时间,草拟准确率最高 97%,吞吐提升约 50%;上线六周后,达到 75% 字段正确完成率的税表比例从约 25% 提升至 86%。其核心机制不是“写一个 prompt”,而是把文档组织、字段抽取、税务引擎映射、从业者修正等链路保留为 trace,再将重复失败模式转化为 Codex 可优化的评测目标。

为什么重要:这是企业 agent 从 demo 走向生产的一类关键范式:垂直流程 + 可追踪执行链 + 从业者反馈 + 自动生成评测/修复任务。对于金融、法律、医疗等高合规场景,真正的壁垒可能不只是模型调用,而是把业务纠错闭环工程化。

来源标签:官方发布 / 企业案例

链接:https://openai.com/index/building-self-improving-tax-agents-with-codex/

2. OpenAI:Warp 用 GPT-5.5 编排开源软件开发 agent

摘要:OpenAI 发布 Warp 案例,称 Warp 在开源终端客户端和“Open Agentic Development”工作流中使用 GPT-5.5,让 agent 规划、写代码、测试并提交 PR,人类负责目标定义、监督和最终合入。

关键细节:OpenAI 称 GPT-5.5 在 Warp 内部 agentic coding 任务中比 GPT-5.4 少用 30% token;Warp 称其接近 100 万开发者,被 56% 以上 Fortune 500 使用;在 Warp 自身工程组织中,agent 共同创建约 90% PR。Warp 把长期运行 agent 的关键需求归纳为 observability、coordination、memory 与 human review。

为什么重要:这说明“代码模型能力提升”正在转化为协作系统设计问题。开源项目可能从“人贡献 patch”转向“人监督 agent fleet”,而成本、可观测性、上下文记忆与 review 机制会决定 agent 是否能在真实 repo 中长期工作。

来源标签:官方发布 / 开发者生态

链接:https://openai.com/index/warp/

3. Google:Gemini 3.5 Flash 已面向 app、Search AI Mode、Antigravity 与企业平台开放

摘要:Google 在 I/O 2026 系列发布中介绍 Gemini 3.5 家族,首发 3.5 Flash,定位为“frontier intelligence with action”,重点面向长程 agentic workflows、编码与多模态理解。

关键细节:Google 称 3.5 Flash 在 Terminal-Bench 2.1 得分 76.2%、GDPval-AA 为 1656 Elo、MCP Atlas 为 83.6%,CharXiv Reasoning 为 84.2%;输出 token/s 约为其他 frontier models 的 4 倍;已在 Gemini app、Google Search AI Mode、Google Antigravity、Gemini API、Android Studio、Gemini Enterprise Agent Platform 和 Gemini Enterprise 中提供。3.5 Pro 仍在内部使用,计划下月推出。

为什么重要:Google 的产品化路径非常清晰:把同一模型家族同时接入消费者入口、开发者 agent IDE、API 与企业 agent 平台。这会加速“模型能力—工作流工具—搜索/办公入口”的闭环竞争。

来源标签:官方发布 / 模型与平台

链接:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

4. OpenAI:发布 2026 年选举信息与安全措施

摘要:OpenAI 说明其 2026 年选举相关策略,包括提供可靠投票与结果信息、支持网络防御、提高 AI 生成内容透明度、打击滥用并监测政治中立性。

关键细节:OpenAI 称今年秋季起将在美国和巴西通过 The Associated Press 提供选举夜实时计票;在美国还将与 Democracy Works 合作,在用户询问投票地点、登记等问题时展示可靠信息。OpenAI 还把 Daybreak 等网络防御努力纳入选举基础设施安全叙事。

为什么重要:2026 是生成式 AI 普及后的第二个全球大选年份,平台方不再只谈“内容审核”,而是将搜索/答案来源、实时结果授权、合成内容透明度和网络防御共同纳入选举安全产品设计。

来源标签:官方发布 / AI 安全与政策

链接:https://openai.com/index/election-safeguards-2026/

【信号观察】

- arXiv 当日 AI 列表出现多篇 agent 可靠性与自进化论文。例如 MUSE-Autoskill 讨论通过 skill creation、memory、management、evaluation 构建自演化 agent;这与产业侧“agent 长程执行 + 经验复用”的方向一致。来源:https://arxiv.org/abs/2605.27366

- RAG 可靠性议题继续深化:论文 “Detecting Is Not Resolving” 指向检索增强 LLM 中“能检测到证据问题”与“能控制/修复输出”之间的 monitoring-control gap。来源:https://arxiv.org/abs/2605.27157

- Hugging Face 社区发布 Borealis:一个面向俄语/英语的开放 5B audio-language model,披露 open data、code、weights 与训练 recipe,架构使用 Whisper Large V3 encoder、Qwen3-4B backbone 与 adapter。来源:https://huggingface.co/blog/AlexWortega/borealis

- Google Cloud 宣布与 EnterpriseSG、印尼 Komdigi、越南 NIC 和 SIHUB 推出东南亚到硅谷的 AI startup innovation corridor,并开放首期 25 家、为期三个月的 Google for Startups Accelerator: Southeast Asia。来源:https://www.googlecloudpresscorner.com/Google-Cloud-Launches-AI-Startup-Innovation-Corridor-from-Southeast-Asia-to-Silicon-Valley-with-EnterpriseSG-Komdigi-NIC-and-SIHUB

【延伸阅读】

1. Google:Introducing Gemini Omni,先从视频生成/编辑开始,把图像、音频、视频和文本作为输入,输出高质量视频,并支持对话式多轮编辑。

链接:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

2. Google I/O 2026:Sundar Pichai 开场 keynote 文稿,概述 Google 对“agentic Gemini era”的整体定位。

链接:https://blog.google/innovation-and-ai/sundar-pichai-io-2026/

3. Anthropic Newsroom:近两日官方更新包括韩国代表董事任命及 Chris Olah 关于教皇通谕的发言;未看到可核验的新模型发布。

链接:https://www.anthropic.com/news

4. arXiv cs.AI recent:2026-05-27 当日 AI 论文列表,包含 257 条条目,agent、RAG、alignment、unlearning 等主题密集。

链接:https://arxiv.org/list/cs.AI/recent

5. Hugging Face:LeRobot Humanoid,一个开放、低成本、3D 打印的人形机器人学习项目,当前双足平台物料成本约 2,500 美元,并提供硬件、装配文档与 runtime 等全栈材料。

链接:https://huggingface.co/blog/VirgileBatto/lerobot-humanoid

【说明】

本日报只保留有来源支撑的信息;优先采用官方博客、项目页面、arXiv、GitHub/Hugging Face 项目与高可信商业/科技媒体。今天未纳入未能找到一手来源或来源质量不足的融资、传闻、估值与并购信息。