AI 日报 | 2026-05-25

自动生成;HTML 不新增纯文本以外事实。

AI 日报 | 2026-05-25

今天概览:
过去 24-48 小时没有足够多的“当天突发”官方大模型发布,但最近一周的主线非常清晰:前沿模型正在从聊天/代码补全继续转向可长期执行的代理工作流,同时安全评测也开始针对真实攻击链而不是简单 PoC。今天只保留可由官方页面、公司博客或严肃媒体检索结果支撑的信息;对部分 5 月 20-22 日发布但在 48 小时窗口内仍有持续影响的事件,作为今日重点纳入。

【今日最重要的 3-5 条】

1. Mistral 发布 Mistral Medium 3.5,并把 Vibe 编码代理搬到云端
摘要:Mistral 在 Vibe 与 Le Chat 中推出远程编码代理,并以 Mistral Medium 3.5 作为默认/核心模型,强调长程编码、生产力任务和多工具调用。
关键细节:Mistral Medium 3.5 是 128B dense 模型,256k context window,合并 instruction-following、reasoning 与 coding;官方称 SWE-Bench Verified 为 77.6%,τ³-Telecom 为 91.4;模型以 modified MIT license 开放权重,可在少至四张 GPU 上自托管。Vibe remote agents 支持从 CLI 或 Le Chat 启动云端异步 coding session,能并行运行、查看 diff/tool calls/progress,并连接 GitHub、Linear/Jira、Sentry、Slack/Teams 等。
为什么重要:这不是单纯模型榜单更新,而是把“编码代理”产品形态从本地交互式 CLI 推向云端异步执行与 PR 交付;开权重 128B 模型若能支撑企业自托管,也会直接影响欧洲/主权 AI 部署选项。
来源标签:官方发布 / 模型与产品
链接:https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5

2. OpenAI:内部通用推理模型解决 Erdős 单位距离问题相关长期猜想
摘要:OpenAI 称其内部通用推理模型在离散几何中给出突破,反驳了关于平面单位距离问题中“方格构造基本最优”的长期猜想。
关键细节:问题源自 Erdős 1946 年提出的 planar unit distance problem。OpenAI 表示模型给出了一个无限族构造,带来 polynomial improvement;证明已经由外部数学家检查,并有 companion paper 解释背景。OpenAI 强调该模型并非为该题专门训练或 scaffolded search,而是在更广泛的 Erdős problems 评测中产出证明。
为什么重要:如果外部验证长期站得住,这是“AI 可自主贡献前沿数学”的标志性案例;商业上也会强化前沿实验室把高阶推理模型包装为科研、工程与知识工作基础设施的叙事。
来源标签:官方研究发布 / 数学推理
链接:https://openai.com/index/model-disproves-discrete-geometry-conjecture/

3. Anthropic red team:Mythos Preview 在新 exploit benchmarks 上显著领先
摘要:Anthropic red team 发布对 LLM 漏洞利用能力的量化评测,称 Claude Mythos Preview 在 ExploitBench、ExploitGym 和更新版 SCONE-bench 上持续领先其它被测模型。
关键细节:ExploitBench 由 CMU/Bugcrowd 研究者构建,关注 V8 真实已修复漏洞的端到端 exploit development,而不仅是触发漏洞 PoC;它把能力拆成 16 个 programmatically verified capabilities,覆盖从 vulnerable path coverage 到 arbitrary code execution 等层级。Anthropic 称 Mythos Preview 能把漏洞转为 exploit primitives,并组合成 end-to-end attack chains,因此通过 Project Glasswing 谨慎发布而非通用开放。
为什么重要:安全评测正在从“模型会不会写恶意代码”升级到“能不能完成真实攻击链”。这会影响前沿模型发布策略、API 风控、政府监管与企业采购安全边界。
来源标签:官方安全研究 / 红队评测
链接:https://red.anthropic.com/2026/exploit-evals/

4. Cohere 开源 Command A+,押注企业/主权 AI 的高效 MoE
摘要:Cohere 发布 Command A+,称其为目前最快、最强的语言模型,并以 Apache 2.0 开源,用于复杂推理、多模态、多语言和 agentic enterprise workloads。
关键细节:官方页面列出 command-a-plus-05-2026 为 Sparse/MoE,218B total、25B active,128K input context、64K max generation,输入支持 text/image/tool use,输出支持 text/reasoning/tool use,支持 48 种语言;最低硬件为 1×B200 W4A4 或 2×H100 W4A4,支持 vLLM 与 Transformers。
为什么重要:企业 AI 的瓶颈越来越从“是否有模型”转向“能否私有部署、可审计、可控成本”。Command A+把 Apache 2.0、低比特量化和企业 agent 任务放在一起,直接竞争闭源 API 与其它开放权重模型。
来源标签:官方发布 / 开源模型 / 企业 AI
链接:https://cohere.com/blog/command-a-plus

5. OpenAI GPT-5.5:代理式编码、电脑使用与知识工作继续成为前沿模型主战场
摘要:OpenAI 在 4 月底发布 GPT-5.5 并于 4 月 24 日更新 API 可用性;虽然不是今日新发,但其指标和定位仍是过去 24-48 小时竞品发布对标的核心参照。
关键细节:官方称 GPT-5.5 面向复杂真实工作,包括 coding、online research、data analysis、documents/spreadsheets、software operation 和跨工具任务;在 Terminal-Bench 2.0 为 82.7%,OSWorld-Verified 为 78.7%,BrowseComp 为 84.4%,FrontierMath Tier 1-3 为 51.7%。OpenAI 表示 GPT-5.5 与 GPT-5.4 实际服务 per-token latency 相当,并在 Codex 任务中使用更少 token。
为什么重要:Mistral、Cohere 等近期发布都在围绕“agentic workflows + 可部署效率”竞争;GPT-5.5 给出了闭源前沿模型在代理式工作上的当前标尺。
来源标签:官方发布 / 前沿模型
链接:https://openai.com/index/introducing-gpt-5-5/

【信号观察】

- Mistral 还宣布 Emmi 加入,目标是扩展模型对物理系统的理解与建模,并让 AI agents 使用现有工程工具,说明欧洲模型厂商在向“工业 AI-native workflow”延伸。来源:https://mistral.ai/news/accelerate-ai-native-industry
- Cohere 同期宣布与 Indra Group、Multiverse Computing 签署战略 MoU,并收购 Reliant AI,叙事集中在 sovereign enterprise AI、生命科学/医疗领域和本地可控部署。来源:https://cohere.com/blog/cohere-announces-strategic-mous-with-indragroup-and-multiverse-computing ,https://cohere.com/blog/cohere-acquires-reliant-ai-expand-sovereign-enterprise-ai
- NVIDIA 技术博客在 5 月 19 日发布 “NVIDIA-Verified Agent Skills”,把 MCP-connected tools、portable skills 和 agent capability governance 放在一起,显示代理生态正在补治理与权限层。来源:https://developer.nvidia.com/blog/nvidia-verified-agent-skills-provide-capability-governance-for-ai-agents/
- Reuters AI 频道最近继续跟踪 AI 对银行岗位与企业组织的影响,并报道 xAI/Grok 在华盛顿采用受阻等商业化信号;这类“部署落地阻力”值得与模型能力进展同步观察。来源:https://www.reuters.com/technology/artificial-intelligence/ ,https://www.reuters.com/world/grok-falls-flat-washington-undercutting-spacexs-ai-growth-story-2026-05-21/

【延伸阅读】

1. OpenAI GPT-5.5 System Card:https://openai.com/index/gpt-5-5-system-card/
2. OpenAI:An OpenAI model has disproved a central conjecture in discrete geometry:https://openai.com/index/model-disproves-discrete-geometry-conjecture/
3. Anthropic red team:Measuring LLMs’ ability to develop exploits:https://red.anthropic.com/2026/exploit-evals/
4. Mistral:Remote agents in Vibe. Powered by Mistral Medium 3.5:https://mistral.ai/news/vibe-remote-agents-mistral-medium-3-5
5. Cohere:Introducing Command A+:https://cohere.com/blog/command-a-plus
6. NVIDIA:Agent Skills / AI Agent Evaluation 系列:https://developer.nvidia.com/blog/nvidia-verified-agent-skills-provide-capability-governance-for-ai-agents/ ,https://developer.nvidia.com/blog/mastering-agentic-techniques-ai-agent-evaluation/

【说明】
本日报只保留有来源支撑的信息。官方页面可直接核验的事实优先;商业影响与媒体信号仅使用 Reuters 等严肃媒体或公司官方博客/检索摘要,并避免把未经核实的二手传闻写成事实。