AI 日报 | 2026-06-27

今日概览

今天的主线不是单一模型发布，而是“agent 化工作负载”继续向三层同时推进：前沿模型厂商在提升长上下文、工具调用和 coding/agent 能力；开发者工具开始把 BYOK、本地模型和仓库级 agent 指令纳入主流程；底层 infra 则围绕 agentic AI 的吞吐/能效、omni-modal serving 与端侧/本地推理快速迭代。

DeepSeek-V4：1M 上下文 + Tool Calls Claude Tag：Slack 中的团队 agent Copilot BYOK：多模型 agent sessions Blackwell AgentPerf：每兆瓦 agent 数 OpenAI/Broadcom 与 Qualcomm/Modular

最重要 5 条

1. DeepSeek-V4 Preview 已开放 API 与开源，强调 1M 上下文和 Agent 能力

摘要DeepSeek 官方 API 文档显示 DeepSeek-V4 Preview 已上线并开源，API 模型包括 deepseek-v4-pro 与 deepseek-v4-flash，均支持 1M context、Thinking / Non-Thinking 双模式、JSON Output、Tool Calls、Chat Prefix Completion，以及非思考模式下的 FIM Completion。

关键细节官方价格页显示 deepseek-v4-flash 每 1M tokens cache hit 输入 $0.0028、cache miss 输入 $0.14、输出 $0.28；deepseek-v4-pro 分别为 $0.003625、$0.435、$0.87。旧模型名 deepseek-chat 与 deepseek-reasoner 将在 2026-07-24 15:59 UTC 停用。

为什么重要DeepSeek 把 1M 长上下文、低价格与 Tool Calls 放到同一代 API 中，直接冲击长任务 agent、代码仓库理解、批量文档处理与企业私有部署/替换路径；旧模型名退役也要求接入方尽快完成兼容性测试。

来源DeepSeek V4 Preview Release；Models & Pricing

2. Anthropic 推出 Claude Tag：Claude 作为 Slack 团队成员进入协作流

摘要Anthropic 发布 Claude Tag，定位为让团队与 Claude 协作的新方式，首站从 Slack 开始：团队可让 Claude 加入选定频道，并连接相应工具。

关键细节这不是单纯聊天机器人入口，而是把 Claude 作为“可被 tag 的团队成员”嵌入既有沟通与工作上下文，权限边界由选定频道和已连接工具约束。

为什么重要企业 agent 落地的关键瓶颈越来越少是模型能力本身，而是权限、上下文、审计和团队流程。Claude Tag 将 agent 从 IDE/单人助手扩展到组织协同层，可能成为后续企业 workflow agent 的入口形态。

来源Anthropic — Introducing Claude Tag

3. GitHub Copilot app 支持 BYOK，agent sessions 可接入自有模型供应商

摘要GitHub Changelog 显示 Copilot app 已支持 bring your own key，用户可让 agent sessions 运行在 OpenAI、Azure OpenAI、Microsoft Foundry、Anthropic、LM Studio、Ollama 以及任意 OpenAI-compatible endpoint 上。

关键细节用户可在 Settings → Model Providers 添加 endpoint/API key；模型会出现在 picker 中，与 Copilot-hosted models 并列；密钥存放在本地 OS keychain，GitHub 表示不会读回。

为什么重要AI coding 工具正在从“平台内置模型”转为“agent harness + 多模型路由”。BYOK 让企业可以用自有合规、成本或本地模型策略运行 agent，同时保留 Copilot 的工作流入口。

来源GitHub Changelog — Copilot BYOK

4. NVIDIA Blackwell Ultra 在 AgentPerf 中主打 agentic AI 能效

摘要NVIDIA 博客称 Artificial Analysis 的 AgentPerf 是首个面向 agentic AI 的基础设施 benchmark；首轮结果中 GB300 NVL72 / Blackwell Ultra 在测试 workload 中相对 Hopper 可实现最多 20x agents per megawatt。

关键细节AgentPerf 的关注点不是传统单模型吞吐，而是更贴近多步骤 agent workload 的系统能力与能效表现。

为什么重要随着 coding agent、research agent、workflow agent 进入生产，基础设施采购会从“tokens/s 与单卡显存”扩展到“每兆瓦可服务多少 agent、长链路延迟、工具调用并发与调度效率”。

来源NVIDIA Blog — Blackwell AgentPerf

5. OpenAI/Broadcom 与 Qualcomm/Modular 显示 AI 基础设施垂直整合继续加速

摘要Reuters 检索结果显示 OpenAI 于 6 月 24 日披露与 Broadcom 设计的 custom chip，用于增强 AI infrastructure；同日 Reuters 报道 Qualcomm 将以约 $4B 收购 AI software startup Modular。

关键细节OpenAI 方向代表模型平台向自研/定制推理芯片延伸；Qualcomm/Modular 方向则把 AI compiler/runtime 与多硬件部署能力纳入芯片厂商战略。

为什么重要前沿模型的成本曲线越来越依赖从模型、compiler、runtime 到 silicon 的联合优化。对开发者而言，未来推理性能差异可能更多来自 stack-level integration，而不只是选择某个 GPU/模型。

来源Reuters — OpenAI/Broadcom chip；Reuters — Qualcomm/Modular

其他值得关注

vLLM-Omni 0.23.0rc1：omni-modal serving 继续追齐 vLLM 主线

vLLM-Omni GitHub release 显示 0.23.0rc1 于 2026-06-14 发布，包含 79 commits、68 contributors，目标是对齐 upstream vLLM 0.23，重点包括扩展 TTS/audio model coverage、改善 speech serving latency/correctness、强化 diffusion/image/video generation paths，并拓展 CUDA、Blackwell、ROCm、NPU、XPU 的 quantization 与硬件后端准备。0.22.0 则是面向 omnimodal world-model 的 release，提供 Nvidia Cosmos 3 world-model 支持。

vLLM-Omni 0.23.0rc1；vLLM-Omni 0.22.0

llama.cpp 6 月 26 日连续 release：本地推理后端仍在高频优化

GitHub API 显示 llama.cpp 在 2026-06-26 连续发布 b9814、b9816、b9817、b9820、b9821 等构建。b9820 重新引入 split compute 中较少同步以改善 CUDA token 间性能；b9817 更新 OpenVINO 到 2026.2.1 并改进 self-contained release packages 与算子路径；b9814 优化 Vulkan 上 MI50 的 mul_mat_vecq。

llama.cpp b9820；llama.cpp b9817；llama.cpp b9814

GitHub Copilot Code Review 支持 AGENTS.md，仓库级 agent 指令进入 review 流

GitHub Changelog 6 月 18 日条目显示 Copilot code review 支持 repository-level AGENTS.md，并改进 draft PR 请求 review 的 UI。这意味着 agent 行为规范、仓库约定、测试/审查提示可以进入自动 review 的上下文，而不再完全依赖通用模型提示。

GitHub Changelog — AGENTS.md support

中国 AI 生态：DeepSeek 是本周期最明确的一手更新，Kimi API 继续强调 256K/Tool Calling

本轮主动检查了 DeepSeek、Qwen/通义、智谱 GLM、Kimi/月之暗面、豆包、百度文心、MiniMax 等方向。近 24–48 小时内可核验的最强官方更新来自 DeepSeek-V4 Preview；Kimi 开放平台页面继续显示 K2.7 Code / K2.5 API、256K 超长上下文、多模态理解与 Tool Calling，但未发现同窗口内新的官方 release。未采用中文聚合站对 Qwen/GLM/Kimi/MiniMax 的未核实“新版本”说法。

Kimi 开放平台；DeepSeek V4 Preview

来源链接

注：Reuters 页面在本运行环境中正文抓取受到 TLS/站点访问限制；本文仅采用可由检索结果与标题/摘要核验的事实，并把不可核验细节排除在外。