最重要 5 条
1. DeepSeek-V4 Preview 已开放 API 与开源,强调 1M 上下文和 Agent 能力
摘要DeepSeek 官方 API 文档显示 DeepSeek-V4 Preview 已上线并开源,API 模型包括 deepseek-v4-pro 与 deepseek-v4-flash,均支持 1M context、Thinking / Non-Thinking 双模式、JSON Output、Tool Calls、Chat Prefix Completion,以及非思考模式下的 FIM Completion。
关键细节官方价格页显示 deepseek-v4-flash 每 1M tokens cache hit 输入 $0.0028、cache miss 输入 $0.14、输出 $0.28;deepseek-v4-pro 分别为 $0.003625、$0.435、$0.87。旧模型名 deepseek-chat 与 deepseek-reasoner 将在 2026-07-24 15:59 UTC 停用。
为什么重要DeepSeek 把 1M 长上下文、低价格与 Tool Calls 放到同一代 API 中,直接冲击长任务 agent、代码仓库理解、批量文档处理与企业私有部署/替换路径;旧模型名退役也要求接入方尽快完成兼容性测试。
来源DeepSeek V4 Preview Release;Models & Pricing
2. Anthropic 推出 Claude Tag:Claude 作为 Slack 团队成员进入协作流
摘要Anthropic 发布 Claude Tag,定位为让团队与 Claude 协作的新方式,首站从 Slack 开始:团队可让 Claude 加入选定频道,并连接相应工具。
关键细节这不是单纯聊天机器人入口,而是把 Claude 作为“可被 tag 的团队成员”嵌入既有沟通与工作上下文,权限边界由选定频道和已连接工具约束。
为什么重要企业 agent 落地的关键瓶颈越来越少是模型能力本身,而是权限、上下文、审计和团队流程。Claude Tag 将 agent 从 IDE/单人助手扩展到组织协同层,可能成为后续企业 workflow agent 的入口形态。
来源Anthropic — Introducing Claude Tag
3. GitHub Copilot app 支持 BYOK,agent sessions 可接入自有模型供应商
摘要GitHub Changelog 显示 Copilot app 已支持 bring your own key,用户可让 agent sessions 运行在 OpenAI、Azure OpenAI、Microsoft Foundry、Anthropic、LM Studio、Ollama 以及任意 OpenAI-compatible endpoint 上。
关键细节用户可在 Settings → Model Providers 添加 endpoint/API key;模型会出现在 picker 中,与 Copilot-hosted models 并列;密钥存放在本地 OS keychain,GitHub 表示不会读回。
为什么重要AI coding 工具正在从“平台内置模型”转为“agent harness + 多模型路由”。BYOK 让企业可以用自有合规、成本或本地模型策略运行 agent,同时保留 Copilot 的工作流入口。
来源GitHub Changelog — Copilot BYOK
4. NVIDIA Blackwell Ultra 在 AgentPerf 中主打 agentic AI 能效
摘要NVIDIA 博客称 Artificial Analysis 的 AgentPerf 是首个面向 agentic AI 的基础设施 benchmark;首轮结果中 GB300 NVL72 / Blackwell Ultra 在测试 workload 中相对 Hopper 可实现最多 20x agents per megawatt。
关键细节AgentPerf 的关注点不是传统单模型吞吐,而是更贴近多步骤 agent workload 的系统能力与能效表现。
为什么重要随着 coding agent、research agent、workflow agent 进入生产,基础设施采购会从“tokens/s 与单卡显存”扩展到“每兆瓦可服务多少 agent、长链路延迟、工具调用并发与调度效率”。
来源NVIDIA Blog — Blackwell AgentPerf
5. OpenAI/Broadcom 与 Qualcomm/Modular 显示 AI 基础设施垂直整合继续加速
摘要Reuters 检索结果显示 OpenAI 于 6 月 24 日披露与 Broadcom 设计的 custom chip,用于增强 AI infrastructure;同日 Reuters 报道 Qualcomm 将以约 $4B 收购 AI software startup Modular。
关键细节OpenAI 方向代表模型平台向自研/定制推理芯片延伸;Qualcomm/Modular 方向则把 AI compiler/runtime 与多硬件部署能力纳入芯片厂商战略。
为什么重要前沿模型的成本曲线越来越依赖从模型、compiler、runtime 到 silicon 的联合优化。对开发者而言,未来推理性能差异可能更多来自 stack-level integration,而不只是选择某个 GPU/模型。
来源Reuters — OpenAI/Broadcom chip;Reuters — Qualcomm/Modular
其他值得关注
vLLM-Omni 0.23.0rc1:omni-modal serving 继续追齐 vLLM 主线
vLLM-Omni GitHub release 显示 0.23.0rc1 于 2026-06-14 发布,包含 79 commits、68 contributors,目标是对齐 upstream vLLM 0.23,重点包括扩展 TTS/audio model coverage、改善 speech serving latency/correctness、强化 diffusion/image/video generation paths,并拓展 CUDA、Blackwell、ROCm、NPU、XPU 的 quantization 与硬件后端准备。0.22.0 则是面向 omnimodal world-model 的 release,提供 Nvidia Cosmos 3 world-model 支持。
vLLM-Omni 0.23.0rc1;vLLM-Omni 0.22.0
llama.cpp 6 月 26 日连续 release:本地推理后端仍在高频优化
GitHub API 显示 llama.cpp 在 2026-06-26 连续发布 b9814、b9816、b9817、b9820、b9821 等构建。b9820 重新引入 split compute 中较少同步以改善 CUDA token 间性能;b9817 更新 OpenVINO 到 2026.2.1 并改进 self-contained release packages 与算子路径;b9814 优化 Vulkan 上 MI50 的 mul_mat_vecq。
llama.cpp b9820;llama.cpp b9817;llama.cpp b9814
GitHub Copilot Code Review 支持 AGENTS.md,仓库级 agent 指令进入 review 流
GitHub Changelog 6 月 18 日条目显示 Copilot code review 支持 repository-level AGENTS.md,并改进 draft PR 请求 review 的 UI。这意味着 agent 行为规范、仓库约定、测试/审查提示可以进入自动 review 的上下文,而不再完全依赖通用模型提示。
GitHub Changelog — AGENTS.md support
中国 AI 生态:DeepSeek 是本周期最明确的一手更新,Kimi API 继续强调 256K/Tool Calling
本轮主动检查了 DeepSeek、Qwen/通义、智谱 GLM、Kimi/月之暗面、豆包、百度文心、MiniMax 等方向。近 24–48 小时内可核验的最强官方更新来自 DeepSeek-V4 Preview;Kimi 开放平台页面继续显示 K2.7 Code / K2.5 API、256K 超长上下文、多模态理解与 Tool Calling,但未发现同窗口内新的官方 release。未采用中文聚合站对 Qwen/GLM/Kimi/MiniMax 的未核实“新版本”说法。
Kimi 开放平台;DeepSeek V4 Preview