左上角 / E:编辑;删除只保存在本机浏览器
↑↓ / Space 翻页

AI 大模型原理分享 · 通俗版

从机器学习到通用 Agent

讲人话

一条主线讲清楚:机器如何做预测,为什么文本预测能长出智能,Agent / Skill / MCP 又把模型推进到“能做事”。

今天的路线

不是从名词开始,而是从“预测”开始

机器学习

从样本里学一个函数,用来预测未知结果。

深度学习

用多层神经网络拟合更复杂的函数。

语言模型

把“预测”搬到文本上:预测下一个 token。

Agent

模型接上工具、Skill、MCP,形成能执行任务的循环。

01 / Machine Learning

机器学习:让机器从例子里学会预测

传统程序是人写规则;机器学习是给机器很多例子,让它自己调出一套“从输入到输出”的函数。

历史样本训练模型 f(x)预测 y

目标:找到 f,让 f(新输入) 尽量接近真实结果

机器学习 vs 规则系统

规则写不完时,就让模型从数据里学

规则系统

“如果距离 > 5km 且下雨,则预计时间 + 8 分钟”。问题是例外太多,规则越写越碎。

机器学习

把距离、天气、路况、历史订单都给模型,让它从大量样本中学出组合关系。

02 / Deep Learning

神经网络听起来玄,本质是“一层层矩阵乘法”

每个神经元不是小脑袋,而是把输入数字乘上一组权重、加起来,再经过一个简单函数。训练就是不断调整这些权重。

21
×
0.51.0-11.502
=
2.520
第一格怎么算:2×0.5 + 1×1.5 = 2.5把很多这样的“加权求和”叠起来,就是一层神经网络。
x₁=2x₂=1
权重矩阵 W
决定“看重哪个输入”
2.520

Function Approximation

它厉害在:能拟合很弯、很碎、很难写公式的关系

天气、路况、用户偏好、文字语义都不是简单线性关系。神经网络擅长从样本里学出这种高维曲线。

不是背答案,是学到能泛化的函数

03 / Deep Learning 能做什么

本质都是预测,只是输入和输出不同

⏱ 预测时间 ETA

输入:距离、路况、天气、历史履约;输出:预计多久到。

f(订单特征) → 时间

📈 预测转化率 CXR

输入:用户、商品、价格、活动、时段;输出:点击/下单概率。

f(场景特征) → 概率

🖼 预测图片标签

输入:像素矩阵;输出:猫、车、病灶、缺陷。

f(图像) → 类别

💬 预测文本

输入:前文 token;输出:下一个 token 的概率。

f(上下文) → next token

04 / Text Prediction

预测文本第一步:把文字变成数字

模型不认识“字”的形状,它只处理向量。文本先被切成 token,再映射成 embedding,也就是一串可以参与矩阵运算的数字。

“客户想退款”
客户退款
文字 → token → 向量

Transformer / Attention

Attention 不是“看全文”,而是给上下文分配权重

当模型要理解“苹果”时,它会根据当前任务给前后词打分:如果在讲发布会,就重点看 iPhone;如果在讲饮料,才更看果汁。

苹果发布会推出新款iPhone,不是果汁
iPhone0.88
发布会0.72
新款0.56
果汁0.12
加权汇总后:“苹果”更像 Apple 公司

每个 token 都会做一次这样的打分和汇总,所以模型能根据上下文改变词义。

为什么要 GPU

LLM 的核心计算,是把这种矩阵乘法做上万亿次

一个 token 是向量;每一层都有很多权重矩阵。模型生成一句话,就是不断做“向量 × 矩阵”,再决定下一个 token。

0.20.8-0.1
×
1.00.40.20.51.2-0.30.10.70.9
0.591.03-0.29

一层算完得到新向量;几十/上百层后,再转成“下一个词”的概率。

GPU 的价值:这些小乘法彼此独立,可以几千个核心同时算。

05 / 智能从哪里来

为什么“预测下一个词”会产生智能感?

语法

要续写通顺,就必须学会语言结构。

知识

要回答事实,就会压缩大量世界知识。

推理

要写代码、证明、计划,就会学到多步模式。

工具语言

要按格式调用工具,就会学会协议和约束。

一句话:训练目标很简单,但数据规模足够大时,会逼出很多复杂能力。

Scaling Law

Scaling law:模型、数据、算力一起变大,能力会持续改善

大模型不是靠一条神秘规则突然聪明,而是参数规模、训练数据和计算量不断放大后,很多能力从“不稳定”变成“可用”。

更多参数+更多数据+更多计算更强泛化

规模不是全部,但没有规模,很多能力不会稳定出现。

为什么内存重要

显存/内存决定:模型多大、上下文多长、能同时服务多少人

推理时模型权重、KV Cache、上下文 token 都要放进内存。上下文越长,记住前文的缓存越大。

权重权重上下文KVKV批量工具结果余量

所以“能不能跑大模型/长上下文”,常常先看显存够不够。

06 / 大语言模型的几个时刻

三次跃迁:会聊天 → 会思考 → 会做事

2023

GPT 时刻

流畅对话、写作、总结、问答成为大众可用能力。

2024

o1 时刻

推理模型开始“多想一会儿”:分解、反思、规划、验证。

2025

Claude Code 时刻

AI 能读仓库、改文件、跑测试、长时间循环,完成复杂工作。

2023 GPT 时刻

大模型第一次让普通人感觉:电脑真的会对话了

GPT-4 之后,写邮件、总结材料、解释概念、生成代码片段变成了日常入口。它的关键不是“全知”,而是语言交互成本骤降。

以前:人适应软件界面。
现在:软件开始适应人的语言。

2024 o1 时刻

推理 AI:不急着回答,先把问题拆开

o1 这类模型的标志,是愿意花更多计算做中间推理:反思、规划、自我对话,把复杂问题拆成可理解步骤,再基于事实做 grounded reasoning。

1

理解问题:哪些条件、目标、约束?

2

拆步骤:先查事实,再推导,再验证。

3

反思校验:哪里可能错?证据够不够?

2025 Claude Code 时刻

Agentic Coding:AI 开始和外部环境持续交互

Claude Code 代表的不是“代码补全更强”,而是 AI 能读项目、运行命令、修改文件、看测试结果,再继续修。它从对话工具变成工作循环。

读仓库改代码跑测试看结果继续修

07 / 为什么不能直接当系统用

模型很强,但单独一个模型不等于可靠系统

会幻觉

没查资料也可能说得很像真的。

知识会过时

训练后的新政策、新代码、新客户状态不知道。

不会天然执行

它会说方案,但不能自动访问系统、下单、改文件。

缺少边界

生产动作需要权限、日志、审批、回滚。

RAG 与 Agent

两条补强路线:先查资料;或者让它做事

RAG 解决“回答要有依据”;Agent 解决“任务要能执行”。二者经常一起用。

RAG

检索知识库、文档、数据库,把相关材料塞进上下文,再让模型回答。

Agent

模型根据目标规划步骤,调用工具,观察结果,循环推进直到完成或请求人工。

08 / Agent 原理

为什么 Agent 比单次 LM 调用更能做复杂任务?

单次 LM 调用:一次输入 → 一次输出

模型只能基于当前上下文生成回答;如果缺资料、需要操作系统,它最多“建议你怎么做”。

Prompt帮我查订单超时原因
Answer可能是天气/骑手/库存,请去查
瓶颈:不会自己查数据库,不会看到工具结果,也不会根据新证据继续下一步。

Agent:把 LM 放进“工具 + 观察 + 再决策”的循环

每一轮 LM 不只是回答,还可以选择工具;工具返回结果后进入上下文,下一轮 LM 基于新证据继续行动。

LM 决策器理解目标
选择下一步
Tool查订单 API
Tool查骑手轨迹
Observation返回:雨天 + 商家出餐慢
1 Plan先查订单
2 Act调用工具
3 Observe读结果
4 Continue继续查/汇总
LLMToolsMemory/ContextLoop= 可执行任务

单次 Agent 调用剖析

一次调用里,Agent 到底看到了什么?

用户目标系统指令上下文可用工具列表一次工具调用/回答

例子

“帮我查这个订单为什么超时”。

选择工具

查订单、查骑手轨迹、查天气/异常。

输出

给原因、证据、下一步建议。

循环调用示例

复杂任务不是一次回答,而是一串循环

1

读需求:要做一份周报,包含销售变化和原因。

2

查数据:调用报表接口,发现华东区异常下滑。

3

继续查:拉活动、库存、客诉,定位到缺货。

4

生成结论:写周报草稿,附证据链接,请人审核。

09 / Skill

Skill:给 Agent 可按需加载的“经验包”

不是插件,也不只是 prompt

插件/MCP 解决“能接什么工具”;Skill 解决“遇到这类任务时,应该怎么做才靠谱”。它把人的经验沉淀成可复用的上下文。

📁 market-research/
├─ SKILL.md:什么时候用、按什么步骤做
├─ references/:行业口径、模板、检查清单
└─ scripts/:可重复执行的小脚本

关键机制:按需加载,不把所有知识都塞进上下文

平时只暴露名称和描述;任务命中时才加载 SKILL.md;需要时再打开参考资料或脚本。这就是“经验库 + 渐进加载”。

1 识别任务“做竞品分析”
2 加载 Skill流程/坑/标准
3 执行验证查资料/跑脚本/交付

让 Agent 少从零试错,复用团队已经踩过的坑。

每次任务后把新经验补进 Skill,越用越稳定。

Skill 怎么生产出来

最好的 Skill,来自“把一次成功经验固化成下次可复用”

01

从重复任务开始

比如:投研、周报、代码发布、客户投诉归因。不是所有事都值得写 Skill,重复且有标准的最值得。

02

记录高手做法

先查什么、用哪些工具、哪些信息源可信、遇到异常怎么判断。

03

写成可执行清单

触发条件、步骤、模板、脚本、验收标准;越具体,Agent 越少自由发挥。

04

用失败反哺

每次出错都不是只改 prompt,而是把“坑”和验证方法补回 Skill。

没有 Skill“帮我做竞品分析” → 模型泛泛列点,来源混杂,结论不稳定。
有 Skill自动按行业模板查官网/财报/新闻/用户反馈,区分事实与判断,最后给可验证链接和结论。

10 / MCP

MCP:给 AI 工具接入做“统一插口”

过去每个工具都要单独写胶水代码。MCP 让客户端和工具服务器用统一协议交换能力:有哪些工具、需要什么参数、返回什么结果。

AI Client
MCP
Tools / Data
像 USB-C:不是工具本身,而是连接标准

MCP 能接什么

数据库、文件、浏览器、业务系统,都可以变成工具

数据类

数据库、知识库、CRM、报表。

操作类

发邮件、建工单、改配置、发审批。

开发类

Git、终端、CI、日志、代码搜索。

桌面类

浏览器、GUI、文件系统、剪贴板。

11 / 通用 Agent 工具怎么选

龙虾、CatDesk 这类东西,本质上都是通用 Agent 工作台

它们共同点

都有模型、上下文、工具调用、任务循环、文件/浏览器/终端等外部环境。

差异在哪里

强项可能不同:代码、桌面操作、浏览器自动化、企业集成、权限治理、协作体验。

选工具别只看 demo:看它能不能接你的真实系统,能不能留证据,能不能跑完长任务。

工具选择清单

选 Agent 工具,看 6 件事

模型能力

复杂任务能不能稳。

工具生态

MCP/API/浏览器/终端是否好接。

上下文与记忆

长任务中是否会丢信息。

权限边界

危险动作能否审批。

可观测

查了什么、改了什么、失败在哪里。

成本与速度

能不能规模化使用。

12 / 模型怎么选

不要问“哪个模型最好”,要问“哪个模型适合这个任务”

写作/总结

看表达、结构、事实引用、风格稳定性。

语言质量

推理/分析

看复杂问题拆解、反思、 grounded truth、错误率。

推理可靠性

代码/Agent

看能否读项目、改文件、跑测试、长循环。

任务完成率

生产部署

看成本、延迟、稳定性、上下文、隐私与供应商风险。

TCO

评测方法

用自己的真实任务集,而不是只看榜单

榜单有用,但不能替代你的业务评测。最好的方法是收集真实失败样本,做小型 benchmark,持续比较模型、prompt、skill、工具链。

真实任务标准答案/验收多模型对比成本/延迟上线灰度

13 / 工作中怎么应用

先替代“低风险、高重复、可验证”的工作

信息处理

会议纪要、资料总结、日报周报、竞品扫描。

文案与沟通

邮件、公告、客服草稿、培训材料。

分析辅助

经营归因、异常解释、指标口径检查。

研发提效

代码阅读、测试生成、bug 初查、脚本编写。

运营执行

素材改写、批量分类、工单分流。

知识问答

制度查询、流程咨询、新人助手。

哪些工作会被替代

不是岗位先消失,而是任务包先被拆掉

更容易被替代

输入清楚、输出格式明确、风险低、结果容易验证、重复频率高。

更难被替代

目标模糊、责任重大、涉及人际判断、跨部门博弈、需要真实世界承担后果。

管理者要做的不是问“AI 会不会替代人”,而是拆出哪些任务该先自动化。

落地路线

三步走:建议模式 → 人审闭环 → 受控自动化

建议模式
先让 AI 起草、总结、推荐
要求:人能快速判断对错
人审闭环
AI 给证据和操作记录
要求:有日志、有回滚、有责任人
受控自动化
低风险动作自动执行
要求:权限、阈值、审批、监控

最后收一下

如果只记 6 句话

  • 机器学习的核心是预测:从样本里学函数。
  • 深度学习用神经网络拟合复杂函数。
  • LLM 本质是预测下一个 token,但规模让它长出智能感。
  • GPU 重要,因为 Transformer 主要是并行矩阵计算;内存重要,因为权重和上下文都要装进去。
  • RAG 让回答有依据,Agent 让模型能做事,Skill 和 MCP 让做事更稳定、更可复用。
  • 真正的落地,不是炫模型,而是找到可验证、可控、可替代的任务包。