大模型概念大全：全景图、时间线与部署路线（含术语索引）

当我们说“AI 大模型”，其实在讨论一整套从 数据 → 训练 → 对齐 → 推理 → 工具/Agent → 部署与评测 的技术体系。很多概念听起来像“黑话”，但它们都有明确的含义、出处与适用边界。

这篇文章按入门读者的视角，做一份尽量系统的“概念大全”：每个概念包含 它是什么、最常见的误解/边界、较为公认的提出者/代表论文、未来可能的方向。

TL;DR（3 分钟读完的结论）

Transformer 是现代大模型的主干结构；核心是 自注意力（Self-Attention）。
预训练（Pretraining） 决定“会不会”，指令微调/对齐（SFT/RLHF/DPO 等） 决定“好不好用、像不像助手”。
推理（Inference） 不只是“跑一下模型”，还包含 采样策略（temperature/top-p/top-k）、KV Cache、长上下文优化 等工程关键点。
RAG（检索增强生成） 与 工具/Agent（ReAct、Toolformer 等） 解决“只靠参数记忆不够”的问题：让模型学会引用外部知识与调用外部能力。
未来的主线通常围绕：更可靠（可验证/可控）、更便宜（高效推理/端侧）、更长记忆（长上下文+外部记忆）、更强工具性（Agent）、更合规与安全（对齐/治理）。

概念关系图：从数据到应用（先建立全景）

这张图把全文涉及的概念放进同一条“流水线”，你可以把它当成阅读导航：先知道每个概念在哪一层，再去看后面的详细解释会轻松很多。

┌──────────────┐
│ 数据与语料     │  清洗/去重/合规/版权
└──────┬───────┘
       │
       v
┌──────────────┐
│ Tokenizer     │  Token / 分词 / 词表
└──────┬───────┘
       │
       v
┌──────────────┐
│ 预训练        │  Pretraining（自监督：下一个 token 预测等）
│              │  Transformer / Attention / Embedding
└──────┬───────┘
       │
       v
┌──────────────┐
│ 基座模型      │  Foundation Model（“会语言/会推断”的通用底座）
└──────┬───────┘
       │
       v
┌──────────────┐
│ 对齐与助手化  │  SFT / RLHF / DPO / Constitutional AI
│              │  让它“更像助手、更安全、更可控”
└──────┬───────┘
       │
       v
┌──────────────┐
│ 推理与采样    │  Inference：Temperature / Top-p / Top-k / Stop
│              │  KV Cache / 长上下文优化
└──────┬───────┘
       │
       ├───────────────────────────────┬───────────────────────────────┐
       │                               │                               │
       v                               v                               v
┌──────────────┐               ┌──────────────┐               ┌──────────────┐
│ RAG 知识接入  │               │ 工具与 Agent  │               │ 部署与成本    │
│ Embedding     │               │ Function Call │               │ Quantization  │
│ Vector DB     │               │ ReAct         │               │ LoRA / QLoRA   │
│ Rerank        │               │ Toolformer    │               │ Distillation   │
└──────┬───────┘               └──────┬───────┘               └──────┬───────┘
       │                               │                               │
       └──────────────┬────────────────┴──────────────┬────────────────┘
                      │                               │
                      v                               v
               ┌──────────────┐               ┌──────────────┐
               │ 评测与安全    │               │ 产品与系统    │
               │ Hallucination │               │ 工作流/权限/审计│
               │ Evals/RedTeam │               │ 成本治理/监控   │
               └──────────────┘               └──────────────┘

读图提示：

“结构层”主要是 Transformer/Attention，决定模型骨架。
“能力层”主要是预训练规模与数据质量，决定通用智能上限。
“可用性层”主要是对齐与推理策略，决定像不像一个可靠助手。
“落地层”通常是 RAG + 工具/Agent + 部署优化 + 评测治理的组合。

术语速查表（按主题分类）

主题	术语	一句话解释
基础单位	Token / Tokenizer	把文本拆成模型能处理的离散单位；Tokenizer 决定“拆分规则”。
表示学习	Embedding	把离散 token 映射成连续向量，便于模型计算相似度与关系。
模型结构	Attention / Transformer	注意力用“相关性加权”聚合信息；Transformer 用注意力替代 RNN/CNN 做序列建模。
训练范式	Pretraining	大规模无监督/自监督训练，让模型掌握语言与世界知识的统计规律。
对齐	SFT / RLHF / DPO	用示范数据与偏好数据把模型“驯化成助手”。
推理	Temperature / Top-p	控制输出的随机性与多样性；越“保守”越像检索，越“开放”越像创作。
上下文	Context Window	模型单次可见的 token 范围；影响“能看多长、能推多远”。
知识接入	RAG / Vector DB	先检索再生成，用外部文档弥补模型参数记忆的时效与可信问题。
工具化	Function Calling / Agent	让模型用工具（搜索、代码执行、数据库、工作流）完成可验证任务。
部署	Quantization / LoRA	量化让推理更省显存；LoRA 让微调更省参数与成本。
评测与安全	Hallucination / Red Teaming	幻觉是“编造”；红队是系统性找漏洞与越狱路径。

下面开始逐个拆解。

0) 发展史时间线：从“注意力”到“Agent 系统”

这一节不追求“最全”，而是把大模型技术主线按时间串起来，帮助你在脑中建立一条清晰的路线图：每一个新概念，通常都是为了解决上一个阶段的某个核心瓶颈（能力、对齐、可靠性、成本、工具化）。

时间	事件/概念	代表提出者/工作（较公认）	解决了什么问题	对今天的影响
2013–2014	词向量与分布式表示（Embedding）	Mikolov et al., 2013（Word2Vec）；Pennington et al., 2014（GloVe）	把离散符号映射到可计算的向量空间	向量相似度、语义检索、多模态对齐的基础
2015	Attention（注意力）在机器翻译中成熟	Bahdanau et al., 2015；Luong et al., 2015	解决长序列“记不住”的信息瓶颈	成为 Transformer 的核心思想
2017	Transformer（自注意力堆叠）	Vaswani et al., 2017	训练可并行化、规模化更容易	现代大模型几乎都以此为骨架
2018–2019	预训练语言模型（BERT/GPT）成为主流	Devlin et al., 2018（BERT）；Radford et al., 2018（GPT）	“先通用学习、再下游适配”	形成“基础模型（Foundation Model）”范式
2019	Top-p（Nucleus Sampling）	Holtzman et al., 2019	改善开放式生成质量与多样性	成为推理采样的常用参数之一
2020	RAG（检索增强生成）	Lewis et al., 2020	解决参数记忆的时效/可追溯问题	企业知识库问答与“可引用回答”的核心路线
2021	LoRA（参数高效微调）	Hu et al., 2021	让微调成本显著下降、易分发	开源模型生态的“能力插件化”关键组件
2021–2022	长上下文位置编码探索（RoPE/ALiBi 等）	Su et al., 2021（RoPE）；Press & Smith, 2021（ALiBi）	让模型更能处理长序列	为后来的长上下文模型铺路
2022	RLHF/助手化（InstructGPT）	Ouyang et al., 2022	解决“会说但不好用/不安全”	“Chat 模型/助手”成为主流产品形态
2022	Constitutional AI（宪法式对齐）	Anthropic（2022）	降低对人工标注依赖、强化安全原则	对齐从“偏好”走向“可治理”
2022	ReAct（思考-行动循环）	Yao et al., 2022	让模型更会用工具、更会多步任务	Agent 的 prompt 范式之一
2023	Toolformer（训练阶段学会用工具）	Schick et al., 2023	让工具调用不再只靠提示词	推动“训练出来的工具能力”
2023	DPO（更简单的偏好优化）	Rafailov et al., 2023	降低 RLHF 工程复杂度	偏好对齐更易复现、更稳定
2023	QLoRA（量化 + LoRA 微调）	Dettmers et al., 2023	进一步降低微调显存门槛	中小团队也能训练出可用的适配模型
2023–2025	多模态与更强工具链（Function Calling 等）	多家厂商工程化落地	从“文本助手”走向“能做事”	Agent 框架、工作流、插件生态爆发
2025+	可靠性与系统化评测成为主线	学界/工业界共同推进	从“看起来对”到“可验证地对”	证据链、审计、权限、成本治理进入产品核心

把时间线映射回上面的术语，你会发现：

“结构层”在 2017 年左右趋于稳定（Transformer），之后更多是 规模化与工程化 的胜负手。
“产品形态”在 2022 年发生跃迁（RLHF/助手化），之后重点转向 可靠性、工具化与系统治理。
“落地路径”在企业侧更倾向：RAG（知识）+ Tool/Agent（行动）+ Eval/Guardrails（治理）的组合。

1) Token / Tokenizer：模型理解文本的“最小颗粒”

它是什么

Token 是模型处理文本时的离散单位；可以是字、词、子词（subword）、甚至片段。
Tokenizer 是把“文本 → token 序列”的工具；不同 tokenizer 会让同一句话的 token 数量差很多。

常见误解

误解：token 等于“字”或“词”。实际常见是 subword，尤其在中英混合、专有名词、代码场景。
误解：上下文 128K 就等于“128K 字”。实际是 128K token，折算成字符取决于语言与内容。

提出者 / 代表工作（较为公认）

BPE（Byte Pair Encoding）在 NLP 子词分词中被系统化推广：Sennrich 等（2015）。
SentencePiece（不依赖空格、适合多语言）：Kudo（2018）。

未来展望

更通用的多模态 tokenizer（文本/图像/音频统一 token 化）。
更“语义友好”的切分，使长上下文下的检索、对齐、压缩更稳定。

2) Embedding：把离散世界变成可计算的向量空间

它是什么

Embedding 是把离散 token 映射成向量，向量距离可表达语义相近、关系相似等。
不仅有“词向量”，还有“位置向量（positional embedding）”、“句向量/段落向量”、“多模态向量”等。

提出者 / 代表工作（较为公认）

Word2Vec：Mikolov 等（2013）。
GloVe：Pennington 等（2014）。
向量检索工程化基础设施：FAISS（Johnson 等，2017）。

未来展望

更强的“可解释向量空间”、可逆表示（便于压缩与安全审计）。
更强的跨模态统一 embedding（文本、图像、音频、结构化数据）。

3) Attention / Transformer：现代大模型的骨架

3.1 Attention（注意力）是什么

它是什么

注意力是一种“按相关性加权汇总”的机制：让模型在需要时从上下文中抓取最相关信息。

提出者 / 代表工作（较为公认）

神经机器翻译中的 Attention：Bahdanau 等（2015）与 Luong 等（2015）。

未来展望

更高效注意力（降低长序列的计算与显存）。
更稳的注意力分布（减少长上下文下的“注意力漂移”）。

3.2 Transformer（Vaswani et al., 2017）为什么重要

它是什么

Transformer 用自注意力堆叠层，替代 RNN 的逐步递归，让训练高度并行化。

常见误解

误解：Transformer = “更大参数”。结构是前提，但规模化（数据/算力/训练技巧）决定天花板。

未来展望

更稀疏/结构化的计算（MoE、条件计算）在可控成本下提升能力。
新结构是否会替代 Transformer：短期更像“增强”，长期取决于效率与可解释性突破。

4) 预训练（Pretraining）：让模型“会语言”和“懂常识”

它是什么

预训练通常用自监督目标（比如“预测下一个 token”）在海量语料上训练。
产物是一个“通用底座”，但它不一定“像助手”，也不一定“安全”。

提出者 / 代表工作（较为公认）

GPT 系列作为“自回归语言模型 + 规模化”的典型路线：Radford 等（2018 起）。
BERT 代表“掩码语言模型”路线：Devlin 等（2018）。

未来展望

数据质量比数据数量更关键（合成数据、去重、版权与可追溯）。
更强的“世界模型”能力可能需要把交互、环境反馈纳入训练闭环。

5) 指令微调（SFT）与对齐（Alignment）：让模型变成“可用的助手”

5.1 SFT（Supervised Fine-Tuning）

它是什么

用人工/高质量示范数据（instruction → answer）微调，使模型学会“按指令说话”。

提出者 / 代表工作（较为公认）

指令微调是社区长期实践，但在“助手式 LLM”浪潮里，往往与 InstructGPT/RLHF 链路一起被大众认知。

未来展望

更强的“任务泛化”：少量示范覆盖更多意图与风格。
结合合成数据与自动过滤，提高覆盖面同时控制幻觉与偏差。

5.2 RLHF（Reinforcement Learning from Human Feedback）

它是什么

用人类偏好训练奖励模型（RM），再用强化学习优化策略，使输出更符合人类偏好。

提出者 / 代表工作（较为公认）

InstructGPT：Ouyang 等（2022）把 RLHF 大规模落地并形成业界范式。

未来展望

从“人类偏好”走向“可验证目标”（例如基于规则、工具验证、形式化约束）。
成本更低的偏好学习（用 AI 反馈 RLAIF、弱监督偏好、在线学习）。

5.3 DPO（Direct Preference Optimization）

它是什么

不显式训练奖励模型、不跑复杂 RL，直接用偏好数据做优化（更简单、更稳定）。

提出者 / 代表工作（较为公认）

DPO：Rafailov 等（2023）。

未来展望

偏好学习会更“细粒度”：面向不同人群/场景个性化对齐，但要解决隐私与安全边界。

5.4 Constitutional AI（宪法式 AI）

它是什么

用一套“原则/宪法”指导模型自我批评与修正，减少对人工标注的依赖。

提出者 / 代表工作（较为公认）

Anthropic（2022）提出并系统化。

未来展望

从“静态原则”走向“可审计的治理体系”：规则、日志、模型版本与风险评估可追溯。

6) 推理（Inference）与采样：从“生成”到“生成得好”

6.1 Temperature / Top-k / Top-p

它是什么

Temperature：缩放 logits，控制随机性；越低越保守，越高越发散。
Top-k：只在概率最高的 k 个 token 里采样。
Top-p（Nucleus Sampling）：在累计概率达到 p 的候选集合里采样。

提出者 / 代表工作（较为公认）

Nucleus Sampling（Top-p）：Holtzman 等（2019）。

未来展望

更智能的自适应采样：在“需要创造力”与“需要严谨”之间动态切换。
与“可验证推理”结合：让模型在输出前调用工具/证明器/执行器自检。

6.2 KV Cache：性能与成本的关键

它是什么

推理时把历史 token 的 K/V 存起来，避免每次都重算历史，显著加速生成。

未来展望

更强的 KV 压缩与复用（长上下文下尤其关键）。
推理系统会更“编译器化”（图优化、算子融合、分布式并行）。

7) 上下文窗口（Context Window）与长上下文

它是什么

上下文窗口是模型一次能“看见”的 token 上限；超过就需要截断、摘要或外部记忆。

提出者 / 代表工作（较为公认）

位置编码与长上下文技巧不是单一概念，典型代表包括 RoPE（Su 等，2021）、ALiBi（Press & Smith，2021）等路线。

未来展望

“长上下文 + 外部记忆 + 结构化检索”会组合使用，单纯堆窗口并非万能。
更好的“遗忘与压缩”：把不重要信息自动压缩为可检索摘要，降低幻觉与干扰。

8) RAG（检索增强生成）：让模型引用外部知识

它是什么

先把问题/上下文向量化 → 在向量库检索相关片段 → 将片段拼到 prompt → 再让模型生成。
本质是让模型“把不确定性外包给可追溯资料”，并把来源展示出来。

提出者 / 代表工作（较为公认）

RAG：Lewis 等（2020）。

未来展望

从“拼接文档”走向“结构化证据链”：检索 → 归纳 → 引用 → 可验证回答。
更强的混合检索（BM25 + 向量 + 重排），以及面向多模态/代码/表格的检索。

9) 工具调用与 Agent：从“会说”到“会做”

9.1 Function Calling（工具调用）是什么

它是什么

模型输出结构化参数（例如 JSON），由系统调用外部 API，再把结果回灌给模型继续推理。

未来展望

更标准的工具协议（权限、审计、失败恢复、成本控制）。
工具调用会变成“必备能力”，尤其在企业流程与可靠性场景。

9.2 ReAct / Toolformer：Agent 的典型范式

它是什么

ReAct：把“思考（Reason）”与“行动（Act）”交替进行：思考 → 调工具 → 读结果 → 再思考。
Toolformer：让模型在训练阶段学习“何时调用什么工具”。

提出者 / 代表工作（较为公认）

ReAct：Yao 等（2022）。
Toolformer：Schick 等（2023）。

未来展望

从“prompt 工程 Agent”走向“训练出来的 Agent”：更少提示词、更强鲁棒性。
更强的任务分解与自我纠错（计划、执行、回滚、验证）。

9.3 Prompt（提示词）：把“意图”变成可执行输入

它是什么

Prompt 是你给模型的输入组织方式：任务指令、上下文、约束、示例（few-shot）、输出格式等。
在 LLM 语境里，Prompt 与 In-Context Learning（上下文学习） 绑定：模型在不更新参数的情况下，依靠上下文里的示例与指令完成新任务。

提出者 / 代表工作（较为公认）

“Prompt”作为通用术语并没有单一提出者；在 LLM 语境中，“上下文学习 / few-shot prompting”由 GPT-3（Brown 等，2020）系统化并推动流行。

边界与常见误解

Prompt 不是“魔法咒语”：能显著影响输出，但不能替代数据、检索、工具验证与工程约束。
Prompt 的可控性来自“约束与反馈闭环”，而不是无限堆叠文本：越长不一定越好，可能挤占上下文窗口并引入噪声。

未来展望

从“手工提示词”走向“结构化提示”：模板化、可参数化、可测试、可版本管理。
Prompt 会越来越多地被系统吸收：由策略层（policy）、工具协议与验证器共同决定输出。

9.4 Skill（技能）：可复用的能力单元

它是什么

Skill 可以理解为“把一件事做成可复用模块”的封装：通常包含一段 Prompt/规则 + 可能的工具调用 + 输入输出约束（schema）+ 失败处理策略。
在 Agent 系统里，Skill 的价值是“可组合”：多个 skill 串联成工作流，降低每次都从零写 prompt 的成本。

9.4.1 SDD（Skill Definition Document）：技能定义文档

它是什么

SDD 的全称是 Skill Definition Document，可以理解为“技能的产品说明书/接口契约”。
它的目标是把 skill 从“脑内经验 + 一段 prompt”变成“可协作、可评审、可测试、可演进”的工程资产。

一个实用的 SDD 通常包含：

目标与范围：这个 skill 解决什么问题、不解决什么问题。
输入：允许的输入字段、类型、必填/可选、默认值（最好是 JSON Schema 形式）。
输出：输出结构、字段含义、稳定性保证（例如是否必须返回 JSON）。
上下文与依赖：需要哪些上下文（知识库、账号权限、环境变量）、依赖哪些工具/数据源。
约束与规则：合规/安全边界、禁止行为、敏感信息处理。
示例：至少 3–5 个覆盖典型场景与边界场景的示例（输入→期望输出）。
失败策略：工具失败/网络失败/权限不足/无法确定时如何降级与提示。
评测用例：可用于 harness 的用例集与通过标准（pass criteria）。

边界与常见误解

SDD 不是越长越好：关键是“可执行的约束与可复现的例子”，避免只写愿景与口号。
SDD 不等于 Prompt：Prompt 是实现的一部分；SDD 更偏“规格说明 + 测试契约”。

未来展望

SDD 会越来越像“API 规格 + 测试用例 + 运行策略”的组合：与权限、成本预算、审计和评测体系打通。

提出者 / 代表工作（较为公认）

“Skill”这个命名在多种 Agent 框架里都出现；较早把它作为一等概念推广的工程实践之一是 Microsoft Semantic Kernel（2023）中的 skills（semantic / native skills）。

边界与常见误解

Skill 不是“越多越好”：数量增长会带来路由、权限与维护成本；需要目录化、命名规范与版本管理。
Skill 不等于工具：工具（tool）是“能力接口”，skill 更偏“能力编排与策略”。

未来展望

Skill 会逐步标准化：声明式元数据（能力、风险、成本、权限）、可观测性（日志/追踪）、可测试性（单元/回归）。

9.5 MCP（Model Context Protocol）：把“上下文与工具”标准化

它是什么

MCP 是一种协议/规范思路：让客户端、模型与外部能力（工具/数据源）之间的集成更标准、更可迁移。
它关注的不只是“能调哪个工具”，还包括：上下文如何提供、权限如何声明、调用如何审计、失败如何处理。

提出者 / 代表工作（较为公认）

MCP 在业界最常被提及的版本由 Anthropic 推出并推动生态（2024）。

边界与常见误解

MCP 不是模型能力本身：它是“连接器与协议层”，目的是降低集成成本与供应商锁定。
协议不能自动带来安全：权限最小化、隔离与审计仍需要工程落地。

未来展望

从“各家私有工具接口”走向“可互通协议”：一套工具/数据连接可在多模型、多客户端之间复用。

9.6 Harness（运行/评测框架）：让 Agent 系统可测、可控、可回放

它是什么

Harness 在软件工程里指“测试/运行框架”：把被测对象（模型/Agent）放进可控环境里，统一提供输入、收集输出、记录日志与指标。
对 LLM/Agent 来说，harness 常承担：用例集（prompts/tasks）、工具模拟（mock）、评测指标、回放与对比（A/B）。

提出者 / 代表工作（较为公认）

“Harness”不是单一论文概念；在开源生态里，常被引用的代表实践之一是 EleutherAI 的 lm-evaluation-harness（2020，偏模型评测）。

边界与常见误解

Harness 不等于 Benchmark：benchmark 是题目集合与分数；harness 是“跑这些题的系统”，包括数据、执行、记录、复现。
对 Agent 更重要的是“系统级评测”：同一任务在不同工具、不同网络延迟、不同权限下是否稳定。

未来展望

从“离线分数”走向“可回放的系统测试”：带工具调用轨迹、成本、失败恢复、权限审计的全链路回归。

10) 微调（Fine-tuning）、LoRA 与部署优化

10.1 Fine-tuning / PEFT / LoRA

它是什么

Fine-tuning：用你自己的数据继续训练，让模型适配垂直领域与风格。
PEFT：参数高效微调，只训练很少的附加参数。
LoRA：用低秩分解在权重上加可训练“旁路”，成本更低、易分发。

提出者 / 代表工作（较为公认）

LoRA：Hu 等（2021）。
QLoRA（把量化与 LoRA 结合，让微调更省显存）：Dettmers 等（2023）。

未来展望

“模块化能力包”：把领域能力以 adapter/LoRA 形式按需加载。
更强的个性化但更严格的安全边界（防泄露、可撤销、可审计）。

10.2 Quantization（量化）/ Distillation（蒸馏）

它是什么

量化：用更低位宽（INT8/INT4 等）表示权重/激活，换取更低显存与更快推理。
蒸馏：用大模型当老师训练小模型，把能力“压缩”进更小网络。

提出者 / 代表工作（较为公认）

知识蒸馏：Hinton 等（2015）。

未来展望

端侧大模型依赖：更强量化、更强推理编译器、更强隐私与个性化。
“可验证蒸馏”：让小模型在关键能力上对齐可测指标，而不是只追相似输出。

11) 幻觉（Hallucination）、评测（Eval）与安全（Safety）

11.1 Hallucination：为什么会“编造”

它是什么

语言模型在本质上是在做“条件概率最大化的生成”，并不天然具备事实校验机制。

未来展望

检索与工具验证会成为标配：回答前先查证、回答时可引用、回答后可复核。
“校准（Calibration）”能力会更重要：知道自己不知道、并明确表达不确定性。

11.2 Benchmark / Red Teaming

它是什么

Benchmark：用公开任务集合比较能力（但容易过拟合、被刷分）。
红队：以攻击者视角测试越狱、提示注入、数据泄露与工具滥用。

提出者 / 代表工作（较为公认）

MMLU：Hendrycks 等（2020）是常见通用评测之一。
HELM：Liang 等（2022）强调更全面的评测维度（准确性、鲁棒性、公平性等）。

未来展望

从“单次问答分数”走向“系统级评测”：工具链、记忆、权限、成本、稳定性一起评。
企业侧会更依赖离线评测 + 在线监控 + 可追溯日志的闭环治理。

12) 未来展望：大模型接下来会往哪走？

把趋势压缩成几条更确定的“工程方向”：

更可靠（Reliability）：从“看起来对”走向“可验证地对”，工具验证与证据链成为默认。
更高效（Efficiency）：推理成本仍是规模化落地的门槛；量化、并行、编译器、稀疏计算会持续进化。
更长记忆（Memory）：长上下文与外部记忆融合；关键是“检索/压缩/遗忘策略”，而不是一味拉长窗口。
更强工具化（Agent）：从单轮助手走向“能完成任务的系统”，强调权限、可控、可回滚、可审计。
更合规与治理（Governance）：数据来源、版权、隐私与安全会深度影响模型训练与发布形态。

13) 开源生态与部署路线：vLLM / TGI / llama.cpp / Ollama 怎么选、怎么跑

这一节的目标只有一个：让你建立“怎么跑起来”的直觉。不同工具本质是在解决不同问题：

llama.cpp：尽量用 CPU/少量内存跑起来（也可用 Metal/CUDA 加速），重在“能本地跑、好分发”。
Ollama：把本地跑模型做成“应用化体验”（下载模型、启动服务、管理多个模型），更像“本地模型运行器”。
vLLM：面向 GPU 的高吞吐推理引擎，重在“并发、吞吐、KV Cache 管理、服务化”。
TGI（Text Generation Inference）：Hugging Face 的推理服务栈，重在“生产化服务、生态集成、易部署”。

你可以按场景做最小决策：

你的目标	推荐路线	关键词
想先体验、本地对话、偶尔写点脚本	Ollama / llama.cpp	端侧/本地、简单、可离线
单机 GPU、希望高并发与高吞吐（服务化）	vLLM	高吞吐、PagedAttention、KV Cache
更偏“标准化生产部署”、与 HF 生态深度结合	TGI	容器化、监控、生态集成

13.1 模型文件与格式：HF 权重 vs GGUF

你在开源生态里常见两类“模型文件”：

Hugging Face 权重（HF 格式）：通常是 safetensors/pt，适合 vLLM/TGI 等 GPU 引擎读取。
GGUF：llama.cpp 生态主流格式，通常是“量化后”的模型文件，面向本地推理更友好。

直觉上可以这样理解：

HF 权重更像“原材料”，适合 GPU 高性能推理或继续训练/微调。
GGUF 更像“成品包”，适合本地分发与低成本推理（尤其 CPU/端侧）。

13.2 量化（GGUF / INT4）在部署里的位置

量化的核心目标：用更少显存/内存跑得动，通常也更快（但可能损失一点能力）。

常见问法与直觉答案：

INT4 / 4-bit（四位量化）：显存占用大幅下降，是“本地跑起来”的关键手段之一。
GGUF：经常与量化绑定出现，因为很多 GGUF 文件本身就是不同量化等级（Q4、Q5、Q8 等）。

选择建议（入门版）：

你要“本地先跑起来”：优先 GGUF + 合适的量化等级（先从中等量化开始，效果不满意再换更高精度）。
你要“服务化 + 高吞吐”：优先 GPU 引擎（vLLM/TGI）+ 合理的量化/推理优化（是否量化取决于显存与性能目标）。

13.3 KV Cache：为什么它决定了“长对话成本”

KV Cache 你在 §6 见过，这里把它放回部署语境里看：

KV Cache 越大，越能避免重复计算历史 token → 生成越快。
但 KV Cache 会占用显存/内存，而且 上下文越长，占用越大。

因此部署时的核心权衡常常是：

更长上下文 / 更高并发 vs 显存上限。

很多推理引擎的“黑科技”基本都在做 KV Cache 的管理与优化（比如更好的分配、复用、分页、压缩等）。

13.4 并行（Tensor / Pipeline）：为什么多卡不等于更快

当模型大到单卡放不下，或者你要更高吞吐，就会碰到并行：

Tensor Parallel（张量并行）：把同一层的计算拆到多张 GPU 上并行做，适合提升吞吐/放大模型。
Pipeline Parallel（流水线并行）：把不同层分配到不同 GPU，像工厂流水线一样分段处理。

入门直觉：

并行能“放下更大的模型”，但也会引入通信成本与调度复杂度。
真正的性能瓶颈往往不在“算力”，而在 显存、KV Cache、带宽与通信。

13.5 四条最常见的“跑起来”路线（从易到难）

Ollama（最省心）

适合：想快速本地用；不想研究模型格式与推理参数。
常见形态：本机起一个服务端口 + 本地拉模型 + 客户端/CLI 调用。

llama.cpp（最轻量）

适合：CPU/端侧；或希望对量化与本地部署有更可控的理解。
关键词：GGUF、量化等级、设备加速（Metal/CUDA）。

vLLM（高吞吐服务）

适合：单机 GPU 并发；或需要一个“更像线上服务”的推理层。
关键词：吞吐、并发、KV Cache 管理、批处理。

TGI（生产化服务栈）

适合：更偏工程团队，追求成熟的容器化部署与与生态集成。
关键词：部署、监控、生态、集成。

提示：无论你选哪条路线，都建议优先建立最小闭环：能跑 → 能调参 → 能压测 → 能监控，再谈更复杂的 Agent/工作流。

14) 多模态概念补全：VLM / CLIP / 图像 token / ASR / TTS / 文档理解

很多人把“多模态”简单理解成“模型能看图/能听音频”，但工程上更准确的理解是：不同模态先被编码成某种 token/向量表示，再与 LLM 的 token 序列在同一条推理链路里融合。这决定了它的边界：

模型通常“能理解图像语义”，但不一定擅长“像素级精确读数/数格子/找坐标”。
模型能处理音频/视频，往往依赖“先转写/先抽帧/先结构化”的外部步骤。
文档（PDF/表格）最关键不是“看见”，而是“结构化”：标题层级、表格单元格、段落边界、引用与来源。

14.1 VLM（Vision-Language Model）是什么：不是“LLM + 图片”这么简单

VLM 通常指“视觉-语言模型”：输入可以包含图像，输出可以是文字（也可能进一步输出结构化内容）。

一个入门级的结构图可以这样记：

视觉编码器（Vision Encoder）：把图片转成视觉特征（向量序列）。
投影/适配层（Projector）：把视觉特征对齐到 LLM 能接收的表示空间。
LLM 解码器：把“文本 token + 视觉 token”一起作为上下文来生成回答。

常见边界：

更擅长“描述/问答/理解意图”，不一定擅长“精确测量/严谨数值/小字密集文本”。
图片里的文字（OCR）如果质量差，往往需要先做专门的 OCR，再交给 LLM 总结与推理。

14.2 CLIP：多模态世界里的“向量相似度发动机”

CLIP 的核心价值是：把图像和文本映射到同一个向量空间里，让你能用“相似度”做检索与匹配。

工程上你会在这些地方遇到 CLIP 思想：

以图搜图/以文搜图（图片库检索、素材管理、内容审核）
多模态 RAG：不仅检索文本 chunk，也检索相关图片/截图/图表，再把证据喂回给模型
跨模态对齐：把“图像证据”和“文字证据”放在同一套检索体系里

直觉上：CLIP 更像“多模态 Embedding 模型”，而不是“会长篇生成的大模型”。

14.3 图像 token：图像是怎么“进入上下文窗口”的

“图像 token”指的是：把一张图片变成模型可处理的序列表示。常见两类思路：

连续特征 token（更常见）

用视觉编码器输出一串向量（你可以把它理解为“把图片切成 patch，再给每个 patch 一个向量”）。
然后通过 projector 对齐到 LLM 的表示空间。

离散图像 token（更像压缩码）

把图像先压缩成离散 codebook id（类似“视觉领域的 tokenizer”），再当成 token 序列喂给模型。
优点是“token 序列更像文本”，缺点是训练/表示会更复杂。

工程边界：

图像 token 很快会吃掉上下文预算，所以“多图/长视频”通常需要抽帧、选关键帧、先做摘要或检索。

14.4 ASR / TTS：语音能力通常是“管道式组合”

多模态产品里，语音能力经常不是“一个模型全包”，而是管道组合：

ASR（Speech-to-Text）：把语音转成文本，再交给 LLM 做理解与推理。
TTS（Text-to-Speech）：把 LLM 产出的文本再转成语音。

为什么工程上喜欢分开做：

ASR/TTS 各自都有独立的指标与优化目标（延迟、音色、噪声鲁棒性、多语种等）。
文本是 LLM 最擅长的“中间表示”，便于做 RAG、工具调用、审计与留痕。

典型边界：

语音里的情绪、语气、说话人特征不一定能被完整保留到文本，需要额外结构化信息（比如情绪标签、说话人分离）。

14.5 文档理解（PDF/表格）：关键在“结构化”，不在“看见”

很多 PDF/表格任务的核心不是生成能力，而是把内容变成“可检索、可引用、可验证”的结构化数据。常见流水线：

解析/抽取：PDF → 文本块/段落/表格（必要时先 OCR）
结构化：保留标题层级、列表、表格单元格、引用来源
检索与生成（RAG）：按问题检索相关片段，再让 LLM 生成答案并引用证据

表格尤其容易踩坑：

“表格转纯文本”会损失行列关系，导致模型理解错位
更稳的方法是：把表格转成 Markdown 表格/CSV/JSON（保留结构），再交给 LLM 解读

边界与建议：

需要“逐字精确”的场景（财务、合同、法务条款核对）不要只依赖 LLM；应结合规则校验/双人复核/可追溯证据链。

术语索引（中英对照）

这一节用于“查词”，不追求解释（解释在正文各章节）。章节号对应本文的大标题序号（如 §8 表示「8) RAG」）。

A–Z 索引

首字母	术语	章节
A	Agent（智能体）	§9
A	ALiBi	§7
A	Attention（注意力）	§3
B	Benchmark（基准评测）	§11
B	BERT	§4
B	BPE	§1
C	CLIP	§14
C	Calibration（校准）	§11
C	Constitutional AI（宪法式对齐）	§5
C	Context Window（上下文窗口）	§7
D	Distillation（蒸馏）	§10
D	DPO	§5
E	Embedding（向量表示）	§2 / §8
F	FAISS	§2
F	Fine-tuning（微调）	§10
F	Function Calling（工具调用）	§9
G	GloVe	§2
G	GPT	§4
G	GGUF	§13
H	Harness（运行/评测框架）	§9
H	Hallucination（幻觉）	§11
H	HELM	§11
I	Inference（推理）	§6
I	InstructGPT	§5
I	INT4 / 4-bit	§13
K	KV Cache	§6
L	LoRA	§10
L	llama.cpp	§13
M	MMLU	§11
M	MoE（专家混合）	§3
M	MCP（Model Context Protocol）	§9
N	Nucleus Sampling（Top-p）	§6
O	OCR（Optical Character Recognition）	§14
O	Ollama	§13
P	PEFT	§10
P	Pipeline Parallel	§13
P	Pretraining（预训练）	§4
P	Prompt（提示词）	§9
Q	Quantization（量化）	§10
Q	QLoRA	§10
R	RAG	§8
R	ReAct	§9
R	Red Teaming（红队）	§11
R	RoPE	§7
S	Self-Attention（自注意力）	§3
S	SentencePiece	§1
S	SFT	§5
S	Skill（技能）	§9
S	SDD（Skill Definition Document）	§9
S	ASR（Automatic Speech Recognition）	§14
T	Tensor Parallel	§13
T	Temperature	§6
T	TTS（Text-to-Speech）	§14
T	Token / Tokenizer	§1
T	Toolformer	§9
T	Top-k	§6
T	Top-p	§6
T	Transformer	§3
T	TGI（Text Generation Inference）	§13
V	vLLM	§13
V	VLM（Vision-Language Model）	§14
V	Vector DB（向量数据库）	§8
W	Word2Vec	§2

拼音索引

拼音首字母	术语	章节
C	采样（Temperature / Top-k / Top-p）	§6
C	长上下文	§7
D	对齐（SFT / RLHF / DPO / Constitutional AI）	§5
B	部署路线（vLLM / TGI / llama.cpp / Ollama）	§13
B	并行（Tensor / Pipeline）	§13
D	多模态（VLM / CLIP / ASR / TTS / PDF）	§14
G	工具调用（Function Calling）	§9
H	幻觉（Hallucination）	§11
J	技能（Skill）	§9
J	技能定义文档（SDD）	§9
J	基座模型（Foundation Model）	§4
J	检索增强生成（RAG）	§8
M	MCP（Model Context Protocol）	§9
L	llama.cpp / Ollama（本地推理）	§13
L	量化（Quantization）	§10
T	图像 token	§14
T	提示词（Prompt）	§9
W	文档理解（PDF / 表格 / OCR）	§14
W	微调（Fine-tuning / LoRA / QLoRA）	§10
X	向量表示（Embedding）	§2
X	向量数据库（Vector DB）	§8
Y	预训练（Pretraining）	§4
Y	语音识别（ASR）	§14
Y	语音合成（TTS）	§14
P	评测（Benchmark / Evals）	§11
R	红队（Red Teaming）	§11