大模型概念大全:全景图、时间线与部署路线(含术语索引)

当我们说“AI 大模型”,其实在讨论一整套从 数据 → 训练 → 对齐 → 推理 → 工具/Agent → 部署与评测 的技术体系。很多概念听起来像“黑话”,但它们都有明确的含义、出处与适用边界。

这篇文章按入门读者的视角,做一份尽量系统的“概念大全”:每个概念包含 它是什么、最常见的误解/边界、较为公认的提出者/代表论文、未来可能的方向


TL;DR(3 分钟读完的结论)

  1. Transformer 是现代大模型的主干结构;核心是 自注意力(Self-Attention)
  2. 预训练(Pretraining) 决定“会不会”,指令微调/对齐(SFT/RLHF/DPO 等) 决定“好不好用、像不像助手”。
  3. 推理(Inference) 不只是“跑一下模型”,还包含 采样策略(temperature/top-p/top-k)KV Cache长上下文优化 等工程关键点。
  4. RAG(检索增强生成)工具/Agent(ReAct、Toolformer 等) 解决“只靠参数记忆不够”的问题:让模型学会引用外部知识与调用外部能力。
  5. 未来的主线通常围绕:更可靠(可验证/可控)更便宜(高效推理/端侧)更长记忆(长上下文+外部记忆)更强工具性(Agent)更合规与安全(对齐/治理)

概念关系图:从数据到应用(先建立全景)

这张图把全文涉及的概念放进同一条“流水线”,你可以把它当成阅读导航:先知道每个概念在哪一层,再去看后面的详细解释会轻松很多。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
┌──────────────┐
│ 数据与语料 │ 清洗/去重/合规/版权
└──────┬───────┘

v
┌──────────────┐
│ Tokenizer │ Token / 分词 / 词表
└──────┬───────┘

v
┌──────────────┐
│ 预训练 │ Pretraining(自监督:下一个 token 预测等)
│ │ Transformer / Attention / Embedding
└──────┬───────┘

v
┌──────────────┐
│ 基座模型 │ Foundation Model(“会语言/会推断”的通用底座)
└──────┬───────┘

v
┌──────────────┐
│ 对齐与助手化 │ SFT / RLHF / DPO / Constitutional AI
│ │ 让它“更像助手、更安全、更可控”
└──────┬───────┘

v
┌──────────────┐
│ 推理与采样 │ Inference:Temperature / Top-p / Top-k / Stop
│ │ KV Cache / 长上下文优化
└──────┬───────┘

├───────────────────────────────┬───────────────────────────────┐
│ │ │
v v v
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ RAG 知识接入 │ │ 工具与 Agent │ │ 部署与成本 │
│ Embedding │ │ Function Call │ │ Quantization │
│ Vector DB │ │ ReAct │ │ LoRA / QLoRA │
│ Rerank │ │ Toolformer │ │ Distillation │
└──────┬───────┘ └──────┬───────┘ └──────┬───────┘
│ │ │
└──────────────┬────────────────┴──────────────┬────────────────┘
│ │
v v
┌──────────────┐ ┌──────────────┐
│ 评测与安全 │ │ 产品与系统 │
│ Hallucination │ │ 工作流/权限/审计│
│ Evals/RedTeam │ │ 成本治理/监控 │
└──────────────┘ └──────────────┘

读图提示:

  • “结构层”主要是 Transformer/Attention,决定模型骨架。
  • “能力层”主要是预训练规模与数据质量,决定通用智能上限。
  • “可用性层”主要是对齐与推理策略,决定像不像一个可靠助手。
  • “落地层”通常是 RAG + 工具/Agent + 部署优化 + 评测治理的组合。

术语速查表(按主题分类)

主题术语一句话解释
基础单位Token / Tokenizer把文本拆成模型能处理的离散单位;Tokenizer 决定“拆分规则”。
表示学习Embedding把离散 token 映射成连续向量,便于模型计算相似度与关系。
模型结构Attention / Transformer注意力用“相关性加权”聚合信息;Transformer 用注意力替代 RNN/CNN 做序列建模。
训练范式Pretraining大规模无监督/自监督训练,让模型掌握语言与世界知识的统计规律。
对齐SFT / RLHF / DPO用示范数据与偏好数据把模型“驯化成助手”。
推理Temperature / Top-p控制输出的随机性与多样性;越“保守”越像检索,越“开放”越像创作。
上下文Context Window模型单次可见的 token 范围;影响“能看多长、能推多远”。
知识接入RAG / Vector DB先检索再生成,用外部文档弥补模型参数记忆的时效与可信问题。
工具化Function Calling / Agent让模型用工具(搜索、代码执行、数据库、工作流)完成可验证任务。
部署Quantization / LoRA量化让推理更省显存;LoRA 让微调更省参数与成本。
评测与安全Hallucination / Red Teaming幻觉是“编造”;红队是系统性找漏洞与越狱路径。

下面开始逐个拆解。


0) 发展史时间线:从“注意力”到“Agent 系统”

这一节不追求“最全”,而是把大模型技术主线按时间串起来,帮助你在脑中建立一条清晰的路线图:每一个新概念,通常都是为了解决上一个阶段的某个核心瓶颈(能力、对齐、可靠性、成本、工具化)。

时间事件/概念代表提出者/工作(较公认)解决了什么问题对今天的影响
2013–2014词向量与分布式表示(Embedding)Mikolov et al., 2013(Word2Vec);Pennington et al., 2014(GloVe)把离散符号映射到可计算的向量空间向量相似度、语义检索、多模态对齐的基础
2015Attention(注意力)在机器翻译中成熟Bahdanau et al., 2015;Luong et al., 2015解决长序列“记不住”的信息瓶颈成为 Transformer 的核心思想
2017Transformer(自注意力堆叠)Vaswani et al., 2017训练可并行化、规模化更容易现代大模型几乎都以此为骨架
2018–2019预训练语言模型(BERT/GPT)成为主流Devlin et al., 2018(BERT);Radford et al., 2018(GPT)“先通用学习、再下游适配”形成“基础模型(Foundation Model)”范式
2019Top-p(Nucleus Sampling)Holtzman et al., 2019改善开放式生成质量与多样性成为推理采样的常用参数之一
2020RAG(检索增强生成)Lewis et al., 2020解决参数记忆的时效/可追溯问题企业知识库问答与“可引用回答”的核心路线
2021LoRA(参数高效微调)Hu et al., 2021让微调成本显著下降、易分发开源模型生态的“能力插件化”关键组件
2021–2022长上下文位置编码探索(RoPE/ALiBi 等)Su et al., 2021(RoPE);Press & Smith, 2021(ALiBi)让模型更能处理长序列为后来的长上下文模型铺路
2022RLHF/助手化(InstructGPT)Ouyang et al., 2022解决“会说但不好用/不安全”“Chat 模型/助手”成为主流产品形态
2022Constitutional AI(宪法式对齐)Anthropic(2022)降低对人工标注依赖、强化安全原则对齐从“偏好”走向“可治理”
2022ReAct(思考-行动循环)Yao et al., 2022让模型更会用工具、更会多步任务Agent 的 prompt 范式之一
2023Toolformer(训练阶段学会用工具)Schick et al., 2023让工具调用不再只靠提示词推动“训练出来的工具能力”
2023DPO(更简单的偏好优化)Rafailov et al., 2023降低 RLHF 工程复杂度偏好对齐更易复现、更稳定
2023QLoRA(量化 + LoRA 微调)Dettmers et al., 2023进一步降低微调显存门槛中小团队也能训练出可用的适配模型
2023–2025多模态与更强工具链(Function Calling 等)多家厂商工程化落地从“文本助手”走向“能做事”Agent 框架、工作流、插件生态爆发
2025+可靠性与系统化评测成为主线学界/工业界共同推进从“看起来对”到“可验证地对”证据链、审计、权限、成本治理进入产品核心

把时间线映射回上面的术语,你会发现:

  • “结构层”在 2017 年左右趋于稳定(Transformer),之后更多是 规模化与工程化 的胜负手。
  • “产品形态”在 2022 年发生跃迁(RLHF/助手化),之后重点转向 可靠性、工具化与系统治理
  • “落地路径”在企业侧更倾向:RAG(知识)+ Tool/Agent(行动)+ Eval/Guardrails(治理)的组合。

1) Token / Tokenizer:模型理解文本的“最小颗粒”

它是什么

  • Token 是模型处理文本时的离散单位;可以是字、词、子词(subword)、甚至片段。
  • Tokenizer 是把“文本 → token 序列”的工具;不同 tokenizer 会让同一句话的 token 数量差很多。

常见误解

  • 误解:token 等于“字”或“词”。实际常见是 subword,尤其在中英混合、专有名词、代码场景。
  • 误解:上下文 128K 就等于“128K 字”。实际是 128K token,折算成字符取决于语言与内容。

提出者 / 代表工作(较为公认)

  • BPE(Byte Pair Encoding)在 NLP 子词分词中被系统化推广:Sennrich 等(2015)。
  • SentencePiece(不依赖空格、适合多语言):Kudo(2018)。

未来展望

  • 更通用的多模态 tokenizer(文本/图像/音频统一 token 化)。
  • 更“语义友好”的切分,使长上下文下的检索、对齐、压缩更稳定。

2) Embedding:把离散世界变成可计算的向量空间

它是什么

  • Embedding 是把离散 token 映射成向量,向量距离可表达语义相近、关系相似等。
  • 不仅有“词向量”,还有“位置向量(positional embedding)”、“句向量/段落向量”、“多模态向量”等。

提出者 / 代表工作(较为公认)

  • Word2Vec:Mikolov 等(2013)。
  • GloVe:Pennington 等(2014)。
  • 向量检索工程化基础设施:FAISS(Johnson 等,2017)。

未来展望

  • 更强的“可解释向量空间”、可逆表示(便于压缩与安全审计)。
  • 更强的跨模态统一 embedding(文本、图像、音频、结构化数据)。

3) Attention / Transformer:现代大模型的骨架

3.1 Attention(注意力)是什么

它是什么

  • 注意力是一种“按相关性加权汇总”的机制:让模型在需要时从上下文中抓取最相关信息。

提出者 / 代表工作(较为公认)

  • 神经机器翻译中的 Attention:Bahdanau 等(2015)与 Luong 等(2015)。

未来展望

  • 更高效注意力(降低长序列的计算与显存)。
  • 更稳的注意力分布(减少长上下文下的“注意力漂移”)。

3.2 Transformer(Vaswani et al., 2017)为什么重要

它是什么

  • Transformer 用自注意力堆叠层,替代 RNN 的逐步递归,让训练高度并行化。

常见误解

  • 误解:Transformer = “更大参数”。结构是前提,但规模化(数据/算力/训练技巧)决定天花板。

未来展望

  • 更稀疏/结构化的计算(MoE、条件计算)在可控成本下提升能力。
  • 新结构是否会替代 Transformer:短期更像“增强”,长期取决于效率与可解释性突破。

4) 预训练(Pretraining):让模型“会语言”和“懂常识”

它是什么

  • 预训练通常用自监督目标(比如“预测下一个 token”)在海量语料上训练。
  • 产物是一个“通用底座”,但它不一定“像助手”,也不一定“安全”。

提出者 / 代表工作(较为公认)

  • GPT 系列作为“自回归语言模型 + 规模化”的典型路线:Radford 等(2018 起)。
  • BERT 代表“掩码语言模型”路线:Devlin 等(2018)。

未来展望

  • 数据质量比数据数量更关键(合成数据、去重、版权与可追溯)。
  • 更强的“世界模型”能力可能需要把交互、环境反馈纳入训练闭环。

5) 指令微调(SFT)与对齐(Alignment):让模型变成“可用的助手”

5.1 SFT(Supervised Fine-Tuning)

它是什么

  • 用人工/高质量示范数据(instruction → answer)微调,使模型学会“按指令说话”。

提出者 / 代表工作(较为公认)

  • 指令微调是社区长期实践,但在“助手式 LLM”浪潮里,往往与 InstructGPT/RLHF 链路一起被大众认知。

未来展望

  • 更强的“任务泛化”:少量示范覆盖更多意图与风格。
  • 结合合成数据与自动过滤,提高覆盖面同时控制幻觉与偏差。

5.2 RLHF(Reinforcement Learning from Human Feedback)

它是什么

  • 用人类偏好训练奖励模型(RM),再用强化学习优化策略,使输出更符合人类偏好。

提出者 / 代表工作(较为公认)

  • InstructGPT:Ouyang 等(2022)把 RLHF 大规模落地并形成业界范式。

未来展望

  • 从“人类偏好”走向“可验证目标”(例如基于规则、工具验证、形式化约束)。
  • 成本更低的偏好学习(用 AI 反馈 RLAIF、弱监督偏好、在线学习)。

5.3 DPO(Direct Preference Optimization)

它是什么

  • 不显式训练奖励模型、不跑复杂 RL,直接用偏好数据做优化(更简单、更稳定)。

提出者 / 代表工作(较为公认)

  • DPO:Rafailov 等(2023)。

未来展望

  • 偏好学习会更“细粒度”:面向不同人群/场景个性化对齐,但要解决隐私与安全边界。

5.4 Constitutional AI(宪法式 AI)

它是什么

  • 用一套“原则/宪法”指导模型自我批评与修正,减少对人工标注的依赖。

提出者 / 代表工作(较为公认)

  • Anthropic(2022)提出并系统化。

未来展望

  • 从“静态原则”走向“可审计的治理体系”:规则、日志、模型版本与风险评估可追溯。

6) 推理(Inference)与采样:从“生成”到“生成得好”

6.1 Temperature / Top-k / Top-p

它是什么

  • Temperature:缩放 logits,控制随机性;越低越保守,越高越发散。
  • Top-k:只在概率最高的 k 个 token 里采样。
  • Top-p(Nucleus Sampling):在累计概率达到 p 的候选集合里采样。

提出者 / 代表工作(较为公认)

  • Nucleus Sampling(Top-p):Holtzman 等(2019)。

未来展望

  • 更智能的自适应采样:在“需要创造力”与“需要严谨”之间动态切换。
  • 与“可验证推理”结合:让模型在输出前调用工具/证明器/执行器自检。

6.2 KV Cache:性能与成本的关键

它是什么

  • 推理时把历史 token 的 K/V 存起来,避免每次都重算历史,显著加速生成。

未来展望

  • 更强的 KV 压缩与复用(长上下文下尤其关键)。
  • 推理系统会更“编译器化”(图优化、算子融合、分布式并行)。

7) 上下文窗口(Context Window)与长上下文

它是什么

  • 上下文窗口是模型一次能“看见”的 token 上限;超过就需要截断、摘要或外部记忆。

提出者 / 代表工作(较为公认)

  • 位置编码与长上下文技巧不是单一概念,典型代表包括 RoPE(Su 等,2021)、ALiBi(Press & Smith,2021)等路线。

未来展望

  • “长上下文 + 外部记忆 + 结构化检索”会组合使用,单纯堆窗口并非万能。
  • 更好的“遗忘与压缩”:把不重要信息自动压缩为可检索摘要,降低幻觉与干扰。

8) RAG(检索增强生成):让模型引用外部知识

它是什么

  • 先把问题/上下文向量化 → 在向量库检索相关片段 → 将片段拼到 prompt → 再让模型生成。
  • 本质是让模型“把不确定性外包给可追溯资料”,并把来源展示出来。

提出者 / 代表工作(较为公认)

  • RAG:Lewis 等(2020)。

未来展望

  • 从“拼接文档”走向“结构化证据链”:检索 → 归纳 → 引用 → 可验证回答。
  • 更强的混合检索(BM25 + 向量 + 重排),以及面向多模态/代码/表格的检索。

9) 工具调用与 Agent:从“会说”到“会做”

9.1 Function Calling(工具调用)是什么

它是什么

  • 模型输出结构化参数(例如 JSON),由系统调用外部 API,再把结果回灌给模型继续推理。

未来展望

  • 更标准的工具协议(权限、审计、失败恢复、成本控制)。
  • 工具调用会变成“必备能力”,尤其在企业流程与可靠性场景。

9.2 ReAct / Toolformer:Agent 的典型范式

它是什么

  • ReAct:把“思考(Reason)”与“行动(Act)”交替进行:思考 → 调工具 → 读结果 → 再思考。
  • Toolformer:让模型在训练阶段学习“何时调用什么工具”。

提出者 / 代表工作(较为公认)

  • ReAct:Yao 等(2022)。
  • Toolformer:Schick 等(2023)。

未来展望

  • 从“prompt 工程 Agent”走向“训练出来的 Agent”:更少提示词、更强鲁棒性。
  • 更强的任务分解与自我纠错(计划、执行、回滚、验证)。

9.3 Prompt(提示词):把“意图”变成可执行输入

它是什么

  • Prompt 是你给模型的输入组织方式:任务指令、上下文、约束、示例(few-shot)、输出格式等。
  • 在 LLM 语境里,Prompt 与 In-Context Learning(上下文学习) 绑定:模型在不更新参数的情况下,依靠上下文里的示例与指令完成新任务。

提出者 / 代表工作(较为公认)

  • “Prompt”作为通用术语并没有单一提出者;在 LLM 语境中,“上下文学习 / few-shot prompting”由 GPT-3(Brown 等,2020)系统化并推动流行。

边界与常见误解

  • Prompt 不是“魔法咒语”:能显著影响输出,但不能替代数据、检索、工具验证与工程约束。
  • Prompt 的可控性来自“约束与反馈闭环”,而不是无限堆叠文本:越长不一定越好,可能挤占上下文窗口并引入噪声。

未来展望

  • 从“手工提示词”走向“结构化提示”:模板化、可参数化、可测试、可版本管理。
  • Prompt 会越来越多地被系统吸收:由策略层(policy)、工具协议与验证器共同决定输出。

9.4 Skill(技能):可复用的能力单元

它是什么

  • Skill 可以理解为“把一件事做成可复用模块”的封装:通常包含一段 Prompt/规则 + 可能的工具调用 + 输入输出约束(schema)+ 失败处理策略。
  • 在 Agent 系统里,Skill 的价值是“可组合”:多个 skill 串联成工作流,降低每次都从零写 prompt 的成本。

9.4.1 SDD(Skill Definition Document):技能定义文档

它是什么

  • SDD 的全称是 Skill Definition Document,可以理解为“技能的产品说明书/接口契约”。
  • 它的目标是把 skill 从“脑内经验 + 一段 prompt”变成“可协作、可评审、可测试、可演进”的工程资产。

一个实用的 SDD 通常包含:

  • 目标与范围:这个 skill 解决什么问题、不解决什么问题。
  • 输入:允许的输入字段、类型、必填/可选、默认值(最好是 JSON Schema 形式)。
  • 输出:输出结构、字段含义、稳定性保证(例如是否必须返回 JSON)。
  • 上下文与依赖:需要哪些上下文(知识库、账号权限、环境变量)、依赖哪些工具/数据源。
  • 约束与规则:合规/安全边界、禁止行为、敏感信息处理。
  • 示例:至少 3–5 个覆盖典型场景与边界场景的示例(输入→期望输出)。
  • 失败策略:工具失败/网络失败/权限不足/无法确定时如何降级与提示。
  • 评测用例:可用于 harness 的用例集与通过标准(pass criteria)。

边界与常见误解

  • SDD 不是越长越好:关键是“可执行的约束与可复现的例子”,避免只写愿景与口号。
  • SDD 不等于 Prompt:Prompt 是实现的一部分;SDD 更偏“规格说明 + 测试契约”。

未来展望

  • SDD 会越来越像“API 规格 + 测试用例 + 运行策略”的组合:与权限、成本预算、审计和评测体系打通。

提出者 / 代表工作(较为公认)

  • “Skill”这个命名在多种 Agent 框架里都出现;较早把它作为一等概念推广的工程实践之一是 Microsoft Semantic Kernel(2023)中的 skills(semantic / native skills)。

边界与常见误解

  • Skill 不是“越多越好”:数量增长会带来路由、权限与维护成本;需要目录化、命名规范与版本管理。
  • Skill 不等于工具:工具(tool)是“能力接口”,skill 更偏“能力编排与策略”。

未来展望

  • Skill 会逐步标准化:声明式元数据(能力、风险、成本、权限)、可观测性(日志/追踪)、可测试性(单元/回归)。

9.5 MCP(Model Context Protocol):把“上下文与工具”标准化

它是什么

  • MCP 是一种协议/规范思路:让客户端、模型与外部能力(工具/数据源)之间的集成更标准、更可迁移。
  • 它关注的不只是“能调哪个工具”,还包括:上下文如何提供、权限如何声明、调用如何审计、失败如何处理。

提出者 / 代表工作(较为公认)

  • MCP 在业界最常被提及的版本由 Anthropic 推出并推动生态(2024)。

边界与常见误解

  • MCP 不是模型能力本身:它是“连接器与协议层”,目的是降低集成成本与供应商锁定。
  • 协议不能自动带来安全:权限最小化、隔离与审计仍需要工程落地。

未来展望

  • 从“各家私有工具接口”走向“可互通协议”:一套工具/数据连接可在多模型、多客户端之间复用。

9.6 Harness(运行/评测框架):让 Agent 系统可测、可控、可回放

它是什么

  • Harness 在软件工程里指“测试/运行框架”:把被测对象(模型/Agent)放进可控环境里,统一提供输入、收集输出、记录日志与指标。
  • 对 LLM/Agent 来说,harness 常承担:用例集(prompts/tasks)、工具模拟(mock)、评测指标、回放与对比(A/B)。

提出者 / 代表工作(较为公认)

  • “Harness”不是单一论文概念;在开源生态里,常被引用的代表实践之一是 EleutherAI 的 lm-evaluation-harness(2020,偏模型评测)。

边界与常见误解

  • Harness 不等于 Benchmark:benchmark 是题目集合与分数;harness 是“跑这些题的系统”,包括数据、执行、记录、复现。
  • 对 Agent 更重要的是“系统级评测”:同一任务在不同工具、不同网络延迟、不同权限下是否稳定。

未来展望

  • 从“离线分数”走向“可回放的系统测试”:带工具调用轨迹、成本、失败恢复、权限审计的全链路回归。

10) 微调(Fine-tuning)、LoRA 与部署优化

10.1 Fine-tuning / PEFT / LoRA

它是什么

  • Fine-tuning:用你自己的数据继续训练,让模型适配垂直领域与风格。
  • PEFT:参数高效微调,只训练很少的附加参数。
  • LoRA:用低秩分解在权重上加可训练“旁路”,成本更低、易分发。

提出者 / 代表工作(较为公认)

  • LoRA:Hu 等(2021)。
  • QLoRA(把量化与 LoRA 结合,让微调更省显存):Dettmers 等(2023)。

未来展望

  • “模块化能力包”:把领域能力以 adapter/LoRA 形式按需加载。
  • 更强的个性化但更严格的安全边界(防泄露、可撤销、可审计)。

10.2 Quantization(量化)/ Distillation(蒸馏)

它是什么

  • 量化:用更低位宽(INT8/INT4 等)表示权重/激活,换取更低显存与更快推理。
  • 蒸馏:用大模型当老师训练小模型,把能力“压缩”进更小网络。

提出者 / 代表工作(较为公认)

  • 知识蒸馏:Hinton 等(2015)。

未来展望

  • 端侧大模型依赖:更强量化、更强推理编译器、更强隐私与个性化。
  • “可验证蒸馏”:让小模型在关键能力上对齐可测指标,而不是只追相似输出。

11) 幻觉(Hallucination)、评测(Eval)与安全(Safety)

11.1 Hallucination:为什么会“编造”

它是什么

  • 语言模型在本质上是在做“条件概率最大化的生成”,并不天然具备事实校验机制。

未来展望

  • 检索与工具验证会成为标配:回答前先查证、回答时可引用、回答后可复核。
  • “校准(Calibration)”能力会更重要:知道自己不知道、并明确表达不确定性。

11.2 Benchmark / Red Teaming

它是什么

  • Benchmark:用公开任务集合比较能力(但容易过拟合、被刷分)。
  • 红队:以攻击者视角测试越狱、提示注入、数据泄露与工具滥用。

提出者 / 代表工作(较为公认)

  • MMLU:Hendrycks 等(2020)是常见通用评测之一。
  • HELM:Liang 等(2022)强调更全面的评测维度(准确性、鲁棒性、公平性等)。

未来展望

  • 从“单次问答分数”走向“系统级评测”:工具链、记忆、权限、成本、稳定性一起评。
  • 企业侧会更依赖离线评测 + 在线监控 + 可追溯日志的闭环治理。

12) 未来展望:大模型接下来会往哪走?

把趋势压缩成几条更确定的“工程方向”:

  1. 更可靠(Reliability):从“看起来对”走向“可验证地对”,工具验证与证据链成为默认。
  2. 更高效(Efficiency):推理成本仍是规模化落地的门槛;量化、并行、编译器、稀疏计算会持续进化。
  3. 更长记忆(Memory):长上下文与外部记忆融合;关键是“检索/压缩/遗忘策略”,而不是一味拉长窗口。
  4. 更强工具化(Agent):从单轮助手走向“能完成任务的系统”,强调权限、可控、可回滚、可审计。
  5. 更合规与治理(Governance):数据来源、版权、隐私与安全会深度影响模型训练与发布形态。

13) 开源生态与部署路线:vLLM / TGI / llama.cpp / Ollama 怎么选、怎么跑

这一节的目标只有一个:让你建立“怎么跑起来”的直觉。不同工具本质是在解决不同问题:

  • llama.cpp:尽量用 CPU/少量内存跑起来(也可用 Metal/CUDA 加速),重在“能本地跑、好分发”。
  • Ollama:把本地跑模型做成“应用化体验”(下载模型、启动服务、管理多个模型),更像“本地模型运行器”。
  • vLLM:面向 GPU 的高吞吐推理引擎,重在“并发、吞吐、KV Cache 管理、服务化”。
  • TGI(Text Generation Inference):Hugging Face 的推理服务栈,重在“生产化服务、生态集成、易部署”。

你可以按场景做最小决策:

你的目标推荐路线关键词
想先体验、本地对话、偶尔写点脚本Ollama / llama.cpp端侧/本地、简单、可离线
单机 GPU、希望高并发与高吞吐(服务化)vLLM高吞吐、PagedAttention、KV Cache
更偏“标准化生产部署”、与 HF 生态深度结合TGI容器化、监控、生态集成

13.1 模型文件与格式:HF 权重 vs GGUF

你在开源生态里常见两类“模型文件”:

  • Hugging Face 权重(HF 格式):通常是 safetensors/pt,适合 vLLM/TGI 等 GPU 引擎读取。
  • GGUF:llama.cpp 生态主流格式,通常是“量化后”的模型文件,面向本地推理更友好。

直觉上可以这样理解:

  • HF 权重更像“原材料”,适合 GPU 高性能推理或继续训练/微调。
  • GGUF 更像“成品包”,适合本地分发与低成本推理(尤其 CPU/端侧)。

13.2 量化(GGUF / INT4)在部署里的位置

量化的核心目标:用更少显存/内存跑得动,通常也更快(但可能损失一点能力)。

常见问法与直觉答案:

  • INT4 / 4-bit(四位量化):显存占用大幅下降,是“本地跑起来”的关键手段之一。
  • GGUF:经常与量化绑定出现,因为很多 GGUF 文件本身就是不同量化等级(Q4、Q5、Q8 等)。

选择建议(入门版):

  • 你要“本地先跑起来”:优先 GGUF + 合适的量化等级(先从中等量化开始,效果不满意再换更高精度)。
  • 你要“服务化 + 高吞吐”:优先 GPU 引擎(vLLM/TGI)+ 合理的量化/推理优化(是否量化取决于显存与性能目标)。

13.3 KV Cache:为什么它决定了“长对话成本”

KV Cache 你在 §6 见过,这里把它放回部署语境里看:

  • KV Cache 越大,越能避免重复计算历史 token → 生成越快
  • 但 KV Cache 会占用显存/内存,而且 上下文越长,占用越大

因此部署时的核心权衡常常是:

  • 更长上下文 / 更高并发 vs 显存上限

很多推理引擎的“黑科技”基本都在做 KV Cache 的管理与优化(比如更好的分配、复用、分页、压缩等)。


13.4 并行(Tensor / Pipeline):为什么多卡不等于更快

当模型大到单卡放不下,或者你要更高吞吐,就会碰到并行:

  • Tensor Parallel(张量并行):把同一层的计算拆到多张 GPU 上并行做,适合提升吞吐/放大模型。
  • Pipeline Parallel(流水线并行):把不同层分配到不同 GPU,像工厂流水线一样分段处理。

入门直觉:

  • 并行能“放下更大的模型”,但也会引入通信成本与调度复杂度。
  • 真正的性能瓶颈往往不在“算力”,而在 显存、KV Cache、带宽与通信

13.5 四条最常见的“跑起来”路线(从易到难)

  1. Ollama(最省心)
  • 适合:想快速本地用;不想研究模型格式与推理参数。
  • 常见形态:本机起一个服务端口 + 本地拉模型 + 客户端/CLI 调用。
  1. llama.cpp(最轻量)
  • 适合:CPU/端侧;或希望对量化与本地部署有更可控的理解。
  • 关键词:GGUF、量化等级、设备加速(Metal/CUDA)。
  1. vLLM(高吞吐服务)
  • 适合:单机 GPU 并发;或需要一个“更像线上服务”的推理层。
  • 关键词:吞吐、并发、KV Cache 管理、批处理。
  1. TGI(生产化服务栈)
  • 适合:更偏工程团队,追求成熟的容器化部署与与生态集成。
  • 关键词:部署、监控、生态、集成。

提示:无论你选哪条路线,都建议优先建立最小闭环:能跑 → 能调参 → 能压测 → 能监控,再谈更复杂的 Agent/工作流。


14) 多模态概念补全:VLM / CLIP / 图像 token / ASR / TTS / 文档理解

很多人把“多模态”简单理解成“模型能看图/能听音频”,但工程上更准确的理解是:不同模态先被编码成某种 token/向量表示,再与 LLM 的 token 序列在同一条推理链路里融合。这决定了它的边界:

  • 模型通常“能理解图像语义”,但不一定擅长“像素级精确读数/数格子/找坐标”。
  • 模型能处理音频/视频,往往依赖“先转写/先抽帧/先结构化”的外部步骤。
  • 文档(PDF/表格)最关键不是“看见”,而是“结构化”:标题层级、表格单元格、段落边界、引用与来源。

14.1 VLM(Vision-Language Model)是什么:不是“LLM + 图片”这么简单

VLM 通常指“视觉-语言模型”:输入可以包含图像,输出可以是文字(也可能进一步输出结构化内容)。

一个入门级的结构图可以这样记:

  1. 视觉编码器(Vision Encoder):把图片转成视觉特征(向量序列)。
  2. 投影/适配层(Projector):把视觉特征对齐到 LLM 能接收的表示空间。
  3. LLM 解码器:把“文本 token + 视觉 token”一起作为上下文来生成回答。

常见边界:

  • 更擅长“描述/问答/理解意图”,不一定擅长“精确测量/严谨数值/小字密集文本”。
  • 图片里的文字(OCR)如果质量差,往往需要先做专门的 OCR,再交给 LLM 总结与推理。

14.2 CLIP:多模态世界里的“向量相似度发动机”

CLIP 的核心价值是:把图像文本映射到同一个向量空间里,让你能用“相似度”做检索与匹配。

工程上你会在这些地方遇到 CLIP 思想:

  • 以图搜图/以文搜图(图片库检索、素材管理、内容审核)
  • 多模态 RAG:不仅检索文本 chunk,也检索相关图片/截图/图表,再把证据喂回给模型
  • 跨模态对齐:把“图像证据”和“文字证据”放在同一套检索体系里

直觉上:CLIP 更像“多模态 Embedding 模型”,而不是“会长篇生成的大模型”。


14.3 图像 token:图像是怎么“进入上下文窗口”的

“图像 token”指的是:把一张图片变成模型可处理的序列表示。常见两类思路:

  1. 连续特征 token(更常见)
  • 用视觉编码器输出一串向量(你可以把它理解为“把图片切成 patch,再给每个 patch 一个向量”)。
  • 然后通过 projector 对齐到 LLM 的表示空间。
  1. 离散图像 token(更像压缩码)
  • 把图像先压缩成离散 codebook id(类似“视觉领域的 tokenizer”),再当成 token 序列喂给模型。
  • 优点是“token 序列更像文本”,缺点是训练/表示会更复杂。

工程边界:

  • 图像 token 很快会吃掉上下文预算,所以“多图/长视频”通常需要抽帧、选关键帧、先做摘要或检索。

14.4 ASR / TTS:语音能力通常是“管道式组合”

多模态产品里,语音能力经常不是“一个模型全包”,而是管道组合:

  • ASR(Speech-to-Text):把语音转成文本,再交给 LLM 做理解与推理。
  • TTS(Text-to-Speech):把 LLM 产出的文本再转成语音。

为什么工程上喜欢分开做:

  • ASR/TTS 各自都有独立的指标与优化目标(延迟、音色、噪声鲁棒性、多语种等)。
  • 文本是 LLM 最擅长的“中间表示”,便于做 RAG、工具调用、审计与留痕。

典型边界:

  • 语音里的情绪、语气、说话人特征不一定能被完整保留到文本,需要额外结构化信息(比如情绪标签、说话人分离)。

14.5 文档理解(PDF/表格):关键在“结构化”,不在“看见”

很多 PDF/表格任务的核心不是生成能力,而是把内容变成“可检索、可引用、可验证”的结构化数据。常见流水线:

  1. 解析/抽取:PDF → 文本块/段落/表格(必要时先 OCR)
  2. 结构化:保留标题层级、列表、表格单元格、引用来源
  3. 检索与生成(RAG):按问题检索相关片段,再让 LLM 生成答案并引用证据

表格尤其容易踩坑:

  • “表格转纯文本”会损失行列关系,导致模型理解错位
  • 更稳的方法是:把表格转成 Markdown 表格/CSV/JSON(保留结构),再交给 LLM 解读

边界与建议:

  • 需要“逐字精确”的场景(财务、合同、法务条款核对)不要只依赖 LLM;应结合规则校验/双人复核/可追溯证据链。

术语索引(中英对照)

这一节用于“查词”,不追求解释(解释在正文各章节)。章节号对应本文的大标题序号(如 §8 表示「8) RAG」)。

A–Z 索引

首字母术语章节
AAgent(智能体)§9
AALiBi§7
AAttention(注意力)§3
BBenchmark(基准评测)§11
BBERT§4
BBPE§1
CCLIP§14
CCalibration(校准)§11
CConstitutional AI(宪法式对齐)§5
CContext Window(上下文窗口)§7
DDistillation(蒸馏)§10
DDPO§5
EEmbedding(向量表示)§2 / §8
FFAISS§2
FFine-tuning(微调)§10
FFunction Calling(工具调用)§9
GGloVe§2
GGPT§4
GGGUF§13
HHarness(运行/评测框架)§9
HHallucination(幻觉)§11
HHELM§11
IInference(推理)§6
IInstructGPT§5
IINT4 / 4-bit§13
KKV Cache§6
LLoRA§10
Lllama.cpp§13
MMMLU§11
MMoE(专家混合)§3
MMCP(Model Context Protocol)§9
NNucleus Sampling(Top-p)§6
OOCR(Optical Character Recognition)§14
OOllama§13
PPEFT§10
PPipeline Parallel§13
PPretraining(预训练)§4
PPrompt(提示词)§9
QQuantization(量化)§10
QQLoRA§10
RRAG§8
RReAct§9
RRed Teaming(红队)§11
RRoPE§7
SSelf-Attention(自注意力)§3
SSentencePiece§1
SSFT§5
SSkill(技能)§9
SSDD(Skill Definition Document)§9
SASR(Automatic Speech Recognition)§14
TTensor Parallel§13
TTemperature§6
TTTS(Text-to-Speech)§14
TToken / Tokenizer§1
TToolformer§9
TTop-k§6
TTop-p§6
TTransformer§3
TTGI(Text Generation Inference)§13
VvLLM§13
VVLM(Vision-Language Model)§14
VVector DB(向量数据库)§8
WWord2Vec§2

拼音索引

拼音首字母术语章节
C采样(Temperature / Top-k / Top-p)§6
C长上下文§7
D对齐(SFT / RLHF / DPO / Constitutional AI)§5
B部署路线(vLLM / TGI / llama.cpp / Ollama)§13
B并行(Tensor / Pipeline)§13
D多模态(VLM / CLIP / ASR / TTS / PDF)§14
G工具调用(Function Calling)§9
H幻觉(Hallucination)§11
J技能(Skill)§9
J技能定义文档(SDD)§9
J基座模型(Foundation Model)§4
J检索增强生成(RAG)§8
MMCP(Model Context Protocol)§9
Lllama.cpp / Ollama(本地推理)§13
L量化(Quantization)§10
T图像 token§14
T提示词(Prompt)§9
W文档理解(PDF / 表格 / OCR)§14
W微调(Fine-tuning / LoRA / QLoRA)§10
X向量表示(Embedding)§2
X向量数据库(Vector DB)§8
Y预训练(Pretraining)§4
Y语音识别(ASR)§14
Y语音合成(TTS)§14
P评测(Benchmark / Evals)§11
R红队(Red Teaming)§11

参考与延伸阅读(按概念挑重点)

  • Attention:Bahdanau et al., 2015;Luong et al., 2015
  • Transformer:Vaswani et al., 2017
  • Word2Vec:Mikolov et al., 2013;GloVe:Pennington et al., 2014
  • BPE 分词:Sennrich et al., 2015;SentencePiece:Kudo, 2018
  • GPT:Radford et al., 2018;BERT:Devlin et al., 2018
  • RLHF / InstructGPT:Ouyang et al., 2022
  • DPO:Rafailov et al., 2023
  • RAG:Lewis et al., 2020
  • ReAct:Yao et al., 2022;Toolformer:Schick et al., 2023
  • LoRA:Hu et al., 2021;QLoRA:Dettmers et al., 2023
  • 蒸馏:Hinton et al., 2015
  • Top-p:Holtzman et al., 2019
  • MMLU:Hendrycks et al., 2020;HELM:Liang et al., 2022
  • Prompt / In-Context Learning:Brown et al., 2020
  • MCP:Anthropic, 2024
  • Skills(Semantic Kernel):Microsoft, 2023
  • lm-evaluation-harness:EleutherAI, 2020
  • SDD(Skill Definition Document):工程实践术语,常见于 Agent/平台侧的技能资产规范

大模型概念大全:全景图、时间线与部署路线(含术语索引)
https://www.pcboy.com.cn/2026/05/31/大模型概念大全-全景图-时间线-部署路线/
作者
chituer
发布于
2026年5月31日
许可协议