大模型概念大全:全景图、时间线与部署路线(含术语索引)
当我们说“AI 大模型”,其实在讨论一整套从 数据 → 训练 → 对齐 → 推理 → 工具/Agent → 部署与评测 的技术体系。很多概念听起来像“黑话”,但它们都有明确的含义、出处与适用边界。
这篇文章按入门读者的视角,做一份尽量系统的“概念大全”:每个概念包含 它是什么、最常见的误解/边界、较为公认的提出者/代表论文、未来可能的方向。
TL;DR(3 分钟读完的结论)
- Transformer 是现代大模型的主干结构;核心是 自注意力(Self-Attention)。
- 预训练(Pretraining) 决定“会不会”,指令微调/对齐(SFT/RLHF/DPO 等) 决定“好不好用、像不像助手”。
- 推理(Inference) 不只是“跑一下模型”,还包含 采样策略(temperature/top-p/top-k)、KV Cache、长上下文优化 等工程关键点。
- RAG(检索增强生成) 与 工具/Agent(ReAct、Toolformer 等) 解决“只靠参数记忆不够”的问题:让模型学会引用外部知识与调用外部能力。
- 未来的主线通常围绕:更可靠(可验证/可控)、更便宜(高效推理/端侧)、更长记忆(长上下文+外部记忆)、更强工具性(Agent)、更合规与安全(对齐/治理)。
概念关系图:从数据到应用(先建立全景)
这张图把全文涉及的概念放进同一条“流水线”,你可以把它当成阅读导航:先知道每个概念在哪一层,再去看后面的详细解释会轻松很多。
1 | |
读图提示:
- “结构层”主要是 Transformer/Attention,决定模型骨架。
- “能力层”主要是预训练规模与数据质量,决定通用智能上限。
- “可用性层”主要是对齐与推理策略,决定像不像一个可靠助手。
- “落地层”通常是 RAG + 工具/Agent + 部署优化 + 评测治理的组合。
术语速查表(按主题分类)
| 主题 | 术语 | 一句话解释 |
|---|---|---|
| 基础单位 | Token / Tokenizer | 把文本拆成模型能处理的离散单位;Tokenizer 决定“拆分规则”。 |
| 表示学习 | Embedding | 把离散 token 映射成连续向量,便于模型计算相似度与关系。 |
| 模型结构 | Attention / Transformer | 注意力用“相关性加权”聚合信息;Transformer 用注意力替代 RNN/CNN 做序列建模。 |
| 训练范式 | Pretraining | 大规模无监督/自监督训练,让模型掌握语言与世界知识的统计规律。 |
| 对齐 | SFT / RLHF / DPO | 用示范数据与偏好数据把模型“驯化成助手”。 |
| 推理 | Temperature / Top-p | 控制输出的随机性与多样性;越“保守”越像检索,越“开放”越像创作。 |
| 上下文 | Context Window | 模型单次可见的 token 范围;影响“能看多长、能推多远”。 |
| 知识接入 | RAG / Vector DB | 先检索再生成,用外部文档弥补模型参数记忆的时效与可信问题。 |
| 工具化 | Function Calling / Agent | 让模型用工具(搜索、代码执行、数据库、工作流)完成可验证任务。 |
| 部署 | Quantization / LoRA | 量化让推理更省显存;LoRA 让微调更省参数与成本。 |
| 评测与安全 | Hallucination / Red Teaming | 幻觉是“编造”;红队是系统性找漏洞与越狱路径。 |
下面开始逐个拆解。
0) 发展史时间线:从“注意力”到“Agent 系统”
这一节不追求“最全”,而是把大模型技术主线按时间串起来,帮助你在脑中建立一条清晰的路线图:每一个新概念,通常都是为了解决上一个阶段的某个核心瓶颈(能力、对齐、可靠性、成本、工具化)。
| 时间 | 事件/概念 | 代表提出者/工作(较公认) | 解决了什么问题 | 对今天的影响 |
|---|---|---|---|---|
| 2013–2014 | 词向量与分布式表示(Embedding) | Mikolov et al., 2013(Word2Vec);Pennington et al., 2014(GloVe) | 把离散符号映射到可计算的向量空间 | 向量相似度、语义检索、多模态对齐的基础 |
| 2015 | Attention(注意力)在机器翻译中成熟 | Bahdanau et al., 2015;Luong et al., 2015 | 解决长序列“记不住”的信息瓶颈 | 成为 Transformer 的核心思想 |
| 2017 | Transformer(自注意力堆叠) | Vaswani et al., 2017 | 训练可并行化、规模化更容易 | 现代大模型几乎都以此为骨架 |
| 2018–2019 | 预训练语言模型(BERT/GPT)成为主流 | Devlin et al., 2018(BERT);Radford et al., 2018(GPT) | “先通用学习、再下游适配” | 形成“基础模型(Foundation Model)”范式 |
| 2019 | Top-p(Nucleus Sampling) | Holtzman et al., 2019 | 改善开放式生成质量与多样性 | 成为推理采样的常用参数之一 |
| 2020 | RAG(检索增强生成) | Lewis et al., 2020 | 解决参数记忆的时效/可追溯问题 | 企业知识库问答与“可引用回答”的核心路线 |
| 2021 | LoRA(参数高效微调) | Hu et al., 2021 | 让微调成本显著下降、易分发 | 开源模型生态的“能力插件化”关键组件 |
| 2021–2022 | 长上下文位置编码探索(RoPE/ALiBi 等) | Su et al., 2021(RoPE);Press & Smith, 2021(ALiBi) | 让模型更能处理长序列 | 为后来的长上下文模型铺路 |
| 2022 | RLHF/助手化(InstructGPT) | Ouyang et al., 2022 | 解决“会说但不好用/不安全” | “Chat 模型/助手”成为主流产品形态 |
| 2022 | Constitutional AI(宪法式对齐) | Anthropic(2022) | 降低对人工标注依赖、强化安全原则 | 对齐从“偏好”走向“可治理” |
| 2022 | ReAct(思考-行动循环) | Yao et al., 2022 | 让模型更会用工具、更会多步任务 | Agent 的 prompt 范式之一 |
| 2023 | Toolformer(训练阶段学会用工具) | Schick et al., 2023 | 让工具调用不再只靠提示词 | 推动“训练出来的工具能力” |
| 2023 | DPO(更简单的偏好优化) | Rafailov et al., 2023 | 降低 RLHF 工程复杂度 | 偏好对齐更易复现、更稳定 |
| 2023 | QLoRA(量化 + LoRA 微调) | Dettmers et al., 2023 | 进一步降低微调显存门槛 | 中小团队也能训练出可用的适配模型 |
| 2023–2025 | 多模态与更强工具链(Function Calling 等) | 多家厂商工程化落地 | 从“文本助手”走向“能做事” | Agent 框架、工作流、插件生态爆发 |
| 2025+ | 可靠性与系统化评测成为主线 | 学界/工业界共同推进 | 从“看起来对”到“可验证地对” | 证据链、审计、权限、成本治理进入产品核心 |
把时间线映射回上面的术语,你会发现:
- “结构层”在 2017 年左右趋于稳定(Transformer),之后更多是 规模化与工程化 的胜负手。
- “产品形态”在 2022 年发生跃迁(RLHF/助手化),之后重点转向 可靠性、工具化与系统治理。
- “落地路径”在企业侧更倾向:RAG(知识)+ Tool/Agent(行动)+ Eval/Guardrails(治理)的组合。
1) Token / Tokenizer:模型理解文本的“最小颗粒”
它是什么
- Token 是模型处理文本时的离散单位;可以是字、词、子词(subword)、甚至片段。
- Tokenizer 是把“文本 → token 序列”的工具;不同 tokenizer 会让同一句话的 token 数量差很多。
常见误解
- 误解:token 等于“字”或“词”。实际常见是 subword,尤其在中英混合、专有名词、代码场景。
- 误解:上下文 128K 就等于“128K 字”。实际是 128K token,折算成字符取决于语言与内容。
提出者 / 代表工作(较为公认)
- BPE(Byte Pair Encoding)在 NLP 子词分词中被系统化推广:Sennrich 等(2015)。
- SentencePiece(不依赖空格、适合多语言):Kudo(2018)。
未来展望
- 更通用的多模态 tokenizer(文本/图像/音频统一 token 化)。
- 更“语义友好”的切分,使长上下文下的检索、对齐、压缩更稳定。
2) Embedding:把离散世界变成可计算的向量空间
它是什么
- Embedding 是把离散 token 映射成向量,向量距离可表达语义相近、关系相似等。
- 不仅有“词向量”,还有“位置向量(positional embedding)”、“句向量/段落向量”、“多模态向量”等。
提出者 / 代表工作(较为公认)
- Word2Vec:Mikolov 等(2013)。
- GloVe:Pennington 等(2014)。
- 向量检索工程化基础设施:FAISS(Johnson 等,2017)。
未来展望
- 更强的“可解释向量空间”、可逆表示(便于压缩与安全审计)。
- 更强的跨模态统一 embedding(文本、图像、音频、结构化数据)。
3) Attention / Transformer:现代大模型的骨架
3.1 Attention(注意力)是什么
它是什么
- 注意力是一种“按相关性加权汇总”的机制:让模型在需要时从上下文中抓取最相关信息。
提出者 / 代表工作(较为公认)
- 神经机器翻译中的 Attention:Bahdanau 等(2015)与 Luong 等(2015)。
未来展望
- 更高效注意力(降低长序列的计算与显存)。
- 更稳的注意力分布(减少长上下文下的“注意力漂移”)。
3.2 Transformer(Vaswani et al., 2017)为什么重要
它是什么
- Transformer 用自注意力堆叠层,替代 RNN 的逐步递归,让训练高度并行化。
常见误解
- 误解:Transformer = “更大参数”。结构是前提,但规模化(数据/算力/训练技巧)决定天花板。
未来展望
- 更稀疏/结构化的计算(MoE、条件计算)在可控成本下提升能力。
- 新结构是否会替代 Transformer:短期更像“增强”,长期取决于效率与可解释性突破。
4) 预训练(Pretraining):让模型“会语言”和“懂常识”
它是什么
- 预训练通常用自监督目标(比如“预测下一个 token”)在海量语料上训练。
- 产物是一个“通用底座”,但它不一定“像助手”,也不一定“安全”。
提出者 / 代表工作(较为公认)
- GPT 系列作为“自回归语言模型 + 规模化”的典型路线:Radford 等(2018 起)。
- BERT 代表“掩码语言模型”路线:Devlin 等(2018)。
未来展望
- 数据质量比数据数量更关键(合成数据、去重、版权与可追溯)。
- 更强的“世界模型”能力可能需要把交互、环境反馈纳入训练闭环。
5) 指令微调(SFT)与对齐(Alignment):让模型变成“可用的助手”
5.1 SFT(Supervised Fine-Tuning)
它是什么
- 用人工/高质量示范数据(instruction → answer)微调,使模型学会“按指令说话”。
提出者 / 代表工作(较为公认)
- 指令微调是社区长期实践,但在“助手式 LLM”浪潮里,往往与 InstructGPT/RLHF 链路一起被大众认知。
未来展望
- 更强的“任务泛化”:少量示范覆盖更多意图与风格。
- 结合合成数据与自动过滤,提高覆盖面同时控制幻觉与偏差。
5.2 RLHF(Reinforcement Learning from Human Feedback)
它是什么
- 用人类偏好训练奖励模型(RM),再用强化学习优化策略,使输出更符合人类偏好。
提出者 / 代表工作(较为公认)
- InstructGPT:Ouyang 等(2022)把 RLHF 大规模落地并形成业界范式。
未来展望
- 从“人类偏好”走向“可验证目标”(例如基于规则、工具验证、形式化约束)。
- 成本更低的偏好学习(用 AI 反馈 RLAIF、弱监督偏好、在线学习)。
5.3 DPO(Direct Preference Optimization)
它是什么
- 不显式训练奖励模型、不跑复杂 RL,直接用偏好数据做优化(更简单、更稳定)。
提出者 / 代表工作(较为公认)
- DPO:Rafailov 等(2023)。
未来展望
- 偏好学习会更“细粒度”:面向不同人群/场景个性化对齐,但要解决隐私与安全边界。
5.4 Constitutional AI(宪法式 AI)
它是什么
- 用一套“原则/宪法”指导模型自我批评与修正,减少对人工标注的依赖。
提出者 / 代表工作(较为公认)
- Anthropic(2022)提出并系统化。
未来展望
- 从“静态原则”走向“可审计的治理体系”:规则、日志、模型版本与风险评估可追溯。
6) 推理(Inference)与采样:从“生成”到“生成得好”
6.1 Temperature / Top-k / Top-p
它是什么
- Temperature:缩放 logits,控制随机性;越低越保守,越高越发散。
- Top-k:只在概率最高的 k 个 token 里采样。
- Top-p(Nucleus Sampling):在累计概率达到 p 的候选集合里采样。
提出者 / 代表工作(较为公认)
- Nucleus Sampling(Top-p):Holtzman 等(2019)。
未来展望
- 更智能的自适应采样:在“需要创造力”与“需要严谨”之间动态切换。
- 与“可验证推理”结合:让模型在输出前调用工具/证明器/执行器自检。
6.2 KV Cache:性能与成本的关键
它是什么
- 推理时把历史 token 的 K/V 存起来,避免每次都重算历史,显著加速生成。
未来展望
- 更强的 KV 压缩与复用(长上下文下尤其关键)。
- 推理系统会更“编译器化”(图优化、算子融合、分布式并行)。
7) 上下文窗口(Context Window)与长上下文
它是什么
- 上下文窗口是模型一次能“看见”的 token 上限;超过就需要截断、摘要或外部记忆。
提出者 / 代表工作(较为公认)
- 位置编码与长上下文技巧不是单一概念,典型代表包括 RoPE(Su 等,2021)、ALiBi(Press & Smith,2021)等路线。
未来展望
- “长上下文 + 外部记忆 + 结构化检索”会组合使用,单纯堆窗口并非万能。
- 更好的“遗忘与压缩”:把不重要信息自动压缩为可检索摘要,降低幻觉与干扰。
8) RAG(检索增强生成):让模型引用外部知识
它是什么
- 先把问题/上下文向量化 → 在向量库检索相关片段 → 将片段拼到 prompt → 再让模型生成。
- 本质是让模型“把不确定性外包给可追溯资料”,并把来源展示出来。
提出者 / 代表工作(较为公认)
- RAG:Lewis 等(2020)。
未来展望
- 从“拼接文档”走向“结构化证据链”:检索 → 归纳 → 引用 → 可验证回答。
- 更强的混合检索(BM25 + 向量 + 重排),以及面向多模态/代码/表格的检索。
9) 工具调用与 Agent:从“会说”到“会做”
9.1 Function Calling(工具调用)是什么
它是什么
- 模型输出结构化参数(例如 JSON),由系统调用外部 API,再把结果回灌给模型继续推理。
未来展望
- 更标准的工具协议(权限、审计、失败恢复、成本控制)。
- 工具调用会变成“必备能力”,尤其在企业流程与可靠性场景。
9.2 ReAct / Toolformer:Agent 的典型范式
它是什么
- ReAct:把“思考(Reason)”与“行动(Act)”交替进行:思考 → 调工具 → 读结果 → 再思考。
- Toolformer:让模型在训练阶段学习“何时调用什么工具”。
提出者 / 代表工作(较为公认)
- ReAct:Yao 等(2022)。
- Toolformer:Schick 等(2023)。
未来展望
- 从“prompt 工程 Agent”走向“训练出来的 Agent”:更少提示词、更强鲁棒性。
- 更强的任务分解与自我纠错(计划、执行、回滚、验证)。
9.3 Prompt(提示词):把“意图”变成可执行输入
它是什么
- Prompt 是你给模型的输入组织方式:任务指令、上下文、约束、示例(few-shot)、输出格式等。
- 在 LLM 语境里,Prompt 与 In-Context Learning(上下文学习) 绑定:模型在不更新参数的情况下,依靠上下文里的示例与指令完成新任务。
提出者 / 代表工作(较为公认)
- “Prompt”作为通用术语并没有单一提出者;在 LLM 语境中,“上下文学习 / few-shot prompting”由 GPT-3(Brown 等,2020)系统化并推动流行。
边界与常见误解
- Prompt 不是“魔法咒语”:能显著影响输出,但不能替代数据、检索、工具验证与工程约束。
- Prompt 的可控性来自“约束与反馈闭环”,而不是无限堆叠文本:越长不一定越好,可能挤占上下文窗口并引入噪声。
未来展望
- 从“手工提示词”走向“结构化提示”:模板化、可参数化、可测试、可版本管理。
- Prompt 会越来越多地被系统吸收:由策略层(policy)、工具协议与验证器共同决定输出。
9.4 Skill(技能):可复用的能力单元
它是什么
- Skill 可以理解为“把一件事做成可复用模块”的封装:通常包含一段 Prompt/规则 + 可能的工具调用 + 输入输出约束(schema)+ 失败处理策略。
- 在 Agent 系统里,Skill 的价值是“可组合”:多个 skill 串联成工作流,降低每次都从零写 prompt 的成本。
9.4.1 SDD(Skill Definition Document):技能定义文档
它是什么
- SDD 的全称是 Skill Definition Document,可以理解为“技能的产品说明书/接口契约”。
- 它的目标是把 skill 从“脑内经验 + 一段 prompt”变成“可协作、可评审、可测试、可演进”的工程资产。
一个实用的 SDD 通常包含:
- 目标与范围:这个 skill 解决什么问题、不解决什么问题。
- 输入:允许的输入字段、类型、必填/可选、默认值(最好是 JSON Schema 形式)。
- 输出:输出结构、字段含义、稳定性保证(例如是否必须返回 JSON)。
- 上下文与依赖:需要哪些上下文(知识库、账号权限、环境变量)、依赖哪些工具/数据源。
- 约束与规则:合规/安全边界、禁止行为、敏感信息处理。
- 示例:至少 3–5 个覆盖典型场景与边界场景的示例(输入→期望输出)。
- 失败策略:工具失败/网络失败/权限不足/无法确定时如何降级与提示。
- 评测用例:可用于 harness 的用例集与通过标准(pass criteria)。
边界与常见误解
- SDD 不是越长越好:关键是“可执行的约束与可复现的例子”,避免只写愿景与口号。
- SDD 不等于 Prompt:Prompt 是实现的一部分;SDD 更偏“规格说明 + 测试契约”。
未来展望
- SDD 会越来越像“API 规格 + 测试用例 + 运行策略”的组合:与权限、成本预算、审计和评测体系打通。
提出者 / 代表工作(较为公认)
- “Skill”这个命名在多种 Agent 框架里都出现;较早把它作为一等概念推广的工程实践之一是 Microsoft Semantic Kernel(2023)中的 skills(semantic / native skills)。
边界与常见误解
- Skill 不是“越多越好”:数量增长会带来路由、权限与维护成本;需要目录化、命名规范与版本管理。
- Skill 不等于工具:工具(tool)是“能力接口”,skill 更偏“能力编排与策略”。
未来展望
- Skill 会逐步标准化:声明式元数据(能力、风险、成本、权限)、可观测性(日志/追踪)、可测试性(单元/回归)。
9.5 MCP(Model Context Protocol):把“上下文与工具”标准化
它是什么
- MCP 是一种协议/规范思路:让客户端、模型与外部能力(工具/数据源)之间的集成更标准、更可迁移。
- 它关注的不只是“能调哪个工具”,还包括:上下文如何提供、权限如何声明、调用如何审计、失败如何处理。
提出者 / 代表工作(较为公认)
- MCP 在业界最常被提及的版本由 Anthropic 推出并推动生态(2024)。
边界与常见误解
- MCP 不是模型能力本身:它是“连接器与协议层”,目的是降低集成成本与供应商锁定。
- 协议不能自动带来安全:权限最小化、隔离与审计仍需要工程落地。
未来展望
- 从“各家私有工具接口”走向“可互通协议”:一套工具/数据连接可在多模型、多客户端之间复用。
9.6 Harness(运行/评测框架):让 Agent 系统可测、可控、可回放
它是什么
- Harness 在软件工程里指“测试/运行框架”:把被测对象(模型/Agent)放进可控环境里,统一提供输入、收集输出、记录日志与指标。
- 对 LLM/Agent 来说,harness 常承担:用例集(prompts/tasks)、工具模拟(mock)、评测指标、回放与对比(A/B)。
提出者 / 代表工作(较为公认)
- “Harness”不是单一论文概念;在开源生态里,常被引用的代表实践之一是 EleutherAI 的 lm-evaluation-harness(2020,偏模型评测)。
边界与常见误解
- Harness 不等于 Benchmark:benchmark 是题目集合与分数;harness 是“跑这些题的系统”,包括数据、执行、记录、复现。
- 对 Agent 更重要的是“系统级评测”:同一任务在不同工具、不同网络延迟、不同权限下是否稳定。
未来展望
- 从“离线分数”走向“可回放的系统测试”:带工具调用轨迹、成本、失败恢复、权限审计的全链路回归。
10) 微调(Fine-tuning)、LoRA 与部署优化
10.1 Fine-tuning / PEFT / LoRA
它是什么
- Fine-tuning:用你自己的数据继续训练,让模型适配垂直领域与风格。
- PEFT:参数高效微调,只训练很少的附加参数。
- LoRA:用低秩分解在权重上加可训练“旁路”,成本更低、易分发。
提出者 / 代表工作(较为公认)
- LoRA:Hu 等(2021)。
- QLoRA(把量化与 LoRA 结合,让微调更省显存):Dettmers 等(2023)。
未来展望
- “模块化能力包”:把领域能力以 adapter/LoRA 形式按需加载。
- 更强的个性化但更严格的安全边界(防泄露、可撤销、可审计)。
10.2 Quantization(量化)/ Distillation(蒸馏)
它是什么
- 量化:用更低位宽(INT8/INT4 等)表示权重/激活,换取更低显存与更快推理。
- 蒸馏:用大模型当老师训练小模型,把能力“压缩”进更小网络。
提出者 / 代表工作(较为公认)
- 知识蒸馏:Hinton 等(2015)。
未来展望
- 端侧大模型依赖:更强量化、更强推理编译器、更强隐私与个性化。
- “可验证蒸馏”:让小模型在关键能力上对齐可测指标,而不是只追相似输出。
11) 幻觉(Hallucination)、评测(Eval)与安全(Safety)
11.1 Hallucination:为什么会“编造”
它是什么
- 语言模型在本质上是在做“条件概率最大化的生成”,并不天然具备事实校验机制。
未来展望
- 检索与工具验证会成为标配:回答前先查证、回答时可引用、回答后可复核。
- “校准(Calibration)”能力会更重要:知道自己不知道、并明确表达不确定性。
11.2 Benchmark / Red Teaming
它是什么
- Benchmark:用公开任务集合比较能力(但容易过拟合、被刷分)。
- 红队:以攻击者视角测试越狱、提示注入、数据泄露与工具滥用。
提出者 / 代表工作(较为公认)
- MMLU:Hendrycks 等(2020)是常见通用评测之一。
- HELM:Liang 等(2022)强调更全面的评测维度(准确性、鲁棒性、公平性等)。
未来展望
- 从“单次问答分数”走向“系统级评测”:工具链、记忆、权限、成本、稳定性一起评。
- 企业侧会更依赖离线评测 + 在线监控 + 可追溯日志的闭环治理。
12) 未来展望:大模型接下来会往哪走?
把趋势压缩成几条更确定的“工程方向”:
- 更可靠(Reliability):从“看起来对”走向“可验证地对”,工具验证与证据链成为默认。
- 更高效(Efficiency):推理成本仍是规模化落地的门槛;量化、并行、编译器、稀疏计算会持续进化。
- 更长记忆(Memory):长上下文与外部记忆融合;关键是“检索/压缩/遗忘策略”,而不是一味拉长窗口。
- 更强工具化(Agent):从单轮助手走向“能完成任务的系统”,强调权限、可控、可回滚、可审计。
- 更合规与治理(Governance):数据来源、版权、隐私与安全会深度影响模型训练与发布形态。
13) 开源生态与部署路线:vLLM / TGI / llama.cpp / Ollama 怎么选、怎么跑
这一节的目标只有一个:让你建立“怎么跑起来”的直觉。不同工具本质是在解决不同问题:
- llama.cpp:尽量用 CPU/少量内存跑起来(也可用 Metal/CUDA 加速),重在“能本地跑、好分发”。
- Ollama:把本地跑模型做成“应用化体验”(下载模型、启动服务、管理多个模型),更像“本地模型运行器”。
- vLLM:面向 GPU 的高吞吐推理引擎,重在“并发、吞吐、KV Cache 管理、服务化”。
- TGI(Text Generation Inference):Hugging Face 的推理服务栈,重在“生产化服务、生态集成、易部署”。
你可以按场景做最小决策:
| 你的目标 | 推荐路线 | 关键词 |
|---|---|---|
| 想先体验、本地对话、偶尔写点脚本 | Ollama / llama.cpp | 端侧/本地、简单、可离线 |
| 单机 GPU、希望高并发与高吞吐(服务化) | vLLM | 高吞吐、PagedAttention、KV Cache |
| 更偏“标准化生产部署”、与 HF 生态深度结合 | TGI | 容器化、监控、生态集成 |
13.1 模型文件与格式:HF 权重 vs GGUF
你在开源生态里常见两类“模型文件”:
- Hugging Face 权重(HF 格式):通常是 safetensors/pt,适合 vLLM/TGI 等 GPU 引擎读取。
- GGUF:llama.cpp 生态主流格式,通常是“量化后”的模型文件,面向本地推理更友好。
直觉上可以这样理解:
- HF 权重更像“原材料”,适合 GPU 高性能推理或继续训练/微调。
- GGUF 更像“成品包”,适合本地分发与低成本推理(尤其 CPU/端侧)。
13.2 量化(GGUF / INT4)在部署里的位置
量化的核心目标:用更少显存/内存跑得动,通常也更快(但可能损失一点能力)。
常见问法与直觉答案:
- INT4 / 4-bit(四位量化):显存占用大幅下降,是“本地跑起来”的关键手段之一。
- GGUF:经常与量化绑定出现,因为很多 GGUF 文件本身就是不同量化等级(Q4、Q5、Q8 等)。
选择建议(入门版):
- 你要“本地先跑起来”:优先 GGUF + 合适的量化等级(先从中等量化开始,效果不满意再换更高精度)。
- 你要“服务化 + 高吞吐”:优先 GPU 引擎(vLLM/TGI)+ 合理的量化/推理优化(是否量化取决于显存与性能目标)。
13.3 KV Cache:为什么它决定了“长对话成本”
KV Cache 你在 §6 见过,这里把它放回部署语境里看:
- KV Cache 越大,越能避免重复计算历史 token → 生成越快。
- 但 KV Cache 会占用显存/内存,而且 上下文越长,占用越大。
因此部署时的核心权衡常常是:
- 更长上下文 / 更高并发 vs 显存上限。
很多推理引擎的“黑科技”基本都在做 KV Cache 的管理与优化(比如更好的分配、复用、分页、压缩等)。
13.4 并行(Tensor / Pipeline):为什么多卡不等于更快
当模型大到单卡放不下,或者你要更高吞吐,就会碰到并行:
- Tensor Parallel(张量并行):把同一层的计算拆到多张 GPU 上并行做,适合提升吞吐/放大模型。
- Pipeline Parallel(流水线并行):把不同层分配到不同 GPU,像工厂流水线一样分段处理。
入门直觉:
- 并行能“放下更大的模型”,但也会引入通信成本与调度复杂度。
- 真正的性能瓶颈往往不在“算力”,而在 显存、KV Cache、带宽与通信。
13.5 四条最常见的“跑起来”路线(从易到难)
- Ollama(最省心)
- 适合:想快速本地用;不想研究模型格式与推理参数。
- 常见形态:本机起一个服务端口 + 本地拉模型 + 客户端/CLI 调用。
- llama.cpp(最轻量)
- 适合:CPU/端侧;或希望对量化与本地部署有更可控的理解。
- 关键词:GGUF、量化等级、设备加速(Metal/CUDA)。
- vLLM(高吞吐服务)
- 适合:单机 GPU 并发;或需要一个“更像线上服务”的推理层。
- 关键词:吞吐、并发、KV Cache 管理、批处理。
- TGI(生产化服务栈)
- 适合:更偏工程团队,追求成熟的容器化部署与与生态集成。
- 关键词:部署、监控、生态、集成。
提示:无论你选哪条路线,都建议优先建立最小闭环:能跑 → 能调参 → 能压测 → 能监控,再谈更复杂的 Agent/工作流。
14) 多模态概念补全:VLM / CLIP / 图像 token / ASR / TTS / 文档理解
很多人把“多模态”简单理解成“模型能看图/能听音频”,但工程上更准确的理解是:不同模态先被编码成某种 token/向量表示,再与 LLM 的 token 序列在同一条推理链路里融合。这决定了它的边界:
- 模型通常“能理解图像语义”,但不一定擅长“像素级精确读数/数格子/找坐标”。
- 模型能处理音频/视频,往往依赖“先转写/先抽帧/先结构化”的外部步骤。
- 文档(PDF/表格)最关键不是“看见”,而是“结构化”:标题层级、表格单元格、段落边界、引用与来源。
14.1 VLM(Vision-Language Model)是什么:不是“LLM + 图片”这么简单
VLM 通常指“视觉-语言模型”:输入可以包含图像,输出可以是文字(也可能进一步输出结构化内容)。
一个入门级的结构图可以这样记:
- 视觉编码器(Vision Encoder):把图片转成视觉特征(向量序列)。
- 投影/适配层(Projector):把视觉特征对齐到 LLM 能接收的表示空间。
- LLM 解码器:把“文本 token + 视觉 token”一起作为上下文来生成回答。
常见边界:
- 更擅长“描述/问答/理解意图”,不一定擅长“精确测量/严谨数值/小字密集文本”。
- 图片里的文字(OCR)如果质量差,往往需要先做专门的 OCR,再交给 LLM 总结与推理。
14.2 CLIP:多模态世界里的“向量相似度发动机”
CLIP 的核心价值是:把图像和文本映射到同一个向量空间里,让你能用“相似度”做检索与匹配。
工程上你会在这些地方遇到 CLIP 思想:
- 以图搜图/以文搜图(图片库检索、素材管理、内容审核)
- 多模态 RAG:不仅检索文本 chunk,也检索相关图片/截图/图表,再把证据喂回给模型
- 跨模态对齐:把“图像证据”和“文字证据”放在同一套检索体系里
直觉上:CLIP 更像“多模态 Embedding 模型”,而不是“会长篇生成的大模型”。
14.3 图像 token:图像是怎么“进入上下文窗口”的
“图像 token”指的是:把一张图片变成模型可处理的序列表示。常见两类思路:
- 连续特征 token(更常见)
- 用视觉编码器输出一串向量(你可以把它理解为“把图片切成 patch,再给每个 patch 一个向量”)。
- 然后通过 projector 对齐到 LLM 的表示空间。
- 离散图像 token(更像压缩码)
- 把图像先压缩成离散 codebook id(类似“视觉领域的 tokenizer”),再当成 token 序列喂给模型。
- 优点是“token 序列更像文本”,缺点是训练/表示会更复杂。
工程边界:
- 图像 token 很快会吃掉上下文预算,所以“多图/长视频”通常需要抽帧、选关键帧、先做摘要或检索。
14.4 ASR / TTS:语音能力通常是“管道式组合”
多模态产品里,语音能力经常不是“一个模型全包”,而是管道组合:
- ASR(Speech-to-Text):把语音转成文本,再交给 LLM 做理解与推理。
- TTS(Text-to-Speech):把 LLM 产出的文本再转成语音。
为什么工程上喜欢分开做:
- ASR/TTS 各自都有独立的指标与优化目标(延迟、音色、噪声鲁棒性、多语种等)。
- 文本是 LLM 最擅长的“中间表示”,便于做 RAG、工具调用、审计与留痕。
典型边界:
- 语音里的情绪、语气、说话人特征不一定能被完整保留到文本,需要额外结构化信息(比如情绪标签、说话人分离)。
14.5 文档理解(PDF/表格):关键在“结构化”,不在“看见”
很多 PDF/表格任务的核心不是生成能力,而是把内容变成“可检索、可引用、可验证”的结构化数据。常见流水线:
- 解析/抽取:PDF → 文本块/段落/表格(必要时先 OCR)
- 结构化:保留标题层级、列表、表格单元格、引用来源
- 检索与生成(RAG):按问题检索相关片段,再让 LLM 生成答案并引用证据
表格尤其容易踩坑:
- “表格转纯文本”会损失行列关系,导致模型理解错位
- 更稳的方法是:把表格转成 Markdown 表格/CSV/JSON(保留结构),再交给 LLM 解读
边界与建议:
- 需要“逐字精确”的场景(财务、合同、法务条款核对)不要只依赖 LLM;应结合规则校验/双人复核/可追溯证据链。
术语索引(中英对照)
这一节用于“查词”,不追求解释(解释在正文各章节)。章节号对应本文的大标题序号(如 §8 表示「8) RAG」)。
A–Z 索引
| 首字母 | 术语 | 章节 |
|---|---|---|
| A | Agent(智能体) | §9 |
| A | ALiBi | §7 |
| A | Attention(注意力) | §3 |
| B | Benchmark(基准评测) | §11 |
| B | BERT | §4 |
| B | BPE | §1 |
| C | CLIP | §14 |
| C | Calibration(校准) | §11 |
| C | Constitutional AI(宪法式对齐) | §5 |
| C | Context Window(上下文窗口) | §7 |
| D | Distillation(蒸馏) | §10 |
| D | DPO | §5 |
| E | Embedding(向量表示) | §2 / §8 |
| F | FAISS | §2 |
| F | Fine-tuning(微调) | §10 |
| F | Function Calling(工具调用) | §9 |
| G | GloVe | §2 |
| G | GPT | §4 |
| G | GGUF | §13 |
| H | Harness(运行/评测框架) | §9 |
| H | Hallucination(幻觉) | §11 |
| H | HELM | §11 |
| I | Inference(推理) | §6 |
| I | InstructGPT | §5 |
| I | INT4 / 4-bit | §13 |
| K | KV Cache | §6 |
| L | LoRA | §10 |
| L | llama.cpp | §13 |
| M | MMLU | §11 |
| M | MoE(专家混合) | §3 |
| M | MCP(Model Context Protocol) | §9 |
| N | Nucleus Sampling(Top-p) | §6 |
| O | OCR(Optical Character Recognition) | §14 |
| O | Ollama | §13 |
| P | PEFT | §10 |
| P | Pipeline Parallel | §13 |
| P | Pretraining(预训练) | §4 |
| P | Prompt(提示词) | §9 |
| Q | Quantization(量化) | §10 |
| Q | QLoRA | §10 |
| R | RAG | §8 |
| R | ReAct | §9 |
| R | Red Teaming(红队) | §11 |
| R | RoPE | §7 |
| S | Self-Attention(自注意力) | §3 |
| S | SentencePiece | §1 |
| S | SFT | §5 |
| S | Skill(技能) | §9 |
| S | SDD(Skill Definition Document) | §9 |
| S | ASR(Automatic Speech Recognition) | §14 |
| T | Tensor Parallel | §13 |
| T | Temperature | §6 |
| T | TTS(Text-to-Speech) | §14 |
| T | Token / Tokenizer | §1 |
| T | Toolformer | §9 |
| T | Top-k | §6 |
| T | Top-p | §6 |
| T | Transformer | §3 |
| T | TGI(Text Generation Inference) | §13 |
| V | vLLM | §13 |
| V | VLM(Vision-Language Model) | §14 |
| V | Vector DB(向量数据库) | §8 |
| W | Word2Vec | §2 |
拼音索引
| 拼音首字母 | 术语 | 章节 |
|---|---|---|
| C | 采样(Temperature / Top-k / Top-p) | §6 |
| C | 长上下文 | §7 |
| D | 对齐(SFT / RLHF / DPO / Constitutional AI) | §5 |
| B | 部署路线(vLLM / TGI / llama.cpp / Ollama) | §13 |
| B | 并行(Tensor / Pipeline) | §13 |
| D | 多模态(VLM / CLIP / ASR / TTS / PDF) | §14 |
| G | 工具调用(Function Calling) | §9 |
| H | 幻觉(Hallucination) | §11 |
| J | 技能(Skill) | §9 |
| J | 技能定义文档(SDD) | §9 |
| J | 基座模型(Foundation Model) | §4 |
| J | 检索增强生成(RAG) | §8 |
| M | MCP(Model Context Protocol) | §9 |
| L | llama.cpp / Ollama(本地推理) | §13 |
| L | 量化(Quantization) | §10 |
| T | 图像 token | §14 |
| T | 提示词(Prompt) | §9 |
| W | 文档理解(PDF / 表格 / OCR) | §14 |
| W | 微调(Fine-tuning / LoRA / QLoRA) | §10 |
| X | 向量表示(Embedding) | §2 |
| X | 向量数据库(Vector DB) | §8 |
| Y | 预训练(Pretraining) | §4 |
| Y | 语音识别(ASR) | §14 |
| Y | 语音合成(TTS) | §14 |
| P | 评测(Benchmark / Evals) | §11 |
| R | 红队(Red Teaming) | §11 |
参考与延伸阅读(按概念挑重点)
- Attention:Bahdanau et al., 2015;Luong et al., 2015
- Transformer:Vaswani et al., 2017
- Word2Vec:Mikolov et al., 2013;GloVe:Pennington et al., 2014
- BPE 分词:Sennrich et al., 2015;SentencePiece:Kudo, 2018
- GPT:Radford et al., 2018;BERT:Devlin et al., 2018
- RLHF / InstructGPT:Ouyang et al., 2022
- DPO:Rafailov et al., 2023
- RAG:Lewis et al., 2020
- ReAct:Yao et al., 2022;Toolformer:Schick et al., 2023
- LoRA:Hu et al., 2021;QLoRA:Dettmers et al., 2023
- 蒸馏:Hinton et al., 2015
- Top-p:Holtzman et al., 2019
- MMLU:Hendrycks et al., 2020;HELM:Liang et al., 2022
- Prompt / In-Context Learning:Brown et al., 2020
- MCP:Anthropic, 2024
- Skills(Semantic Kernel):Microsoft, 2023
- lm-evaluation-harness:EleutherAI, 2020
- SDD(Skill Definition Document):工程实践术语,常见于 Agent/平台侧的技能资产规范