当你用 ChatGPT 写邮件、用文心一言生成 PPT 大纲、用通义千问调试代码时,是否好奇这些 AI 背后的 “大脑” 是如何工作的?大型语言模型(LLM)已成为 AI 时代的基础设施,但要真正用好它们,必须先理解其底层逻辑。本文将带你穿透 “黑箱”,系统解析 LLM 的工作原理、Token 化机制、上下文长度等核心概念,为深入掌握大模型技术打下基础。
一、什么是大型语言模型(LLM)?
大型语言模型(Large Language Model,简称 LLM)是一类基于海量文本数据训练的 AI 模型,核心能力是理解人类语言并生成符合逻辑的文本。与传统 AI 不同,LLM 通过 “预训练 + 微调” 的模式,能处理翻译、写作、问答、代码生成等多类任务,无需为每个任务单独设计模型。
LLM 的 “大” 体目前哪里?
- 参数规模:从数十亿到数万亿(如 GPT-4 参数超 1 万亿,文心一言、通义千问也达千亿级)
- 训练数据:涵盖书籍、网页、论文等 TB 级文本(几乎包含人类历史上大部分公开文字)
- 能力边界:能理解复杂语义、逻辑推理、甚至展现类 “常识” 的判断

为什么 LLM 能 “理解” 语言?
本质上,LLM 并不像人类一样 “理解” 语义,而是通过统计规律预测 “下一个词”。它在训练中学习到 “词语之间的关联模式”—— 列如 “下雨天要带” 后面接 “伞” 的概率远高于 “手机”,“Python 是一种” 后面接 “编程语言” 的概率最高。
这种基于概率的预测能力,在足够大的模型规模和数据量支撑下,会涌现出类似 “理解” 和 “推理” 的能力。
二、LLM 的核心工作原理:从输入到输出的全过程
LLM 的工作流程可简化为 “输入处理→模型计算→输出生成” 三步骤,核心依赖Transformer 架构(2017 年由 Google 提出,是所有现代 LLM 的基础)。
2.1 核心架构:Transformer 的 “注意力魔法”
Transformer 的革命性在于自注意力机制(Self-Attention),它能让模型处理文本时 “关注重点”—— 就像人类阅读时会重点看关键词一样。
例如处理句子 “小明喜爱打篮球,他每天都玩 1 小时”:
- 模型会通过注意力机制发现 “他” 指代 “小明”
- “玩” 关联的是 “打篮球”
- 这种关联理解让模型能生成逻辑连贯的后续文本(如 “由于这能增强体质”)

自注意力机制说明
- 自注意力机制允许模型在处理每个词时关注输入序列中的其他词
- 不同颜色的连线表明不同类型的语义关联
- 模型通过计算词与词之间的注意力权重来理解上下文关系
- 这种机制使Transformer能够有效处理长距离依赖关系
2.2 训练流程:预训练 + 微调的 “两步走”
LLM 的能力不是一蹴而就的,而是通过 “预训练” 打下基础,再通过 “微调” 适应具体场景:
- 预训练(Pre-training):在海量无标注文本(书籍、网页、论文等)上训练目标:学习语言规律(语法、语义、常识、逻辑)过程:输入一段文本,让模型预测下一个词,通过不断调整参数优化预测 accuracy
- 微调(Fine-tuning):在特定任务数据(如对话、翻译)上训练目标:让模型适应具体场景(列如聊天时更友善,代码生成时更准确)过程:用标注数据(如 “问题→答案” 对)调整部分参数,保留预训练学到的通用能力

2.3 生成文本的过程:“接龙” 式预测
当你给 LLM 输入 “请写一句关于春天的诗”,它的生成过程是这样的:
- 处理输入文本(转化为 Token,见下文)
- 第一次预测:基于输入,计算第一个词的概率(“春” 的概率最高)
- 第二次预测:将 “春” 加入输入,计算下一个词(“风” 的概率最高)
- 重复步骤 3,直到生成结束符(如 “。”)或达到长度限制
最终生成:“春风拂过柳丝绿,繁花似锦燕归来。”
三、Token 化:LLM 如何 “看懂” 文本?
LLM 无法直接处理原始文本(如汉字、英文单词),必须先将文本转化为模型能理解的数字 —— 这个过程就是Token 化(Tokenization)。
3.1 什么是 Token?
Token 是文本的最小处理单元,既不是单个字符,也不必定是完整单词,而是 **“子词单元”**。例如:
- 英文:“unhappiness” 会被拆分为 “un”、“happiness”
- 中文:“我爱人工智能” 可能被拆分为 “我”、“爱”、“人工”、“智能”
- 特殊符号:“@”、“#” 一般作为独立 Token

3.2 为什么需要 Token 化?
- 平衡词汇量:如果直接用单词作为单元,英文有百万级单词,中文词汇更多,会导致模型体积爆炸;用子词单元可将词汇量控制在几万(如 GPT-4 约 5 万 Token)
- 兼顾语义完整性:子词既能拆分长词(如 “人工智能” 拆为 “人工”+“智能”),又能保留常用词作为整体(如 “我”、“你”)
- 处理未见过的词:遇到生僻词(如 “LLM 技术”),可拆分为已知子词(“LLM”+“技术”),避免 “未登录词” 问题
3.3 不同模型的 Token 化差异
- GPT 系列:使用字节对编码(Byte Pair Encoding, BPE),支持多语言,但中文 Token 效率较低(1 个汉字一般对应 1-2 个 Token)
- 文心一言 / 通义千问:针对中文优化了 Tokenizer,中文 Token 效率更高(1 个汉字更可能对应 1 个 Token)
- 计算成本:API 调用一般按 Token 计费(输入 + 输出),因此理解 Token 化有助于控制成本
实用工具:OpenAI 的 tiktoken 库可查看文本的 Token 数量(其他模型也有类似工具):
import tiktoken
# 加载GPT-4的tokenizer
encoder = tiktoken.encoding_for_model("gpt-4")
text = "LLM能理解自然语言吗?"
tokens = encoder.encode(text)
print(f"Token数量:{len(tokens)}") # 输出:7
print(f"Token列表:{tokens}") # 输出:[10948, 2421, 15535, 32324, 356, 30, 29]
四、上下文长度:LLM 的 “记忆” 有多长?
上下文长度(Context Length)是指 LLM 能同时处理的最大 Token 数量(输入 + 输出),相当于模型的 “短期记忆容量”。
4.1 上下文长度的本质
- 它是模型训练时固定的参数(如 GPT-4 标准版为 8k Token,扩展版为 128k Token)
- 超过长度的文本会被截断或分段处理
- 长度越长,模型能 “记住” 的前文信息越多,但计算成本指数级增加

4.2 上下文长度对使用的影响
- 长文本处理:写论文、分析长文档需要更长上下文(如 128k Token 可容纳约 30 万字)
- 对话连贯性:多轮对话中,上下文长度决定模型能 “记住” 多少历史对话(长度不足会导致答非所问)
- 成本与速度:长上下文推理速度慢、成本高(如 128k Token 的 API 调用费用是 8k 的数倍)
4.3 如何应对上下文长度限制?
- 文本截断:保留最新或最重大的内容(如只保留最近 5 轮对话)
- 滑动窗口:处理超长文本时,按窗口大小分段输入(如每 1000 字一段,逐段分析)
- 摘要压缩:用模型先压缩长文本为摘要,再输入到主模型
- 选择合适模型:简单对话用 4k 模型(成本低),长文档处理用 32k + 模型
示例:处理 10 万字报告时,可先用摘要模型压缩为 500 字,再输入到 8k 模型分析,既避免溢出又降低成本。
五、总结:理解 LLM 核心概念的意义
掌握 Token 化、上下文长度、工作原理等概念,是用好 LLM 的基础:
- 开发者:能更高效地调用 API(控制 Token 成本、避免上下文溢出)、优化提示词(让模型更好理解任务)
- 使用者:能合理预期模型能力(如知道长文档需要分段处理)、规避常见问题(如对话过长导致失忆)
LLM 的核心是 “基于统计的文本预测”,但其能力边界在持续扩展。后续我们将深入探讨提示工程、微调技术、多模态扩展等进阶内容,敬请关注。
如果觉得本文有协助,欢迎点赞收藏,有任何疑问也可以在评论区交流~