大语言模型专题¶

GPT、Claude、Llama、DeepSeek等大语言模型的原理与应用。

什么是大语言模型¶

**大语言模型（Large Language Model, LLM）**是指参数量巨大（通常数十亿到数千亿）、在大规模文本数据上训练的语言模型。

规模对比（截至2026年5月）¶

模型	参数量	训练数据	发布时间
BERT	3.4亿	维基百科+图书	2018
GPT-2	15亿	WebText	2019
GPT-3	1750亿	Common Crawl等	2020
PaLM	5400亿	多语种网页+图书	2022
GPT-4	未公开	未公开	2023
Llama 2	70亿-700亿	公开数据	2023
Claude 3	未公开	未公开	2024
GPT-4o	未公开	多模态数据	2024
Claude 3.5	未公开	未公开	2024
o1/o3	未公开	推理优化	2024-2025
Llama 3	80亿-700亿	公开数据	2024
通义千问2.5	千亿级	中文+多语言	2024
DeepSeek-V3	6710亿(MoE)	公开数据	2024
GPT-4.5	未公开	未公开	2025
Claude 4	未公开	未公开	2025
Gemini 2.5 Pro	未公开	多模态数据	2025
Llama 4	未公开	公开数据	2025
通义千问3	万亿级	中文+多语言	2025
文心一言5.0	未公开	中文数据	2025
豆包Pro	未公开	多模态数据	2025
DeepSeek-R1	6710亿(MoE)	公开数据	2026
DeepSeek-V4	万亿级(MoE)	公开数据	2026
GPT-5	未公开	未公开	2026
Claude 4.5	未公开	未公开	2026

为什么"大"很重要¶

涌现能力（Emergent Abilities）：当模型规模达到一定程度，会突然出现小模型不具备的能力。

规模增加 → 量变 → 临界点 → 质变（涌现）

典型涌现能力： - 上下文学习（In-context Learning） - 思维链推理（Chain-of-Thought） - 指令遵循（Instruction Following） - 多步推理（Multi-step Reasoning）

核心技术原理¶

Transformer架构¶

大语言模型的基础架构，参见深度学习革命。

关键组件： - 自注意力机制（Self-Attention） - 多头注意力（Multi-Head Attention） - 前馈网络（Feed-Forward Network） - 层归一化（Layer Normalization）

预训练任务¶

自回归语言建模（Autoregressive Modeling）：

输入："人工智能是"
目标：预测下一个词 "未来"
损失：预测词与实际词的交叉熵

数学表示：

P(w₁, w₂, ..., wₙ) = P(w₁) × P(w₂|w₁) × ... × P(wₙ|w₁...wₙ₋₁)

Tokenization¶

将文本转换为模型可处理的数字序列。

BPE（Byte Pair Encoding）：

"人工智能" → ["人", "工", "智能"] → [1024, 2056, 3891]

常见Tokenizer： - GPT系列：GPT-2 Tokenizer - Llama：SentencePiece - Claude：Claude Tokenizer

位置编码¶

绝对位置编码：

# 正弦位置编码
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

旋转位置编码（RoPE）： - Llama、Claude使用 - 更好的长文本外推能力

训练过程¶

预训练（Pre-training）¶

目标：让模型学习语言知识和世界知识。

训练数据： - Common Crawl（网页数据） - Wikipedia（百科） - Books（图书） - Code（代码） - Scientific Papers（论文）

数据规模：

GPT-3：约3000亿token
Llama 2：约2万亿token

计算资源： - GPU/TPU集群 - 数千到数万GPU - 训练时间：数周到数月 - 成本：数百万到数千万美元

有监督微调（SFT）¶

目标：让模型学会遵循指令。

数据格式：

{
  "instruction": "解释什么是机器学习",
  "input": "",
  "output": "机器学习是..."
}

数据来源： - 人工标注 - 现有NLP数据集转换 - 从更大模型蒸馏

人类反馈强化学习（RLHF）¶

流程：

1. 收集人类偏好数据
   ├── 生成多个回答
   ├── 人类排序哪个更好
   └── 构建偏好数据集

2. 训练奖励模型（Reward Model）
   ├── 输入：提示+回答
   └── 输出：奖励分数

3. 用PPO算法微调
   ├── 最大化奖励
   └── 同时保持与原始模型接近

效果： - 回答更符合人类偏好 - 减少有害内容 - 提高有用性和真实性

替代方案：DPO¶

直接偏好优化（Direct Preference Optimization）： - 无需训练奖励模型 - 直接使用偏好数据进行优化 - 更简单高效

主流大语言模型¶

GPT系列（OpenAI）¶

模型	特点	访问方式	时间
GPT-3.5	快速，成本低	API	2022
GPT-4	推理能力强，多模态	API	2023
GPT-4o	原生多模态，速度快	API	2024
o1	推理优化，思维链	API	2024
o3	更强推理能力	API	2025
GPT-4.5	更大多模态能力	API	2025
GPT-5	下一代基础模型	API	2026

优势： - 综合能力最强 - 生态系统完善 - 多模态能力强 - 推理模型领先

Claude系列（Anthropic）¶

模型	特点	访问方式	时间
Claude 3 Haiku	快速，轻量	API	2024
Claude 3 Sonnet	平衡性能和成本	API	2024
Claude 3 Opus	最强推理能力	API	2024
Claude 3.5 Sonnet	性价比最优	API	2024
Claude 4	推理大幅提升	API	2025
Claude 4.5	多模态增强	API	2026

优势： - 上下文窗口大（200K-500K） - 遵循指令能力强 - 安全性高 - 代码能力优秀

Llama系列（Meta）¶

模型	参数量	特点	时间
Llama 2	7B-70B	开源可商用	2023
Llama 3	8B-70B	性能大幅提升	2024
Llama 3.1	8B-405B	最强开源模型	2024
Llama 4	未公开	多模态能力	2025

优势： - 完全开源 - 可本地部署 - 社区生态丰富 - 商业友好

Gemini系列（Google）¶

模型	特点	访问方式	时间
Gemini 1.0 Pro	多模态	API	2023
Gemini 1.5 Pro	100万上下文	API	2024
Gemini 2.0	原生多模态	API	2024
Gemini 2.5 Pro	推理能力大幅提升	API	2025
Gemini 2.5 Ultra	最强多模态	API	2026

优势： - 原生多模态 - 超长上下文 - 与Google生态整合

国产大模型（2026年5月更新）¶

模型	开发者	特点	时间
通义千问2.5	阿里	中文能力国际领先，开源	2024
通义千问3	阿里	万亿参数，多模态	2025
通义千问3.5	阿里	Agent能力增强	2026
文心一言4.0	百度	知识增强，日活高	2024
文心一言5.0	百度	多模态，推理强	2025
文心一言5.5	百度	企业级能力	2026
豆包	字节	抖音生态，年轻化	2024
豆包Pro	字节	多模态，长文本	2025
豆包Ultra	字节	企业级	2026
ChatGLM-4	智谱AI	中文开源领先	2024
ChatGLM-5	智谱AI	多模态Agent	2025
GLM-4.5	智谱AI	推理增强	2026
Kimi	月之暗面	200万上下文	2024
Kimi 2	月之暗面	超长文本，推理	2025
Kimi 3	月之暗面	多模态	2026
DeepSeek-V3	DeepSeek	6710亿MoE，开源	2024
DeepSeek-R1	DeepSeek	推理模型，开源	2026
DeepSeek-V4	DeepSeek	万亿MoE，开源	2026
DeepSeek-Flash	DeepSeek	极速版	2026
DeepSeek-Pro	DeepSeek	企业版	2026
混元	腾讯	腾讯生态	2024
混元Pro	腾讯	多模态	2025
盘古	华为	企业级	2024
盘古2.0	华为	行业大模型	2025

模型能力评估¶

评估维度¶

维度	说明	典型任务
知识	事实性知识	MMLU、TriviaQA
推理	逻辑推理能力	GSM8K（数学）、HumanEval（代码）
理解	文本理解	RACE、LAMBADA
生成	文本生成质量	人工评估
对齐	符合人类偏好	人工评估

常用基准测试¶

MMLU（大规模多任务语言理解）： - 涵盖57个学科 - 测试知识广度

GSM8K： - 小学数学问题 - 测试数学推理

HumanEval： - 编程问题 - 测试代码能力

HellaSwag： - 常识推理 - 测试常识理解

提示工程（Prompt Engineering）¶

什么是提示工程¶

设计有效的输入（提示），引导模型产生期望的输出。

基础技巧¶

1. 明确指令

❌ "写一篇关于AI的文章"
✅ "写一篇800字的技术博客，介绍大语言模型的工作原理，面向有一定编程基础的读者"

2. 提供上下文

"背景：我们公司是做电商的，主要卖服装。
任务：写一封促销邮件，推广夏季新品。"

3. 指定格式

"请用以下格式回答：
1. 主要观点
2. 支持论据
3. 结论"

4. 少样本示例（Few-shot）

示例1：
输入："今天天气很好"
情感：正面

示例2：
输入："这部电影太无聊了"
情感：负面

任务：
输入："服务员态度很好"
情感："

高级技巧¶

思维链（Chain-of-Thought）：

"请一步一步思考，然后给出答案。
问题：一个农场有鸡和兔，共有35个头，94只脚，问鸡兔各多少？"

自我一致性（Self-Consistency）： - 多次采样 - 选择最常见的答案

反思与修正（Reflection）：

"解答这个问题，然后检查你的答案是否正确。如果有错误，请修正。"

应用场景¶

内容创作¶

写作辅助： - 文章大纲生成 - 段落扩写 - 润色改写 - 标题生成

代码辅助： - 代码生成 - Bug修复 - 代码解释 - 文档生成

知识问答¶

企业知识库： - 基于内部文档问答 - 产品咨询 - 技术支持

教育辅导： - 概念解释 - 习题解答 - 学习规划

对话系统¶

智能客服： - 7×24小时服务 - 多轮对话 - 情绪识别

个人助手： - 日程管理 - 信息查询 - 任务提醒

数据分析¶

文本分析： - 情感分析 - 主题提取 - 摘要生成

结构化数据： - 从文本提取信息 - 生成SQL查询 - 数据清洗

本地部署¶

硬件要求¶

模型规模	显存需求	推荐GPU
7B	8-12GB	RTX 3090/4090
13B	16-24GB	RTX 4090/A5000
70B	80-140GB	A100/H100
405B	800GB+	多卡集群

推理框架¶

框架	特点	适用场景
llama.cpp	C++实现，量化支持好	CPU推理，边缘设备
vLLM	高吞吐，PagedAttention	服务部署
TensorRT-LLM	NVIDIA优化	生产环境
Hugging Face TGI	易用，生态好	快速部署
Ollama	一键安装，用户友好	本地体验

量化技术¶

目的：减少显存占用，加速推理。

量化方式	精度	显存节省
FP16	16位浮点	50%
INT8	8位整数	75%
INT4	4位整数	87.5%

推荐： - 7B模型：INT4量化，消费级GPU可跑 - 13B模型：INT4量化，高端消费级GPU - 70B模型：INT4量化，专业级GPU

微调与定制¶

为什么微调¶

预训练模型的局限： - 通用性强，专业领域弱 - 知识截止日期 - 特定风格需求

微调方法¶

全量微调（Full Fine-tuning）： - 更新所有参数 - 效果通常最好 - 需要大量显存

参数高效微调（PEFT）：

方法	原理	显存节省
LoRA	低秩适配	70%+
QLoRA	量化+LoRA	90%+
Prompt Tuning	训练软提示	95%+
Prefix Tuning	训练前缀嵌入	90%+

LoRA详解：

原始权重：W
微调更新：ΔW = A × B（低秩分解）
新权重：W' = W + ΔW

只训练A和B，参数量大幅减少

微调流程¶

准备数据：
收集领域数据
转换为指令格式
划分训练/验证集
选择基础模型：
通用模型（Llama、Qwen）
领域模型（CodeLlama、MedPaLM）
设置训练参数：
学习率：1e-4到1e-5
Batch size
训练轮数
训练与评估：
监控损失
验证集评估
人工检查
部署与迭代：
模型导出
服务部署
持续优化

RAG：检索增强生成¶

为什么需要RAG¶

纯LLM的局限： - 知识有截止日期 - 容易产生幻觉 - 无法访问私有数据

RAG解决方案：

用户问题 → 检索相关文档 → 结合上下文 → LLM生成答案

RAG架构¶

组件： 1. 文档处理：切分、向量化 2. 向量数据库：存储文档向量 3. 检索器：语义检索 4. 生成器：LLM生成答案

流程：

用户Query → 向量化 → 检索Top-K文档 → 拼接Prompt → LLM生成

关键技术¶

文本切分（Chunking）： - 固定长度切分 - 按段落/句子切分 - 重叠切分

向量化（Embedding）： - BGE（BAAI） - M3E（中文） - OpenAI Embedding

向量数据库： - Milvus - Pinecone - Chroma - FAISS

检索优化： - 混合检索（关键词+语义） - 重排序（Rerank） - 查询改写

挑战与限制¶

幻觉问题¶

定义：模型生成看似合理但实际错误的内容。

类型： - 事实性幻觉：编造不存在的事实 - 忠实性幻觉：与输入不一致

缓解方法： - RAG（检索增强） - 事实核查 - 不确定性估计 - 多模型验证

上下文限制¶

问题：模型能处理的文本长度有限。

当前主流： - GPT-4o：128K token - Claude 3.5：200K token - Gemini 1.5 Pro：100万 token（2024） - Kimi：200万 token（2024） - Llama 3：128K token

解决方案： - 长文本压缩 - 检索增强 - 分段处理

推理能力¶

局限： - 复杂数学推理 - 多步逻辑推理 - 常识推理

改进方向： - 思维链提示 - 专项训练 - 工具使用

安全与对齐¶

风险： - 生成有害内容 - 偏见和歧视 - 隐私泄露 - 滥用风险

对策： - 安全训练 - 内容过滤 - 人类监督 - 红队测试

发展趋势¶

多模态融合¶

2024-2026年热点： - GPT-4o（2024）：原生多模态，实时语音对话 - Gemini 2.5（2025）：原生多模态，超长上下文 - Sora（2024）：视频生成模型 - 通义千问VL（2024）：中文多模态理解 - 可灵（Kling）（2024）：国产视频生成 - Runway Gen-3（2024）：高质量视频生成

推理能力突破¶

OpenAI o系列（2024-2025）： - o1（2024年9月）：推理能力大幅提升，思维链强化 - o3（2025年）：更强数学和编程能力 - 核心技术：强化学习+思维链

DeepSeek-R1（2026年1月）： - 开源推理模型 - 性能媲美o1 - 成本大幅降低（1/30） - 引发全球关注

国产大模型崛起¶

2024-2026年快速发展：

模型	公司	特点	2026年地位
通义千问3	阿里	开源，中文能力强	国际领先
文心一言4.0	百度	知识增强，日活高	国内头部
豆包	字节	多模态，生态整合	快速增长
Kimi	月之暗面	超长上下文	长文本领先
DeepSeek-V3/R1	DeepSeek	开源MoE，低成本	国际知名
智谱GLM-4	智谱AI	开源可商用	技术领先

特点： - 中文能力国际领先 - 开源生态丰富 - 成本持续下降 - 应用场景广泛

智能体（AI Agent）¶

2025-2026年爆发： - OpenAI Operator（2026）：自主执行任务的AI代理 - Claude Computer Use（2024）：控制计算机完成任务 - 智谱AutoGLM（2025）：国产Agent产品 - 阿里AgentScope（2025）：多智能体框架

能力： - 规划复杂任务 - 调用外部工具 - 与环境交互 - 自主学习优化

效率优化¶

方向： - 模型压缩：量化、剪枝、蒸馏 - MoE架构：DeepSeek-V3，稀疏激活 - 投机采样：加速推理 - 长上下文优化：降低计算成本

成本下降： - 2024年：GPT-4 API价格下降90% - 2025年：国产模型价格持续下降 - 2026年：DeepSeek引发价格战，成本降低至1/10

2026年5月最新动态：

动态	说明
GPT-5发布	OpenAI下一代基础模型，推理能力大幅提升
Claude 4.5	Anthropic多模态增强版本
DeepSeek-R1/V4	开源推理模型，性能媲美o1，成本极低
国产模型爆发	通义千问3.5、文心一言5.5、豆包Ultra等
长上下文普及	百万级token成为标配
多模态成熟	文本、图像、语音、视频统一处理
Agent落地	AI Agent从概念走向实际应用
成本持续下降	API价格较2024年下降90%以上

专用模型¶

领域模型发展： - 法律：LawGPT、通义法睿 - 医疗：MedPaLM、百度灵医 - 金融：BloombergGPT、蚂蚁金融大模型 - 代码：CodeLlama、GitHub Copilot、通义灵码 - 教育：好未来MathGPT、猿辅导大模型

小结¶

大语言模型是AI领域的重大突破，正在深刻改变人机交互方式。

截至2026年5月的关键发展： 1. 规模持续扩大：万亿参数模型成为常态 2. 推理能力突破：o系列、DeepSeek-R1等推理模型成熟 3. 多模态普及：文本、图像、语音、视频统一处理 4. 国产大模型崛起：通义千问、文心一言、DeepSeek国际领先 5. Agent落地：AI Agent从概念走向实际应用 6. 成本大幅下降：API价格较2024年下降90%以上 7. 开源生态繁荣：Llama、DeepSeek等开源模型推动行业发展

使用建议： 1. 日常对话：GPT-4o、Claude 3.5、DeepSeek-V3 2. 复杂推理：o1/o3、DeepSeek-R1、Claude 4 3. 中文场景：通义千问3、文心一言5、豆包Ultra 4. 本地部署：Llama 4、DeepSeek-V4、Qwen3 5. 代码编程：Claude 4、GPT-5、Cursor

未来展望： - 向AGI迈进，推理能力持续提升 - 多模态深度融合，感知能力增强 - AI Agent普及，自动化程度提高 - 端侧AI成熟，本地大模型普及

延伸阅读：