大语言模型专题¶
GPT、Claude、Llama、DeepSeek等大语言模型的原理与应用。
什么是大语言模型¶
**大语言模型(Large Language Model, LLM)**是指参数量巨大(通常数十亿到数千亿)、在大规模文本数据上训练的语言模型。
规模对比(截至2026年5月)¶
| 模型 | 参数量 | 训练数据 | 发布时间 |
|---|---|---|---|
| BERT | 3.4亿 | 维基百科+图书 | 2018 |
| GPT-2 | 15亿 | WebText | 2019 |
| GPT-3 | 1750亿 | Common Crawl等 | 2020 |
| PaLM | 5400亿 | 多语种网页+图书 | 2022 |
| GPT-4 | 未公开 | 未公开 | 2023 |
| Llama 2 | 70亿-700亿 | 公开数据 | 2023 |
| Claude 3 | 未公开 | 未公开 | 2024 |
| GPT-4o | 未公开 | 多模态数据 | 2024 |
| Claude 3.5 | 未公开 | 未公开 | 2024 |
| o1/o3 | 未公开 | 推理优化 | 2024-2025 |
| Llama 3 | 80亿-700亿 | 公开数据 | 2024 |
| 通义千问2.5 | 千亿级 | 中文+多语言 | 2024 |
| DeepSeek-V3 | 6710亿(MoE) | 公开数据 | 2024 |
| GPT-4.5 | 未公开 | 未公开 | 2025 |
| Claude 4 | 未公开 | 未公开 | 2025 |
| Gemini 2.5 Pro | 未公开 | 多模态数据 | 2025 |
| Llama 4 | 未公开 | 公开数据 | 2025 |
| 通义千问3 | 万亿级 | 中文+多语言 | 2025 |
| 文心一言5.0 | 未公开 | 中文数据 | 2025 |
| 豆包Pro | 未公开 | 多模态数据 | 2025 |
| DeepSeek-R1 | 6710亿(MoE) | 公开数据 | 2026 |
| DeepSeek-V4 | 万亿级(MoE) | 公开数据 | 2026 |
| GPT-5 | 未公开 | 未公开 | 2026 |
| Claude 4.5 | 未公开 | 未公开 | 2026 |
为什么"大"很重要¶
涌现能力(Emergent Abilities):当模型规模达到一定程度,会突然出现小模型不具备的能力。
典型涌现能力: - 上下文学习(In-context Learning) - 思维链推理(Chain-of-Thought) - 指令遵循(Instruction Following) - 多步推理(Multi-step Reasoning)
核心技术原理¶
Transformer架构¶
大语言模型的基础架构,参见深度学习革命。
关键组件: - 自注意力机制(Self-Attention) - 多头注意力(Multi-Head Attention) - 前馈网络(Feed-Forward Network) - 层归一化(Layer Normalization)
预训练任务¶
自回归语言建模(Autoregressive Modeling):
数学表示:
Tokenization¶
将文本转换为模型可处理的数字序列。
BPE(Byte Pair Encoding):
常见Tokenizer: - GPT系列:GPT-2 Tokenizer - Llama:SentencePiece - Claude:Claude Tokenizer
位置编码¶
绝对位置编码:
旋转位置编码(RoPE): - Llama、Claude使用 - 更好的长文本外推能力
训练过程¶
预训练(Pre-training)¶
目标:让模型学习语言知识和世界知识。
训练数据: - Common Crawl(网页数据) - Wikipedia(百科) - Books(图书) - Code(代码) - Scientific Papers(论文)
数据规模:
计算资源: - GPU/TPU集群 - 数千到数万GPU - 训练时间:数周到数月 - 成本:数百万到数千万美元
有监督微调(SFT)¶
目标:让模型学会遵循指令。
数据格式:
数据来源: - 人工标注 - 现有NLP数据集转换 - 从更大模型蒸馏
人类反馈强化学习(RLHF)¶
流程:
1. 收集人类偏好数据
├── 生成多个回答
├── 人类排序哪个更好
└── 构建偏好数据集
2. 训练奖励模型(Reward Model)
├── 输入:提示+回答
└── 输出:奖励分数
3. 用PPO算法微调
├── 最大化奖励
└── 同时保持与原始模型接近
效果: - 回答更符合人类偏好 - 减少有害内容 - 提高有用性和真实性
替代方案:DPO¶
直接偏好优化(Direct Preference Optimization): - 无需训练奖励模型 - 直接使用偏好数据进行优化 - 更简单高效
主流大语言模型¶
GPT系列(OpenAI)¶
| 模型 | 特点 | 访问方式 | 时间 |
|---|---|---|---|
| GPT-3.5 | 快速,成本低 | API | 2022 |
| GPT-4 | 推理能力强,多模态 | API | 2023 |
| GPT-4o | 原生多模态,速度快 | API | 2024 |
| o1 | 推理优化,思维链 | API | 2024 |
| o3 | 更强推理能力 | API | 2025 |
| GPT-4.5 | 更大多模态能力 | API | 2025 |
| GPT-5 | 下一代基础模型 | API | 2026 |
优势: - 综合能力最强 - 生态系统完善 - 多模态能力强 - 推理模型领先
Claude系列(Anthropic)¶
| 模型 | 特点 | 访问方式 | 时间 |
|---|---|---|---|
| Claude 3 Haiku | 快速,轻量 | API | 2024 |
| Claude 3 Sonnet | 平衡性能和成本 | API | 2024 |
| Claude 3 Opus | 最强推理能力 | API | 2024 |
| Claude 3.5 Sonnet | 性价比最优 | API | 2024 |
| Claude 4 | 推理大幅提升 | API | 2025 |
| Claude 4.5 | 多模态增强 | API | 2026 |
优势: - 上下文窗口大(200K-500K) - 遵循指令能力强 - 安全性高 - 代码能力优秀
Llama系列(Meta)¶
| 模型 | 参数量 | 特点 | 时间 |
|---|---|---|---|
| Llama 2 | 7B-70B | 开源可商用 | 2023 |
| Llama 3 | 8B-70B | 性能大幅提升 | 2024 |
| Llama 3.1 | 8B-405B | 最强开源模型 | 2024 |
| Llama 4 | 未公开 | 多模态能力 | 2025 |
优势: - 完全开源 - 可本地部署 - 社区生态丰富 - 商业友好
Gemini系列(Google)¶
| 模型 | 特点 | 访问方式 | 时间 |
|---|---|---|---|
| Gemini 1.0 Pro | 多模态 | API | 2023 |
| Gemini 1.5 Pro | 100万上下文 | API | 2024 |
| Gemini 2.0 | 原生多模态 | API | 2024 |
| Gemini 2.5 Pro | 推理能力大幅提升 | API | 2025 |
| Gemini 2.5 Ultra | 最强多模态 | API | 2026 |
优势: - 原生多模态 - 超长上下文 - 与Google生态整合
国产大模型(2026年5月更新)¶
| 模型 | 开发者 | 特点 | 时间 |
|---|---|---|---|
| 通义千问2.5 | 阿里 | 中文能力国际领先,开源 | 2024 |
| 通义千问3 | 阿里 | 万亿参数,多模态 | 2025 |
| 通义千问3.5 | 阿里 | Agent能力增强 | 2026 |
| 文心一言4.0 | 百度 | 知识增强,日活高 | 2024 |
| 文心一言5.0 | 百度 | 多模态,推理强 | 2025 |
| 文心一言5.5 | 百度 | 企业级能力 | 2026 |
| 豆包 | 字节 | 抖音生态,年轻化 | 2024 |
| 豆包Pro | 字节 | 多模态,长文本 | 2025 |
| 豆包Ultra | 字节 | 企业级 | 2026 |
| ChatGLM-4 | 智谱AI | 中文开源领先 | 2024 |
| ChatGLM-5 | 智谱AI | 多模态Agent | 2025 |
| GLM-4.5 | 智谱AI | 推理增强 | 2026 |
| Kimi | 月之暗面 | 200万上下文 | 2024 |
| Kimi 2 | 月之暗面 | 超长文本,推理 | 2025 |
| Kimi 3 | 月之暗面 | 多模态 | 2026 |
| DeepSeek-V3 | DeepSeek | 6710亿MoE,开源 | 2024 |
| DeepSeek-R1 | DeepSeek | 推理模型,开源 | 2026 |
| DeepSeek-V4 | DeepSeek | 万亿MoE,开源 | 2026 |
| DeepSeek-Flash | DeepSeek | 极速版 | 2026 |
| DeepSeek-Pro | DeepSeek | 企业版 | 2026 |
| 混元 | 腾讯 | 腾讯生态 | 2024 |
| 混元Pro | 腾讯 | 多模态 | 2025 |
| 盘古 | 华为 | 企业级 | 2024 |
| 盘古2.0 | 华为 | 行业大模型 | 2025 |
模型能力评估¶
评估维度¶
| 维度 | 说明 | 典型任务 |
|---|---|---|
| 知识 | 事实性知识 | MMLU、TriviaQA |
| 推理 | 逻辑推理能力 | GSM8K(数学)、HumanEval(代码) |
| 理解 | 文本理解 | RACE、LAMBADA |
| 生成 | 文本生成质量 | 人工评估 |
| 对齐 | 符合人类偏好 | 人工评估 |
常用基准测试¶
MMLU(大规模多任务语言理解): - 涵盖57个学科 - 测试知识广度
GSM8K: - 小学数学问题 - 测试数学推理
HumanEval: - 编程问题 - 测试代码能力
HellaSwag: - 常识推理 - 测试常识理解
提示工程(Prompt Engineering)¶
什么是提示工程¶
设计有效的输入(提示),引导模型产生期望的输出。
基础技巧¶
1. 明确指令
2. 提供上下文
3. 指定格式
4. 少样本示例(Few-shot)
高级技巧¶
思维链(Chain-of-Thought):
自我一致性(Self-Consistency): - 多次采样 - 选择最常见的答案
反思与修正(Reflection):
应用场景¶
内容创作¶
写作辅助: - 文章大纲生成 - 段落扩写 - 润色改写 - 标题生成
代码辅助: - 代码生成 - Bug修复 - 代码解释 - 文档生成
知识问答¶
企业知识库: - 基于内部文档问答 - 产品咨询 - 技术支持
教育辅导: - 概念解释 - 习题解答 - 学习规划
对话系统¶
智能客服: - 7×24小时服务 - 多轮对话 - 情绪识别
个人助手: - 日程管理 - 信息查询 - 任务提醒
数据分析¶
文本分析: - 情感分析 - 主题提取 - 摘要生成
结构化数据: - 从文本提取信息 - 生成SQL查询 - 数据清洗
本地部署¶
硬件要求¶
| 模型规模 | 显存需求 | 推荐GPU |
|---|---|---|
| 7B | 8-12GB | RTX 3090/4090 |
| 13B | 16-24GB | RTX 4090/A5000 |
| 70B | 80-140GB | A100/H100 |
| 405B | 800GB+ | 多卡集群 |
推理框架¶
| 框架 | 特点 | 适用场景 |
|---|---|---|
| llama.cpp | C++实现,量化支持好 | CPU推理,边缘设备 |
| vLLM | 高吞吐,PagedAttention | 服务部署 |
| TensorRT-LLM | NVIDIA优化 | 生产环境 |
| Hugging Face TGI | 易用,生态好 | 快速部署 |
| Ollama | 一键安装,用户友好 | 本地体验 |
量化技术¶
目的:减少显存占用,加速推理。
| 量化方式 | 精度 | 显存节省 |
|---|---|---|
| FP16 | 16位浮点 | 50% |
| INT8 | 8位整数 | 75% |
| INT4 | 4位整数 | 87.5% |
推荐: - 7B模型:INT4量化,消费级GPU可跑 - 13B模型:INT4量化,高端消费级GPU - 70B模型:INT4量化,专业级GPU
微调与定制¶
为什么微调¶
预训练模型的局限: - 通用性强,专业领域弱 - 知识截止日期 - 特定风格需求
微调方法¶
全量微调(Full Fine-tuning): - 更新所有参数 - 效果通常最好 - 需要大量显存
参数高效微调(PEFT):
| 方法 | 原理 | 显存节省 |
|---|---|---|
| LoRA | 低秩适配 | 70%+ |
| QLoRA | 量化+LoRA | 90%+ |
| Prompt Tuning | 训练软提示 | 95%+ |
| Prefix Tuning | 训练前缀嵌入 | 90%+ |
LoRA详解:
微调流程¶
- 准备数据:
- 收集领域数据
- 转换为指令格式
-
划分训练/验证集
-
选择基础模型:
- 通用模型(Llama、Qwen)
-
领域模型(CodeLlama、MedPaLM)
-
设置训练参数:
- 学习率:1e-4到1e-5
- Batch size
-
训练轮数
-
训练与评估:
- 监控损失
- 验证集评估
-
人工检查
-
部署与迭代:
- 模型导出
- 服务部署
- 持续优化
RAG:检索增强生成¶
为什么需要RAG¶
纯LLM的局限: - 知识有截止日期 - 容易产生幻觉 - 无法访问私有数据
RAG解决方案:
RAG架构¶
组件: 1. 文档处理:切分、向量化 2. 向量数据库:存储文档向量 3. 检索器:语义检索 4. 生成器:LLM生成答案
流程:
关键技术¶
文本切分(Chunking): - 固定长度切分 - 按段落/句子切分 - 重叠切分
向量化(Embedding): - BGE(BAAI) - M3E(中文) - OpenAI Embedding
向量数据库: - Milvus - Pinecone - Chroma - FAISS
检索优化: - 混合检索(关键词+语义) - 重排序(Rerank) - 查询改写
挑战与限制¶
幻觉问题¶
定义:模型生成看似合理但实际错误的内容。
类型: - 事实性幻觉:编造不存在的事实 - 忠实性幻觉:与输入不一致
缓解方法: - RAG(检索增强) - 事实核查 - 不确定性估计 - 多模型验证
上下文限制¶
问题:模型能处理的文本长度有限。
当前主流: - GPT-4o:128K token - Claude 3.5:200K token - Gemini 1.5 Pro:100万 token(2024) - Kimi:200万 token(2024) - Llama 3:128K token
解决方案: - 长文本压缩 - 检索增强 - 分段处理
推理能力¶
局限: - 复杂数学推理 - 多步逻辑推理 - 常识推理
改进方向: - 思维链提示 - 专项训练 - 工具使用
安全与对齐¶
风险: - 生成有害内容 - 偏见和歧视 - 隐私泄露 - 滥用风险
对策: - 安全训练 - 内容过滤 - 人类监督 - 红队测试
发展趋势¶
多模态融合¶
2024-2026年热点: - GPT-4o(2024):原生多模态,实时语音对话 - Gemini 2.5(2025):原生多模态,超长上下文 - Sora(2024):视频生成模型 - 通义千问VL(2024):中文多模态理解 - 可灵(Kling)(2024):国产视频生成 - Runway Gen-3(2024):高质量视频生成
推理能力突破¶
OpenAI o系列(2024-2025): - o1(2024年9月):推理能力大幅提升,思维链强化 - o3(2025年):更强数学和编程能力 - 核心技术:强化学习+思维链
DeepSeek-R1(2026年1月): - 开源推理模型 - 性能媲美o1 - 成本大幅降低(1/30) - 引发全球关注
国产大模型崛起¶
2024-2026年快速发展:
| 模型 | 公司 | 特点 | 2026年地位 |
|---|---|---|---|
| 通义千问3 | 阿里 | 开源,中文能力强 | 国际领先 |
| 文心一言4.0 | 百度 | 知识增强,日活高 | 国内头部 |
| 豆包 | 字节 | 多模态,生态整合 | 快速增长 |
| Kimi | 月之暗面 | 超长上下文 | 长文本领先 |
| DeepSeek-V3/R1 | DeepSeek | 开源MoE,低成本 | 国际知名 |
| 智谱GLM-4 | 智谱AI | 开源可商用 | 技术领先 |
特点: - 中文能力国际领先 - 开源生态丰富 - 成本持续下降 - 应用场景广泛
智能体(AI Agent)¶
2025-2026年爆发: - OpenAI Operator(2026):自主执行任务的AI代理 - Claude Computer Use(2024):控制计算机完成任务 - 智谱AutoGLM(2025):国产Agent产品 - 阿里AgentScope(2025):多智能体框架
能力: - 规划复杂任务 - 调用外部工具 - 与环境交互 - 自主学习优化
效率优化¶
方向: - 模型压缩:量化、剪枝、蒸馏 - MoE架构:DeepSeek-V3,稀疏激活 - 投机采样:加速推理 - 长上下文优化:降低计算成本
成本下降: - 2024年:GPT-4 API价格下降90% - 2025年:国产模型价格持续下降 - 2026年:DeepSeek引发价格战,成本降低至1/10
2026年5月最新动态:
| 动态 | 说明 |
|---|---|
| GPT-5发布 | OpenAI下一代基础模型,推理能力大幅提升 |
| Claude 4.5 | Anthropic多模态增强版本 |
| DeepSeek-R1/V4 | 开源推理模型,性能媲美o1,成本极低 |
| 国产模型爆发 | 通义千问3.5、文心一言5.5、豆包Ultra等 |
| 长上下文普及 | 百万级token成为标配 |
| 多模态成熟 | 文本、图像、语音、视频统一处理 |
| Agent落地 | AI Agent从概念走向实际应用 |
| 成本持续下降 | API价格较2024年下降90%以上 |
专用模型¶
领域模型发展: - 法律:LawGPT、通义法睿 - 医疗:MedPaLM、百度灵医 - 金融:BloombergGPT、蚂蚁金融大模型 - 代码:CodeLlama、GitHub Copilot、通义灵码 - 教育:好未来MathGPT、猿辅导大模型
小结¶
大语言模型是AI领域的重大突破,正在深刻改变人机交互方式。
截至2026年5月的关键发展: 1. 规模持续扩大:万亿参数模型成为常态 2. 推理能力突破:o系列、DeepSeek-R1等推理模型成熟 3. 多模态普及:文本、图像、语音、视频统一处理 4. 国产大模型崛起:通义千问、文心一言、DeepSeek国际领先 5. Agent落地:AI Agent从概念走向实际应用 6. 成本大幅下降:API价格较2024年下降90%以上 7. 开源生态繁荣:Llama、DeepSeek等开源模型推动行业发展
使用建议: 1. 日常对话:GPT-4o、Claude 3.5、DeepSeek-V3 2. 复杂推理:o1/o3、DeepSeek-R1、Claude 4 3. 中文场景:通义千问3、文心一言5、豆包Ultra 4. 本地部署:Llama 4、DeepSeek-V4、Qwen3 5. 代码编程:Claude 4、GPT-5、Cursor
未来展望: - 向AGI迈进,推理能力持续提升 - 多模态深度融合,感知能力增强 - AI Agent普及,自动化程度提高 - 端侧AI成熟,本地大模型普及
延伸阅读: