跳转至

大语言模型专题

GPT、Claude、Llama、DeepSeek等大语言模型的原理与应用。

什么是大语言模型

**大语言模型(Large Language Model, LLM)**是指参数量巨大(通常数十亿到数千亿)、在大规模文本数据上训练的语言模型。

规模对比(截至2026年5月)

模型 参数量 训练数据 发布时间
BERT 3.4亿 维基百科+图书 2018
GPT-2 15亿 WebText 2019
GPT-3 1750亿 Common Crawl等 2020
PaLM 5400亿 多语种网页+图书 2022
GPT-4 未公开 未公开 2023
Llama 2 70亿-700亿 公开数据 2023
Claude 3 未公开 未公开 2024
GPT-4o 未公开 多模态数据 2024
Claude 3.5 未公开 未公开 2024
o1/o3 未公开 推理优化 2024-2025
Llama 3 80亿-700亿 公开数据 2024
通义千问2.5 千亿级 中文+多语言 2024
DeepSeek-V3 6710亿(MoE) 公开数据 2024
GPT-4.5 未公开 未公开 2025
Claude 4 未公开 未公开 2025
Gemini 2.5 Pro 未公开 多模态数据 2025
Llama 4 未公开 公开数据 2025
通义千问3 万亿级 中文+多语言 2025
文心一言5.0 未公开 中文数据 2025
豆包Pro 未公开 多模态数据 2025
DeepSeek-R1 6710亿(MoE) 公开数据 2026
DeepSeek-V4 万亿级(MoE) 公开数据 2026
GPT-5 未公开 未公开 2026
Claude 4.5 未公开 未公开 2026

为什么"大"很重要

涌现能力(Emergent Abilities):当模型规模达到一定程度,会突然出现小模型不具备的能力。

规模增加 → 量变 → 临界点 → 质变(涌现)

典型涌现能力: - 上下文学习(In-context Learning) - 思维链推理(Chain-of-Thought) - 指令遵循(Instruction Following) - 多步推理(Multi-step Reasoning)


核心技术原理

Transformer架构

大语言模型的基础架构,参见深度学习革命

关键组件: - 自注意力机制(Self-Attention) - 多头注意力(Multi-Head Attention) - 前馈网络(Feed-Forward Network) - 层归一化(Layer Normalization)

预训练任务

自回归语言建模(Autoregressive Modeling)

输入:"人工智能是"
目标:预测下一个词 "未来"
损失:预测词与实际词的交叉熵

数学表示

P(w₁, w₂, ..., wₙ) = P(w₁) × P(w₂|w₁) × ... × P(wₙ|w₁...wₙ₋₁)

Tokenization

将文本转换为模型可处理的数字序列。

BPE(Byte Pair Encoding)

"人工智能" → ["人", "工", "智能"] → [1024, 2056, 3891]

常见Tokenizer: - GPT系列:GPT-2 Tokenizer - Llama:SentencePiece - Claude:Claude Tokenizer

位置编码

绝对位置编码

# 正弦位置编码
PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

旋转位置编码(RoPE): - Llama、Claude使用 - 更好的长文本外推能力


训练过程

预训练(Pre-training)

目标:让模型学习语言知识和世界知识。

训练数据: - Common Crawl(网页数据) - Wikipedia(百科) - Books(图书) - Code(代码) - Scientific Papers(论文)

数据规模

GPT-3:约3000亿token
Llama 2:约2万亿token

计算资源: - GPU/TPU集群 - 数千到数万GPU - 训练时间:数周到数月 - 成本:数百万到数千万美元

有监督微调(SFT)

目标:让模型学会遵循指令。

数据格式

{
  "instruction": "解释什么是机器学习",
  "input": "",
  "output": "机器学习是..."
}

数据来源: - 人工标注 - 现有NLP数据集转换 - 从更大模型蒸馏

人类反馈强化学习(RLHF)

流程

1. 收集人类偏好数据
   ├── 生成多个回答
   ├── 人类排序哪个更好
   └── 构建偏好数据集

2. 训练奖励模型(Reward Model)
   ├── 输入:提示+回答
   └── 输出:奖励分数

3. 用PPO算法微调
   ├── 最大化奖励
   └── 同时保持与原始模型接近

效果: - 回答更符合人类偏好 - 减少有害内容 - 提高有用性和真实性

替代方案:DPO

直接偏好优化(Direct Preference Optimization): - 无需训练奖励模型 - 直接使用偏好数据进行优化 - 更简单高效


主流大语言模型

GPT系列(OpenAI)

模型 特点 访问方式 时间
GPT-3.5 快速,成本低 API 2022
GPT-4 推理能力强,多模态 API 2023
GPT-4o 原生多模态,速度快 API 2024
o1 推理优化,思维链 API 2024
o3 更强推理能力 API 2025
GPT-4.5 更大多模态能力 API 2025
GPT-5 下一代基础模型 API 2026

优势: - 综合能力最强 - 生态系统完善 - 多模态能力强 - 推理模型领先

Claude系列(Anthropic)

模型 特点 访问方式 时间
Claude 3 Haiku 快速,轻量 API 2024
Claude 3 Sonnet 平衡性能和成本 API 2024
Claude 3 Opus 最强推理能力 API 2024
Claude 3.5 Sonnet 性价比最优 API 2024
Claude 4 推理大幅提升 API 2025
Claude 4.5 多模态增强 API 2026

优势: - 上下文窗口大(200K-500K) - 遵循指令能力强 - 安全性高 - 代码能力优秀

Llama系列(Meta)

模型 参数量 特点 时间
Llama 2 7B-70B 开源可商用 2023
Llama 3 8B-70B 性能大幅提升 2024
Llama 3.1 8B-405B 最强开源模型 2024
Llama 4 未公开 多模态能力 2025

优势: - 完全开源 - 可本地部署 - 社区生态丰富 - 商业友好

Gemini系列(Google)

模型 特点 访问方式 时间
Gemini 1.0 Pro 多模态 API 2023
Gemini 1.5 Pro 100万上下文 API 2024
Gemini 2.0 原生多模态 API 2024
Gemini 2.5 Pro 推理能力大幅提升 API 2025
Gemini 2.5 Ultra 最强多模态 API 2026

优势: - 原生多模态 - 超长上下文 - 与Google生态整合

国产大模型(2026年5月更新)

模型 开发者 特点 时间
通义千问2.5 阿里 中文能力国际领先,开源 2024
通义千问3 阿里 万亿参数,多模态 2025
通义千问3.5 阿里 Agent能力增强 2026
文心一言4.0 百度 知识增强,日活高 2024
文心一言5.0 百度 多模态,推理强 2025
文心一言5.5 百度 企业级能力 2026
豆包 字节 抖音生态,年轻化 2024
豆包Pro 字节 多模态,长文本 2025
豆包Ultra 字节 企业级 2026
ChatGLM-4 智谱AI 中文开源领先 2024
ChatGLM-5 智谱AI 多模态Agent 2025
GLM-4.5 智谱AI 推理增强 2026
Kimi 月之暗面 200万上下文 2024
Kimi 2 月之暗面 超长文本,推理 2025
Kimi 3 月之暗面 多模态 2026
DeepSeek-V3 DeepSeek 6710亿MoE,开源 2024
DeepSeek-R1 DeepSeek 推理模型,开源 2026
DeepSeek-V4 DeepSeek 万亿MoE,开源 2026
DeepSeek-Flash DeepSeek 极速版 2026
DeepSeek-Pro DeepSeek 企业版 2026
混元 腾讯 腾讯生态 2024
混元Pro 腾讯 多模态 2025
盘古 华为 企业级 2024
盘古2.0 华为 行业大模型 2025

模型能力评估

评估维度

维度 说明 典型任务
知识 事实性知识 MMLU、TriviaQA
推理 逻辑推理能力 GSM8K(数学)、HumanEval(代码)
理解 文本理解 RACE、LAMBADA
生成 文本生成质量 人工评估
对齐 符合人类偏好 人工评估

常用基准测试

MMLU(大规模多任务语言理解): - 涵盖57个学科 - 测试知识广度

GSM8K: - 小学数学问题 - 测试数学推理

HumanEval: - 编程问题 - 测试代码能力

HellaSwag: - 常识推理 - 测试常识理解


提示工程(Prompt Engineering)

什么是提示工程

设计有效的输入(提示),引导模型产生期望的输出。

基础技巧

1. 明确指令

❌ "写一篇关于AI的文章"
✅ "写一篇800字的技术博客,介绍大语言模型的工作原理,面向有一定编程基础的读者"

2. 提供上下文

"背景:我们公司是做电商的,主要卖服装。
任务:写一封促销邮件,推广夏季新品。"

3. 指定格式

"请用以下格式回答:
1. 主要观点
2. 支持论据
3. 结论"

4. 少样本示例(Few-shot)

示例1:
输入:"今天天气很好"
情感:正面

示例2:
输入:"这部电影太无聊了"
情感:负面

任务:
输入:"服务员态度很好"
情感:"

高级技巧

思维链(Chain-of-Thought)

"请一步一步思考,然后给出答案。
问题:一个农场有鸡和兔,共有35个头,94只脚,问鸡兔各多少?"

自我一致性(Self-Consistency): - 多次采样 - 选择最常见的答案

反思与修正(Reflection)

"解答这个问题,然后检查你的答案是否正确。如果有错误,请修正。"


应用场景

内容创作

写作辅助: - 文章大纲生成 - 段落扩写 - 润色改写 - 标题生成

代码辅助: - 代码生成 - Bug修复 - 代码解释 - 文档生成

知识问答

企业知识库: - 基于内部文档问答 - 产品咨询 - 技术支持

教育辅导: - 概念解释 - 习题解答 - 学习规划

对话系统

智能客服: - 7×24小时服务 - 多轮对话 - 情绪识别

个人助手: - 日程管理 - 信息查询 - 任务提醒

数据分析

文本分析: - 情感分析 - 主题提取 - 摘要生成

结构化数据: - 从文本提取信息 - 生成SQL查询 - 数据清洗


本地部署

硬件要求

模型规模 显存需求 推荐GPU
7B 8-12GB RTX 3090/4090
13B 16-24GB RTX 4090/A5000
70B 80-140GB A100/H100
405B 800GB+ 多卡集群

推理框架

框架 特点 适用场景
llama.cpp C++实现,量化支持好 CPU推理,边缘设备
vLLM 高吞吐,PagedAttention 服务部署
TensorRT-LLM NVIDIA优化 生产环境
Hugging Face TGI 易用,生态好 快速部署
Ollama 一键安装,用户友好 本地体验

量化技术

目的:减少显存占用,加速推理。

量化方式 精度 显存节省
FP16 16位浮点 50%
INT8 8位整数 75%
INT4 4位整数 87.5%

推荐: - 7B模型:INT4量化,消费级GPU可跑 - 13B模型:INT4量化,高端消费级GPU - 70B模型:INT4量化,专业级GPU


微调与定制

为什么微调

预训练模型的局限: - 通用性强,专业领域弱 - 知识截止日期 - 特定风格需求

微调方法

全量微调(Full Fine-tuning): - 更新所有参数 - 效果通常最好 - 需要大量显存

参数高效微调(PEFT)

方法 原理 显存节省
LoRA 低秩适配 70%+
QLoRA 量化+LoRA 90%+
Prompt Tuning 训练软提示 95%+
Prefix Tuning 训练前缀嵌入 90%+

LoRA详解

原始权重:W
微调更新:ΔW = A × B(低秩分解)
新权重:W' = W + ΔW

只训练A和B,参数量大幅减少

微调流程

  1. 准备数据
  2. 收集领域数据
  3. 转换为指令格式
  4. 划分训练/验证集

  5. 选择基础模型

  6. 通用模型(Llama、Qwen)
  7. 领域模型(CodeLlama、MedPaLM)

  8. 设置训练参数

  9. 学习率:1e-4到1e-5
  10. Batch size
  11. 训练轮数

  12. 训练与评估

  13. 监控损失
  14. 验证集评估
  15. 人工检查

  16. 部署与迭代

  17. 模型导出
  18. 服务部署
  19. 持续优化

RAG:检索增强生成

为什么需要RAG

纯LLM的局限: - 知识有截止日期 - 容易产生幻觉 - 无法访问私有数据

RAG解决方案

用户问题 → 检索相关文档 → 结合上下文 → LLM生成答案

RAG架构

组件: 1. 文档处理:切分、向量化 2. 向量数据库:存储文档向量 3. 检索器:语义检索 4. 生成器:LLM生成答案

流程

用户Query → 向量化 → 检索Top-K文档 → 拼接Prompt → LLM生成

关键技术

文本切分(Chunking): - 固定长度切分 - 按段落/句子切分 - 重叠切分

向量化(Embedding): - BGE(BAAI) - M3E(中文) - OpenAI Embedding

向量数据库: - Milvus - Pinecone - Chroma - FAISS

检索优化: - 混合检索(关键词+语义) - 重排序(Rerank) - 查询改写


挑战与限制

幻觉问题

定义:模型生成看似合理但实际错误的内容。

类型: - 事实性幻觉:编造不存在的事实 - 忠实性幻觉:与输入不一致

缓解方法: - RAG(检索增强) - 事实核查 - 不确定性估计 - 多模型验证

上下文限制

问题:模型能处理的文本长度有限。

当前主流: - GPT-4o:128K token - Claude 3.5:200K token - Gemini 1.5 Pro:100万 token(2024) - Kimi:200万 token(2024) - Llama 3:128K token

解决方案: - 长文本压缩 - 检索增强 - 分段处理

推理能力

局限: - 复杂数学推理 - 多步逻辑推理 - 常识推理

改进方向: - 思维链提示 - 专项训练 - 工具使用

安全与对齐

风险: - 生成有害内容 - 偏见和歧视 - 隐私泄露 - 滥用风险

对策: - 安全训练 - 内容过滤 - 人类监督 - 红队测试


发展趋势

多模态融合

2024-2026年热点: - GPT-4o(2024):原生多模态,实时语音对话 - Gemini 2.5(2025):原生多模态,超长上下文 - Sora(2024):视频生成模型 - 通义千问VL(2024):中文多模态理解 - 可灵(Kling)(2024):国产视频生成 - Runway Gen-3(2024):高质量视频生成

推理能力突破

OpenAI o系列(2024-2025): - o1(2024年9月):推理能力大幅提升,思维链强化 - o3(2025年):更强数学和编程能力 - 核心技术:强化学习+思维链

DeepSeek-R1(2026年1月): - 开源推理模型 - 性能媲美o1 - 成本大幅降低(1/30) - 引发全球关注

国产大模型崛起

2024-2026年快速发展

模型 公司 特点 2026年地位
通义千问3 阿里 开源,中文能力强 国际领先
文心一言4.0 百度 知识增强,日活高 国内头部
豆包 字节 多模态,生态整合 快速增长
Kimi 月之暗面 超长上下文 长文本领先
DeepSeek-V3/R1 DeepSeek 开源MoE,低成本 国际知名
智谱GLM-4 智谱AI 开源可商用 技术领先

特点: - 中文能力国际领先 - 开源生态丰富 - 成本持续下降 - 应用场景广泛

智能体(AI Agent)

2025-2026年爆发: - OpenAI Operator(2026):自主执行任务的AI代理 - Claude Computer Use(2024):控制计算机完成任务 - 智谱AutoGLM(2025):国产Agent产品 - 阿里AgentScope(2025):多智能体框架

能力: - 规划复杂任务 - 调用外部工具 - 与环境交互 - 自主学习优化

效率优化

方向: - 模型压缩:量化、剪枝、蒸馏 - MoE架构:DeepSeek-V3,稀疏激活 - 投机采样:加速推理 - 长上下文优化:降低计算成本

成本下降: - 2024年:GPT-4 API价格下降90% - 2025年:国产模型价格持续下降 - 2026年:DeepSeek引发价格战,成本降低至1/10

2026年5月最新动态

动态 说明
GPT-5发布 OpenAI下一代基础模型,推理能力大幅提升
Claude 4.5 Anthropic多模态增强版本
DeepSeek-R1/V4 开源推理模型,性能媲美o1,成本极低
国产模型爆发 通义千问3.5、文心一言5.5、豆包Ultra等
长上下文普及 百万级token成为标配
多模态成熟 文本、图像、语音、视频统一处理
Agent落地 AI Agent从概念走向实际应用
成本持续下降 API价格较2024年下降90%以上

专用模型

领域模型发展: - 法律:LawGPT、通义法睿 - 医疗:MedPaLM、百度灵医 - 金融:BloombergGPT、蚂蚁金融大模型 - 代码:CodeLlama、GitHub Copilot、通义灵码 - 教育:好未来MathGPT、猿辅导大模型


小结

大语言模型是AI领域的重大突破,正在深刻改变人机交互方式。

截至2026年5月的关键发展: 1. 规模持续扩大:万亿参数模型成为常态 2. 推理能力突破:o系列、DeepSeek-R1等推理模型成熟 3. 多模态普及:文本、图像、语音、视频统一处理 4. 国产大模型崛起:通义千问、文心一言、DeepSeek国际领先 5. Agent落地:AI Agent从概念走向实际应用 6. 成本大幅下降:API价格较2024年下降90%以上 7. 开源生态繁荣:Llama、DeepSeek等开源模型推动行业发展

使用建议: 1. 日常对话:GPT-4o、Claude 3.5、DeepSeek-V3 2. 复杂推理:o1/o3、DeepSeek-R1、Claude 4 3. 中文场景:通义千问3、文心一言5、豆包Ultra 4. 本地部署:Llama 4、DeepSeek-V4、Qwen3 5. 代码编程:Claude 4、GPT-5、Cursor

未来展望: - 向AGI迈进,推理能力持续提升 - 多模态深度融合,感知能力增强 - AI Agent普及,自动化程度提高 - 端侧AI成熟,本地大模型普及


延伸阅读