AI发展简史¶

从图灵测试到ChatGPT，回顾人工智能发展的关键里程碑。

起源：1950年代¶

图灵测试（1950）¶

艾伦·图灵在论文《计算机器与智能》中提出著名的"图灵测试"，探讨机器是否能思考。

"如果一台机器能够与人类展开对话而不能被辨别出其机器身份，那么这台机器就具有智能。"

意义：为AI研究奠定了哲学基础。

达特茅斯会议（1956）¶

约翰·麦卡锡、马文·明斯基等科学家在达特茅斯学院召开研讨会，首次提出"人工智能"（Artificial Intelligence）这一术语。

意义：AI作为独立学科正式诞生。

第一次浪潮：1956-1974¶

符号主义AI¶

早期AI研究主要基于**符号主义**（Symbolism），认为智能可以通过符号操作实现。

代表成果： - 通用问题求解器（GPS）：模拟人类解决问题的思维过程 - ELIZA：第一个聊天机器人（1966） - 专家系统：将专家知识编码为规则

第一次寒冬（1974-1980）¶

AI发展遭遇瓶颈： - 计算能力有限 - 知识获取困难 - 实际应用效果不佳 - 政府和企业大幅削减 funding

第二次浪潮：1980-1987¶

专家系统的黄金时代¶

MYCIN：医疗诊断专家系统，能诊断血液感染疾病。

特点： - 基于规则推理 - 在特定领域表现良好 - 知识需要人工编码

第二次寒冬（1987-1993）¶

专家系统维护成本高
难以扩展到新领域
个人计算机兴起，专用LISP机器市场萎缩

第三次浪潮：1993-2012¶

机器学习兴起¶

AI研究从"硬编码规则"转向"从数据中学习"。

关键进展：

年份	事件	意义
1997	IBM深蓝击败国际象棋冠军卡斯帕罗夫	暴力搜索+评估函数的成功
1998	LeNet-5卷积神经网络	深度学习在图像识别的早期应用
2006	Geoffrey Hinton提出深度信念网络	"深度学习"概念正式提出
2011	IBM Watson赢得智力问答节目	自然语言理解的突破

统计机器学习¶

支持向量机（SVM）、**随机森林**等方法成为主流。

特点： - 需要特征工程 - 数据驱动 - 在结构化数据上表现优异

深度学习革命：2012-2017¶

ImageNet时刻（2012）¶

Alex Krizhevsky等人设计的**AlexNet**在ImageNet图像识别竞赛中以巨大优势获胜。

关键创新： - 深层卷积神经网络 - ReLU激活函数 - GPU加速训练 - Dropout正则化

意义：深度学习时代正式开启。

深度学习爆发¶

2012  AlexNet        图像识别突破
2014  VGGNet         网络深度增加
2014  GAN            生成对抗网络
2015  ResNet         残差网络，突破深度限制
2016  AlphaGo        击败围棋世界冠军
2017  Transformer    注意力机制革命

AlphaGo（2016）¶

DeepMind的AlphaGo击败围棋世界冠军李世石。

技术组合： - 深度神经网络 - 蒙特卡洛树搜索 - 强化学习 - 自我对弈

意义：AI在复杂策略游戏中超越人类。

大模型时代：2017-至今¶

Transformer架构（2017）¶

Google发表论文《Attention Is All You Need》，提出**Transformer**架构。

核心创新： - 自注意力机制（Self-Attention） - 并行计算效率 - 长距离依赖建模

影响：成为现代NLP和CV的基础架构。

预训练+微调范式¶

BERT（2018）：Google发布双向编码器，开启预训练大模型时代。

GPT系列：

模型	年份	参数量	特点
GPT-1	2018	1.17亿	生成式预训练
GPT-2	2019	15亿	多任务学习
GPT-3	2020	1750亿	涌现能力
GPT-4	2023	未公开	多模态
GPT-4o	2024	未公开	原生多模态，实时对话
o1/o3	2024-2025	未公开	推理优化模型
GPT-5	2025	未公开	下一代基础模型

ChatGPT时刻（2022）¶

OpenAI发布**ChatGPT**，基于GPT-3.5进行对话优化。

现象级影响： - 2个月用户破亿 - 引发全球AI应用热潮 - 改变人们对AI的认知

关键技术： - RLHF（人类反馈强化学习） - 指令微调 - 对话能力优化

2024-2026：多模态与推理时代¶

2024：多模态AI爆发¶

GPT-4o（2024年5月）： - 原生多模态架构 - 实时语音对话能力 - 图像理解与生成功能 - 响应速度大幅提升

国内大模型快速发展：

模型	公司	时间	特点
通义千问2.5	阿里	2024	中文能力突出，代码能力强
文心一言4.0	百度	2024	知识增强，多模态能力
豆包	字节跳动	2024	抖音生态整合，年轻化
智谱GLM-4	智谱AI	2024	开源可商用，技术领先
Kimi	月之暗面	2024	200万上下文，长文档处理
深度求索V3	DeepSeek	2024	开源，推理能力强，成本低

Sora视频生成（2024年2月）： - OpenAI发布文本生成视频模型 - 可生成长达60秒的高质量视频 - 引发视频生成热潮

2025：推理能力突破¶

OpenAI o系列模型： - o1（2024年9月）：推理能力大幅提升 - o3（2025年）：更强的数学和编程能力 - 核心技术：思维链（Chain of Thought）强化

Claude 3.5/4（2024-2025）： - Claude 3.5 Sonnet：2024年最强性价比模型 - Claude 4：2025年发布，推理和安全性大幅提升 - Artifacts功能：实时预览代码生成结果

国内追赶加速： - 百度文心一言日活突破5000万 - 阿里通义千问开源家族壮大 - 字节豆包用户快速增长 - 月之暗面Kimi长文本能力领先 - DeepSeek以低成本高性能引发关注

2026：Agent与具身智能元年¶

AI Agent爆发： - OpenAI Operator（2026年）：能自主执行任务的AI代理 - Claude Computer Use：控制计算机完成复杂任务 - 国内Agent产品：智谱AutoGLM、阿里AgentScope等

具身智能进展： - 人形机器人与大模型结合 - 特斯拉Optimus迭代加速 - 国内企业（优必选、宇树）快速发展 - Figure 01：OpenAI投资的机器人公司发布产品

国产大模型突破： - DeepSeek-R1（2026年）：开源推理模型，性能媲美o1 - DeepSeek-V4（2026年）：下一代MoE架构，性能大幅提升 - DeepSeek-Flash/Pro（2026年）：极速版和专业版，满足不同场景 - 通义千问3：中文理解能力国际领先 - 华为盘古：企业级AI落地加速

关键发展节点时间线¶

1950  图灵测试
1956  AI学科诞生
1966  ELIZA聊天机器人
1980  专家系统兴起
1997  深蓝击败国际象棋冠军
2006  深度学习概念提出
2012  AlexNet图像识别突破
2014  GAN生成对抗网络
2016  AlphaGo击败围棋冠军
2017  Transformer架构
2018  BERT预训练模型
2020  GPT-3发布
2022  ChatGPT现象级爆发
2023  GPT-4、Claude、Llama等百花齐放
2024  GPT-4o、Sora、国产大模型爆发
2025  推理模型o系列、Claude 4、DeepSeek崛起
2026  AI Agent、具身智能元年，国产模型国际领先

发展规律总结¶

技术演进趋势¶

从规则到数据：从人工编码规则到从数据自动学习
从浅层到深层：网络深度不断增加，表达能力增强
从单任务到多任务：一个模型处理多种任务
从专用到通用：向通用人工智能（AGI）迈进

三次AI寒冬的启示¶

寒冬	原因	教训
第一次	过度承诺，技术不成熟	技术需要积累
第二次	专家系统局限性	需要可扩展的方案
第三次？	待观察	需要实际应用价值

当前阶段特点¶

当前判断（2026年5月）

2024-2026年AI进入快速发展期： - 多模态成为标配：文本、图像、语音、视频统一处理 - 推理能力突破：o系列、DeepSeek-R1实现复杂推理 - 国产大模型崛起：通义千问3.5、文心一言5.5、DeepSeek-V4/R1国际领先 - AI Agent落地：从概念到实际产品，规模化应用 - 具身智能兴起：人形机器人与大模型结合 - 成本持续下降：API价格较2024年下降90%以上 - 开源生态繁荣：Llama、DeepSeek等推动行业发展

技术正在从实验室走向大规模应用，国产大模型已具备国际竞争力。