Appearance
AI基础概念
理解AI不是要成为数学家,而是要建立正确的认知框架
什么是人工智能?
人工智能(Artificial Intelligence,AI)是指让机器模拟人类智能行为的技术。但这个定义太过宽泛,让我们用更直观的方式理解:
人类智能 人工智能
↓ ↓
[感知] → [理解] → [推理] → [决策] [传感器] → [算法] → [计算] → [输出]
↓ ↓
基于生物神经网络 基于人工神经网络
↓ ↓
数万年进化而来 数十年研究发展AI发展的三个层次
| 层次 | 名称 | 能力 | 状态 |
|---|---|---|---|
| 弱人工智能 (ANI) | 专用AI | 完成特定任务 | ✅ 已实现 |
| 强人工智能 (AGI) | 通用AI | 像人类一样思考 | 🔬 研究中 |
| 超人工智能 (ASI) | 超级AI | 超越人类智慧 | 💭 理论阶段 |
我们处于哪个阶段?
当前所有AI应用都属于弱人工智能,包括ChatGPT、Claude等大模型。它们在特定领域表现出色,但并不具备真正的"理解"能力。
核心概念解析
1. 机器学习 (Machine Learning)
机器学习是AI的核心实现方式,让机器从数据中"学习"规律,而非显式编程。
传统编程 机器学习
↓ ↓
[规则] + [数据] → [程序] → [结果] [数据] + [结果] → [算法] → [规则]
↓ ↓
人类编写规则 机器发现规则机器学习的三种范式:
| 类型 | 说明 | 典型应用 | 示例 |
|---|---|---|---|
| 监督学习 | 有标签数据学习 | 分类、预测 | 垃圾邮件识别 |
| 无监督学习 | 无标签数据学习 | 聚类、降维 | 用户分群 |
| 强化学习 | 奖惩机制学习 | 决策优化 | 游戏AI、机器人 |
2. 深度学习 (Deep Learning)
深度学习是机器学习的子集,使用多层神经网络处理复杂模式。
神经网络结构:
输入层 隐藏层(多层) 输出层
○ ○
○ ──→ ○ ──→ ○ ──→ ○ ──→ ○
○ ○ ○ ○ ○
○ ○
浅层特征 → 中层特征 → 高层特征 → 最终判断
(边缘) (形状) (物体) (分类)为什么叫"深度"?
- 传统神经网络:1-2个隐藏层
- 深度神经网络:数十甚至数百个隐藏层
- 层次越深,能学习的特征越抽象
3. 大语言模型 (LLM)
大语言模型是深度学习的重要突破,专门处理自然语言。
大模型的发展历程:
2017: Transformer架构诞生
↓
2018: GPT-1 (1.17亿参数)
↓
2019: GPT-2 (15亿参数)
↓
2020: GPT-3 (1750亿参数) ← 涌现能力出现
↓
2022: ChatGPT发布 ← AI应用爆发
↓
2023-2024: GPT-4、Claude、Gemini等百花齐放
↓
2025: DeepSeek等开源模型崛起大模型的核心能力
涌现能力 (Emergent Abilities)
当模型规模达到一定程度后,突然出现小模型不具备的能力:
| 能力 | 描述 | 示例 |
|---|---|---|
| 上下文学习 | 从示例中学习新任务 | 给几个例子就能模仿 |
| 思维链推理 | 逐步推理解决复杂问题 | 数学题分步骤解答 |
| 指令遵循 | 理解并执行复杂指令 | 多步骤任务执行 |
大模型能做什么?
yaml
核心能力:
文本生成:
- 文章写作
- 代码生成
- 创意内容
文本理解:
- 摘要提取
- 情感分析
- 信息抽取
知识问答:
- 事实查询
- 概念解释
- 建议提供
推理能力:
- 逻辑推理
- 数学计算
- 常识判断
多模态(部分模型):
- 图像理解
- 语音处理
- 视频分析大模型不能做什么?
重要认知
大模型存在固有限制,了解这些限制对正确使用AI至关重要:
| 限制 | 说明 | 应对策略 |
|---|---|---|
| 知识截止 | 训练数据有时间边界 | 结合搜索工具 |
| 幻觉问题 | 可能编造不存在的信息 | 事实核查 |
| 无真正理解 | 基于概率生成,非真正理解 | 人工审核关键内容 |
| 无实时信息 | 无法获取最新数据 | 接入外部数据源 |
| 上下文限制 | 处理文本长度有限 | 分块处理、RAG技术 |
关键术语速查
模型相关
| 术语 | 英文 | 解释 |
|---|---|---|
| 参数 | Parameters | 模型的"知识容量",通常以B(十亿)为单位 |
| Token | Token | 文本的最小处理单位,约等于1.5个汉字或0.75个英文单词 |
| 上下文窗口 | Context Window | 模型一次能处理的最大Token数 |
| 温度 | Temperature | 控制输出的随机性,0-2之间,越高越随机 |
| 提示词 | Prompt | 输入给模型的指令或问题 |
训练相关
| 术语 | 英文 | 解释 |
|---|---|---|
| 预训练 | Pre-training | 在大规模数据上学习通用知识 |
| 微调 | Fine-tuning | 在特定数据上调整模型行为 |
| RLHF | Reinforcement Learning from Human Feedback | 人类反馈强化学习,让模型更符合人类偏好 |
| 对齐 | Alignment | 让模型行为符合人类价值观 |
架构相关
| 术语 | 英文 | 解释 |
|---|---|---|
| Transformer | Transformer | 大模型的核心架构,基于注意力机制 |
| 注意力机制 | Attention | 让模型关注输入的重要部分 |
| Embedding | Embedding | 将文本转换为向量表示 |
AI应用开发者的知识图谱
作为AI应用开发者,你需要掌握的核心知识:
AI应用开发者知识图谱
│
┌───────────────┼───────────────┐
│ │ │
基础认知层 技术实现层 应用实践层
│ │ │
┌─────┴─────┐ ┌─────┴─────┐ ┌─────┴─────┐
│ │ │ │ │ │
AI概念 大模型原理 API集成 Agent开发 行业应用 项目实战
│ │ │ │ │ │
- 什么是AI - 架构 - OpenAI - 架构设计 - 内容创作 - 案例分析
- 发展历程 - 训练 - Claude - 工具调用 - 数据分析 - 最佳实践
- 能力边界 - 推理 - 国内模型 - 多Agent - 办公效率 - 避坑指南学习检验
完成以下问题,检验你对AI基础概念的理解:
概念理解
- 机器学习和深度学习是什么关系?
- 为什么大模型会出现"涌现能力"?
- Token是什么?为什么它很重要?
实践思考
- 你目前的工作中,哪些任务适合用AI辅助?
- 考虑到AI的局限性,如何设计一个可靠的AI应用?
下一步学习
现在你已经建立了AI的基础认知框架,建议继续学习:
💡 记住:理解AI的本质比记住术语更重要。AI是工具,关键在于如何用好它。
