# multimodal-foundation-models

**Repository Path**: likefallwind/multimodal-foundation-models

## Basic Information

- **Project Name**: multimodal-foundation-models
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-14
- **Last Updated**: 2026-03-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 多模态大模型 (Multimodal Foundation Models)

面向人工智能方向硕士研究生的课程，系统讲解多模态大模型的核心技术与实践。

---

## 课程信息

| 项目 | 内容 |
|------|------|
| 目标受众 | 人工智能方向硕士研究生 |
| 预修要求 | 深度学习、图像处理与计算机视觉、Python + PyTorch |
| 总课时 | 32 学时（10 节课） |
| 技术栈 | Python / PyTorch / HuggingFace Transformers & Diffusers |
| 考核 | 课堂表现 10% · 作业×2 共 20% · 课程设计 20% · 期末笔试 50% |

---

## 课程目录

| 节次 | 主题 | 项目 |
|------|------|------|
| **1** | [绪论](lesson1/lecture.md) | [体验 CLIP / LLaVA / SD 三类多模态模型](lesson1/project.md) |
| **2** | [语言大模型基础与关键技术](lesson2/lecture.md) | [GPT-2 注意力可视化 + CLM vs MLM 对比](lesson2/project.md) |
| **3** | [多模态基础 — 任务、数据与架构](lesson3/lecture.md) | [CLIP 图文检索系统 + t-SNE 嵌入空间可视化](lesson3/project.md) |
| **4** | [多模态基础 — 预训练与后训练](lesson4/lecture.md) | [BLIP-2 vs LLaVA 评测流水线](lesson4/project.md) 📝 作业1 |
| **5** | [多模态理解 — 指令微调](lesson5/lecture.md) | [LoRA 微调 LLaVA 在医学 VQA](lesson5/project.md) |
| **6** | [多模态理解 — RLHF 与典型模型](lesson6/lecture.md) | [POPE 幻觉检测 + 提示词工程缓解](lesson6/project.md) 📝 作业2 |
| **7** | [多模态生成 — GAN 与自回归](lesson7/lecture.md) | [cGAN 生成 MNIST + VQ-VAE 图像重建](lesson7/project.md) |
| **8** | [多模态生成 — 扩散模型与统一模型](lesson8/lecture.md) | [Diffusers 文生图→图生图→ControlNet](lesson8/project.md) |
| **9** | [多模态智能体](lesson9/lecture.md) | [图文多模态 RAG Agent](lesson9/project.md) |
| **10** | [研讨课](lesson10/lecture.md) | [大作业汇报](lesson10/project.md) |

**课程设计大作业**：[final-project/](final-project/README.md)

---

## 环境配置

```bash
# 创建虚拟环境
conda create -n mmfm python=3.10 -y
conda activate mmfm

# 安装 PyTorch（按 https://pytorch.org 选择适合的 CUDA 版本）
pip install torch torchvision

# 安装核心依赖
pip install transformers diffusers accelerate datasets
pip install Pillow requests matplotlib seaborn numpy tqdm pandas

# 高效微调
pip install peft bitsandbytes

# 向量数据库（第9节）
pip install sentence-transformers chromadb

# ControlNet 预处理（第8节）
pip install controlnet-aux

# 可视化
pip install scikit-learn
```

**硬件建议与双轨制路线 (Dual-Track)**：
由于部分前沿大模型（如 LLaVA-7B, BLIP-2）对硬件要求极高，本课程的代码实践部分采用**双轨制（Dual-Track）**设计：
- 🟢 **轻量基础篇 (Low-Config/Recommended)**：需 < 2GB 显存，部分可纯 CPU 运行。适合绝大多数学生笔记本电脑。相关脚本带 `_lightweight` 后缀（如使用 `BLIP-vqa-base`）。
- 🔴 **前沿进阶篇 (High-Config/Advanced)**：需 ≥ 8GB VRAM GPU（配合 4-bit 量化），推荐 16GB+ VRAM。适合实验室服务器或高配游戏本。

*请在各节的 `project.md` 中查看具体的路线指引。*

---

## 快速验证

如果你想快速验证环境配置是否正确，而不触发因为显存不足导致的报错，可以运行我们提供的自动化轻量级测试脚本（仅调用小模型跑通基本逻辑）：

```bash
chmod +x run_all_lightweight.sh
./run_all_lightweight.sh
```

---

## 目录结构

```
.
├── README.md                   # 本文件
├── syllabus.md                 # 课程大纲
├── knowledge-points.md         # 知识点清单
├── introduction.md             # 课程介绍
├── run_all_lightweight.sh      # 自动运行所有轻量级代码的脚本
├── lesson1/ ~ lesson10/        # 各节课程内容
│   ├── lecture.md              #   讲义
│   ├── project.md              #   项目说明 (包含硬件路线指引)
│   ├── src/                    #   作业脚手架代码 (带 TODO)
│   └── answer/                 #   完整参考实现代码
└── final-project/              # 课程设计大作业
    ├── README.md               #   大作业说明
    ├── proposal-template.md    #   开题报告模板
    ├── report-template.md      #   技术报告模板
    └── rubric.md               #   评分标准
```

---

## 学习建议

1. **先读讲义再做项目**：讲义为项目提供必要的概念背景
2. **先自己填写 TODO 再看参考实现**：动手实践远比看代码有效
3. **记录实验观察**：每个项目的"思考题"和"对比分析表"是重要的学习输出
4. **关联前后节**：后续章节会用到前面的概念，遇到不清楚的回头查讲义

---

## 参考教材

- 王金桥著，《多模态人工智能：大模型核心原理与关键技术》，2024
- Ian Goodfellow 等著，《深度学习》，2017
- 相关论文见各节讲义中的"进一步阅读"