# multimodal-foundation-models **Repository Path**: likefallwind/multimodal-foundation-models ## Basic Information - **Project Name**: multimodal-foundation-models - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-14 - **Last Updated**: 2026-03-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 多模态大模型 (Multimodal Foundation Models) 面向人工智能方向硕士研究生的课程,系统讲解多模态大模型的核心技术与实践。 --- ## 课程信息 | 项目 | 内容 | |------|------| | 目标受众 | 人工智能方向硕士研究生 | | 预修要求 | 深度学习、图像处理与计算机视觉、Python + PyTorch | | 总课时 | 32 学时(10 节课) | | 技术栈 | Python / PyTorch / HuggingFace Transformers & Diffusers | | 考核 | 课堂表现 10% · 作业×2 共 20% · 课程设计 20% · 期末笔试 50% | --- ## 课程目录 | 节次 | 主题 | 项目 | |------|------|------| | **1** | [绪论](lesson1/lecture.md) | [体验 CLIP / LLaVA / SD 三类多模态模型](lesson1/project.md) | | **2** | [语言大模型基础与关键技术](lesson2/lecture.md) | [GPT-2 注意力可视化 + CLM vs MLM 对比](lesson2/project.md) | | **3** | [多模态基础 — 任务、数据与架构](lesson3/lecture.md) | [CLIP 图文检索系统 + t-SNE 嵌入空间可视化](lesson3/project.md) | | **4** | [多模态基础 — 预训练与后训练](lesson4/lecture.md) | [BLIP-2 vs LLaVA 评测流水线](lesson4/project.md) 📝 作业1 | | **5** | [多模态理解 — 指令微调](lesson5/lecture.md) | [LoRA 微调 LLaVA 在医学 VQA](lesson5/project.md) | | **6** | [多模态理解 — RLHF 与典型模型](lesson6/lecture.md) | [POPE 幻觉检测 + 提示词工程缓解](lesson6/project.md) 📝 作业2 | | **7** | [多模态生成 — GAN 与自回归](lesson7/lecture.md) | [cGAN 生成 MNIST + VQ-VAE 图像重建](lesson7/project.md) | | **8** | [多模态生成 — 扩散模型与统一模型](lesson8/lecture.md) | [Diffusers 文生图→图生图→ControlNet](lesson8/project.md) | | **9** | [多模态智能体](lesson9/lecture.md) | [图文多模态 RAG Agent](lesson9/project.md) | | **10** | [研讨课](lesson10/lecture.md) | [大作业汇报](lesson10/project.md) | **课程设计大作业**:[final-project/](final-project/README.md) --- ## 环境配置 ```bash # 创建虚拟环境 conda create -n mmfm python=3.10 -y conda activate mmfm # 安装 PyTorch(按 https://pytorch.org 选择适合的 CUDA 版本) pip install torch torchvision # 安装核心依赖 pip install transformers diffusers accelerate datasets pip install Pillow requests matplotlib seaborn numpy tqdm pandas # 高效微调 pip install peft bitsandbytes # 向量数据库(第9节) pip install sentence-transformers chromadb # ControlNet 预处理(第8节) pip install controlnet-aux # 可视化 pip install scikit-learn ``` **硬件建议与双轨制路线 (Dual-Track)**: 由于部分前沿大模型(如 LLaVA-7B, BLIP-2)对硬件要求极高,本课程的代码实践部分采用**双轨制(Dual-Track)**设计: - 🟢 **轻量基础篇 (Low-Config/Recommended)**:需 < 2GB 显存,部分可纯 CPU 运行。适合绝大多数学生笔记本电脑。相关脚本带 `_lightweight` 后缀(如使用 `BLIP-vqa-base`)。 - 🔴 **前沿进阶篇 (High-Config/Advanced)**:需 ≥ 8GB VRAM GPU(配合 4-bit 量化),推荐 16GB+ VRAM。适合实验室服务器或高配游戏本。 *请在各节的 `project.md` 中查看具体的路线指引。* --- ## 快速验证 如果你想快速验证环境配置是否正确,而不触发因为显存不足导致的报错,可以运行我们提供的自动化轻量级测试脚本(仅调用小模型跑通基本逻辑): ```bash chmod +x run_all_lightweight.sh ./run_all_lightweight.sh ``` --- ## 目录结构 ``` . ├── README.md # 本文件 ├── syllabus.md # 课程大纲 ├── knowledge-points.md # 知识点清单 ├── introduction.md # 课程介绍 ├── run_all_lightweight.sh # 自动运行所有轻量级代码的脚本 ├── lesson1/ ~ lesson10/ # 各节课程内容 │ ├── lecture.md # 讲义 │ ├── project.md # 项目说明 (包含硬件路线指引) │ ├── src/ # 作业脚手架代码 (带 TODO) │ └── answer/ # 完整参考实现代码 └── final-project/ # 课程设计大作业 ├── README.md # 大作业说明 ├── proposal-template.md # 开题报告模板 ├── report-template.md # 技术报告模板 └── rubric.md # 评分标准 ``` --- ## 学习建议 1. **先读讲义再做项目**:讲义为项目提供必要的概念背景 2. **先自己填写 TODO 再看参考实现**:动手实践远比看代码有效 3. **记录实验观察**:每个项目的"思考题"和"对比分析表"是重要的学习输出 4. **关联前后节**:后续章节会用到前面的概念,遇到不清楚的回头查讲义 --- ## 参考教材 - 王金桥著,《多模态人工智能:大模型核心原理与关键技术》,2024 - Ian Goodfellow 等著,《深度学习》,2017 - 相关论文见各节讲义中的"进一步阅读"