type
status
date
slug
summary
tags
category
icon
password
太棒了,你已经站在了“从看懂到做出来”的门槛上了🚀
以下是一个可实践项目清单,我把它分成了不同阶段,每个项目都有关键词、推荐数据集、目标和练习点,你可以按需选择,随时开始练手。

🧱 初级项目(基础打牢阶段)

重点:巩固 D2L 内容,掌握 PyTorch 基本套路

1️⃣ 手写数字识别(MLP / CNN)

  • 数据集:torchvision.datasets.MNIST
  • 技术关键词:nn.Module, DataLoader, softmax, 交叉熵损失
  • 目标:搭建完整 pipeline,能训练 + 验证模型准确率
  • 强化内容:数据加载、模型结构、训练循环、评估逻辑

2️⃣ FashionMNIST 分类(CNN)

  • 数据集:torchvision.datasets.FashionMNIST
  • 技术关键词:卷积网络, ReLU, Dropout
  • 目标:对比传统 MLP 和 CNN 效果,理解 CNN 优势
  • 强化内容:网络调参,训练可视化(如使用 TensorBoard)

3️⃣ IMDB 影评情感分类(LSTM)

  • 数据集:torchtext.datasets.IMDB
  • 技术关键词:词嵌入 embedding, RNN, LSTM, 二分类
  • 目标:掌握文本预处理流程 + 序列建模
  • 强化内容:Tokenizer、padding、pack_padded_sequence 等技巧

📘 中级项目(深入理解 + 靠近 NLP)

重点:复现 D2L 里涉及 attention、sequence 模型、语言模型

4️⃣ 新闻文本分类(LSTM / Transformer)

  • 数据集:AG News / THUCNews(中文)
  • 技术关键词:词嵌入, 位置编码, Transformer Encoder
  • 目标:尝试写文本分类 baseline,加入注意力机制
  • 强化内容:embedding + attention 的融合,中文 NLP 实践

5️⃣ 机器翻译(英-法 / 英-中)

  • 数据集:Multi30k / TED Talks 翻译数据
  • 技术关键词:seq2seq, attention, beam search, BLEU
  • 目标:复现 D2L 里的 Transformer 翻译模型
  • 强化内容:训练和推理流程拆分、翻译评估指标实现

🧠 高级项目(科研 & 应用热身)

重点:结合 pre-trained 模型、RAG 技术,向实际科研靠拢

6️⃣ 微调 BERT 做文本分类

  • 数据集:SST-2(情感分析) / 中文 TNEWS
  • 工具库:transformers, datasets
  • 技术关键词:预训练, 微调, Trainer, tokenizer
  • 目标:跑通 Huggingface pipeline,尝试写 summary / 可视化
  • 强化内容:掌握 transformer 的接口、使用文档、调参技巧

7️⃣ 自建 mini-RAG 问答系统

  • 数据:Wikipedia 文本 / 自定义知识库
  • 技术关键词:embedding, FAISS, RAG, prompt, LLM
  • 工具:LangChain or transformers + sentence-transformers
  • 目标:构建 Retrieval-Augmented Generation 问答 demo
  • 强化内容:工程整合能力 + embedding 检索理解 + prompt 实战

✅ Bonus 项目:短小精悍的练手项目(适合周末突击)

项目名称
技术点
数据来源
CIFAR10 分类
CNN、ResNet 简化版
torchvision
文本生成器(字符级)
RNN / GRU
英文小说片段
情绪分类(中文微博)
BERT + 中文NLP
nlpcc 微博情绪数据
文本相似度判断
embedding + cosine sim
中文句对匹配任务
图像二分类(猫狗)
Transfer learning
Kaggle 猫狗数据

如果你想要:
  • 项目模板(训练主函数、metrics 封装等)
  • 项目计划表(比如 6 周完成表)
  • 每个项目的 starter code 我可以立刻整理给你 💼
你目前最想从哪个项目开始练? 我可以先给你那一个的 starter 套件 🔧
基于 MLP 的 pipeline 初体验8.3 语言模型和数据集
Loading...