type
status
date
slug
summary
tags
category
icon
password
太棒了,你已经站在了“从看懂到做出来”的门槛上了🚀
以下是一个可实践项目清单,我把它分成了不同阶段,每个项目都有关键词、推荐数据集、目标和练习点,你可以按需选择,随时开始练手。
🧱 初级项目(基础打牢阶段)
重点:巩固 D2L 内容,掌握 PyTorch 基本套路
1️⃣ 手写数字识别(MLP / CNN)
- 数据集:
torchvision.datasets.MNIST
- 技术关键词:
nn.Module
,DataLoader
,softmax
,交叉熵损失
- 目标:搭建完整 pipeline,能训练 + 验证模型准确率
- 强化内容:数据加载、模型结构、训练循环、评估逻辑
2️⃣ FashionMNIST 分类(CNN)
- 数据集:
torchvision.datasets.FashionMNIST
- 技术关键词:
卷积网络
,ReLU
,Dropout
- 目标:对比传统 MLP 和 CNN 效果,理解 CNN 优势
- 强化内容:网络调参,训练可视化(如使用 TensorBoard)
3️⃣ IMDB 影评情感分类(LSTM)
- 数据集:
torchtext.datasets.IMDB
- 技术关键词:
词嵌入 embedding
,RNN
,LSTM
,二分类
- 目标:掌握文本预处理流程 + 序列建模
- 强化内容:Tokenizer、padding、pack_padded_sequence 等技巧
📘 中级项目(深入理解 + 靠近 NLP)
重点:复现 D2L 里涉及 attention、sequence 模型、语言模型
4️⃣ 新闻文本分类(LSTM / Transformer)
- 数据集:
AG News
/THUCNews(中文)
- 技术关键词:
词嵌入
,位置编码
,Transformer Encoder
- 目标:尝试写文本分类 baseline,加入注意力机制
- 强化内容:embedding + attention 的融合,中文 NLP 实践
5️⃣ 机器翻译(英-法 / 英-中)
- 数据集:
Multi30k
/ TED Talks 翻译数据
- 技术关键词:
seq2seq
,attention
,beam search
,BLEU
- 目标:复现 D2L 里的 Transformer 翻译模型
- 强化内容:训练和推理流程拆分、翻译评估指标实现
🧠 高级项目(科研 & 应用热身)
重点:结合 pre-trained 模型、RAG 技术,向实际科研靠拢
6️⃣ 微调 BERT 做文本分类
- 数据集:
SST-2
(情感分析) / 中文 TNEWS
- 工具库:
transformers
,datasets
- 技术关键词:
预训练
,微调
,Trainer
,tokenizer
- 目标:跑通 Huggingface pipeline,尝试写 summary / 可视化
- 强化内容:掌握 transformer 的接口、使用文档、调参技巧
7️⃣ 自建 mini-RAG 问答系统
- 数据:Wikipedia 文本 / 自定义知识库
- 技术关键词:
embedding
,FAISS
,RAG
,prompt
,LLM
- 工具:
LangChain
ortransformers + sentence-transformers
- 目标:构建 Retrieval-Augmented Generation 问答 demo
- 强化内容:工程整合能力 + embedding 检索理解 + prompt 实战
✅ Bonus 项目:短小精悍的练手项目(适合周末突击)
项目名称 | 技术点 | 数据来源 |
CIFAR10 分类 | CNN、ResNet 简化版 | torchvision |
文本生成器(字符级) | RNN / GRU | 英文小说片段 |
情绪分类(中文微博) | BERT + 中文NLP | nlpcc 微博情绪数据 |
文本相似度判断 | embedding + cosine sim | 中文句对匹配任务 |
图像二分类(猫狗) | Transfer learning | Kaggle 猫狗数据 |
如果你想要:
- 项目模板(训练主函数、metrics 封装等)
- 项目计划表(比如 6 周完成表)
- 每个项目的 starter code 我可以立刻整理给你 💼
你目前最想从哪个项目开始练? 我可以先给你那一个的 starter 套件 🔧
- 作者:昊卿
- 链接:hqhq1025.tech/article/pytorch_porject
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。