# douban-starter

**Repository Path**: bigear2021/douban-starter

## Basic Information

- **Project Name**: douban-starter
- **Description**: 豆瓣评分的预测
- **Primary Language**: Python
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-09-30
- **Last Updated**: 2021-09-30

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 豆瓣评分的预测

## 作业要求
在这个项目中，我们要预测一部电影的评分，这个问题实际上就是一个分类问题。给定的输入为一段文本，输出为具体的评分。 在这个项目中，我们需要做：
- 文本的预处理，如停用词的过滤，低频词的过滤，特殊符号的过滤等
- 文本转化成向量，将使用三种方式，分别为tf-idf, word2vec以及BERT向量。 
- 训练逻辑回归和朴素贝叶斯模型，并做交叉验证
- 评估模型的准确率

在具体标记为``TODO``的部分填写相应的代码。 

## 文件说明
* douban_starter.ipynb：主文件。
* douban_handbook.pdf：操作指导。
* 中文文本预处理.ipynb：参考文件。
* word2vec_test.ipynb：word2vec使用案例。
* 数据源：[proect-1 douban(阿里云网盘)](https://www.aliyundrive.com/s/2DrpuSfp1Pp)

## 结果与感想
1. tf-idf, word2vec以及BERT向量三类模型在训练集和预测集的准确率都在0.8以上，说明整体不存在过拟合的情况。
2. 三类模型F1score都低于0.8，说明召回率较低。通过描述统计发现，训练集和验证集中证明评价(1样本)数量远多于负面评价，说明样本倾斜严重。
3. 建模结果上，TF-IDF>Word2vec>bert，估计是由于矩阵愈发稀疏导致，也有可能是预训练模型缺乏针对性，因为本人没有GPU，没有再重新训练预训练模型 
4. 如果要提高，一方面可以使用欠采样/过采样/SMOTE等方式处理样本不均衡问题，另一方面可以把豆瓣语料加入预训练模型再次训练，也可以尝试LR之外的分类模型，例如贝叶斯网络，或者LSTM等等。
5. 为了bert部分能按时完成，加快运行速度，没有使用原始的gensim包，而是fastNLP。