# douban-starter **Repository Path**: bigear2021/douban-starter ## Basic Information - **Project Name**: douban-starter - **Description**: 豆瓣评分的预测 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-09-30 - **Last Updated**: 2021-09-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 豆瓣评分的预测 ## 作业要求 在这个项目中,我们要预测一部电影的评分,这个问题实际上就是一个分类问题。给定的输入为一段文本,输出为具体的评分。 在这个项目中,我们需要做: - 文本的预处理,如停用词的过滤,低频词的过滤,特殊符号的过滤等 - 文本转化成向量,将使用三种方式,分别为tf-idf, word2vec以及BERT向量。 - 训练逻辑回归和朴素贝叶斯模型,并做交叉验证 - 评估模型的准确率 在具体标记为``TODO``的部分填写相应的代码。 ## 文件说明 * douban_starter.ipynb:主文件。 * douban_handbook.pdf:操作指导。 * 中文文本预处理.ipynb:参考文件。 * word2vec_test.ipynb:word2vec使用案例。 * 数据源:[proect-1 douban(阿里云网盘)](https://www.aliyundrive.com/s/2DrpuSfp1Pp) ## 结果与感想 1. tf-idf, word2vec以及BERT向量三类模型在训练集和预测集的准确率都在0.8以上,说明整体不存在过拟合的情况。 2. 三类模型F1score都低于0.8,说明召回率较低。通过描述统计发现,训练集和验证集中证明评价(1样本)数量远多于负面评价,说明样本倾斜严重。 3. 建模结果上,TF-IDF>Word2vec>bert,估计是由于矩阵愈发稀疏导致,也有可能是预训练模型缺乏针对性,因为本人没有GPU,没有再重新训练预训练模型 4. 如果要提高,一方面可以使用欠采样/过采样/SMOTE等方式处理样本不均衡问题,另一方面可以把豆瓣语料加入预训练模型再次训练,也可以尝试LR之外的分类模型,例如贝叶斯网络,或者LSTM等等。 5. 为了bert部分能按时完成,加快运行速度,没有使用原始的gensim包,而是fastNLP。