问题描述数据:Million Song Dataset(MSD) https://labrosa.ee.columbia.edu/millionsong/ 作业使用的数据集是公开音乐数据集 Million Song Dataset(MSD) , 它 包 含 来 自 SecondHandSongs dataset 、 musiXmatch dataset、Last.fm dataset、Taste Profile subset、 thisismyjam-to-MSD mapping、tagtraum genre annotations 和 Top MAGD dataset 七个知名音乐社区的数据。 原始数据集包括: 1. train_triplets.txt:三元组数据(用户、歌曲、播放次数) 2. track_metadata.db:每个歌曲的元数据 由于原始数据太大,作业用的数据集只是其中的子集(播放次数最多的10万个用户、播放次数最多的3万首歌曲。 数据预处理过程请见DataProcessing.ipynb文件,最后得到的数据文件为:triplet_datase