11MovieLens数据集评分回归模型
2- =========================
2+ ===========================
33
44这里我们在MovieLens数据集描述一种 **余弦相似度回归 ** 任务。
55该示例将展示paddle如何进行词向量嵌入,处理相似度回归,针对文本
@@ -12,9 +12,9 @@ MovieLens数据集评分回归模型
1212让这个示例变得更好,希望能让我们知晓。 **
1313
1414数据准备
15- ```````
15+ `````````
1616下载并解压数据集
17- ''''''''''''''
17+ '''''''''''''''''
1818这里我们使用 :ref: `demo_ml_dataset ` 。
1919要下载和解压数据集,只需要简单的运行下面的命令即可。
2020
@@ -34,7 +34,7 @@ MovieLens数据集评分回归模型
3434 +--- README # 数据集描述
3535
3636 字段配置文件
37- ''''''''''
37+ '''''''''''''
3838**字段配置文件 ** 用来具体说明数据集的字段和文件格式,
3939例如,说明每个特征文件具体字段是 **什么 ** 类型。
4040
@@ -50,7 +50,7 @@ ml-1m的字段配置文件在目录 :code:`demo/recommendation/data/config.json`
5050 :literal:
5151
5252准备数据
53- ```````
53+ `````````
5454你需要安装python的第三方库。
5555**强烈推荐使用VIRTUALENV来创造一个干净的python环境。 **
5656
@@ -68,14 +68,14 @@ ml-1m的字段配置文件在目录 :code:`demo/recommendation/data/config.json`
6868 下面介绍预处理过程具体的步骤。
6969
7070提取电影或用户的特征并生成python对象
71- ''''''''''''''''''''''''''''''''
71+ '''''''''''''''''''''''''''''''''''''
7272
7373在movielens 1m数据集中,电影和用户有许多的特征。
7474评分文件的每一行仅仅提供电影或用户的编号来代表相应的电影或用户。
7575我们首先处理电影或用户的特征文件,然后用pickle命令将特征( **Meta ** )对象存储为文件。
7676
7777Meta配置文件
78- ...........
78+ .............
7979
8080**Meta配置文件 ** 用来具体描述 **如何 ** 解析数据集中的每一个字段。
8181该文件可以从字段配置文件生成,或是手动编辑生成。文件的格式可以
@@ -185,7 +185,7 @@ meta文件 :code:`meta.bin` 的结构如下:
185185
186186
187187 分割训练/测试文件
188- '''''''''''''''
188+ ''''''''''''''''''
189189
190190我们将 :code: `ml-1m/ratings.dat ` 文件分割为训练和测试文件。分割文件的方法是:对于每位用户,我们将评分分成两部分。
191191这样的话每位用户在测试文件中将与训练文件含有同样的信息。
@@ -208,10 +208,10 @@ meta文件 :code:`meta.bin` 的结构如下:
208208
209209
210210 神经网络结构配置
211- ``````````````
211+ `````````````````
212212
213213训练器配置文件
214- ''''''''''''
214+ '''''''''''''''
215215
216216网络结构如下图所示:
217217
@@ -251,7 +251,7 @@ meta文件 :code:`meta.bin` 的结构如下:
251251* 声明Python数据源, :ref: `api_trainer_config_helpers_data_sources `
252252
253253数据提供脚本
254- '''''''''''
254+ '''''''''''''
255255
256256.. literalinclude :: ../../../demo/recommendation/dataprovider.py
257257 :language: python
@@ -264,7 +264,7 @@ meta文件 :code:`meta.bin` 的结构如下:
264264* use_seq\: :code: `dataprovider.py ` 中的数据是否为序列模式。
265265* process\: 返回数据的每一条样本给 :code: `paddle ` 。
266266
267- 数据提供脚本的细节文档可以参考 :ref: `api_pydataprovider ` 。
267+ 数据提供脚本的细节文档可以参考 :ref: `api_pydataprovider2 ` 。
268268
269269训练
270270````
@@ -316,7 +316,7 @@ meta文件 :code:`meta.bin` 的结构如下:
316316 模型被保存在 :code: `output/ ` 目录中。你可以在任何时候用 :code: `Ctrl-C ` 来停止训练。
317317
318318模型评估和预测
319- ````````````
319+ ```````````````
320320
321321在训练了几个轮次以后,你可以对模型进行评估,得到最好轮次下的模型。运行下面命令即可:
322322
0 commit comments