PaddlePaddle
diff --git a/‎doc_cn/concepts/use_concepts.rst‎
Lines changed: 4 additions & 4 deletions b/‎doc_cn/concepts/use_concepts.rst‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎doc_cn/ui/data_provider/dataprovider.rst‎
Lines changed: 13 additions & 0 deletions b/‎doc_cn/ui/data_provider/dataprovider.rst‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎doc_cn/ui/data_provider/index.rst‎
Lines changed: 0 additions & 17 deletions b/‎doc_cn/ui/data_provider/index.rst‎
Lines changed: 0 additions & 17 deletions
diff --git a/‎doc_cn/ui/data_provider/mnist_config.py‎
Lines changed: 1 addition & 0 deletions b/‎doc_cn/ui/data_provider/mnist_config.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎doc_cn/ui/data_provider/mnist_provider.py‎
Lines changed: 0 additions & 22 deletions b/‎doc_cn/ui/data_provider/mnist_provider.py‎
Lines changed: 0 additions & 22 deletions
@@ -15,7 +15,7 @@ PaddlePaddle是一个深度学习框架，支持单机模式和多机模式。
 系统框图
 ========
 
-下图描述了用户使用框图，PaddlePaddle的trainer进程里内嵌了Python解释器，trainer进程可以利用这个解释器执行Python脚本，Python脚本里定义了模型配置、训练算法、以及数据读取函数。其中，数据读取程序往往定义在一个单独Python脚本文件里，被称为DataProvider，通常是一个Python函数。模型配置、训练算法通常定义在另一单独Python文件中。下面将分别介绍这两部分。
+下图描述了用户使用框图，PaddlePaddle的trainer进程里内嵌了Python解释器，trainer进程可以利用这个解释器执行Python脚本，Python脚本里定义了模型配置、训练算法、以及数据读取函数。其中，数据读取程序往往定义在一个单独Python脚本文件里，被称为DataProvider，通常是一个Python函数。模型配置、训练算法通常定义在另一单独Python文件中, 称为训练配置文件。下面将分别介绍这两部分。
 
 ..	graphviz:: 
 
@@ -42,12 +42,12 @@ DataProvider是PaddlePaddle系统的数据提供器，将用户的原始数据
 在不同的应用里，训练数据的格式往往各不相同。因此，为了用户能够灵活的处理数据，我们提供了Python处理数据的接口，称为 `PyDataProvider`_ 。在 ``PyDataProvider`` 中，系统C++模块接管了shuffle、处理batch、GPU和CPU通信、双缓冲、异步读取等问题，一些情况下(如：``min_pool_size=0``)需要Python接口里处理shuffle，可以参考 `PyDataProvider`_ 的相关文档继续深入了解。
 
 
-模型配置文件
+训练配置文件
 ============
 
-模型配置文件主要包括数据传入接口定义(DataConfig)、优化算法(OptimizationConfig)、网络结构(ModelConfig)。 其中数据传入接口定义与DataProvider的关系是：DataProvider里定义数据读取函数，配置文件的DataConfig里指定DataProvider文件名字、生成数据函数接口，请不要混淆。
+训练配置文件主要包括数据传入接口定义(DataConfig)、优化算法(OptimizationConfig)、网络结构(ModelConfig)。 其中数据传入接口定义与DataProvider的关系是：DataProvider里定义数据读取函数，配置文件的DataConfig里指定DataProvider文件名字、生成数据函数接口，请不要混淆。
 
-一个简单的模型配置文件为：
+一个简单的训练配置文件为：
 
 ..  literalinclude:: trainer_config.py
     :linenos:
 
@@ -0,0 +1,13 @@
+DataProvider的介绍
+==================
+
+DataProvider是PaddlePaddle负责提供数据的模块。其作用是将数据传入内存或显存，让神经网络可以进行训练或预测。用户可以通过简单使用Python接口 `PyDataProvider2 <pydataprovider2.html>`_ ，来自定义传数据的过程。如果有更复杂的使用，或者需要更高的效率，用户也可以在C++端自定义一个 ``DataProvider`` 。
+
+PaddlePaddle需要用户在网络配置（trainer_config.py）中定义使用哪种DataProvider，并且在DataProvider中实现如何访问训练文件列表（train.list）或测试文件列表（test.list）。
+
+- train.list和test.list存放在本地（推荐直接存放到训练目录，以相对路径引用)。一般情况下，两者均为纯文本文件，其中每一行对应一个数据文件地址：
+  
+  - 如果数据文件存于本地磁盘，这个地址则为它的绝对路径或相对路径(相对于PaddlePaddle程序运行时的路径)。
+  - 地址也可以为hdfs文件路径，或者数据库连接路径等。
+  - 由于这个地址会被DataProvider使用，因此，如何解析该地址也是用户自定义DataProvider时需要考虑的地方。
+- 如果没有设置test.list，或设置为None，那么在训练过程中不会执行测试操作；否则，会根据命令行参数指定的测试方式，在训练过程中进行测试，从而防止过拟合。
@@ -5,5 +5,6 @@
     test_list=None,
     module='mnist_provider',
     obj='process')
+
 img = data_layer(name='pixel', size=784)
 label = data_layer(name='label', size=10)