机器学习实战—手写体数字识别(基于MNIST)

什么是MNIST?

MNIST(官方网站)是非常有名的手写体数字识别数据集,在Tensorflow的官方网站里,第一个就拿它来做实战讲解,咱们也以此作为开始的项目。它由手写体数字的图片和相对应的标签组成,如:


MNIST数据集分为训练图像和测试图像。训练图像60000张,测试图像10000张,每一个图片代表0-9中的一个数字,且图片大小均为28*28的矩阵。

train-images-idx3-ubyte.gz: training set images (9912422 bytes) 训练图片

train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 训练标签

t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 测试图片

t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 测试标签


启动虚拟环境

source activate <virtual env> # virtual env是你的环境名字 

打开Jupyter Notebook

jupyter notebook 

加载Tensorflow,导入数据
我们使用被封装到tensorflow内部的MNIST数据


import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)


创建变量(varaible)和占位符(placeholder)
占位符类似一个函数,使用时传入参数值来使用。通俗来讲就好像我去教室里贴个纸条说这个位子被占了,但是我可以选择让谁去做。在这里None代表着可以是任何数值。

x = tf.placeholder(tf.float32, [None, 784]) 
y_ = tf.placeholder(tf.float32, [None, 10]) 

在TensorFlow中,变量的参数用tf.Variable表示

# W是模型的参数,是一个784*10的矩阵将一个784维的输入转换为一个10维的输出
W = tf.Variable(tf.zeros([784, 10]))
# b是偏置项(bias)。
b = tf.Variable(tf.zeros([10]))
# y=softmax(Wx + b),y表示模型的输出
y = tf.nn.softmax(tf.matmul(x, W) + b) 

softmax是个简单的分类器,其结果是一个矩阵,分别代表着模型对于输入数据的预测属于各个分类的可能性。比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]
损失函数
损失函数是我们评价模型好坏的标准,我们优化模型的目标就是为了最小化损失函数,所以如何设定合理的损失函数是至关重要的。当然没有统一通用的损失函数,因为不同的模型可能是为了达到不同的效果,比如有的为了提高平均准确率,有的为了得出最小离散率等等。在这个基本款的模型里,我们暂时只使用交叉熵作为损失函数。为了方便理解,我们使用数学表达式。同学们也可以使用Tensorflow封装的函数:sparse_softmax_cross_entropy_with_logits

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y))) 

参数优化
我们使用固定参数0.01,大家也可以试一试其他的参数值。我会在下一篇里提出这一步的优化方案以及解释。

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy) 

创建Session

sess = tf.InteractiveSession() # 创建一个Session
tf.global_variables_initializer().run() # 初始化所有变量,分配内存。 

进行梯度下降训练,优化模型参数
我们每次取100个数据作为一个batch用来训练参数,然后再取100个,共训练1000次。将当前batch(100组数据)的图片矩阵和标签传入占位符,并通过session运行train_step

# 分1000步梯度下降 
for _ in range(1000): 
batch_x, batch_y = mnist.train.next_batch(100) 
sess.run(train_step, feed_dict={x: batch_x, y_: batch_y}) 

结果检测

# 正确的预测结果
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 计算预测准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 传入测试数据集,获取模型测试的正确率
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})) 

对于模型的输出值,我们的到是一个关于各个分类的可能性预测,比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]。所以我们使用tf.argmax(y, 1)之后得到的是最有可能的那个值,即4。
tf.equal返回的是boolean值,所以我们使用tf.cast将其转换成float便于计算。
最终将测试数据集传入占位符进行计算,得到最终结果。



作者:RunningSucks
链接:https://www.jianshu.com/p/a2c9d39d90c6
来源:简书