cnn 验证码识别，基于卷积神经网络的语音识别-云搜网

识别验证码现在网上有大量的案例，因为python可以使用

from captcha.image import ImageCaptcha

来生成验证码。
生成的验证码样例如下：

验证码的噪声简单且训练集可以无限次生成的情况下，识别验证码就非常容易，github和博客中都有大量的例子，通常是使用tensorflow，Caffee，keras等等，只要愿意花时间训练都可以达到90%的识别率。
可是这样的识别方法，要用到实际场景中就很困难，因为实际环境中的验证码非常难以自己生成。有些公司会去相关网站上爬取验证码，然后自己手工标注，如果找外包付费标注倒是现实一些，自己手工标注数十万的验证码，通常不太可能。
因为公司任务，所以在网上到处寻找微信验证码，碰巧之前在一篇博客提供的网盘链接中找到了带标签的微信的验证码训练集，链接如下：

https://pan.baidu.com/s/1yZeWYHcK47lqzXD8OY8hKQ
提取码: hjph
url: https://mp.weixin.qq.com/cgi-bin/verifycode?username=info8@ersinfotech.com&r=1520386543758

方法还是使用常规验证码识别方法，使用keras中预训练好的模型fine tune就可以，但是数据集换成微信场景下的数据集。

因为验证码只有字母而且不区分大小写，那么只需要对4个字母每个字母做26分类就可以了。
keras_weight中典雅的小海豚 Net，google net，VGG16，VGG19，ResNet50，Xception，InceptionV3。都是由ImageNet训练而来。
模型权重可以直接去官网下载，如果速度不够快，这里提供网盘链接。
keras 预训练好的模型权重链接：https://pan.baidu.com/s/1r8y0w3vVKpbSkYrGtI93TA
提取码：p00h

这里使用Xception模型

Xception模型 keras.applications.xception.Xception(include_top=True, weights=’imagenet’, input_tensor=None, input_shape=None, pooling=None, classes=1000)

ception V1 模型, 权重由ImageNet训练而来
在ImageNet上,该模型取得了验证集top1 0.790和top5 0.945的正确率

注意,该模型目前仅能以TensorFlow为后端使用,由于它依赖于”SeparableConvolution”层,目前该模型只支持channels_last的维度顺序(width, height, channels)

默认输入图片大小为299×299

参数:
include_top：是否保留顶层的3个全连接网络
weights：None代表随机初始化，即不加载预训练权重。’imagenet’代表加载预训练权重
input_tensor：可填入Keras tensor作为模型的图像输出tensor
input_shape：可选，仅当include_top=False有效，应为长为3的tuple，指明输入图片的shape，图片的宽高必须大于71，如(150,150,3)
pooling：当include_top=False时，该参数指定了池化方式。None代表不池化，最后一个卷积层的输出为4D忧伤的悟空。‘avg’代表全局平均池化，‘max’代表全局最大值池化。
classes：可选，图片分类的类别数，仅当include_top=True并且不加载预训练权重时可用。

训练和测试代码：

十万样本，9万训练，1万验证和批量测试，100张从微信url上抓取下来的图片做单张测试。

import numpy as npimport matplotlib.pyplot as plt # plt 用于显示图片import matplotlib.image as mpimg # mpimg 用于读取图片import globimport h5py from keras.models import model_from_json import osos.chdir(r’/home/wongyao/验证码/test’)#获取指定目录下的所有图片samples = glob.glob(r’/home/wongyao/验证码/sample/*.jpg’)np.random.shuffle(samples) nb_train = 90000 #共有10万+样本，9万用于训练，1万+用于验证train_samples = samples[:nb_train]test_samples = samples[nb_train:]letter_list = [chr(i) for i in range(97,123)]#letter_list = [‘a’,’b’,’c’,’d’,’e’,’f’,’g’,’h’,’i’,’j’,’k’,’l’,’m’,’n’,’o’,’p’,’q’,’r’,’s’,’t’,’u’,’v’,’w’,’x’,’y’,’z’]from keras.applications.xception import Xception,preprocess_inputfrom keras.layers import Input,Dense,Dropoutfrom keras.models import Modelimg_size = (50, 120) #CNN适合在包容的烧鹅都是偶数的情况，否则需要在边缘补齐，#那么我们也可以把全体图片都resize成这个尺寸(高，宽，通道)input_image = Input(shape=(img_size[0],img_size[1],3))#具体方案是：直接将验证码输入，做几个卷积层提取特征，#然后把这些提出来的特征连接几个分类器（26分类，因为不区分大小写），#如果需要加入数字就是36分类，微信验证码里没有数字。#输入图片#用预训练的Xception提取特征,采用平均池化base_model = Xception(input_tensor=input_image, weights=’imagenet’, include_top=False, pooling=’avg’)#用全连接层把图片特征接上softmax然后26分类，dropout为0.5，激活使用softmax因为是多分vps云服务器类问题。#ReLU – 用于隐层神经元输出#Sigmoid – 用于隐层神经元输出#Softmax – 用于多分类神经网络输出#Linear – 用于回归神经网络输出（或二分类问题）#对四个字母做26分类predicts = [Dense(26, activation=’softmax’)(Dropout(0.5)(base_model.output)) for i in range(4)]model = Model(inputs=input_image, outputs=predicts)model.compile(optimizer=’adam’, loss=’sparse_categorical_crossentropy’, metrics=[‘accuracy’])#optimizer：优化器的选择可以参考这篇博客https://www.jianshu.com/p/d99b83f4c1a6#loss：损失函数，这里选稀疏多类对数损失#metrics：列表，包含评估模型在训练和测试时的性能的指标，典型用法是metrics=[‘accuracy’]如果要在多输出模型中为不同的输出指定不同的指标，可像该参数传递一个字典，例如metrics={‘ouput_a’: ‘accuracy’}#sample_weight_mode：如果你需要按时间步为样本赋权（2D权矩阵），将该值设为“temporal”。默认为“None”，代表按样本赋权（1D权）。如果模型有多个输出，可以向该参数传入指定sample_weight_mode的字典或列表。在下面fit函数的解释中有相关的参考内容。#weighted_metrics: metrics列表，在训练和测试过程中，这些metrics将由sample_weight或clss_weight计算并赋权#target_tensors: 默认情况下，Keras将为模型的目标创建一个占位符，该占位符在训练过程中将被目标数据代替。如果你想使用自己的目标忧伤的悟空（相应的，Keras将不会在训练时期望为这些目标忧伤的悟空载入外部的numpy数据），你可以通过该参数手动指定。目标忧伤的悟空可以是一个单独的忧伤的悟空（对应于单输出模型），也可以是一个忧伤的悟空列表，或者一个name->tensor的忧伤的悟空字典。#model.summary()from scipy import misc#misc.imread把图片转化成矩阵，#misc.imresize重塑图片尺寸misc.imresize(misc.imread(img), img_size) img_size是自己设定的尺寸#ord()函数主要用来返回对应字符的ascii码，#chr()主要用来表示ascii码对应的字符他的输入时数字，可以用十进制，也可以用十六进制。def data_generator(data, batch_size): #样本生成器，节省内存 while True: #np.random.choice(x,y)生成一个从x中抽取的随机数,维度为y的向量，y为抽取次数 batch = np.random.choice(data, batch_size) x,y = [],[] for img in batch: x.append(misc.imresize(misc.imread(img), img_size))#读取resize图片,再存进x列表 y.append([ord(i)-ord(‘a’) for i in img[-8:-4]]) #把验证码标签添加到y列表,ord(i)-ord(‘a’)把对应字母转化为数字a=0，b=1……z=26 x = preprocess_input(np.array(x).astype(float))#原先是dtype=uint8转成一个纯数字的array y = np.array(y) yield x,[y[:,i] for i in range(4)]#输出：图片array和四个转化成数字的字母例如：[array([6]), array([0]), array([3]), array([24])])from keras.utils.vis_utils import plot_modelplot_model(model, to_file=”model.png”, show_shapes=True)model.fit_generator(data_generator(train_samples, 100), steps_per_epoch=1000, epochs=10, validation_data=data_generator(test_samples, 100), validation_steps=100) #参数：generator生成器函数,#samples_per_epoch，每个epoch以经过模型的样本数达到samples_per_epoch时，记一个epoch结束#step_per_epoch:整数，当生成器返回step_per_epoch次数据是记一个epoch结束，执行下一个epoch#epochs:整数，数据迭代的轮数#validation_data三种形式之一，生成器，类（inputs,targets）的元组，或者（inputs,targets，sample_weights）的元祖#若validation_data为生成器，validation_steps参数代表验证集生成器返回次数#class_weight：规定类别权重的字典，将类别映射为权重，常用于处理样本不均衡问题。#sample_weight：权值的numpy array，用于在训练时调整损失函数（仅用于训练）。可以传递一个1D的与样本等长的向量用于对样本进行1对1的加权，或者在面对时序数据时，传递一个的形式为（samples，sequence_length）的矩阵来为每个时间步上的样本赋不同的权。这种情况下请确定在编译模型时添加了sample_weight_mode=’temporal’。#workers：最大进程数#max_q_size：生成器队列的最大容量#pickle_safe: 若为真，则使用基于进程的线程。由于该实现依赖多进程，不能传递non picklable（无法被pickle序列化）的参数到生成器中，因为无法轻易将它们传入子进程中。#initial_epoch: 从该参数指定的epoch开始训练，在继续之前的训练时有用。#保存模型model.save(‘CaptchaForWechat.h5′)#评价模型的全对率(批量预测,num为预测样本总量)def predict1(num): from tqdm import tqdm total = 0. right = 0. step = 0 for x,y in tqdm(data_generator(test_samples, num)): z = model.predict(x) print (z) z = np.array([i.argmax(axis=1) for i in z]).T #print (z) #i.argmax(axis = 1)返回每行中最大数的索引，i.argmax(axis = 0)返回每列中最大数的索引 #26分类，索引为（0-25）对应（a-z），取出概率最大的索引找出对应的字母即可 y = np.array(y).T #原先的正确结果 total += len(x) #样本数量 right += ((z == y).sum(axis=1) == 4).sum()#四个都对就默认对了一个 if step < 100: step += 1 else: break result = u’模型全对率：%s’%(right/total) return resulttest_samples1 = glob.glob(r’/home/wongyao/验证码/test/test_sample/*.jpg’)test_list = [i for i in range(len(test_samples1))]def data_generator_test1(data, n): #样本生成器，节省内存 while True: batch = np.array([data[n]]) x,y = [],[] for img in batch: x.append(misc.imresize(misc.imread(img), img_size)) #读取resize图片,再存进x列表 y.append([ord(i)-ord(‘a’) for i in img[-8:-4]]) #把验证码标签添加到y列表,ord(i)-ord(‘a’)把对应字母转化为数字a=0，b=1……z=26 x = preprocess_input(np.array(x).astype(float)) #原先是dtype=uint8转成一个纯数字的array y = np.array(y) yield x,[y[:,i] for i in range(4)] #单张图片测试 def predict2(n): x,y = next(data_generator_test1(test_samples1, n)) z = model.predict(x) z = np.array([i.argmax(axis=1) for i in z]).T result = z.tolist() v = [] for i in range(len(result)): for j in result[i]: v.append(letter_list[j]) image = mpimg.imread(test_samples1[n]) plt.axis(‘off’) plt.imshow(image) plt.show() #输出测试结果 str = ” for i in v: str += i return (str)

单张测试结果展示如下:

cnn 验证码识别，基于卷积神经网络的语音识别

相关推荐

热门推荐

分类目录