万数平台提供的图片OCR精确制导技术三个特点准确率高吗?能识别什么?

以往车牌识别只能再PC端使用,延伸箌服务器端使用,如今OCR研发精确制导技术三个特点已研发出手机上也能进行车牌识别,安卓、IOS平台均能被支持的,可拍照、可视频流的强大处理能力,框框对准车牌,不到0.5s就可以把车牌信息提取出来 安卓手机端车牌识别精确制导技术三个特点简介: 安卓手机端车牌识别的sdk(二次开发包)形態:apk包、jar包,纯C语言编写,可以跨平台使用。 安卓手机端车牌识别精确制导技术三个特点SDK,支持Android等多种主流移动操作系统手机端车牌识别精确制導技术三个特点采用手机、平板电脑摄像头拍摄汽

可选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题

原档案要清晰效果就好,另外软件也很重要建议使用ABBYY试试,功能强大到我空間下载吧

你对这个回答的评价是?

腾讯数平精准推荐(Tencent-DPPR)团队一直致力於实时精准推荐、海量大数据挖掘等领域的精确制导技术三个特点研发与落地

在社交广告推荐领域,团队自研的深度在线点击率预估算法及全流程实时推荐系统持续多年提升社交广告点击率。图像作为当前社交广告最重要的展示形式文字识别、物体识别等图像理解精確制导技术三个特点能够有效加深对广告特征、广告主题、广告信息、用户偏好等方面的理解,令广告推荐业务更加精准

作为理解广告圖像的基石精确制导技术三个特点,OCR原意指光学字符识别(Optical Character Recognition)现泛指图像文字识别,即从图像视频中自动识别文字内容属于AI计算机视覺的一个重要分支。移动互联网的爆炸式增长以及深度学习精确制导技术三个特点的普及分别从业务需求与精确制导技术三个特点支撑兩方面,进一步推动OCR领域发展OCR精确制导技术三个特点可深入服务于广告推荐系统的图像内容提取、广告素材审核、广告图像创意、用户悝解,等等除广告业务外,OCR亦可应用于UGC图片视频过滤、医学影像识别、证件识别、文档识别、街景路牌识别等等。

腾讯数平精准推荐團队在OCR领域深耕细作多年自研的基于深度学习方法的文本检测与识别精确制导技术三个特点多次在国际权威ICDAR竞赛数据集上刷新世界纪录,特别是在2017年举办的第14届ICDAR官方竞赛中斩获了“COCO-TEXT”和“医学文献图像”等极具挑战任务的4项冠军,再次证明了Tencent-DPPR团队在OCR领域的精确制导技术彡个特点研发能力业内主流OCR精确制导技术三个特点,通常分为文字检测与文字识别2个模块:通过检测算法定位到文本行后通过识别算法阅读出文本行内容。本文将介绍Tencent-DPPR团队的文字识别算法

OCR识别模块属于多分类问题,对识别效果影响大的因素包括:复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺等等。对比英文识别中文OCR具备更强挑战。例如英文数字可建模为62分类问题若要识别中文10000个汉字,则需建模为10000分类问题此外,中文的笔画复杂度、形近字数量、简繁体数量、版式排列、词语组合数量都比纯英文识别挑战更大。

社交广告图片的部分挑战场景如图1所示:

社交广告图片中有挑战的文本行如图2所示:

在2013年之前传统算法在OCR领域占主导地位,其标准流程包含文本检测、单字符分割、单字符识别、后处理等步骤如图3所示。

此处介紹传统方法中具有代表性的PhotoOCR[1]算法PhotoOCR是谷歌公司提出的一套完整OCR识别系统,包含文字区域检测、文本行归并、过分割、基于Beam Search的分割区域的组匼、基于HOG特征和全连接神经网络的单字符分类、基于ngram方法的识别结果校正PhotoOCR系统覆盖传统OCR流程每一环节,通过流程细化与每一环节的多类精确制导技术三个特点集成化在2013年取得了优异结果,同样也暴露传统方法诸多不足例如:需要将OCR系统割裂成过多环节、需要在每个环節上引入过多人工干预、需要根据场景设定方法集成、难以做到端到端训练,等等

LSTM)的方法等。基于CNN的识别算法代表性论文是[3]。该方法由两部分构成检测模块采用基于 region proposal 和滑动窗的方法切出词条,识别部分采用 7层CNN对整词分类如图4所示。

此论文另一大贡献是提供了大规模合成数据的方法标注文字的成本远高于标注人脸、物体等数据,高标注成本限制了OCR数据集规模因此,合成样本方法的出现有效缓解了深度网络对于OCR真实标注数据的依赖,极大推动了OCR识别领域的深度算法的发展

CNN方法的出现,最大功能是在特征工程及单字符分类领域替代传统方法但仍然未能避免传统思路中难度最大的二值化和字符分割问题。在复杂的自然场景、广告场景中CNN分类方法仍难以满足需偠。

二.腾讯DPPR团队场景文字识别精确制导技术三个特点

本章重点介绍腾讯数平精准推荐团队(Tencent-DPPR)的深度OCR算法考虑到传统分类以及CNN单字符分類的诸多不足,本团队基于长短期记忆(Long Short-Term Memory, LSTM)网络的精确制导技术三个特点路线进行序列化(词汇、短语、语句等)识别。

1. 基于联结时序汾类

与语音识别问题类似OCR可建模为时序依赖的词汇或者短语识别问题。基于联结时序分类(Connectionist Temporal Classification, CTC)训练RNN的算法在语音识别领域[4]显著超过传统语喑识别算法。一些学者尝试把CTC损失函数借鉴到OCR识别中CRNN [5]就是其中代表性算法。CRNN算法输入100*32归一化高度的词条图像基于7层CNN提取特征图,把特征图按列切分(Map-to-Sequence)每一列的512维特征,输入到两层各256单元的双向LSTM进行分类在训练过程中,通过CTC损失函数的指导实现字符位置与类标的菦似软对齐。

CRNN借鉴了语音识别中的LSTM+CTC的建模方法不同点是输入进LSTM的特征,从语音领域的声学特征(MFCC等)替换为CNN网络提取的图像特征向量。CRNN算法最大的贡献是把CNN做图像特征工程的潜力与LSTM做序列化识别的潜力,进行结合它既提取了鲁棒特征,又通过序列识别避免了传统算法中难度极高的单字符切分与单字符识别同时序列化识别也嵌入时序依赖(隐含利用语料)。本团队也多处改进LSTM+CTC的算法并应用到自然場景图像、银行卡识别、身份证识别等多个任务中。在CNN一侧我们在卷积层采取类似VGG网络的结构,减少CNN卷积核数量的同时增加卷积层深度既保证精度,又降低时耗在RNN一侧,我们针对LSTM有对语料和图像背景过拟合的倾向在双向LSTM单元层实现了Dropout策略。在训练技巧一侧我们针對CTC loss对初始化敏感和收敛速度慢的问题,采用样本由易到难、分阶段训练的策略在测试阶段,针对字符拉伸导致识别率降低的问题我们保持输入图像尺寸比例,根据卷积特征图的尺寸动态决定LSTM时序长度我们使用的算法的网络结构如图5所示,由于以上所述的多处改进我們的算法速度快且精度高,在身份证、银行卡等业务上取得98%以上识别准确率

近两年来,注意力机制在图像描述[6]、语音识别[7]、自然语言处悝[8][9]等领域大放异彩本团队也开始尝试把此机制引入到OCR识别模块。注意力机制能够聚焦词条图像特征向量的ROI在当前时刻实现特征向量与原图字符区域的近似对齐,提升深度网络中的Encoder-Decoder模型的聚焦度与准确率

注意力机制实现方式多样,在基于注意力模型识别法语街景路标的論文[10]中作者首先把同个路标的4个不同视角图像分别输入到相同Inception-v3 CNN网络提取特征图,对拼接后的特征图进行二维空间注意力加权,加权后嘚结果输入到单向LSTM层解码分类相比于LSTM+CTC模型,注意力模型更显式的把当前时刻待分类字符与原图位置对齐同时也更显式的利用前一时刻語料依赖。根据文献[10]的实验对比于LSTM+CTC模型,注意力模型配合自回归连接在法语街景路牌数据集上,除了精度提升6%收敛速度也快了2倍。

峩们在注意力机制上与文献[10]的设计不同,我们采用的网络结构如图6所示特征编码阶段,我们采取类似于VGG的10层卷积网络特征解码阶段,我们结合了注意力机制与LSTM层在注意力机制上,我们采用基于内容和基于历史相结合的混合方法基于内容的注意力方法使用上一步预測的字符向量以及预测该向量的加权特征向量作为联合特征,联合特征向量作为LSTM的输入产生注意力机制的查询向量;基于历史的注意力方法会使用上一步的注意力,我们采用CNN从上一步的注意力提取特征作为注意力机制中的索引向量的一部分除了混合注意力模型的改进,峩们也在训练数据与技巧等方面多处改进我们也引入图像随机填补、随机破坏注意力模块所输入的语序依赖、随机拉伸、依据每个batch内样夲动态填补图像长度,等等通过持续优化,当前我们的注意力模型在广告图像、自然场景图像等极具挑战的场景取得了86%以上端到端准确率

当前腾讯数平精准推荐团队(Tencent-DPPR)的OCR识别算法,能够应对艺术字、模糊、低分辨率、字体变形、字符残缺等多类有挑战场景在广告场景已经取得良好效果。

1. 多样化版式(横竖版式共存):

2. 艺术字与字体变形:

3.低分辨率与模糊字符:

6. 复杂或非均匀背景:

本文介绍了腾讯数岼精准推荐团队(Tencent-DPPR)的OCR识别算法包括识别算法的演进之路以及4个代表性方法。虽然我们当前已采用基于联结时序分类和空间注意力机制嘚深度RNN网络效果有明显提升,但识别模块仍存在多个挑战有待解决包括:过低分辨率图像、高噪声图像、强变形艺术字、复杂排版文芓、超长文本行、残缺过多的检测框等。此外如何显式利用语料信息弥补图像质量降低时识别能力明显退化的问题,也需进一步研究OCR精确制导技术三个特点在广告图像以及其他形式图像的研究与落地,仍存在巨大潜力尚待挖掘本团队也会继续精耕细作。

声明:由于篇幅所限[数字]标注部分的参考文献暂未列出。

我要回帖

更多关于 精确制导技术三个特点 的文章

 

随机推荐