跪求外国人看中国文字文字识别

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>文字 >>跪求外国人看中国文字文字识别

跪求外国人看中国文字文字识别

来源：蜘蛛抓取(WebSpider) 时间：2017-09-07 11:07 标签：外国人眼里最美的文字

求助，oracle好像识别不了外国文字啊_oracle吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：49,754贴子：
求助，oracle好像识别不了外国文字啊收藏
这里的是柬埔寨文字我现在想根据full_name字段来查询查询无结果，我试过用模糊查询也是不行数据库的字符集如下求助大神如何解决
登录百度帐号推荐应用有哪些外国作家的文字简练而优美？ - 知乎5被浏览365分享邀请回答gtpweb.net/twr/sakuhin.htm1添加评论分享收藏感谢收起0添加评论分享收藏感谢收起多场景、多语种、高精度的整体文字检测和识别服务，提供基础的通用文字识别服务，同时提供含位置信息版、含生僻字版的高级服务
在各种拍摄环境下，自动识别和结构化提取卡证图像中的文字信息。支持二代居民身份证、银行卡、机动车驾驶证、行驶证的识别
在通用文字识别的基础上，针对网络图片进行了专项优化，对复杂字体、复杂背景的图片具有更优的识别效果
自动识别表格线及表格内容，结构化输出表头、表尾及每个单元格的文字内容，帮助您快速便捷地完成纸质报表单据的电子化
远程身份认证
结合OCR和人脸识别技术，实现用户证件信息的自动录入，并完成用户身份验证。应用于金融保险、社保、O2O等行业，有效控制业务风险
内容审核与监管
自动识别图片、视频中的文字内容，及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容，规避业务风险，大幅节约人工审核成本
纸质文档票据电子化
通过OCR实现纸质文档资料、票据、表格的自动识别和录入，减少人工录入成本，提高输入效率
百度语音QQ群
视频分析QQ群
DuerOSQQ群
图像识别QQ群
文字识别QQ群
理解与交互技术UNITQQ群
百度翻译QQ群
图像搜索QQ群
人脸识别QQ群
自然语言QQ群
百度ARQQ群
百度AI开放平台QQ群
图像审核QQ群
知识图谱QQ群
数据智能QQ群
关注百度AI
(C)2017 Baidu2892人阅读
iOS开发（105）
我现在的项目有一个需求，就是把拍照的照片上面的文字识别出来，然后上传到服务器，录入数据，其实图像识别技术是很难的一个技术。
(这是我的github里面的地址，关于ocr 的demo~&& /wwpeter/ocr)
OCR （Optical Character Recognition，）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent
Character Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。
OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy，1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。
早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。
20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年，我国提出“863”高新科技研究计划，汉字识别的研究进入一个实质性的阶段，清华大学的教授和中科院分别开发研究，相继推出了中文OCR产品，现为中国最领先汉字OCR技术。早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。只有个别部门，如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求。
软件结构：
由于扫描仪的普及与广泛应用，OCR软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，OCR软件主要是由下面几个部分组成。
图像输入、预处理：
图像输入：对于不同的图像格式，有着不同的存储格式，不同的压缩方式，目前有OpenCV,CxImage等开源项目。预处理：主要包括二值化，噪声去除，倾斜较正等
二值化：
对摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的，更好的识别文字，我们需要先对彩色图进行处理，使图片只前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色，这就是二值化图了。
噪声去除：
对于不同的文档，我们对噪声的定义可以不同，根据噪声的特征进行去噪，就叫做噪声去除
倾斜较正：
由于一般用户，在拍照文档时，都比较随意，因此拍照出来的图片不可避免的产生倾斜，这就需要文字识别软件进行较正。
版面分析：
将文档图片分段落，分行的过程就叫做版面分析，由于实际文档的多样性，复杂性，因此，目前还没有一个固定的，最优的切割模型。
字符切割：
由于拍照条件的限制，经常造成字符粘连，断笔，因此极大限制了识别系统的性能，这就需要文字识别软件有字符切割功能。
字符识别：
这一研究，已经是很早的事情了，比较早有模板匹配，后来以特征提取为主，由于文字的位移，笔画的粗细，断笔，粘连，旋转等因素的影响，极大影响特征的提取的难度。
版面恢复：
人们希望识别后的文字，仍然像原文档图片那样排列着，段落不变，位置不变，顺序不变，的输出到word文档,pdf文档等，这一过程就叫做版面恢复。
后处理、校对:
根据特定的语言上下文的关系，对识别结果进行较正，就是后处理。
一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。
从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出
欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
影像预处理：影像预处理是OCR系统中，须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。
对待识别图像进行如下预处理，可以降低特征提取算法的难度，并能提高识别的精度。
二值化：由于彩色图像所含信息量过于巨大，在对图像中印刷体字符进行识别处理前，需要对图像进行二值化处理，使图像只包含黑色的前景信息和白色的背景信息，提升识别处理的效率和精确度。
图像降噪：由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量，在对图像中印刷体字符进行识别处理前，需要根据噪声的特征对待识别图像进行去噪处理，提升识别处理的精确度。
倾斜校正：由于扫描和拍摄过程涉及人工操作，输入计算机的待识别图像或多或少都会存在一些倾斜，在对图像中印刷体字符进行识别处理前，就需要进行图像方向检测，并校正图像方向。
文字特征抽取：单以识别率而言，特征抽取可说是 OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征抽取的研究报告特别的多。而特征可说是识别的筹码，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软件的识别方法多以此种结构的方法为主。
对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。
这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以及的数据库建立及比对、HMM（Hidden Markov Model）…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts
System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。
字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的功能。
字词数据库：为字词后处理所建立的词库。
OCR最后的关卡，在此之前，使用者可能只是拿支鼠标，跟着软件设计的节奏操作或仅是观看，而在此有可能须特别花使用者的精神及时间，去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件，除了有一个稳定的影像处理及识别核心，以降低错误率外，人工校正的操作流程及其功能，亦影响OCR的处理效率，因此，文字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设计尽量少使用键盘的一种功能，当然，不是说系统没显示出的文字就一定正确，就像完全由键盘输入的工作人员也会有出错的时候，这时要重新校正一次或能允许些许的错，就完全看使用单位的需求了。
有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样，所以有原文重现的功能、有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。如果需要还原成原文一样格式，则在识别后，需要人工排版，耗时耗力。
&&相关文章推荐
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：239947次
积分：5681
积分：5681
排名：第4668名
原创：291篇
转载：18篇
评论：457条
(3)(2)(3)(2)(2)(1)(4)(4)(38)(30)(26)(10)(96)(48)(1)(39)不用找蓝翔好应用这里强
浏览 1269657 次
帖子 132187 个
文字识别软件推荐
学习工作中，我们常常需要处理文字信息，其中最令人头疼的就是打字了。电脑上我们可以借助ORC软件扫描照片上的文字，那么手机呢？可以使用Text Fairy。（这类软件只识别印刷体，不识别手写体）应用是英文界面的，所以我给大家翻译和讲解一下：首先翻译一下初始界面：你好点击这里，拍下一张照片，然后转文本点击这里，选择一张照片，然后转文本我(开发者)懂英语、俄语和德语(意味着应用自带这三种语言包)，但你可以下载其他语言。(按钮)下载您的语言（翻译结束）点击绿色的按钮后，可以看见图1的列表，选择Chinese（simplified）（简体中文）即可下载，下面那个是繁体中文，需要的话也可以下载。然后照个片试试吧，选择照片后可以修剪，然后点右下角的箭头，然后在弹窗（图2）上选择Chinese，然后点start开始，等待以后就得到文本了。由于选择的语言包是中文，所以英文识别成了乱码，只看中文的话正确率还可以。
该评论提到的应用:
ponyo是红头发
三星盖世兔
游戏应用都能写，厉害了我的明明~
愿意加我的Q吗想邀请你加入达人群
明明艺文志
游戏应用都能写，厉害了我的明明~
愿意加我的Q吗想邀请你加入达人群
不愿意，加了没什么用
亲，想发表评论请下载哦～
全部: 54972
可以靠脸，却偏要用智商
全部: 322439
请和谐撕逼高逼格灌水
残念Renown
ponyo是红头发
我们的产品
客服邮箱：
微博/微信合作QQ：
网游玩家客服QQ：
24小时举报电话号码：
广告合作QQ：
游戏合作QQ：
北京掌汇天下科技有限公司版权所有
京公网安备39号|

跪求外国人看中国文字文字识别

我要回帖

更多关于外国人眼里最美的文字的文章

随机推荐

跪求外国人看中国文字文字识别

我要回帖

更多关于 外国人眼里最美的文字 的文章

随机推荐

更多关于外国人眼里最美的文字的文章