自然语言处理入门怎么最快入门

&&&&自然语言处理经典入门书籍
&自然语言处理经典入门书籍
自然语言处理经典入门书籍,得此书者得天下,还等什么亲
若举报审核通过,可奖励20下载分
被举报人:
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
VIP下载&&免积分60元/年(1200次)
您可能还需要
Q.为什么我点的下载下不了,但积分却被扣了
A. 由于下载人数众多,下载服务器做了并发的限制。若发现下载不了,请稍后再试,多次下载是不会重复扣分的。
Q.我的积分不多了,如何获取积分?
A. 获得积分,详细见。
完成任务获取积分。
论坛可用分兑换下载积分。
第一次绑定手机,将获得5个C币,C币可。
关注并绑定CSDNID,送10个下载分
下载资源意味着您已经同意遵守以下协议
资源的所有权益归上传用户所有
未经权益所有人同意,不得将资源中的内容挪作商业或盈利用途
CSDN下载频道仅提供交流平台,并不能对任何下载资源负责
下载资源中如有侵权或不适当内容,
本站不保证本站提供的资源的准确性,安全性和完整性,同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
开发技术下载排行
您当前C币:0&&&可兑换 0 下载积分
兑换下载分:&
消耗C币:0&
立即兑换&&
兑换成功你当前的下载分为 。前去下载资源
你下载资源过于频繁,请输入验证码
如何快速获得积分?
你已经下载过该资源,再次下载不需要扣除积分
自然语言处理经典入门书籍
所需积分:1
剩余积分:0
扫描微信二维码精彩活动、课程更新抢先知
VIP会员,免积分下载
会员到期时间:日
剩余下载次数:1000
自然语言处理经典入门书籍
剩余次数:&&&&有效期截止到:
你还不是VIP会员VIP会员享免积分 . 专属通道极速下载
VIP下载次数已满VIP会员享免积分 . 专属通道极速下载,请继续开通VIP会员
你的VIP会员已过期VIP会员享免积分 . 专属通道极速下载,请继续开通VIP会员日00:24:12
摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。(本文原创,转载注明出处:& )
1 什么是文本挖掘?
文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。
2 什么是自然语言处理?
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。自然语言处理原理:形式化描述-数学模型算法化-程序化-实用化语音的自动合成与识别、机器翻译、自然语言理解、人机对话、信息检索、文本分类、自动文摘等。
3&常用中文分词?
中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。StanfordNLP(直接使用CRF 的方法,特征窗口为5。)汉语分词工具(个人推荐)
哈工大语言云
庖丁解牛分词
盘古分词& ICTCLAS(中科院)汉语词法分析系统&
IKAnalyzer(Luence项目下,基于java的)&
FudanNLP(复旦大学)
4 词性标注方法?句法分析方法?
原理描述:标注一篇文章中的句子,即语句标注,使用标注方法BIO标注。则观察序列X就是一个语料库(此处假设一篇文章,x代表文章中的每一句,X是x的集合),标识序列Y是BIO,即对应X序列的识别,从而可以根据条件概率P(标注|句子),推测出正确的句子标注。&&
显然,这里针对的是序列状态,即CRF是用来标注或划分序列结构数据的概率化结构模型,CRF可以看作无向图模型或者马尔科夫随机场。 & 用过CRF的都知道,CRF是一个序列标注模型,指的是把一个词序列的每个词打上一个标记。一般通过,在词的左右开一个小窗口,根据窗口里面的词,和待标注词语来实现特征模板的提取。最后通过特征的组合决定需要打的tag是什么。
5 命名实体识别?三种主流算法,CRF,字典法和混合方法 &
1 CRF:在CRF for Chinese NER这个任务中,提取的特征大多是该词是否为中国人名姓氏用字,该词是否为中国人名名字用字之类的,True or false的特征。所以一个可靠的百家姓的表就十分重要啦~在国内学者做的诸多实验中,效果最好的人名可以F1测度达到90%,最差的机构名达到85%。 &
2 字典法:在NER中就是把每个字都当开头的字放到trie-tree中查一遍,查到了就是NE。中文的trie-tree需要进行哈希,因为中文字符太多了,不像英文就26个。 &
3 对六类不同的命名实体采取不一样的手段进行处理,例如对于人名,进行字级别的条件概率计算。 & 中文:哈工大(语言云)上海交大&&& 英文:stanfordNER等
7 基于主动学习的中医文献句法识别研究 &
7.1 语料库知识? &&&&&&
语料库作为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料的集合。 &&&
语料库划分:① 时间划分② 加工深度划分:标注语料库和非标注语料库③ 结构划分⑤ 语种划分⑥ 动态更新程度划分:参考语料库和监控语料库 &&&
语料库构建原则:①&& 代表性②&& 结构性③&& 平衡性④&& 规模性⑤&& 元数据:元数据对 &&&&&&
语料标注的优缺点
①&& 优点: 研究方便。可重用、功能多样性、分析清晰。
②&& 缺点: 语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低
&7.2 条件随机场解决标注问题? &&&&&
条件随机场用于序列标注,中文分词、中文人名识别和歧义消解等自然语言处理中,表现出很好的效果。原理是:对给定的观察序列和标注序列,建立条件概率模型。条件随机场可用于不同预测问题,其学习方法通常是极大似然估计。 &&&&&
我爱中国,进行序列标注案例讲解条件随机场。(规则模型和统计模型问题) &&
条件随机场模型也需要解决三个基本问题:特征的选择(表示第i个观察值为&爱&时,相对yi,yi-1的标记分别是B,I),参数训练和解码。 && &
7.3 隐马尔可夫模型 &&&&&
应用:词类标注、语音识别、局部句法剖析、语块分析、命名实体识别、信息抽取等。应用于自然科学、工程技术、生物科技、公用事业、信道编码等多个领域。 &&
马尔可夫链:在随机过程中,每个语言符号的出现概率不相互独立,每个随机试验的当前状态依赖于此前状态,这种链就是马尔可夫链。 &&
多元马尔科夫链:考虑前一个语言符号对后一个语言符号出现概率的影响,这样得出的语言成分的链叫做一重马尔可夫链,也是二元语法。二重马尔可夫链,也是三元语法,三重马尔可夫链,也是四元语法 &&&&&
隐马尔可夫模型思想的三个问题&
问题1(似然度问题):给一个HMM &=(A,B) 和一个观察序列O,确定观察序列的似然度问题 P(O|&) 。(向前算法解决) &&&&&&&&&
问题2(解码问题):给定一个观察序列O和一个HMM &=(A,B),找出最好的隐藏状态序列Q。(维特比算法解决) &&&&&&&&&
问题3(学习问题):给定一个观察序列O和一个HMM中的状态集合,自动学习HMM的参数A和B。(向前向后算法解决)
7.4 Viterbi算法解码 &&&&&
1 计算时间步1的维特比概率
2 计算时间步2的维特比概率,在(1) 基础计算
3 计算时间步3的维特比概率,在(2) 基础计算
4 维特比反向追踪路径 &&&&& &&
维特比算法与向前算法的区别: &&&&
(1)维特比算法要在前面路径的概率中选择最大值,而向前算法则计算其总和,除此之外,维特比算法和向前算法一样。 &&&&
(2)维特比算法有反向指针,寻找隐藏状态路径,而向前算法没有反向指针。 &&&&&
HMM和维特比算法解决随机词类标注问题,利用Viterbi算法的中文句法标注 &
7.5 序列标注方法 &&&&& 参照上面词性标注 & &
7.6 模型评价方法 &&&&&
模型:方法=模型+策略+算法 &&
模型问题涉及:训练误差、测试误差、过拟合等问题。通常将学习方法对未知数据的预测能力称为泛化能力。
模型评价参数: &&&&&
准确率P=识别正确的数量/全部识别出的数量 &&
错误率 =识别错误的数量/全部识别出的数量 &&
精度=识别正确正的数量/识别正确的数量 &&&&&
召回率R=识别正确的数量/全部正确的总量(识别出+识别不出的) &&
F度量=2PR/(P+R) && &&
数据正负均衡适合准确率 && 数据不均适合召回率,精度,F度量 &&
几种模型评估的方法:
K-折交叉验证、随机二次抽样评估等 && ROC曲线评价两个模型好坏 &
8 基于文本处理技术的研究生英语等级考试词汇表构建系统 &
完成对年17套GET真题的核心单词抽取。其中包括数据清洗,停用词处理,分词,词频统计,排序等常用方法。真题算是结构化数据,有一定规则,比较容易处理。此过程其实就是数据清洗过程)最后把所有单词集中汇总,再去除如:a/an/of/on/frist等停用词(中文文本处理也需要对停用词处理,诸如:的,地,是等)。处理好的单词进行去重和词频统计,最后再利用网络工具对英语翻译。然后根据词频排序。 & &
8.1 Apache Tika? &&&&&
Apache Tika内容抽取工具,其强大之处在于可以处理各种文件,另外节约您更多的时间用来做重要的事情。 &&
Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件 &&
Tika的功能:&文档类型检测&& &内容提取& &元数据提取& &语言检测
8.2 文本词频统计?词频排序方法? &&&&&
算法思想:
1 历年(年)GET考试真题,文档格式不一。网上收集 &&&&&&&&&&&&&&&
2 对所有格式不一的文档进行统计处理成txt文档,格式化(去除汉字/标点/空格等非英文单词)和去除停用词(去除891个停用词)处理。 &&&&&&&&&&&&&&&
3 对清洗后的单词进行去重和词频统计,通过Map统计词频,实体存储:单词-词频。(数组也可以,只是面对特别大的数据,数组存在越界问题)。排序:根据词频或者字母
4 提取核心词汇,大于5的和小于25次的数据,可以自己制定阈值。遍历list&实体&列表时候,通过获取实体的词频属性控制选取词汇表尺寸。 &&&&&&&&&&&&&&&
5 最后一步,中英文翻译。 &&&&
9 朴素贝叶斯模型的文本分类器的设计与实现 &
9.1 朴素贝叶斯公式 &
0:喜悦& 1:愤怒 2:厌恶 3:低落 &
9.2 朴素贝叶斯原理 &
--&训练文本预处理,构造分类器。(即对贝叶斯公式实现文本分类参数值的求解,暂时不理解没关系,下文详解) &
--&构造预测分类函数 &
--&对测试数据预处理 &
--&使用分类器分类 &&&
对于一个新的训练文档d,究竟属于如上四个类别的哪个类别?我们可以根据贝叶斯公式,只是此刻变化成具体的对象。 &&&
& P( Category | Document):测试文档属于某类的概率 &&&
& P( Category)):从文档空间中随机抽取一个文档d,它属于类别c的概率。(某类文档数目/总文档数目) &&&
& (P ( Document | Category ):文档d对于给定类c的概率(某类下文档中单词数/某类中总的单词数) &&&
& P(Document):从文档空间中随机抽取一个文档d的概率(对于每个类别都一样,可以忽略不计算。此时为求最大似然概率) &&&
&& C(d)=argmax {P(C_i)*P(d|c_i)}:求出近似的贝叶斯每个类别的概率,比较获取最大的概率,此时文档归为最大概率的一类,分类成功。 &
1.& 事先收集处理数据集(涉及网络爬虫和中文切词,特征选取) &&&&&
2.& 预处理:(去掉停用词,移除频数过小的词汇【根据具体情况】) &&&&&
3.& 实验过程:
数据集分两部分(3:7):30%作为测试集,70%作为训练集&&&&&&&&&
增加置信度:10-折交叉验证(整个数据集分为10等份,9份合并为训练集,余下1份作为测试集。一共运行10遍,取平均值作为分类结果)优缺点对比分析 &&&&&
4. 评价标准: &&&&&&&&&
宏评价&微评价&&&&&&&&&&
9.3 生产模型与判别模型区别 &&&&&&
1)生产式模型:直接对联合分布进行建模,如:隐马尔科夫模型、马尔科夫随机场等 &&&&&&
2)判别式模型:对条件分布进行建模,如:条件随机场、支持向量机、逻辑回归等。 &&&&&&&&&
生成模型优点:1)由联合分布2)收敛速度比较快。3)能够应付隐变量。 缺点:为了估算准确,样本量和计算量大,样本数目较多时候不建议使用。 &&&&&&&&&
判别模型优点:1)计算和样本数量少。2)准确率高。缺点:收敛慢,不能针对隐变量。 &
9.4 ROC曲线 &&&&&
ROC曲线又叫接受者操作特征曲线,比较学习器模型好坏可视化工具,横坐标参数假正例率,纵坐标参数是真正例率。曲线越靠近对角线(随机猜测线)模型越不好。 &&&&&
好的模型,真正比例比较多,曲线应是陡峭的从0开始上升,后来遇到真正比例越来越少,假正比例元组越来越多,曲线平缓变的更加水平。完全正确的模型面积为1
10 统计学知识
信息图形化(饼图,线形图等)
集中趋势度量(平均值 中位数 众数 方差等)
分布(几何二项泊松正态卡方)
11 stanfordNLP
句子理解、自动问答系统、机器翻译、句法分析、标注、情感分析、文本和视觉场景和模型, 以及自然语言处理数字人文社会科学中的应用和计算。
12&APache OpenNLP
Apache的OpenNLP库是自然语言文本的处理基于机器学习的工具包。它支持最常见的NLP任务,如断词,句子切分,部分词性标注,命名实体提取,分块,解析和指代消解。
句子探测器:句子检测器是用于检测句子边界
标记生成器:该OpenNLP断词段输入字符序列为标记。常是这是由空格分隔的单词,但也有例外。
名称搜索:名称查找器可检测文本命名实体和数字。
POS标注器:该OpenNLP POS标注器使用的概率模型来预测正确的POS标记出了标签组。
细节化:文本分块由除以单词句法相关部分,如名词基,动词基的文字,但没有指定其内部结构,也没有其在主句作用。
分析器:尝试解析器最简单的方法是在命令行工具。该工具仅用于演示和测试。请从我们网站上的英文分块
Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta(雅加达) 家族中的一个 开源项目。也是目前最为流行的基于Java开源全文检索工具包。
目前已经有很多应用程序的搜索功能是基于 Lucene ,比如Eclipse 帮助系统的搜索功能。Lucene能够为文本类型的数 据建立索引,所以你只要把你要索引的数据格式转化的文本格式,Lucene 就能对你的文档进行索引和搜索。
14 Apache Solr
Solr它是一种开放源码的、基于 Lucene Java 的搜索服务器。Solr 提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式。它易于安装和配置, 而且附带了一个基于HTTP 的管理界面。可以使用 Solr 的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要。
Solr的特性包括:
&高级的全文搜索功能
&专为高通量的网络流量进行的优化
&基于开放接口(XML和HTTP)的标准
&综合的HTML管理界面
&可伸缩性-能够有效地复制到另外一个Solr搜索服务器
&使用XML配置达到灵活性和适配性
&可扩展的插件体系 solr中文分词
15 机器学习降维
主要特征选取、随机森林、主成分分析、线性降维
16 领域本体构建方法 &&
1 确定领域本体的专业领域和范畴
2 考虑复用现有的本体
3 列出本体涉及领域中的重要术语
4 定义分类概念和概念分类层次
5 定义概念之间的关系
17 构建领域本体的知识工程方法:
主要特点:本体更强调共享、重用,可以为不同系统提供一种统一的语言,因此本体构建的工程性更为明显。
方法:目前为止,本体工程中比较有名的几种方法包括TOVE 法、Methontology方法、骨架法、IDEF-5法和七步法等。(大多是手工构建领域本体)
现状: 由于本体工程到目前为止仍处于相对不成熟的阶段,领域本体的建设还处于探索期,因此构建过程中还存在着很多问题。
方法成熟度: 以上常用方法的依次为:七步法、Methontology方法、IDEF-5法、TOVE法、骨架法。
阅读(...) 评论()人人网 - 抱歉
哦,抱歉,好像看不到了
现在你可以:
看看其它好友写了什么
北京千橡网景科技发展有限公司:
文网文[号··京公网安备号·甲测资字
文化部监督电子邮箱:wlwh@··
文明办网文明上网举报电话: 举报邮箱:&&&&&&&&&&&&点击上方“机器学习研究会”可以订阅哦摘要 知乎昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道去哪儿了解最新科研动态了。我想这可能是初学者们共通的困惑,与其只告诉一个人知道,不如将这些Folk Knowledge写下来,来减少更多人的麻烦吧。当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处,受个人认知所限,难免挂一漏万,还望大家海涵指正。
1. 国际学术组织、学术会议与学术论文
自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合。与其他计算机学科类似,NLP/CL有一个属于自己的最权威的国际专业学会,叫做The Association for Computational Linguistics(ACL,URL:ACL Home Page),这个协会主办了NLP/CL领域最权威的国际会议,即ACL年会,ACL学会还会在北美和欧洲召开分年会,分别称为NAACL和EACL。除此之外,ACL学会下设多个特殊兴趣小组(special interest groups,SIGs),聚集了NLP/CL不同子领域的学者,性质类似一个大学校园的兴趣社团。其中比较有名的诸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。这些SIGs也会召开一些国际学术会议,其中比较有名的就是SIGDAT组织的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL组织的CoNLL(Conference on Natural Language Learning)。此外还有一个International Committee on Computational Linguistics的老牌NLP/CL学术组织,它每两年组织一个称为International Conference on Computational Linguistics (COLING)的国际会议,也是NLP/CL的重要学术会议。NLP/CL的主要学术论文就分布在这些会议上。
原文链接:
/question/“完整内容”请点击【阅读原文】↓↓↓
本文来自微信公众账号提交,由微信啦收录,转载请注明出处。
微信扫码 分享文章

我要回帖

更多关于 科大讯飞 的文章

 

随机推荐