结巴分词去停用词获取关键词时怎么过滤掉一些停用词

西安人人安居网
西安人人安居网
人人安居乐业,西安人人安居网,租子出租出售信息网。本帖子已过去太久远了,不再提供回复功能。相关内容推荐
爱脚本网()为你提供软件编程和硬件技术方面资料,信息,方法,是你完成项目及工作的好帮手。结巴分词获取关键词时怎么过滤掉一些停用词? - 知乎31被浏览12696分享邀请回答text =u'听说你超级喜欢万众掘金小游戏啊啊啊'
default_mode = jieba.cut(text,cut_all=False)
stopw = [line.strip().decode('utf-8') for line in open('D:\\Python27\\stopword.txt').readlines()]
print u'搜索引擎模式:',u'/'.join(set(default_mode)-set(stopw))
#除了效率低,这种方法有另一个弊端,就是你的停用词一定要被分词器正确的拆分,否则是没办法去掉的。#比如“啊啊啊”这个词是被分成一个词的,但是你的停用词字典中只有“啊”没有“啊啊啊”,#这个时候“啊啊啊”就不会被去掉。#所幸这个问题实际使用时影响是有限的,通过丰富你的停用词字典和反复测试,可以有效改善。另外一个方法是使用extract_tags函数,这个函数会根据TF-IDF算法将特征词提取出来,在提取之前会去掉停用词,可以人工指定停用词字典,代码如下:jieba.analyse.set_stop_words('D:\\Python27\\stopword.txt')
tags = jieba.analyse.extract_tags(text,20)
以上134 条评论分享收藏感谢收起3添加评论分享收藏感谢收起查看更多回答结巴分词&去停用词(2)
#coding:utf-8
import jieba
stop = [line.strip().decode('utf-8') for line in
open('stopword.txt').readlines() ]
segs = jieba.cut('北京附近的租房skf轴承skf轴承西安总代理',
cut_all=False)
&'|'.join(list(set(segs)-set(stop)))
print text
运行结果:
Building Trie..., from
F:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache
c:\docume~1\admini~1\locals~1\temp\jieba.cache
loading model cost &1.
Trie has been built succesfully.
租房|北京|总代理|西安
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 结巴分词 停用词 的文章

 

随机推荐