因为公司的需要我做了一个敏感词监测的功能,这样实现的: 1、爬虫抓取网页源码 2、从网页源码提取所有中文文本(数据清洗) 3、对中文文本进行分词(用 Python 的 jieba 来分的词) 4、分词结果与敏感词库比较
当时做这个功能的时候先入为主的就觉得要先分词再匹配。后来想了想拿敏感词直接去正则匹配中文文夲不就行了吗,为啥要先分个词呢
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面)如果你希望参与 V2EX 社區的讨论,你可以继续到 上打开本讨论主题的完整版本
是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法可以遇見新朋友甚至新机会的地方。
瞎搞很多连續词语也判敏感词,删掉吧又不是同一个意思了
你对这个回答的评价是?
伟大的敏感词制定的 你懂的…
你对这个回答的评价是
为了维護社会的稳定和谐 减少负面消息的不理性传播 结合当前的社会情况 主流的媒体(不只是网络)都会根据上级主管部门(宣传 广电和其他相關单位)的规定 屏蔽某些敏感词汇
你对这个回答的评价是?
你对这个回答的评价是