中国网络为什么会有敏感词现在网络敏感词数都数不清

因为公司的需要我做了一个敏感词监测的功能,这样实现的: 1、爬虫抓取网页源码 2、从网页源码提取所有中文文本(数据清洗) 3、对中文文本进行分词(用 Python 的 jieba 来分的词) 4、分词结果与敏感词库比较

当时做这个功能的时候先入为主的就觉得要先分词再匹配。后来想了想拿敏感词直接去正则匹配中文文夲不就行了吗,为啥要先分个词呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面)如果你希望参与 V2EX 社區的讨论,你可以继续到 上打开本讨论主题的完整版本

是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法可以遇見新朋友甚至新机会的地方。

采纳数:0 获赞数:0 LV1

瞎搞很多连續词语也判敏感词,删掉吧又不是同一个意思了

你对这个回答的评价是?

伟大的敏感词制定的 你懂的…

你对这个回答的评价是

为了维護社会的稳定和谐 减少负面消息的不理性传播 结合当前的社会情况 主流的媒体(不只是网络)都会根据上级主管部门(宣传 广电和其他相關单位)的规定 屏蔽某些敏感词汇

你对这个回答的评价是?

你对这个回答的评价是

我要回帖

更多关于 网络敏感词 的文章

 

随机推荐