请问有程序员会爬女友隐私吗能帮忙爬个数据吗?

*本文原创作者:liong03,本文属FreeBuf原创奖励计划,未经许可禁止转载

先简单自我介绍一下,其实,我是一个信息安全工程师,也是一个人的“安全部”……

近期看到一些朋友问数据安全保护怎么弄,刚好为某企业简单规划过,很多前辈大佬都有介绍过数据安全,突然想用一种不一样的姿势来分享,通过一些文字条框再结合一些故事案例来思考。

数据安全也是一个整体的体系,环环相扣,说说对数据安全保护的构思吧。一张图胜过千言万语,如果不行,那就三张:

数据安全防护六“不”曲:

简单做了一个数据安全威胁/风险脑图:



2)然后筛选日志中/admin/basics/main,发现某黑阔也是半夜不睡觉的,成功登陆了某后台:

查看了下IP是外省浙江的,当然了这种IP基本不是真实源,不会用代理的黑阔不是好黑阔。

测试了下这个page=是什么,他大爷,在查其他用户个人信息啊(勿惊,问题不大,只是故事,大家都是做安全的,混口饭吃不容易):

做日志审计,前提是要开启相应的日志审计策略,默认的日志信息是很少的,开启日志审计时还需要注意,如果全部开启,日志信息可能巨庞大,会有很多无用日志,所以最好是先确定是需要开启哪些审计策略。

关于日志信息如何审计,审计哪些,这里做了一个简单的win2008常用审计事件ID(win7与win2008的日志事件ID没什么区别):

1)这是在爆破账号密码啊:

2)访问445端口的筛选:

(三)UNIX 系统日志

(五)交换机/ 路由器

为什么这里没有介绍数据库的日志呢,因为一旦开启数据库的审计策略,数据库性能将 产生巨大影响 ,因此建议只使用默认的审计策略。

数据库日志审计,可以参考如下:

1. 部署堡垒机进行运维管理,堡垒机日志对操作者所有操作行为进行日志记录;
2. 旁路部署数据库审计产品,并实现用户IP、应用服务器IP与数据库IP三层关联,对数据库的每条数据库命令的执行进行记录;
3. 至于设备部署以及策略配置位置,建议就近原则。

通过专业的运维管理系统进行运维监控,对服务器的CPU、硬盘、内存、网络等资源的使用情况,以及系统的服务水平进行检测和告警。某卡的软件可以实现这些功能,这里就不放图了以免广告嫌疑。

接口的调用监控:限制访问次数、最大连接量,接口流量实时监控、异常流量告警,如短信接口、提现接口、充值接口等等;

有时能看到一些爬虫、短信炸弹、CC攻击等,比如这种半夜不睡觉的黑阔,在换着IP刷短信,如果让他刷上一晚:

注:比如某系统已经停用了,有漏洞也不打算补了,反正都不用了,但某天系统又重新开启还不通知安全,这时技术、管理已经失效了,所以还有监控这一道防线。

1. 关键信息基础设施的运营者在运营中收集和产生的个人信息和重要数据应当在境内存储;
2. 对审计进程进行保护,防止未经授权的中断;
3. 审计记录进行保护,定期备份,避免受到未预期的删除、修改或覆盖等,如:审计记录备份到日志服务器;
4. 日志信息保存至少6个月。

设计安全防护框架,可能也不尽如人意。一图胜千言,如果不行,那就两张:

最后不想多说,文章内容仅是个人工作生活中的一些经验和想法,不同的角度会有不同的观点。

文章内容也还有不足,主要是细说可以展开成很大的篇幅。幸好还是坚持把它写完……

*本文原创作者:liong03,本文属FreeBuf原创奖励计划,未经许可禁止转载

近期,一起关于爬虫与反爬虫的诉讼案件再次被推到了公众面前。

公交作为互联网从业者的必备通勤工具之一,是出行领域必争的板块。实时公交 APP 也就成为了热门的应用场景,它们不仅可以为用户提供定位、公交路线查询等信息,还涉及路线规划、实时公交信息地理位置等服务。在这其中,“酷米客”和“车来了”是大众使用较为频繁的两款实时公交出行 APP。

“车来了”授意五名程序员爬取实时公交数据,竟构成犯罪行为

2012 年 10 月,深圳谷米科技有限公司推出了酷米客实时公交 APP。通过在公交车上安装定位器,酷米客获得了海量的实时公交位置数据,具有定位精度高、实时误差小等明显优势,并迅速吸引了大批市场用户。目前,酷米客 APP 拥有超过 5000 万的注册量,每日活跃用户超过 400 万。

但是 2015 年 11 月的时候,同为实时公交 APP 的“车来了”为了提升市场份额和信息查询准确度,竟授意五位程序员员工利用爬虫软件获取酷米客公司服务器的公交车行驶信息、到站时间等实时数据。

厉害的是,这五位程序员分工十分明确:一位负责编写爬虫软件程序;一位负责不断更换爬虫软件程序内的 IP 地址,以防止被察觉;一位利用所设置的不同 IP 地址及爬虫程序向酷米客发出数据请求;一位负责破解酷米客客户端的加密算法;在破解失败后,另一位员工又聘请其他公司的技术人员帮忙攻破加密系统,使得爬虫工作得以顺利实施。这一系列数据操作“成效”斐然,帮助“车来了”获取了大量的酷米客实时数据,日均可达 300-400 万条。

花费了巨大人力、时间和经济成本所获得的信息却被同行窃取了,还直接挤压了自身的竞争优势和交易机会,这让酷米客怎么甘心?

一怒之下,2016 年,酷米客将车来了告上了法庭。历时两年之久,这场纠纷案才最终一锤定音。今年 5 月,法院裁定车来了立即停止获取、使用酷米客实时公交位置数据的不正当竞争行为,并赔偿其经济损失。

想必看到这里,大家最为关心的问题是那五位程序员会获罪吗?虽然在诉讼过程中,五位程序员员工利用网络爬虫二次获取公交车辆实时信息的行为都只是因为履行工作职责,没有用于谋取个人私利。然而,酷米客后台服务器存储的数据具有巨大的商业价值,未经其许可,任何人不得非法获取该软件的后台数据并用于经营行为——因此他们必须承担连带责任。

对此,中关村大数据联盟副秘书长陈新河老师告诉 CSDN(ID:CSDNnews),“数据爬虫的违法边界一直是互联网争议的热点,尤其是在大数据时代,随着内容数据价值的日益凸显,爬虫侵权案也越来越多。”身处其中的程序员们,面对上级下发的“爬虫需求”,是难以置身事外的,一不小心可能就入了局。

爬虫犯罪的判定仍不明确,尚处于灰色地带

事实上,爬虫犯罪一直是个难以界定的灰色地带。

网络爬虫是一种自动获取网页内容的程序,通常情况下它是不违法的,比如很多人都会用到的百度搜索,除去其自营的百度知道、百度百科等,几乎都是爬虫采集下来的。作为一门技术,爬虫本身并不违法,所以大多数情况下都可以放心大胆地用。一般而言,常见的爬虫手段包括有构造合理的 HTTP 请求头、设置 cookie、降低访问频率、隐含输入字段值、使用代理等等。

比如 CSDN 此前就曾分享过北京二手房数据、网易云音乐评论、马蜂窝出行数据、大众点评、福彩 3D 信息等应用数据爬取。但并不是所有数据都有“可爬之机”,陈新河表示,“让不让爬,能不能超越规则之外的爬,能不能用技术手段跨越封锁......这些打擦边球的爬虫就很容易擦枪走火。”——尤其是当站点明确声明禁止爬虫采集或转载商业化,或当网站声明了 Robots 协议时。

Robots 协议也称为爬虫协议、机器人协议,其全称为“网络爬虫排除标准”(Robots Exclusion Protocol)。网站通过 Robots 协议告诉爬虫哪些页面可以抓取,哪些页面禁止抓取。

Robots 协议是搜索引擎行业内公认的、应当被遵守的商业道德。

尽管如此,以身试险的“勇者”仍是不计其数,包括我们耳熟的百度、360 搜索、大众点评、今日头条等:

  • 2012 年,360 搜索违反 Robots 协议,强行抓取百度旗下百度知道、百度百科、百度贴吧、百度旅游等内容,最终被裁定赔偿百度 70 万元。

  • 2016 年,大众点评网起诉百度公司。自 2012 年以来,百度公司未经许可在百度地图、百度知道中大量抄袭、复制大众点评网的用户点评信息,直接替代大众点评网向用户提供的内容,给其自身造成巨大损失。百度最终败诉,停止了在百度地图等产品中使用点评信息,并赔偿 300 万元。

  • 2017 年,秀淘破解了今日头条服务器的防抓措施,使后者损失技术服务费两万元。最终法庭判决,涉事者因为触犯非法获取计算机信息系统数据罪,被判九个月至一年不等的有期徒刑,并处罚金。这也是国内首起“爬虫入刑”案。

其实可以预料的是,因为目前监管法律的不完善,仍有很多漏网之鱼。但是随着数据价值的不断挖掘,未来的爬虫侵权案只会越来越多。

第三方网站该如何应对日益猖獗的爬虫行为?

那面对日益猖獗的爬虫行径,作为网站方该如何应对?

既然有“爬虫”,那自然会有“反爬虫”。网站一般采用的反爬虫技术可以分为四个种类:通过 User-Agent 来控制访问、通过 IP 限制来反爬虫、通过 JS 脚本来防止爬虫、通过 /ChenXinHe2020/article/details/;

  • 《盘点一些网站的反爬虫机制》,作者极客猴,获作者授权使用;

  • 感谢陈新河老师对本文提供的指导意见。

网络爬虫一天能爬2,3万 这是什么水平 [问题点数:20分,结帖人tan625747]

结帖率 /view/这样的网站,它很多的数据都存在数据库里面,如果不进行1那样的处理,很容易就可以给爬虫整死,为了实现专门的供爬虫访问的服务器,还必须设立对应的专门的数据库服务器,这种数据库服务器中的数据是从正规运营的数据库服务器复制过来的,这通常会使得正规运营数据库服务器的效率降低1%左右,但这显然是可以接受的。

我们自己写的爬虫爬百度1个小时就被禁IP了,你爬哪些网站,这么轻松

我们自己写的爬虫爬百度1个小时就被禁IP了,你爬哪些网站,这么轻松

从hao123开始爬,比较广泛的。

好爬虫的标准就是,让带宽是瓶颈。以目前的adsl来算,带宽1m,普通网页按照100k来算,一小时4000个算达标。

防爬虫js,各种BT验证码

可以参考wget源码分析

防爬虫js,各种BT验证码
匿名用户不能发表回复!

我要回帖

更多关于 程序员会爬女友隐私吗 的文章

 

随机推荐