640?wx_fmt=gif

640?wx_fmt=jpeg

来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年......

从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛入狱,有的被处罚金,从案件的模糊描述来看,我看得后背发凉,似乎每个爬虫选手都有被KO的风险。这几个月也停止了几个抓取工作,把有关的法律和新闻认真看了几遍,写了如下文章。


PS:这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等。



640?wx_fmt=png

网络爬虫的定罪依据



《刑法》第 285 条,非法获取计算机信息系统数据罪。获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,处三年以下有期徒刑或者拘役,并处或者单处罚金;最高处七年有期徒刑并处罚金。


《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。



640?wx_fmt=png

定罪案例



从已有案例来看有以下几种情况:


1、数据拥有者有证据能够举证你的数据是抓取来的。如下,今日头条对起诉上海晟品法院宣判结果。


640?wx_fmt=png

图片文字来自中国判决文书网


从文书描述来看,修改UA、修改device id、绕开网站访问频率控制这是写爬虫的基本,这些手法反而成为了获罪的依据。


2、抓取用户社交数据,尤其是用户隐私相关。


640?wx_fmt=png

图片文字来自新浪网


3、用爬虫技术扰乱对方网站经营规则,且牟利。比如这个:


640?wx_fmt=png

640?wx_fmt=png

图片文字来自中国永嘉公号


图上描述做搜索引擎排名的技术,其实就是利用爬虫技术规模化的访问网页。


在我们通常的认知里,因为互联网推崇分享精神,所以认为只要是网络公开数据就可以抓取,但是通过上面的案例来看,有几个禁忌,抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。


老板交代你抓取敏感任务时,让老板先看下刑法第285条。这不代表个人行为就没事,只是还没入他们的法眼。


在数据抓取这方面,美国也有一个判决案例,美国一家小公司向法院起诉Linkedin,理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据,而且法院判定这家公司胜诉,裁定Linkedin不准屏蔽这家公司的抓取行为。


目前我国法律是偏向数据拥有者的,如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。


另外在抓取过程中,如果破解/反编译对方客户端、软件,破解加密算法,比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。


最后,爬虫有风险,开爬要谨慎。


作者: 猿人学python,写Python十年有余,喜欢研究通过爬虫技术来挣钱,现为某科技公司合伙人。

声明:本文为作者投稿,版权归其个人所有。




 热 文 推 荐 

☞ 拼多多:“优惠券Bug属网络诈骗”;抖音多闪上架 App Store;任正非不知谁是接班人 | 极客头条

JavaScript 能写一切?Python 不服:盘它!

惊慌 Android!使用 3D 打印的头像可破解多款手机

区块链,会越来越无聊!

女程序员:我负责赚钱养家,老公负责貌美如花

任正非:人工智能就是计算机和统计学

K8S的SDN容器网络解决方案【机制篇】

☞ 心疼!能为程序员男友做些什么吗?

640?wx_fmt=gif

 
 

print_r('点个好看吧!');
var_dump('点个好看吧!');
NSLog(@"点个好看吧!");
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!");
cout << "点个好看吧!" << endl;
Console.WriteLine("点个好看吧!");
fmt.Println("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"

640?wx_fmt=gif点击“阅读原文”,打开 CSDN App 阅读更贴心!

640?wx_fmt=png 喜欢就点击“好看”吧
Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐