如何在游戏推广中合法使用爬虫技术?
使用爬虫技术的“反面教材”
今天的头条服务器被非法捕获数据案件
犯罪:非法获取计算机信息系统数据罪
上海某网络公司CTO侯某指示该公司技术人员郭某破解北京字节跳动网络技术有限公司的防抓措施,并使用“tt_spider“文件实施视频数据捕获,造成北京字节跳动网络技术有限公司技术服务费损失2万元。经鉴定,“tt_spider文件包括通过标题视频列表、分类视频列表、相关视频和评论三个接口捕获标题服务器的数据,并将结果存储在数据库中的逻辑。使用伪造device_id绕过服务器的身份验证,使用伪造UA和IP绕过服务器的访问频率限制。
法院认为,被告单位及相关负责人利用技术手段获取存储在计算机信息系统中的数据,情节严重,已构成非法获取计算机信息系统数据罪,应予以处罚。
非法获取新浪微博用户信息
原因:不正当竞争纠纷:不正当竞争纠纷:不正当竞争纠纷
法院认为,新浪微博用户的专业信息和教育信息在合作期间超出许可范围,合作终止后长期使用新浪微博用户信息作为脉冲软件中非脉冲用户的相关信息;同时,非法获取并显示用户手机地址簿联系人与新浪微博用户的对应关系,在脉冲软件中展示大量非脉冲用户的新浪微博信息和好友关系,方便脉冲软件扩展自己的用户群。这种行为是一种不公平的竞争行为。
“爬虫”本无罪,为什么要被查处?
爬虫是一种网络搜索技术。根据搜索目的选择一批网页。这些网页的链接地址被用作种子URL。将这些种子放入待捕获的URL队列中。爬虫访问待捕获的URL队列 URL 对应的页面,并进行页面分析,将链接地址转换为IP地址,然后交给网页下载器负责下载,这样循环,直到URL 队列中的所有URL 爬行或满足系统的一定停止条件。
要说为什么爬虫技术会被调查和处罚,笔者认为应该从如何使用该技术和技术收集的内容两个方面进行分析。
使用爬虫技术的合规要求
刑法第285条第2款对非法获取计算机信息系统数据犯罪的表述是“侵入前款规定以外的计算机信息系统或采用其他技术手段获取存储、处理或传输的计算机信息系统数据”,即爬虫技术构成犯罪有两种手段:一种是“侵入”行为,另一种是采用其他技术手段行为。
在“今日头条服务器被非法捕获的数据案例”中,我们注意到一个关键词“绕过”。一个流行的理解是,我最初设置了一个访问控制来防止你进入,但你通过技术手段避免了我设置的访问控制系统进入我的领土。在这种情况下,被告利用爬虫技术绕过今日头条网站服务器端的身份验证系统,其行为性质实际上属于非法侵入受害单位的计算机信息系统。
当游戏企业在推广中需要使用爬虫技术收集数据时,技术人员应注意数据权利人或控制人是否在计算机信息系统中设置了机器人.txt 还有robots.txt 对爬虫程序的授权范围。robtes.txt,又称爬虫协议、机器人协议等,全称为“网络爬虫排除标准”(Robots Exclusion Protocol),它是国际互联网行业逐步确立的道德规范,以确保搜索技术服务于人类。主要内容是:当爬虫程序访问一个网站时,它将首先检查网站根目录中是否存在robots.txt,如果存在,爬虫程序将根据文件中的内容确定访问范围;如果文件不存在,所有爬虫程序都可以访问网站上所有没有密码保护的页面。( “百度百科”,由 科普中国科学百科词条编写与应用项目审核)。
爬虫技术采集数据的合规要求
根据《最高人民法院、最高人民检察院关于处理危害计算机信息系统安全刑事案件适用法律若干问题的解释》(以下简称《计算机解释》)第一条的规定,取得支付结算、证券交易、期货交易等网络金融服务的身份认证信息超过10组;取得上述500多组身份认证信息,符合非法取得计算机信息系统数据罪的起诉标准。该解释将非法获取的“数据”限制在身份认证信息上。本解释所称“身份认证信息”,是指确认用户在计算机信息系统上的操作权限的数据,包括账户、密码、密码、数字证书等。
在“今日头条服务器非法抓取数据案”中,被告非法抓取今日头条的视频数据,不属于身份认证信息。为什么可以定罪?作者认为,这涉及到信息和数据之间的差异。数据是信息的载体,是一系列字符和代码,而信息是显示的具体内容。信息披露不等于数据披露。从本罪保护的法律利益来看,非法获取计算机信息系统数据罪保护的法律利益是计算机信息系统的数据安全。只有当数据所有者允许公众或他人获取数据时,数据才会失去法律利益保护的必要性,爬虫才能收集这些数据。在这种情况下,今日头条并没有向被告开放界面,显然也没有公开视频数据的意思,应该受到法律的保护。
“公民个人信息”是指电子或其他方式记录的各种信息,包括姓名、身份证号码、通信联系方式、地址、账户密码、财产状况、下落轨迹等。《网络安全法》规定,经收藏家同意并进行匿名处理(不包括个人关系)是合法收集公民个人信息的两个原则。
使用爬虫技术非法获取的数据为公民个人信息的,可能构成侵犯公民个人信息罪与非法获取计算机信息系统数据罪的竞争。此时,有必要选择一种严重的犯罪来惩罚它。例如,通过爬虫获得100多组公民支付结算身份认证信息,根据计算机信息系统数据犯罪的起诉标准达到“特别严重”,判处三年以上七年以下有期徒刑;根据侵犯公民个人信息犯罪的起诉标准只达到“严重情况”,量刑等级为三年以下有期徒刑或拘役,因此以非法获取计算机信息系统数据罪定罪处罚。
爬虫技术与不正当竞争
当爬虫技术收集“其他数据”时,如共享自行车客户使用的区域数据(以提高交付车辆的准确性)、公交车实时运行大数据、社交媒体用户信息(不涉及身份信息部分)等。这些不涉及公民身份信息和虚拟财产的数据资源能受到法律保护吗?在非法获取新浪微博用户信息的案件中,法院通过反不正当竞争法救济了原告主张保护的新浪微博用户信息。
在游戏企业的推广中,爬虫技术被用来捕捉游戏平台上的用户评论内容和评分数据。这些内容不仅公开,而且没有反爬虫技术措施。可行吗?笔者认为,并非所有数据都能受到反不正当竞争法的保护,至少满足两个条件:一是有用的、有市场价值的数据;二是双方在创建数据的过程中付出了必要的劳动和投资。游戏平台中的用户评论区内容和评分数据可以引导玩家的游戏消费;作为一个平台,它只为用户提供了一个评论每个游戏的平台,没有处理评论内容,不支付必要的劳动,不应受反不正当竞争法的保护。当然,如果游戏平台设置了反爬虫措施,如限制下载和访问次数,则需要获得爬行数据的授权,否则就是侵权。
《反不正当竞争法》第二条规定,经营者在市场交易中应当遵循自愿、平等、公平、诚信的原则,遵守公认的商业道德。脉冲软件要求用户在注册脉冲账户时上传手机地址簿联系人,非法获取联系人与新浪微博相关用户的对应关系,展示这些人作为脉冲用户的联系人,非法捕获新浪微博头像、名称(昵称)、一度人脉使用职业信息、教育信息、个人标签等信息。脉脉软件主要是职场社交应用,新浪微博是社交软件,但这些外在形式的差异并不影响双方提供网络社交服务的本质。脉脉行为夺取他人的劳动成果,提供同质化服务,对创新和促进市场竞争没有积极意义。脉冲实施的行为是未经新浪公司许可,利用网络爬虫技术进入新浪微博服务器后台爬取相关数据。这种获取信息的行为显然违反了公认的商业道德和诚信标准。
综上所述,笔者建议爬虫技术的使用应在合法合规的前提下进行。“公共信息”并不意味着“共享数据”。不要从蜘蛛侠变成“扒手”!