新疆都市报 > 科技 > 区块链 >

解密游走于法律边缘的爬虫技术

发布时间:2019-10-19 13:03来源: 未知

2018年4月至5月,广东警方开展“净网安网”专案收网行动,共打掉团伙40余个,缴获非法买卖的公民个人信息1.2亿余条。摄影/本刊记者 陈骥旻

本刊记者/赵一苇

一场席卷大数据风控行业的风暴仍在继续。

从9月下旬开始,多个业内闭门交流会紧急召开,每个会场都摆出严防死守的架势。“参会者中不乏近期被查或有关联的大数据公司高管。”一位接近会议的业内人士向《中国新闻周刊》透露,这些闭门会严格保密参会名单,拒绝外部报名,会场门口都会严格逐一核验参会者身份,尤其严禁媒体进入,“大家都是来讨论以后怎么办,能不能活下去都是个问题。”

这是一场针对大数据服务商的强监管风暴。自9月初起,多家杭州、上海的大数据风控公司被调查,业内知名的集奥聚合、新颜科技、公信宝等多家公司的核心高管被警方带走调查,连一些与这类数据公司有过交易经历的公司高管也被警方带走协助调查,其中包括中国电信旗下征信机构天翼征信的多位核心高管。但在消息传出后,天翼征信和新颜科技方面仍向《中国新闻周刊》表示,“公司业务一切正常。”

业内已风声鹤唳,尤其以惯用网络爬虫技术爬取并违规使用数据的公司最为恐慌。

所谓网络爬虫,即一种按照一定规则,自动抓取互联网信息的程序。在大数据风控行业中,以网络爬虫获取信息数据的做法盛行,而违规使用、买卖爬虫得来的数据则是导致数据泄露、隐私泄露等一系列问题的根源。

“爬虫技术本身是中性的,关键在于是否合规使用爬虫数据。”中关村大数据联盟副秘书长陈新河在接受《中国新闻周刊》采访时表示,如果通过爬虫抓取网络公开信息或授权信息,并不违规;但如果抓取的是未公开、未授权的个人敏感信息,且违规留存、使用、买卖这些隐私数据,就属于违规行为。