近日,多家通过爬虫技术开展大数据信贷风控的公司被查。短短几天时间,“爬虫”技术被推上了风口浪尖,大数据风控行业也迎来了前所未有的“震荡”。业内人士透露,这些被调查的大数据公司基本都是涉嫌利用网络爬虫技术侵犯个人隐私,并将这些数据信息转卖给其他机构获利。
“爬虫”变成了“害虫”?
何为爬虫?百度百科给出的定义是,网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
据了解,爬虫的发展历史可以追溯到20年前,搜索引擎、聚合导航、数据分析、人工智能等业务都需要基于爬虫技术。随着互联网的发展,网络资源有大量信息的载体,如何更好更有效地提取并利用它,爬虫技术起到关键作用。爬虫技术在信息定位也比较准确,可以根据客户的搜索需求爬取最合适的数据推送出去。而且现在大数据处理方面,爬虫技术可以对爬取的数据进行分析从而得出比较准确的数据。
爬虫技术的优势不言而喻。技术是中立的、无罪的,但技术被颇有用心的人乱用就会出现问题。近期暴露出来的事件就是最大的警示。
事实上,自2016年开始,大数据风控、智能风控、智能催收逐渐成熟,并且开始应用于互联网金融领域。从金融发展的角度来讲,这是一件好事儿,大大降低了行业成本。而且随着大数据的出现和兴起,第三方大数据风控平台也迎来一波发展高潮。
然而,提供信用评估类服务的第三方风控商在解决小额信贷多头借贷、欺诈等风险问题的同时,也在无形中掌握了用户贷前、贷后等各类信息数据。
“风险来源于过分地获取用户数据,并且利用这些数据干一些‘见不得人’的事儿。”知名金融科技分析人士毕研广告诉记者。
毕研广分析道,其实,很多数据公司从一开始最为基础的业务是“爬虫业务”,后来演变到给金融机构或者互金平台做风控系统,或者帮助平台开发设计“线上放贷系统”。做系统不赚钱,还是卖数据赚钱。但是这一举措也让“爬虫”变成了“害虫”,非法获取、销售个人隐私数据,必定涉及到了违法犯罪。
据了解,爬虫技术的数据采集主要包括:公开的第三方数据;抓取用户主动授权的个人基本信息、联系人信息、银行卡信息等数据;授权抓取数据,如设备号、IP地址、运营商/电商等用户授权后合规采集数据;经授权的平台数据,如用户在平台的历史借款、还款情况等用户已在注册协议或隐私协议中授权业务方进行分析的数据。
那爬虫技术在数据采集过程中是否经过用户授权、是否存在过度爬取信息、爬取到的信息用途不明等也成为当下人们关注的焦点。
对此,中国社会科学院金融研究所法与金融研究室副主任尹振涛表示,一方面公共数据的爬取是不允许商业利用的,并不是说互联网的数据可以随便爬取。另一方面有些客户提供淘宝号,甚至密码授权爬取,在爬取时就侵入了对方的计算机,这其实也是一种犯罪行为,叫作侵入计算机犯罪。
以“爬虫”为主的大数据公司称不上金融科技公司
不可否认,当前大数据风控行业对个人隐私缺乏保护,存在广泛的数据滥用问题。对此,业内普遍呼吁监管的加强。
近两年,很多互联网金融平台转型,也有一些做数据的平台,他们都强调自己做的是金融科技。是真科技还是假科技?转型助贷、网络小额贷业务,是合规的还是不合规的?
在毕研广看来,现在的互联网金融、金融科技还处在一个相对的“混沌期”。相信随着政策的不断清晰化、监管对行业整治的不断深化,也将逐渐清晰起来。以“爬虫”为主的大数据公司称不上金融科技公司。
事实上,今年以来,监管逐渐趋严。5月28日,国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》明确规定,网络运营者通过网站、应用程序等产品收集使用个人信息,应当分别制定并公开收集使用规则;网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门报备收集使用规则、使用目的和保存期限等。
日前,浙江发布《中国银保监会浙江监管局办公室关于进一步规范个人消费贷款有关问题的通知》(浙银保监办发〔2019〕213号),明确提出,不得将授信审查、风险控制等核心业务外包。
国家发展改革委9月16日发布《关于推送并应用市场主体公共信用综合评价结果的通知》,根据通知,国家发展改革委组织国家公共信用信息中心会同相关大数据机构对全国3300万家市场主体开展了第一期公共信用综合评价,现将评价结果推送,并就充分应用公共信用综合评价结果,推动落实以信用为基础的新型监管机制。
“一系列监管政策的下发对行业的长远发展起到了积极作用。”蒋韬说,“当前监管机构并不是采取了所谓一刀切的态度和做法,而且依法对于没有合规经营、侵犯个人隐私的企业进行调查,对于加速清退劣质企业、保护用户权益、促进优质企业发展有重要意义。”
蒋韬认为,长久来看,随着金融机构第一方数据积累以及第三方数据源壁垒降低,输出数据分析能力将成为风控公司更好的商业模式,提供标准评分卡产品 数据科学家咨询能力,将成为更有竞争力的商业模式。