大数据公司“生死劫”:致命模式一夜归零

退一步可能海阔天空,进一步却可能跌入深渊。

深受公众质疑的大数据公司正面临着生死考验,之所以饱受质疑,是因为他们掌握着大量的个人信息甚至隐私,而这些个人信息又经常被侵犯和转卖,卖房、卖车、贷款甚至催收等各种信息令公众不胜其烦;与此同时,正规的金融机构们在风控中又离不开大数据的支撑,尤其是网络信贷和个人信贷。

最终,国家相关部门在2019年下半年开始对大数据行业大力整顿。

不过,经过2019年整肃风暴后的数据行业向何处走,现实仍旧没有给出明确答案。

近日,有消息称知名大数据公司的裁员蔓延至国际部门,部分员工受到波及。事实上,大数据行业自去年下半年以来一直动荡不断。行业内员工被抓捕、被调查、被裁员及主动离职的消息不断传出。

一家北京头部数据公司内部人士向《中国经营报》记者证实,“优化”确实在发生。“由于数据核验业务目前不能做了,这部分人力要向评分、建模、语音质检方面去转。”

“年前已经集中面试了一批来自此前涉事头部数据公司的求职者,岗位涉及销售、数据分析、建模等各个板块。其实不需要等着被裁,从业者们也会及时脱身。”一位国资背景数据公司高管透露。

行业整肃风波未平,涉及个人金融信息政策持续收紧,伴随疫情笼罩,数据行业何去何从?

模式停摆:“拿不到数据了”

去年以来由爬虫整肃风波引起的数据荒还在持续。

“现在业内风声很紧,整肃风波后,已经没有数据源敢开放数据的接口给第三方数据公司了,尤其是此前的涉事机构,这直接导致大批数据公司此前最依赖的通道类业务停摆。此外,对于没有数据源的大数据公司,爬虫业务的全部下线导致的业务调整是必然。”前述高管向记者表示。

在互联网信贷链条中,不论是注册审核还是放贷前的风控审核,对于客户提交的个人信息真实性核实都是第一步,包含对姓名、身份证、手机号、银行卡等信息的核实,除此之外,还要了解该名客户的其他个人画像,比如不良记录、资产、工作、学历、朋友圈等多维度数据,在获得客户授权的前提下,信贷机构可以通过从数据公司调用上述信息快速完成对借款人风险把控。在商业模式上,通常按照调用数据或者报告的次数计费,此前数据行业的头部公司可以达到每天百万级甚至更高的调用量。这项业务模式简单,却占据大部分数据公司七成以上的业务规模。

业内人士告诉记者,此前第三方数据公司依靠自身爬取或者对接数据源,能够支撑每日海量高频的数据调用,但从数据来源看,多数无法深究。“肯定有合规来源,但大多数不合规。可能有交换的、可能有从黑产买来的,但大部分是‘爬’来的。”随着行业风声骤紧,这些数据的合法合规性受到质疑,数据供给和业务模式受到直接冲击。

前述高管告诉记者:此前市场上的大数据公司,按照服务模式不同,主要分三大类:第一类,数据通道代理类公司,上游有可靠的数据源,以代理方式直接与数据源对接,以“批发零售”的方式对外开展服务,这些机构多有接近数据源头的资源背景。第二类,以合规或非合规技术手段收集数据,通过对拿到的数据做加工整合、变量处理,形成自身的数据产品后再对外提供。第三类,是拥有较强的大数据处理和研发能力,为金融机构提供大数据建模层面的咨询和技术系统搭建类服务。三种主要类别之外,还存在着大量数据贩子等灰色产业。

“查询数据是有成本的,以身份验证每次一毛到三毛的市场平均价,数据公司或互金平台每天为此花费数万元甚至数十万元是相当常见的。因此大家通过各种手段压低成本,既包括‘爬’或者找黑产买,也包括把‘经手’的数据留存下来进行‘再利用’,一旦形成规模效应,相关数据产品的报价甚至可以低至几分钱。”一位上海征信行业资深人士透露。

记者采访了解到,在国内大数据立法真空背景下,此前几乎七成以上的公司核心展业模式都是以爬虫技术为手段、以买卖客户数据为利润支柱,近年来快速做大了业务量。

但去年以来,爬虫业务下线和传统互金客群范围萎缩形成了恶性循环。记者从某上海数据公司人士处了解到,随着监管方面的全面排查,目前全行业的爬虫技术,以及公安系统法律诉讼信息等相关服务都已经停止,因此部分原先以爬虫相关服务著称的企业受到影响最大。“此前这些大数据公司的客户五成为现金贷平台,现在整个行业的业务量缩减了一半,加之目前疫情的影响,业务推进是走一步看一步。”

前述国资数据公司高管就直言:此前一些大数据公司的反欺诈业务做得确实很好,但未来数据成本变高了、一部分业务不能做了,一些上过黑名单的数据公司银行与其合作会有顾虑,都会挤压数据公司的生存空间。

缓存可“致命”

“从去年10月以来,行业人心惶惶。公司合规部和律师也在不断研判法律法规,去年的《个人金融信息(数据)保护试行办法》征求意见稿,还有不久前央行下发的《个人金融信息保护技术规范》,业内大家一直在学习,但也没法给出完全合规的意见,只能先停下一部分业务。”前述北京头部数据公司内部人士表示。

记者从一家机构人士处得到这份去年10月下发的《个人金融信息(数据)保护试行办法》征求意见稿。从中可以看到,该意见稿对个人金融信息的采集、使用、存储进行了明确规定,因此也被认为是对当前大数据产业链影响最直接的一份文件。

该意见稿中明确规定,“(金融机构)不得从非法从事个人征信业务活动的第三方获取个人金融信息”。对于个人金融信息,包括但不限于自然人的身份信息、财产信息、账户信息、信用信息、金融交易信息以及其他反映特定自然人某些情况的信息。“这个概念外延非常大,几乎包揽所有敏感信息维度,而合法征信业务的资质目前也只有百行征信拥有,其他数据公司怎么做?”一位股份行人士表示。

此外,该意见稿中信息存储的要求对数据行业同样致命。意见稿明确规定:“金融机构保存个人金融信息不得超出实现业务目的所必需的最短时问,超出该最短保存时间后,应当及时删除个人金融信息或者对其进行匿名化处理”。

“简单而言,就是随用随调,调后马上删除,杜绝缓存。”前述国资机构高管告诉记者,此前不管是三方数据公司对上下游获取的数据还是银行对本行用户的数据,都会留存进行二次开发,而“缓存数据”实质是支撑起数据公司业务模式的关键一环。

记者注意到,此前很多大数据公司的宣传重点之一即在于“毫秒级”的数据调用能力。该高管就直言:如果没有留存数据,哪能有这么快的响应速度?靠临时采集,以后这些业务还能开展吗?

如果将市场大数据行业的链条拆解,可以从源头到下游梳理出一串参与者:数据源,主要是公安、社保、运营商、银行等掌握身份要素的官方渠道,也包括一些自身产生数据的互联网巨头;上游则是一批具有一定资源背景的数据代理商,以兜售数据接口为模式,也不乏一些层层转包的接口贩子以及数据黑产公司;中游,由一批市面上耳熟能详的大数据公司盘踞,但他们的业务范畴囊括上下游多个环节;中下游,是一些单纯提供风控技术解决方案的公司;下游则是包括银行、信托、消费金融公司、互金平台等数据需求部门。

而“缓存信息”的动作,使得下游发出身份查询需求,经过的每一级,可能都会涉及留存数据,这实质也侵犯了行业上下游的利益和用户的个人隐私。

因此,如果严格执行上述规则,数据公司不能违规拿数、不能留数,理论上对提供的数据必须说明数据源头、得到源头授权,直接从采集和存储上将第三方数据公司“卡脖子”。“但现实中很多上游拿不出合法合规的授权内容。”该高管表示。

业内也忧虑,这不仅可能将目前的三方大数据公司“一夜归零”,甚至会波及银行获客催收等业务条线。

转型关键是成本

低成本高回报的业务普遍停摆,大数据公司未来靠什么撑起估值和运营?

上述北京头部数据公司人士透露:不做核验类,不直接参与数据调用环节,业务转向信用评分、AI建模、风控咨询、语音质检、语音识别等业务,涉及领域也开始从金融向政务和其他行业拓展。“这部分主要输出模型、算法,看不到具体数据,只生成风控结果,因此不存在太大风险。”

不过这条路可能也并不容易。前述国资数据公司高管就透露:虽然给银行金融机构提供咨询和外包的模式此前数据公司也做,但其实这项业务是和前端身份核验等“数据通道”类业务包在一起做的,银行和数据公司合作的前提也是这些大数据公司已有大量数据,并且数据是动态的、实时更新的。

而输出建模和风控咨询模式下,不涉及数据调用,只能提供服务。这一市场上,目前包括第四范式、冰鉴科技、壹账通、中诚信等都有参与,因此大数据公司的优势并不明显。

重点是,对大数据公司而言,这项业务的性价比不高。此前,数据公司由于坐拥低成本数据,可以拉低整体服务对银行的报价。现在核心的前端业务没了,单纯咨询类服务想报高价并不容易。

“一个银行咨询项目从50万元到500万元不等,最常见的是100万元以下。数据公司此前报价敢报得非常低,是因为他们在数据上赚到了钱。而咨询外包业务模式重,数据不出银行前提下,数据公司必须派人员驻行,一个项目至少两三个人,持续三个月,基本也就做到不亏钱。”该高管表示。

一位互金行业风控从业者就透露:目前数据成本在急剧攀升。此前可以直接从大数据公司或者上游代理渠道调用,但现在很多接口关停,就只能转而通过数据融合的形式联合建模,基本没有法律风险,但成本高。而且现在爬虫禁用,他们少了最重要的一块数据,评分效果也一般了。

相关推荐

展开阅读全文

猜你喜欢

微信扫一扫

微信扫一扫