
北京用大数据打击非法集资揭秘_数据分析师考试
自今年5月北京“打击非法集资监测预警平台”上线以来,已关注到400多家机构有非法集资嫌疑,目前已向公安报送35起涉嫌非法集资的线索,其中包括20家P2P机构、5家PE机构、10家第三方理财机构
借助互联网技术的发展,互联网金融异军突起,鱼龙混杂之下,借金融创新之名行非法集资之实的企业也多了起来。
一场轰轰烈烈的打击非法集资行动正在开展中。根据国务院要求和市委市政府工作部署,从2015年4月到8月,北京市将开展打击非法集资专项整治行动。
记者在采访中了解到,与以往不同的是,此次北京市运用了已经建成的“打击非法集资监测预警平台”,通过大数据采集、分析技术,全天候无缝隙地对非法集资活动进行监测预警。大数据已经由企业商用扩展至服务于政府的执法工作。
6月2日,北京市金融工作局副巡视员沈鸿在接受法治周末记者采访时表示,自今年5月该大数据监测平台上线以来,已经关注到400多家机构存有非法集资嫌疑,目前北京市金融局已向公安部门报送了35起涉嫌非法集资的线索,其中包括20家P2P机构、5家PE机构、10家第三方理财机构。
传统打非手段存局限
据北京市打非办披露,目前北京市非法集资案件高发频发,呈现出案件规模快速上升,人均涉案金额明显增加,大案要案多发的特点。仅2014年北京就新发非法集资案件89件,集资人2.1万人,涉案金额172.6亿元。同比增长了2.56倍、5.65倍、56.9倍。
在上述案件中,P2P网贷类、投资理财类、私募股权投资类等案件呈爆发态势。公开信息显示,截至今年1月,北京已经出现了18家P2P网贷问题平台,包括跑路、诈骗、经营困难等现象。其中共立案网金宝、里外贷等4家P2P类非法集资案件,总计涉案金额约17亿元,涉及投资人4230人。
中央财经大学法学院互联网金融与民间融资法治研究中心执行主任郭华在接受法治周末记者采访时表示,过去打击非法集资主要依靠参与者的报案、投诉,甚至是上访,公安部门才能掌握这些线索。
这样打击非法集资的方式容易带来一个问题:公安部门介入的时机难以把握。“非法集资很多时候是一个由合法逐渐转为非法的过程,介入过早,一部分获得利益的投资者会对打击非法集资的部门不满;介入过晚,往往财产难以追回,投资者的权益很难得到保障,投资者也会有不满。”郭华说。
如何尽可能地早些发现非法集资风险,并向监管部门作出预警,提前介入,尽可能地保障投资者的权益,尤其是将一些打着互联网金融旗号的伪P2P机构、伪私募机构识别出来,做到提前监测和预警,就显得至关重要,而在这方面,大数据有很大的发展空间。
大数据打非登场
沈鸿对法治周末记者表示,过去非法集资更多是通过线下开展讲座、发传单、发展会员的方式进行,但随着互联网技术发展,非法集资的宣传和组织也开始往线上迁移。
正是由于非法集资在互联网上留下了越来越多的痕迹和数据,沈鸿介绍,从2013年起,北京市金融局就尝试通过大数据监测的方式将打击非法集资的工作端口前移。经过两年多的研究,今年5月“打击非法集资监测预警平台”正式上线。
据法治周末记者了解,目前提供该平台数据服务的为北京金信网银金融信息服务有限公司(以下简称“金信网银”)。
金信网银常务副总经理李崇纲告诉法治周末记者,如果简单套用最高院司法解释中对非法集资认定的“四要件”去套如今的互联网金融,尤其是P2P行业,那么很多P2P平台都有可能涉嫌非法集资,但这样的界定和监管其实也不是监管机构所期望的。
“通过对已经跑路的200余家P2P机构进行分析,我们发现它们存在的风险特征有欺诈风险、市场风险、操作风险、信用风险等,而且在发展不同阶段呈现出不同的特征值,我们据此构建了风险评估模型,然后将现有的平台数据与该模型进行比对,可以有效地发现预警非法集资活动。”李崇纲说。
李崇纲向记者介绍了该预警平台的工作原理:首先,从财经网(博客,微博)站、P2P网站、贴吧、工商税务网站、社交媒体、法院、12345(市非紧急救助服务热线)等数据源大规模的采集原始数据,并根据行业、区域、产品对数据自动分类,标引并存储在金融风险分析大数据平台中。
其次,对多个数据源的数据,在内存式计算平台上进行分布式计算,经过数据清洗、数据集成、数据变换、数据规约等一系列预处理过程,把数据集合统一转换成可供分析的结构化数据。最后,通过分析算法,依照此前建立的多个风险预测模式,计算出不同的风险指数,再通过整合,可最终得出非法集资风险指数。
就P2P网贷平台而言,李崇纲介绍,主要从平台特征(公司信息、关联企业、团队构成)、项目特征(项目特征、收益情况、项目期限)、安全特征(技术保障、担保保障、法律保障等)三个方面采集信息。
在对上述数据处理后,会抽象出五个特征:合规性指数、特征词命中指数、传播力指数、收益率偏离指数以及投诉率指数,分别对应非法集资的非法性、社会性、公开性、利诱性。
通过对这些指数进行加权平均,就可以得出一个非法集资风险指数,也称“冒烟指数”。李崇纲介绍,如果指数为60—80区间,则意味着其非法集资的风险非常高,需要公安部门介入;指数为40—60区间,则需要监管部门密切关注。
为了确保模型的准确性,金信网银还借助公安部门和北京市金融局实际办案的反馈情况,对数据模型进行回测,以进一步优化模型。
李崇纲告诉法治周末记者,今年以来,公司根据大数据的监测情况向相关部门报送了30余起涉嫌非法集资的情报线索,其中有几起已经进入侦查阶段。
中关村(000931,股吧)大数据产业联盟副秘书长陈新河告诉法治周末记者,目前大数据已经越来越广泛地运用于政府机构的监管和社会管理上,此前证监会就通过利用大数据监察系统打击“老鼠仓”和内幕交易,取得良好的效果。
“利用大数据技术从海量数据中快速锁定目标,也有助于降低监管成本,提升监管效率。”陈新河说。
大数据现非集蛛丝马迹
尽管从事非法集资的行为越来越隐蔽,但是通过对跑路平台行为特征进行研究,还是可以从中发现一些规律,或者是涉嫌非法集资平台的共性来。
李崇纲介绍,目前互联网金融行业发展迅猛,却又鱼龙混杂。一些平台为了博取投资人的信任,特别偏爱“傍大款”,对于这样的平台要提高警惕—2014年6月跑路的“网金宝”平台,就曾在官网宣称同中国人民银行正式签署了战略合作。
此外,一些存有非法集资风险的平台多通过举办一些收益率颇高的优惠活动招揽投资者。还以网金宝为例,李崇纲介绍,去年5月26日,其发起了一个名为“天降财牛”的活动,只要投资1万元就能获得不同数额的返现,而且返现可以当日提取,过于丰厚的回报使得投资者争相涌入。
据媒体报道,贵州一位投资者在成功尝试一次后,索性将自己辛苦攒下的16万元存款全部投放了进去。同时还发动身边亲友,累计共投资了45万元。不过,活动持续了不到十天,投资者就发现其网站已经无法打开,客服热线无法接通。宣称的办公地址也不存在。
此外,通过对此前跑路平台特征进行梳理,李崇纲发现,不少平台的工商登记信息变动颇为频繁。一些非法集资风险高的平台或者机构,往往会在短时间内频繁变更公司股东和法定代表人。
“根据监测,曾经有一家平台在一个月的时间内曾连续5次变更股东或者其他工商注册信息,而且一些平台的每个股东名下可能有十余家公司,这些公司之间又存在纵横交错的复杂关联关系。如果是一家正常运作的公司,是很少出现这种情况的。”李崇纲说。
根据研究和分析,李崇纲还发现,一些蓄意跑路或存在非常大的非法集资风险的平台,都非常善于抓政策法律的空子。
以注册资本登记制度改革为例,2014年2月7日,国务院下发了《注册资本登记制度改革方案》,根据要求,从2014年3月1日起,公司实收资本、股东认缴、实缴出资额、出资方式、出资期限不再作为登记事项,企业办理设立及变更时,由公司自行在市场主体信用公示系统上公示注册资本实缴情况。
李崇纲告诉记者,根据大数据平台的监测,一些P2P平台紧抓这一时机,变更自己的注册金额数量,“有的平台原先注册资金只有区区几十万元,瞬间就变更到了几千万元,甚至上亿元”。
“很多投资者,其实是很难知道平台是否真的有这么雄厚的资金实力,但这样的显示结果的确会增加平台的信誉。”李崇纲表示,根据监测,很多出现问题的平台大都利用该制度变革契机,来提升公司注册资本。
有鉴于此,在该大数据预警体系中,短期内提供过高的收益率、频繁变动公司股东、在特定时间段提高公司注册资本金额都会予以特别关注。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29