电商门户 互联网+智库
当前位置:100EC>电商金融>【金融案例】拍拍贷大数据反欺诈团案解决方案
【金融案例】拍拍贷大数据反欺诈团案解决方案
发布时间:2018年04月02日 11:23:08

电子商务研究中心 中国电商门户 互联网+智库 电商新媒体 新零售入口 www.rmgok.com (电子商务研究中心讯)由于团案欺诈模式的多样性和新团案形成的迅速性,一旦挖掘到新的业务漏洞,大量欺诈分子短时间内蜂拥而至,给互金平台带来极大的金融风险和财产损失。基于此,反欺诈团案模型的开发势在必行,无论是快速检测已有案件,清除潜伏的欺诈团伙,还是挖掘新型团案模式,防患于未然,对整个互金平台的风险控制均具有重要意义。

在此之前,团案反欺诈调查主要通过规则引擎来启动流程,只能拦截到发标后触碰到规则的用户,覆盖范围较小,准确率不高,从而影响人工调查效率,导致案件积压及团案库中标签的严重不足。作为国内第一批互金平台的先行者,拍拍贷拥有丰富的数据资源与客群储备、完善的反欺诈调查系统,为建立人工智能驱动的团案模型提供了先决条件。

下图为拍拍贷反欺诈团案检测流程示意图:

基于反欺诈团案模型中的主要痛点,笔者团队以业务为导向,有针对性地给出了相应的解决方案。本文主要分两部分:图形数据库关系提取与用户画像,算法决策

图形数据库关系提取与用户画像

1、强节点关系提取

团案模型的基础数据源于Titan图数据库,该数据库中用户、设备及对应的社交关系构建了一个复杂的异构网络图。从目前的统计信息来看,涉及到用户约6千万,关联节点数量约15亿,而用户和节点之间多对多的关系会使数据库中边连接数量逾百亿。

在构建反欺诈团案模型时,我们面对的首要问题就是:如何从庞大的图数据库中快速而有效地索引反欺诈用户的变量特征,实现精度和效率的统一

在兼顾人群覆盖范围与统计意义的基础上,我们确定了五种强节点关系,可以把模型需要考虑的节点数量缩减到千万级别;同时多角度提取节点level一度关联的统计特征(如欺诈、清白概率,公司名及电话异常等),既能保证高阶变量的提取具有较高的计算效率,又能尽可能使其对“团体”的定义是完备的。

2、用户画像的多维描述

在完成图形数据库中节点和用户关系的梳理后,我们需要在用户level上多维度地描述用户画像。

在团案的业务场景中,一个完备的用户画像不仅包含其基本的身份信息、历史登陆信息、行为活动信息,更需要具有表征其“团体性”的变量,如用户的社交信息、用户所处节点的统计信息及异常信息等,该类信息有助于发现团体pattern,对后续新型团案的发掘和判定具有十分重要的意义。

用户画像示意图:

  • 基本身份信息: 用户作为社会中独立个体所具有最基本的信息,包括性别,年龄,职业,收入,学历,所在城市,电话号码,身份证号码,注册渠道等。

  • 历史交互信息: 用户在和平台的互动过程中所留下的历史信息,如用户的注册及登入、登出时间,绑卡与解绑时间,修改资料时间和频率,历史借贷记录及偿还信息等。

  • 行为活动信息:用户在过去一段时间内GPS位置信息的变化,以及基于此获得其位置的均值、标准差等信息,用户连入网络IP地址及相应统计信息等。

  • 社交信息:根据用户提供的社交数据,计算用户属性的相似度。

  • 节点统计信息:强关联节点连接的用户人数,已发标用户人数,用户进入节点关联时间的均值、标准差,节点上用户GPS位置的平均覆盖半径等。

  • 节点异常信息:基于节点用户基本信息,在节点的level进行统计,计算彼此的相似性,从而衡量节点的异常程度。举个例子,基于同手机(IMEI)关联的用户80%人填写的单位名称及其类似,如:婷婷美容美发店,丽丽美容美甲中心,阿诚五金商店,预立五金电器行等,在同一节点上,若单位名称的种类很少(如美容美发,五金商店等),且具有很高的相似度,是十分异常与可疑的。

在基于大数据的用户画像中,首先,从多个维度来刻画用户的个人信息,尽可能对其在社会中承担的角色给予精准的定位;其次,通过和业务部门的深入沟通与合作,将业务中经验性规则进行合理的归纳总结,进而融入模型;最后,充分抓住“团案”这一关键词,借助于机器学习算法,深入挖掘体现整体pattern的高阶变量。

算法决策

在完成图形数据库关系梳理与用户画像后,下面将从算法的角度对反欺诈团案模型中的主要痛点及相应的解决方案给出简要阐述。对于反欺诈团案模型,其主要难点在于:

1. 团案特征难以刻画;

2. 数据样本target-rate过低;

3. 变量稀疏,信息碎片化严重,缺失率高。

为了解决上述问题,本模型共集成了四个子模型和一个主模型,分别为:基于孤独森林的异常值检测(Isolation Forest Based Anomaly Detection),基于自编码的异常值检测(Auto-encoder Based Anomaly Detection),概率图模型(Probabilistic Graph Model),生成对抗网络(GANs)以及轻量级的梯度提升机(Lightgbm),下面将结合具体问题对算法进行相应展开。

痛点一:团案特征难以刻画

巧妇难为无米之炊,变量空间的描述是否完备很大程度上决定了模型的成败。鉴于团案模型的特殊性,“团体”的概念始终是挖掘新型高阶变量的主要驱动点,对整体pattern的深入挖掘也是最终模型具有良好上线表现的主要因素。异常性变量的profiling表明其对于团案特征具有明显的指示作用,因此节点level和用户level的异常信息检测始终是我们的关注点之一。 

  • 基于孤独森林的异常值检测(Isolation Forest Based Anomaly Detection)

    该算法应用于节点level的异常值检测,目的是在提取高阶变量的同时不提升模型空间维度,有效防止维度灾难引发的过拟合。在节点level上,要衡量节点的异常程度,往往需要多个变量进行描述。比如前文提到的单位名称异常程度,要保证该评价指标的合理性,需要将用户填写的单位名称按照字节剖分成不同的字段,然后统计每个字段的数目、均值、极值等信息,进而来评估不同用户单位名称的相似度与异常度。该类变量是为衡量节点的异常程度服务的,但与此同时也会造成模型空间维度不必要的增加。

    为了解决这个问题,将多个统计变量(以单位名异常为例,需要15个变量加以描述)作为孤独森林算法的输入,将决策函数(Decision Function)的输出作为一个新的变量赋予节点本身,既可以保证高阶异常信息的提取又有效的限制了变量的数目。

  • 基于自编码技术的异常值检测(Auto-encoder Based Anomaly Detection)

    该算法应用于用户level的异常值检测。在团案调查中,我们将样本中团案用户定义为异常用户,其余用户定义为正常用户,其中团案用户的比例仅有2%左右,数据的不平衡程度很高,也正是如此,为自编码异常值检测方法的应用提供了天然条件。

    自编码器属于无监督学习,顾名思义,即利用从原始变量空间提取的高阶特征来重构自己,其输入与输出相同。下图为我们构建自编码器的基本结构:

  • 为了尽可能减少噪音并有效表达原始变量空间,选择了IV值(Information Value)大于0.1的变量,并通过降维和添加高斯噪声的方式防止网络只是简单地复制数据点,强迫其去抽象、提取高阶特征。

    在自编码网络训练好之后,由于数据样本的不均衡性,模型会更倾向于表征正常用户的高阶特征,此时异常用户输入与输出的均方差(Mean Square Error)会相对较大,呈现出一定的异常性从而被检测出来。将数据样本经过自编码器重构的输出与输入的均方差作为新的变量mse,如下图,通过WOE(Weight of Evidence)及IV值计算可知,该变量对target具有明显的指示作用,单变量的KS值约为0.21。

  • 概率图模型(Probabilistic Graph Model)

    该算法用于将节点level的统计信息传递到用户level。基于前文可知,通过索引图形数据库中的节点和用户关系,可将用户维度的变量集中映射到统一的节点上,再通过孤独森林模型的决策函数将该类变量以异常值的形式输出为新的高阶变量。如下图:

  • 其中Y代表不同的节点,X代表不同的用户,节点和用户之间存在多对多关系,主模型需要把节点上的统计信息整合到用户level上。以用户X1为例,为了把统计性信息从Y1,Y2和Y3三个节点传递到X1,根据因子图(Factor Graph)的基本思想,将每个节点视作一个因子,信息的传递过程可以表示为:

    请点击此处输入图片描述

    在图案模型中,根据路西法效应,我们认为一个用户连入不同性质的节点时,会更倾向于受最坏情况的污染和干扰,因此出于计算效率的考虑,直接对用户连入节点的变量取极值作为用户在该维度的属性,同时该操作与神经网络中的池化(pooling)思想是一致的,即:

痛点二:数据样本target-rate过低

在团案模型训练数据中,样本的target-rate只有2%,很容易造成模型训练的偏差。该现象在神经网络模型中的表现尤为突出,即模型会表现得很懒惰,倾向于不去学习任何数据特征,所有的样本都直接预测为非团案,也可获得98%左右的精度,但是显而易见,该模型在测试集上的效果是不忍直视的。

针对target-rate过低的问题,在神经网络模型中可以通过给正样本(少数的团案样本)加权的方式来缓解该问题,但该过程依然比较tricky,对参数的选择较为敏感;SMOTE过采样方法是另一种选择,但是在正样本过少的情况下,每个样本选择近邻的数目会较多,不仅会引起较大的计算开销,同时会使新生成的合成样本太接近,失去了合成样本的意义。

本文采用生成对抗网络(GANs)的方法,无需预知数据初始分布状态,通过学习原始真实样本集的数据分布状态并自动生成符合该概率分布的新样本,用来解决训练样本中target-rate过低的问题。

  • 生成对抗网络(Generative Adversarial Networks)

    生成对抗网络(GANs)由Ian Goodfellow等在2014年首先提出,最早应用于图像领域,其基本框架如下图:

  • GANs 的基本思想源于零和博弈(two-player games),它有两个模型:一个生成模型(Generative Model),一个判别模型(Discriminative Model),两个模型彼此互相对抗。

    生成模型的输入是随机噪音Z,通过生成网络获得假样本G(Z),希望能够模拟真实数据的分布状态,从而“欺骗”判别模型;而判别模型要有效地对真实样本和生成样本加以区分,不被生成模型“蒙蔽”。在两组模型的不断训练中,二者的能力均得到提高,最终的结果是判别模型无法区分样本是生成的还是来自真实数据集,准确率约为50%,此时表明生成模型已经很好地学习了真实数据的分布情况,可以用来生成新样本。

    模型的训练过程可以简单描述为:

    1. 固定生成模型,优化判别模型,真实样本target视为1,生成假样本target视为0,此时判别模型用于解决二分类问题,以正确区分输入样本的真假为目标;

    2. 固定判别模型,优化生成模型,为了使生成的数据可以以假乱真,此时将生成样本的target视为1,使其概率分布不断逼近于1;

    3. 多次迭代,二者互相对抗,使生成模型产生与真实数据相同分布的假数据,判别模型无法分辨真假。

以上简单地介绍了GANs的基本原理,与常规的生成模型相比,该方法不需要事先预估一个初始的数据分布状态,通过生成、判别模型的对抗来逼近真实数据分布。

然而,传统GANs方法也存在着太过自由,对参数敏感,不能很好地约束特征空间等问题,进而衍生了大量基于GANs方法的改进,比如CGANs(Conditional GANs),DCGAN(Deep Convolutional GANs)和WGAN(Wasserstein GANs)等。

本着对新生命的无限向往,笔者基于DCGAN给出一个简单测试。数据源于Kaggle竞赛中猫狗大战的训练集,通过OPENCV进行简单的定位、切割、归一化等预处理,利用DCGAN我们可收获很多猫咪(请不要吐糟生成样本种类多样性不足的问题,这是另一个问题,求放过O(∩_∩)O)。

上述例子只是牛刀小试,GANs从2016年起便以“井喷”之姿受到了众多业界、学界深度学习大神的喜爱,但主要是应用于图像和自然语言处理方面。

我们尝试将其应用于团案反欺诈的业务场景中,GANs为样本生成提供了非常好的思维方式,至于生成、判别模型是否要选用神经网络,二者是否要选择同样的建模类型都是值得商榷的。就个人理解而言,该方法能否成功主要取决于两方面,1.是否变量对特征空间的描述是完备的;2. 生成网络与对抗网络是否足够势均力敌,如果二者的模型学习能力有偏差,可以通过控制两个模型的训练次数进行校正。 

在团案反欺诈的业务场景中,我们选择了缺失率较低,IV值大于0.1的变量作为原始数据的变量空间,采用的对抗网络结构,其中生成网络的初始出入层和中间层采用的神经元个数为10和20,中间层激活函数采用ReLU;判别网络的两个中间层采用的神经元个数为20和10,中间层激活函数采用leaky-ReLU。经过三百次迭代后,生成模型和判别模型的残差如下图,二者基本达到一个动态平衡:

通过GANs逼近原始数据(团案样本)分布,产生了原来10倍表征团案的样本,大大提高了样本中的target-rate,在测试样本中KS提升了3.4%。

经过GANs的测试数据结果

请点击此处输入图片描述

未经GANs的测试数据结果

痛点三:变量稀疏,信息碎片化严重,缺失率高

  • 主模型: 轻量级梯度提升机(Lightgbm)

    在最终的模型上线中,会将多维变量全部整合到用户level上,以用户是否在团案库中作为target。由于团案欺诈的多样性和复杂性,很多规则性变量具有很强的指示作用,但其在总体样本上的缺失率又很高,大量类似的碎片化信息给建模带来很大困扰。

    在传统逻辑回归(Logistic Regression)模型中,该类变量要经过复杂的预处理,如缺省值填充,WOE,多重共线性剔除等,最终能够提供的信息增益微乎其微,很难有效地发挥作用。不同于传统信用评分模型对变量的可解释性要求很高,在反欺诈业务场景下,我们更关注模型在保证泛化性、稳定性的前提下,模型可取得的最佳效果,为了能有效地利用这些指示性强但缺失率高的“鸡肋型”变量,选用了Lightgbm算法进行建模。

    Lightgbm于2016年被微软DMTK团队在github上开源,基于gradient boosting的算法框架,其训练速度更快、内存占用更低、准确率和XGBoost相当、分布式支持、类别型变量无需做one-hot处理、缺省值自动填充等,极大地简化了数据前期预处理和后续的建模流程;同时Lightgbm基于决策树,在较深的分支上该碎片化信息依然会得到有效的利用,适应性更高,同时只要保证基分类器足够弱又能较好地兼顾模型的泛化性和稳定性。

后记

在反欺诈团案模型从零到一的构建过程中,让笔者深刻地感受到数据挖掘中以业务为导向的重要性。从业务需求出发定义问题,基于业务方的实战经验挖掘变量,模型上线后设计完备的AB test对模型效果进行有效监控和效果比对,均是在同业务方深入的沟通和碰撞中完成的。

与此同时,深入理解业务场景的特殊性,针对不同的难点,从多个角度采用相应的机器学习和深度学习算法各个击破。到目前为止,反欺诈团案模型已经取代了原规则性推送,且不受业务线影响,拥有更广的适用范围和更高的准确率,极大地提高了反欺诈调查人员的工作效率。

实时反欺诈模型正在积极筹备中,不久将与大家见面,继续为拍拍贷平台的安全运营保驾护航。

参考文献

[1] Goodfellow. Nips 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016.

[2] Isolation-based Anomaly Detection, Fei Tony Liu, Kai Ming Ting, Zhi-Hua Zhou, 2012. ACM TKDD, doi: 10.1145/2133360.2133363.

[3] Reducing the Dimensionality of Data with Neural Networks, G. E. Hinton, R. R. Salakhutdinov. Science  28 Jul 2006:Vol. 313, Issue 5786, pp. 504-507.

[4] Pattern Recognition and Machine Learning, Christopher M. Bishop. 2007. Springer Press.

[5] LightGBM: A Highly Efficient Gradient Boosting Decision Tree, Guolin Ke, Qi Meng, et al. 2017. Advances in Neural Information Processing Systems 30 (NIPS 2017).(来源:拍黑米 文/曹雷 编选:电子商务研究中心)


3月27日,国内知名电商智库电子商务研究中心发布《2017年度中国共享经济发展报告》(全文下载:http://www.rmgok.com/zt/2017gxjj/),报告对2017年共享经济进行宏观分析,涉及领域与平台主要有:1)交通出行:滴滴出行、易到、首汽约车、神州优车、ofo、摩拜单车、哈罗单车、Go fun出行、TOGO途歌等;2)共享充电宝:小电科技、街电科技、来电科技等;3)共享物流:新达达、人人快递、饿了么“蜂鸟”、美团众包、点我达、1号货的、云鸟配送、货车帮等;4)共享金融:淘宝众筹、京东众筹、苏宁众筹、百度众筹等;5)共享餐饮:隐食纪、熊猫星厨、吉刻送、hatchery、回家吃饭、隐食家、爱大厨等;6)共享住宿:住百家、小猪短租、途家等;7)共享雨伞:街借伞、共享E伞、春笋、橙伞等;8)上门服务:河狸家、新氧、星后等;9)二手共享:闲鱼、猎趣、爱回收、瓜子二手车、人人车、优信二手车等;10)知识技能:果壳、在行、猿题库、学霸君、跟谁学、猪八戒等;11)共享医疗:春雨医生、丁香医生、好大夫在线、企鹅医生、平安好医生、微医等共11大领域。

【关键词】拍拍贷大数据
股票名称/代码
昨日收盘
涨跌幅
¥/现价
  • 002095.SZ
  • 002315.SZ
  • 300226.SZ
  • 002711.SZ
  • 002024.SZ
  • 002127.SZ
  • 002127.SZ
  • 002640.SZ
  • 300209.SZ
  • 601113.SH
  • 002352.SZ
  • 600233.SH