风控场景的中地址信息的处理和使用-下 | DataVisor技术讲解

上篇推送中系统地梳理了地址的种类和利用地址的欺诈手法,本文将以此为基础,介绍一下地址的处理和使用方法。

——导言     

地址的标准化

通常,人类在应对非常规信息时,有自动识别能力,可以将这种信息进行自我消化,并转化为可理解信息。机器在处理标准化信息时,会显得非常高效,然而如果将信息顺序调乱,且混入错误信息,此时,机器的准确性就会降低。因此,通常情况下,机器需要输入标准化信息。
为了增强地址的识别度,使机器看得懂,需要对地址进行标准化。什么是标准化?在网上购物我们填写收货地址时,通常,这些购物网站会将地址按照省+市+区+街道+详细地址这五项来选。对于我们不太确认的地址,平台还提供“暂不知道”这一选项,并会根据填写的详细地址来做匹配,以完善标准化的信息。

如下图所示

按照省+市+区+街道四个等级填写,且在街道不确定时提供“暂不知道”选项。
再完善详细地址后,会自动匹配对应街道。

地址修复方法

在采集时强制处理是地址标准化最简单有效的做法。但对于历史数据的修复,以及对错误数据的更改和对特殊字符的处理,则需要比较细致地处理。以下罗列了几种常用的方法。

常见地址修复方法

不同种类地址的评估维度

地址标准化好后,就可以根据地址的静态信息和动态信息对用户进行画像了。

贴标签

地址标准化并根据评估维度进行字段衍生后,就可以为每个地址/区域贴标签了。标签也可以按照几个维度来贴:

1.按照省、市、区、街道、商圈、楼、室几个级别;

2.按照房价绝对值和相对值;

3.按照关键词来贴,例如:“大学”对应老师或学生,“医院”对应医生、护士和病人,“电脑城”/“手机城”对应零售商等;

4.按照地址属性,例如:模糊地址标签,虚假地址标签等

5.按照地址/区域逾期率;

6.按照地址接收的平均订单金额/订单量;

7.按照订单商品;

8.按照收货地址变化频率;

9.按照公司地址行业;

10.按照公司属性来贴,例如:是属于政府机关、学校还是企业?

补充说明

其中,第6条和第7条再额外解释一下。在消费分期场景中,用户会有一个授信额度,可以在电商平台上购物。欺诈份子套现方式就是一次性用光额度购买手机等易变现商品。

例如,近期比较容易变现的是一款899的手机和799的手机。那么,假设作为用户获得的额度为2500元,作为欺诈份子会充分利用这一额度,巧妙组合,例如:两款799➕一款899,也即799*2+899=2497<2500,成功薅完了所有的额度。那么,结合地址信息,如果一个地址的订单金额都约等于授信额度,且寄送的商品品类如手机和型号(如价格899或者799的手机)集中,则可能为高风险客户。

这个过程有点类似于给人物做侧写或者画像,但这里的对象不是人,而是地址。一个好的地址画像需要结合场景和业务知识,同时要对数据分布做详细周密地分析。此处无监督机器学习可以提供的就是对地址的分群处理。为了形象地描述,我们将无监督机器学习的应用抽象成如下案例以方便大家理解。

对于一组杂乱的数据,逾期率为1%。我们通过一定手段对地址进行了分词处理,发现其中包含“电脑”和“手机”两个词的群组中,逾期率高达80%。于是,我们给包含了“电脑”和“手机”的地址贴了一个标签【零售商】,若结合业务知识,还可以给诸如“华强北”、“赛格”等词汇同样贴上【零售商】的标签。

所以,简单来说,地址文本的非结构化给地址的标注带来了一定难度,而无监督有利于整理这些词汇,有点像excel里的筛选和排序功能,只是,对地址的处理,你不知道是按照什么条件来筛选和排序,而无监督给了你一个可能的筛选条件和思路,让你无需对案件进行独立分析,而是批量分析,从而大大节约了时间。

写在最后

当然,单从地址信息这一个维度,不足以准确判定欺诈行为,仅能作为其中一个角度。为了不因为一刀切而导致的高误伤,欺诈属性的判别中,还是需要非常强的扩维能力,从各个角度进行欺诈属性的综合评分才能获得更加精准的效果。

2018-06-11T20:08:01+00:00 May 26th, 2018|技术动态|