无监督机器学习 (UML) 是 DataVisor维择科技的核心技术,能够主动检测欺诈攻击。因为 UML 无需历史标签、冗长的训练或不断地重新调优,即可快速精准地产出结果。DataVisor维择科技的解决方案可在攻击真正发起之前检测到团伙欺诈模式,及时阻止下游损害。很多围绕 UML 的争议都是针对其无需数据标签就能运行的能力,但事实上,UML 也可在特定环境和特定用途中使用标签。本文将围绕如何有条件地使用标签,以及这些标签如何与 UML 应用相结合。

首先,我们将了解 DataVisor维择科技使用无监督机器学习的基本原理。

UML:无需标签即可检测欺诈模式

  • 正常用户行为

群组分析是 UML 中使用的主要方法之一,是识别欺诈模式的有效方法。模式是区分合法行为与欺诈行为的关键标志之一。所谓的“正常”用户本质上是不可预测的,我们每个人都有自己的习惯、生活方式和行为,在面对线上决策时,也都是不稳定的、冲动的,甚至是随机的。此外,正常用户行为通常会受到其他因素的影响,这些因素很可能无法从现有数据中观察到。例如,用户一年内的线上购买历史较为一致,但某天起突然开始从新店每周购买数百美元的商品。这是欺诈吗?可能是。但也可能是因为用户拥有了新的宠物,于是开始定期从 PetSmart 订购商品。

  • 欺诈行为

欺诈行为各有不同,但欺诈者必然具有模式化的活动。他们都有同一目标:以最少的成本获取最大的利润,且都面临同样的现实情况,必须快速行动逃避捕捉。这意味着,欺诈分子难以拥有合法用户的全面差异化特征,欺诈分子为了扩大欺诈规模,无法做到完全如随机正常用户一样的行为。

  • 真假用户间,基于数据的区别

若要理解真实用户个性化行为与欺诈分子操作的虚假用户模式行为之间的区别,就像是拍摄宏大的战斗场面的史诗电影(如《特洛伊》)所面临的挑战;场景都需要拥有 15 万士兵!为创造这些场景,主角会使用真实演员,但其他大部分士兵都是采用依托 AI 的 CGI 技术制作的。虽然在最终成品中,场景效果逼真,但仔细检查后就能发现演员的真实性,因为 CGI 角色是“批量”创建的,因此有明显共性。

在欺诈案例中,这些共性包括用户资料、数字指纹、脚本行为等,只要进行“严密检查”,就能将其识别。此即为 UML 的能力,且因为该流程完全依赖于可用数据,无需预设标签,所以,该流程完全由数据驱动,产出的见解也直接来源于洞察数据本身,而无需历史信息。与有监督机器学习 (SML) 相比,这是一个显著优势,而 SML 依赖于标签,需要持续的更新和冗长的调优周期以维持模型质量。SML 的另一缺点为,新的欺诈标签姗姗来迟,响应性模型往往无法跟上新型、不断演变的欺诈模式。

无监督机器学习中标签的使用

无标签的情况下,UML 功能强大,结果精准。但在某些情况中,使用标签可提供额外信息,提高性能,从而更好地发现欺诈模式。

  • 场景分类

通常,具有可疑关联的群组可确认为有组织的团伙欺诈模式。然而,在客户的数据中,显示出组织行为的特定群组,也可能是正常用户组。举例来说,通过电话处理开户的银行申请中心,作为客户,您拨入电话,回答问题并提供信息,银行代理在公司电脑中输入信息。一周内,该代理可能会处理 80-100 个不同的申请。从数据角度来看,所有这些请求均具有十分相似的数字指纹,作为群组来说,看似不正常,但都来自于同一个合法来源。如果提供标签,UML 能够更轻松地辨认并移除类似这样的群组,有效防止误报。由此可将 UML 的精度推至更高水平。

欺诈行为往往十分相似。攻击可能来源于相同 IP 或使用相同软件的一组设备;请求可能是在某一特定时间范围内涌入;帐户关联的邮箱地址可能具有相似命名规则。若不深入研究数据,不做额外场景化分类,很难将有组织的攻击群组与合法群组明确区分,这时候,标签就能起到作用。在某些情况中,正常用户表现出模式化行为,是因为遵循某种基本机制,该种行为聚集后,很容易引起误报。但借助一些关联的标签,可以轻松量化群组质量,确定其为良性。

  • 数据报错

当数据报错时,则是标签发挥作用的另一场景。通常客户的数据团队将使用脚本从数据库中提取信息,随后这些信息能提供给 DataVisor维择科技作为匿名数据集。这个信息提取的过程,报错是难以避免的,并需要应对偶然发生的漏洞。如果没有数据错误,人工服务便也没有存在的必要了,或者客户也无法收集特定特征。例如,他们的 SDK 可能无法收集设备 ID 并使用零填充全部字段,因为这是一种疑似欺诈模式。在这种情况下,标签可帮助我们迅速发现问题,防止系统数据报错,减少欺诈误报。

标签:有监督与无监督机器学习

谈及标签,我们可借助一种根本方法理解有监督和无监督机器学习之间的区别:没有标签,有监督机器学习无法工作,而无监督机器学习则可以工作。

监督机器学习 (SML) 使用标签进行特征选择,换句话说,SML 使用标签来“挑选”有助于欺诈检测的内容。以一个传统帐户盗用场景为例。一位信用卡用户从不购买玩具。突然,他开始大量购买玩具。这代表了类别转换,“类别转换”是一个信号,是 SML 可使用的特征。

借助无监督机器学习,该方法完全由数据驱动。为了揭示未知,我们不用依赖于标签,所以我们向数据索取答案。我们挖掘可疑群组,并在多维子空间中进行聚合,其中底层算法可以自动选择对群组有效的特征。利用此方法,无需使用标签即可进行检测,特征工程是自动进行的。如果确实使用了标签,仅是为加快量化群组质量而使用。应注意,根据客户需求,我们还可使用标签标记群组,并提高已检测群组的可信度,反过来可以进一步增强捕获相关欺诈的能力。

结语

DataVisor维择科技利用无监督机器学习,发挥其高速性、敏捷性和适应性的优势。现代欺诈分子频繁更改策略,SML难以跟上其演变速度。SML 模型效果会迅速衰减,因此长期需要新的标签来维持其性能水平。而凭借 UML,我们可以深入挖掘群组数据,解决数据问题,并通过使用标签加速群组评估,使该模型在日后依然维持强劲效果。

最重要的是,我们的选择更为广泛。我们可以完全不使用标签;也可以仅使用一次标签进行群组评估;或使用标签查找与已知欺诈分子关联的欺诈。我们灵活多变,满足客户多种需求,以跟上现代欺诈的复杂、速度与规模。