近日,全球知名科技媒体VentureBeat上发表了题为《数据隐私和数据智能可以共存吗?》一文,文章作者DataVisor维择科技创始人兼CEO谢映莲阐释了运用无监督机器学习引擎,可以利用更少的数据获得更多的风控情报的观点。

【原文如下】

我们应当改变处理客户数据的方式:当前数据采集“越多越好”的理念需要改变,而是思考如何仅收集必要的最少量数据还能保持智能化。在商业环境中,数据常常被认为是实现财务成功的最重要资源之一,这听起来可能违反正常观念。但是,这正是企业需要做出的改变,事实上收集更少的数据并不像听起来那么危险。

当今商业环境中普遍认为,系统访问的数据越多,它们将越智能。事实并非如此,“更少的数据意味着更少的情报”这样的观点是不正确的。当普遍认为更多数据是竞争性业务差异化的因素时,实际上激励了企业寻求新的和更多的收集数据的方法,但这很可能会造成不良影响。

我们每天都会看到有关数据泄漏、暴露、网络漏洞等新闻,我们了解到有关身份盗窃和金融欺诈的可怕事件,目睹了由于无法保护收集的数据而遭受企业声誉损害的情况,不少企业因此遭受到监管惩罚或者消费者的强烈抵制。

隐私只是数据收集的相关问题之一。大规模数据采集和管理还涉及成本问题:计算成本,存储成本,运营成本等等。我们正处于大数据、人工智能和机器学习的时代,但是,如果数据量继续等同于系统的智能性,这些成本将继续飙升。

当今的企业希望最大化了解客户的一切。但是,客户对他们的每一个举动都受到监视、记录、处理、分析的想法感到畏惧。企业收集的数据越多,客户的畏惧就越大,当客户数据被盗时,除罪犯外的包括企业和客户在内的每个人都会因此感到恐慌。如果我们对收集的数据以及如何处理和分析数据更加了解的话,我们事实上是不需要那样大量的数据的。

最关键的步骤是从收集和依赖单个数据转移到处理和分析群组数据。例如,我们可以查看IP前缀,而不是分析单个IP地址,依然可以获取所需的所有智能能力。这种方法的优势在于,我们在组级别处理数据的能力越强,对个人用户信息的收集就越少。尽管这可能看起来很矛盾,但事实是,我们用更少的数据得到了更多的情报。当我们进行特征工程(构建高级模型的关键部分)时,我们可以在特定时间段内基于群组数据创建特征。例如,可以处理一组特定设备数据的总交易量,其中每笔交易的金额均超过定义的阈值,而不需要精确地了解单个交易金额。

此外,通过组级整体分析,我们可以发现许多个体审查时无法发现的欺诈模式或趋势。这使我们能够收集合理量级的数据并输出有价值的见解,不必深入研究个人帐户。也就是对单个数据需求减少,而整体智能性的提高。派生数据增加了另一层好处,即我们可以从一个数据点得到许多附加的特征,这些特征能够帮我们进一步完善结果。例如,我们可以查看IP范围以区分正常和异常的移动模式,这样我们就可以判断单个用户是否正在旅行,而无需了解用户航班和酒店等详细信息。

使用这类群组分析的技术意味着重大的转变,意味着技术与大数据道德标准保持一致。我们可以从群组数据中获得的洞见越多,对单个用户的隐私数据需求就越少,这就是无监督机器学习(UML)。

如果没有无监督机器学习(UML),我们就只能利用个人数据来预测该用户的未来行为。我们必须一遍又一遍地逐个用户地执行此过程,这将是非常繁重的数据分析过程。而使用UML,我们可以在组级别审查用户,并从观察到的帐户和操作的相关性和模式中获得有价值的情报。最终,我们只需要几个关于个人的数据点即可将其与用户群组对应匹配,而且我们可以预测该群组的未来行为。

在我所从事的反欺诈领域,主动的检测能力是我们成功的关键。为了确保客户安全,我们必须能够主动检测到快速发展且变化的攻击。为了实现这一目标,我们使用群组数据并进行整体分析,发现异常活动的相关性和模式,这些相关性和模式指向了欺诈行为和恶意帐户。我们的UML引擎仅使用少量数据就做到了这一点。我们还发现,许多企业已经拥有所需的数据,但并没有有效地挖掘数据价值。

全球监管领域的发展表明,我们正朝着保护隐私和提升透明度的方向发展。同时,数据收集的限制条件也越来越严格。但这并不意味着我们的数据智能能力的下降。通过整体数据分析实践,运用先进的AI和无监督机器学习技术等,我们可以在保持用户隐私的同时获得高水平的智能分析能力。

随着当下数据采集和管理要求的转变,与有监督的机器学习(SML)相比,无监督机器学习(UML)的价值正在迅速提升。尽管SML在数据丰富的环境中具有一定意义,我们想知道的越多,我们提供给算法的数据就越多,但这种不受限制的数据采集频率可能会带来严重的问题。使用UML,我们可以更改范例,因为我们减少了个人信息的获取,隐私保护能力的提升立竿见影。当SML标记数据的引用出现偏差时,UML也具有明显的优势,因为UML是客观的,它仅根据在非结构化数据中发现的模式执行分组,这使我们能够发掘传统方法(如SML)忽视的新型欺诈模式。

目前银行业和支付行业正在积极利用新技术新功能,不少金融服务提供商了解到了UML带来的价值。侵犯隐私权、提高安全性和验证措施一直是平台与客户摩擦加剧的因素。借助UML,这些企业或平台能够优化用户体验,而不会增加不必要的摩擦。 在当今数字经济中,金融机构必须在风险管理、客户体验、道德数据获取之间取得平衡,这一点至关重要。

今天,我们站在一个新时代的大门前,在这个时代,大数据道德和情报已不必再相互排斥。