当前位置: 首页 > 方法工具 > 正文

使用关联规则检测刷单作弊行为

最近发现我们平台上的个别内容提供商使用一些违规的手段,对自己所属的收费内容进行刷单作弊。从其他渠道以很优惠的价格购买代金券,在平台消费自己的项目内容,从而获得结算分成与成本的金额差价。

因为需要对该问题进一步重视和监控,我也在考虑一些检测方法,其中一个就是本文介绍的基于数据挖掘中的关联规则(Association Rules)的算法进行尝试分析。对于关联规则的算法原理在此就不赘述。

家喻户晓的一个利用关联规则的案例是沃尔玛啤酒尿布的案例,目的是发现客户购物篮中经常被同时购买的商品。本例与啤酒尿布案例类似。主要因为内容商使用低价购买的客户账号购买自己的商品,但基于以下分析,本案例中可能会产生较强的关联效应:

(1)对同一批内容商品进行购买,会节约作弊成本。

(2)由于客户帐号有限,必将会出现一个客户账号购买很多内容项目的现象。

而与沃尔玛的案例不同的是,沃尔玛的案例是探索的正向积极的事件,本例是要发现的是负向消极的事件。沃尔玛的案例中要求事件的支持度(support)要较高,即事件能够经常发生才能有意义,置信度(confidence)只要适当即可,不要求过高;而本例因为是需要稽查异常,所以不能要求支持度高,相反置信度一定要比较高,即当某时间发生以后,另一关联的时间也发生的概率要很高才行。

通过初步的设想,提取出某一天的客户订单数据进行建模,模型如下所示:

使用关联规则发现刷单作弊行为01

关联规则模型设置如下:

使用关联规则发现刷单作弊行为02

因为使用的是事务型数据格式(按交易明细进行记录的,特点是一个客户标识可以有多条数据),所以需要勾选 use transaction format这个选项。此外因为本例需要对全部的CASE进行关联分析,因此没有对数据进行分区。

使用关联规则发现刷单作弊行为03

上面已经介绍了本例要求低支持度和高置信度的设置。因为本例只需要发现任意两个内容项目的关联即可,所以只将最大前项数(maximum number of antecedents)为1。

最后得出的模型结果如下:

使用关联规则发现刷单作弊行为04

从结果模型上可以看到,两内容项目的关联程度可以高达百分之百,即用户购买了某一个内容项目,那这个用户100%会购买另一个内容项目,可见它们俩之间很可能存在猫腻,而这个规则也正是我想要寻找的。

尽管这些规则的支持度都很低,但刷量作弊属于异常事件,不能要求高支持度。

将模型导出文本,并将这些内容项目进行整理,通过对这些项目的购买清单进行观察分析,发现产生在这些内容项目的订单95%以上存在很强的作弊嫌疑,由此验证,此关联模型对此类作弊行为有较强的检查能力。

使用关联规则发现刷单作弊行为05

现阶段只对该模型可行性进行尝试,尚未考虑模型的部署,本文只介绍到此,希望能对朋友们有一定的启发。

本文固定链接: http://datakung.com/?p=171 | 数据控

版权声明:本原创文章由 数据控 于2013年11月04日发表在 方法工具 分类下, 你可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客。
转载请注明: 使用关联规则检测刷单作弊行为 | 数据控
关键字: ,

使用关联规则检测刷单作弊行为:目前有1 条留言

  1. 沙发
    JNYYZ:

    看似很简单的一句话,或许都能给人以启发,支持一小下

    2013-11-07 08:40 [回复]

发表评论


快捷键:Ctrl+Enter