软件开发与设计SOFTWARE DEVELOPMENT AND DESIGN
表 1 序列规则
支持度(%) 置信度(%) 交易量 规则 规则中项数
163604 A1FIN00Y==>A1FIN00Y 2
141888 A3FIN00Y==>A3FIN00Y 2
135656 C1RET00Y==>C1RET00Y 2
… … … … …
我国信用卡产业起步较晚,近年来国内各银行大力开展
信用卡业务,随着发卡量的增大,信用卡已成为重要的支付
手段和金融工具,同时也成为不法分子瞄准的目标,针对信
用卡的欺诈层出不穷。对信用卡数据进行数据挖掘,识别欺
诈行为模式,对于减少信用卡欺诈损失非常必要。
1 欺诈的识别
1.1 方法选择
常用的数据挖掘算法有逻辑回归、分类、神经网络、聚类
分析、关联(序列) 分析等。由于给出的数据中欺诈帐号数量
过少,应用逻辑回归、分类等监督的学习方法建模,模型效果
会很不理想。聚类方法可以通过将数据按照相似性聚集来发现
异常点,需要将每个帐号的所有交易行为整理成一条数据,数
据处理的工作量较大。由于帐号的交易记录正好按照时间排成
序列,因此利用序列分析算法可以去发掘交易行为模式。
1.2 数据导入和清理
应用 SAS的数据步将交易记录导入,根据文档说明,注
意控制导入数据的格式,去掉全部值均为空的列。按照帐号、
交易日期和交易时间对数据进行排序。
1.3 数据加工
增加一个“时间”字段,由交易日期加上交易时间构成,
以便在建模时设定在该“时间”字段轴上进行序列分析。将
交易的主要信息提取出来,构成一个新的字段,作为建模时
的“目标”字段,序列中每一项都是该字段,反映出某个交
易的概况。在实验中,选取了交易金额、交易类型、交易应
答码、商户和验证码等 5项,通过一定的归纳转换综合为一
个字符串,作为“目标”字段。
1.4 数据建模
在 SAS中,将预进行序列分析的交易数据集和 Sequence
结点连接,设置几个字段的 Model role,包括 ID、Sequence和
Target,其中,ID一般是不同个体,此例中为帐号。Sequence
一般为时间字段,Target为产生的规则项。交易数据集时间跨
度为一个月,而跨天的交易行为联系性较小,因此分析所有
帐号在一天内的序列,在实验中,把帐号和交易日期共同设
为 ID。运行 Sequence结点,可以得到序列规则。
1.5 模型规则的应用
现通过应用 SAS的序列分析得到若干条反映交易行为的
序列,如表 1所示。这些序列数量在较高的置信度上也有近
百条,需要从中找出反映欺诈特征的交易序列。利用这些序
列预测出包含欺诈的帐号,与这一个月内的真实已知欺诈帐
号比对,看看准确率和覆盖率有多大。
实验结果取决于以下两个方面:
(1) 设定的 Target为规则中的项,设定 Target 决定生成
什么样的规则以及规则的数量。项是选取交易中若干变量生
成的,对于反映交易模式,可能既不充分,也不必要。不重
要的信息会增加生成的规则数量,而漏掉的重要信息也会影
响结果的有效性。如何正确选取变量进入到规则中的项,是
应用序列分析算法的关键。
(2) 数据的跨度较小。应用序列算法对信用卡交易数据
的分析能够反映出一定的行为模式,对于实际的工作有一定
的借鉴意义。
1) 支持度较大,置信度较高的规则,反映一般的行为模式。
2) 支持度较小,但置信度较高的规则,可能反映特别的
行为模式,可予重点关注。
3) 支持度较小,置信度也较低的规则,有可能存在欺诈
行为。
4) 对于特定的用户群体,如 VIP客户等进行序列分析,
发掘该类客户的行为特征。
总的来说,应用序列算法方法是可行的。支持度高低、置
信度高低的判定可以考虑用统计的方法设定。至于能否应用于
欺诈帐号的预测,需要再对数据进行细加工,缜密地选取最有
序列分析和信用卡反欺诈中的应用
李一鸣
(山东肥城矿业中心医院专科病区微机中心,肥城 271613)
摘 要: 描述了序列分析方法在信用卡反欺诈中的应用,并通过实例以及使用两种工具进行比较。
关键词: 序列分析;信用卡反欺诈
Series Analysis and Used in Detecting Credit Card Fraud
LI Yiming
(Feicheng mining central hospital computer center, Feicheng 271613)
Abstract: This paper discussed how series analysis method is used in detecting credit card fraud. An example is given to
show the method using two modeling tools.
Key words: series analysis; credit card anti-fraud
本文收稿日期:2009-7-6
9- -
DOI:
电脑编程技巧与维护
根据企事业办公流程实际,以 WFMC的工作流元模型为
基础,引入 WIDE工作流元模型的一些模型元素,并根据需
要添加了一些新的模型元素,设计出适合办公自动化系统开
发的工作流元模型,如图 4所示。
工作流元模型中办公人员以系统赋予的角色启动工作流。
工作流由许多不同的任务组成 (登记、拟办、请示、通知、催
办、归档等),任务之间由工作流管理系统根据工作任务赋予
不同的控制连接 (并发、顺序、选择等),任务在执行过程中
使用“工作文件”和“控制文件”中的数据。在完成或中断
时将执行结果、状态变量写入“文件”,完成工作流程或为下
一次流程启动做准备。
以上工作流元模型具有的特点是:
(1) 参考 WIDE工作流元模型,将组织结构元模型加入
到企业工作流元模型中,这样比较容易将日常办公与企业组
织结构本身联系起来,从而更清楚地描述企业的办公过程。
(2) 参考WFMC工作流元模型,对办公自动化的整体结构
进行勾画和建模型,提高系统的集成性和健壮性,对系统集成
其他应用提供了可靠的保障,提供的应用接口更具有灵活性。
(3) 元模型中的任务、文件、用户、角色等与系统中的实
际应用有很强的关系,便于工作流程模型的建立和系统的开发。
工作流元模型较好地结合了 WFMC模型和 WIDE模型的
优点,能够比较准确、全面地反映办公自动化系统业务流程
的特点,为办公自动化系统建模、流程控制和系统集成等提
供了灵活的方法和强有力的工具。
4 结语
工作流元模型是办公自动化系统工作原形的抽象,以上
工作流元模型在办公自动化系统中得到具体的应用,在其系
统建模和流程控制中发挥着重要的作用,工作流模型须结合
业务流程实际,将向 Agent智能化方面发展。
参考文献
[1] Bracchi Design Requirements of Office Sys-
Office Information System, 1984,2 (2) .
[2] 陈江东. 办公自动化系统的系统分析 [J] . 计算机系统应
用,1998:10.
[ 3] ,, Operational Approach to
the Design of Workflow System [J] . Information and Software
Technology,2000,42:549~553.
[ 4] David Model-The Workflow Refer-
ence Model [R] .WFWC-TC-1003,1995.
[5] 杨学良. 工作流技术在办公自动化系统中的应用 [J] . 计
算机工程与设计,2001,22 (3) : 63.
基金项目
1. 基于工作流机制的新型 MIS开发工具的研发(07NJZ-09);
2. NativeXML数据库的研究。省教育厅青年基金资助项目。
作者简介
郑英,女,硕士,讲师,研究领域为软件工程、计算机应
用等。
王雪媛,女,硕士,讲师,研究领域为网络数据库技术等。
杨国军,男,硕士,讲师,研究领域为软件工程、工作流等。
工作流 执行者
执行
角色
角色名称
文件 任务 工作任务 应用人员
姓名
执行
任务开始时间顺序 选择 结合 并发
控制连接
连接
控制文件 工作文件
图 4 办公自动化系统工作流元模型
(上接第 8页)
意义的变量,结合实际情况,对生成的规则进行细致地判断。
2 工具比较
SAS EM与 Clementine中均有序列分析算法,均可对特定
数据集进行序列建模分析。二者功能类似,又各有优劣。
2.1 变量处理
在 Clementine 中同样需要进行类似这三种角色的设定,
ID字段、时间字段和内容字段。不同的是,SAS中可将多个
字段指定为 ID, 而在 Clementine中只能指定一个,在这一点
上 SAS十分方便。
2.2 参数设置
在 SAS和 Clementine中均可以指定产生规则的最小支持
度及序列的最大长度,但只有 Clementine中能指定产生规则
的最小置信度以及对后项预测的数目。
2.3 运行结果
运行序列算法的结果,二者均产生序列规则及规则的支
持度与置信度。SAS中的结果可以导出为数据集,其他的操作
不够灵活。而 Clementine中还给出预测后项的概率,利用规
则对新的数据进行预测十分方便。在 Clementine中,生成模
型后,从模型中菜单操作生成规则超级节点,利用规则超级
节点可以直接找到符合某条规则的所有数据,并给出后项的
预测。在 SAS中则需要写代码才能实现。
2.4 运行效率
从日志记录的运行时间来看,在大量数据的情况下,本
实验中为 300MB左右的数据,SAS效率明显高于 Clementine。
参考文献
[1] 孙大利. 关联规则分析及其在信用卡反欺诈中的应用. 中
国信用卡, 2007:36-37.
作者简介
李一鸣,男(1975-),中级/学士学位,计算机在财务及医疗
方面的应用。
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
10- -