LOGO
資料採礦分類分析系統之建構
與應用
-信用貸款違約與選股系統應用
指導教授:姜林杰祐 博士
學生:陳冠名
摘要
本研究以資料採礦的分類方法為核心,嘗試建構
一開放式的分類分析系統,其內含的分類演算法
包括ID3、、貝氏分類法與記憶基礎推論法
等。
為驗證本系統的有效性,本研究以銀行信用貸款
資料庫為例,分類正常戶與違約戶;並將此分類
工具應用於股市的分析、預測,期能以此系統發
展資料趨導式的選股模型
Company Logo
報告大綱
第一章、研究目的與動機。
第二章、文獻探討。
第三章、資料採礦分類分析系統開發。
第四章、實例應用一。
第五章、實例應用二。
第六章、結論與未來研究。
Company Logo
研究動機與目的
近年來資料氾濫,如何在過度氾濫的資料中去蕪
存菁,將無用的資料過濾,進而獲得有用的資訊、
知識是相當重要的議題,而資料採礦即是對資料
進行分析,以求在大量資料中獲取資訊的有效方
法。
Company Logo
資料採礦方法在財金領域應用現況
Philip Joos 等(1998) 將Logit Model以及決策樹用
於比利時某大型銀行資料庫進行信用分類,獲得
80%以上之的準確度。
Nazli Ikizler等(2000)使用決策樹演算法對銀
行放款資料進行分析,試圖找出令人感興趣的分
類規則,此研究結果發現數條有用之分類規則,
可供決策運用。
Muh-Cherng Wu等(2006)以決策樹結合濾嘴法則,
應用於股市交易,獲得13%的報酬率。
Company Logo
資料採礦於金融業之應用
資料來源:吳振晃(2003)
應用領域 應用情況
信用卡公司 信用卡公司使用資料採礦來增加信用卡
的應用,作購買授權決定,分析持卡人
購買行為,並偵測詐騙行為
金融服務機構 分析師使用資料採礦技術,來分析大量
的財務資料,建立交易模型來發展投資
策略
銀行 銀行使用資料倉儲來促進資料採礦作業,
並詳細的分析客戶資料,然後整合這些
成果以形成行銷策略,也可以使用資料
採礦技術,識別客戶的貸款活動,調整
金融商品以符合客戶需求,尋找新客源,
加強客戶服務。
保險公司 資料採礦技術最近已提供保險業者,從
大型資料庫中取得有價值的資訊以進行
決策,這些資訊可讓保險業者進一步認
識客戶,並可有效的偵測保險詐欺。
Company Logo
資料採礦方法
分群。分群是針對樣本進行劃分,與分類不同的是,進行分類時使
用者必須明確知道要以何種準則來對樣本進行劃分,而分群屬於非
監督式學習法,使用者不需知道樣本要依何種準則進行劃分(有時也
無法得知),分群演算法會自動對樣本進行劃分,在圖形辨識、市場
區隔等領域都有優異的表現,主要演算法有K-平均法、K-物件法等。
關聯。此演算法主要是要探究,當某一事件發生時,是否會帶動另
一事件跟著發生,是一種探究因果關係的方法,最著名的應用為購
物籃分析,用以發現消費者的購買行為,以Apriori演算法最為經典。
分類。為一監督式學習方法,主要用於對樣本進行類別的劃分,如
對銀行客戶進行信用分級、預測違約戶…等都是其主要應用領域,
分類包含了眾多演算法可供使用,如決策樹、類神經網路、支援向
量機(SVM)、貝氏分類法、記憶基礎推論法(MBR)…等都是知名的
分類演算法。
Company Logo
決策樹
ID3:以資訊理論作為屬性選擇之依據
:改良自ID3
Company Logo
貝氏分類法
貝氏定理:
現實中,類別C中出現X客戶的機率無法求得
再假設各屬性值相互獨立
由上述可得
Company Logo
記憶基礎推論法
步驟1 選取訓練樣本集
步驟2 計算屬性距離
絕對差:
平方差:
標準差:
步驟3 計算資料距離,將上述求得各屬性距離加以組合成一個值,
用以代表兩資料間的距離,常用合成方式如下
總和:
標準化總和:
歐基里徳距離:
Company Logo
記憶基礎推論法(續)
步驟4 選取k筆鄰近資料進行表決,為了避免表
決時有平手的情況,k應取單數為佳。
步驟5 表決方式選擇,判定方式以選出之k個鄰
近資料進行多數決,多者即為該預測樣本歸屬之
類別,常用判定方式如下:
民主選舉法:所選之k個鄰近樣本具有相同權
重,以多者為勝。
加權選舉法:依據所選之k個鄰近樣本與預測
樣本的距離給予權重,距離預測樣本愈近,
則權重愈大。
Company Logo
系統架構
Company Logo
決策樹流程
Company Logo
貝氏分類法流程
Company Logo
記憶基礎推論法流程
Company Logo
銀行信用貸款違約分析
實驗流程
決策樹分析
貝式分類法分析
記憶基礎推論法分析
Company Logo
實驗流程
資料獲取:將欲進行分析之資料載入資料表
資料前置處理:共有雜訊處理、資料離散化、訓練/測
試樣本選取三部份
雜訊處理:將兩標準差以外之資料視為雜訊。
資料離散化:以等寬裝箱法將連續型資料分為五類。
訓練/測試樣本選取:隨機挑選151筆資料進行訓練,
75筆資料用於測試。
探勘方法選取:依使用者需求選取合適之探勘方法,系
統提供方法有決策樹、貝氏分類法、記憶基礎推論法。
Company Logo
決策樹分析
實驗設定
參與屬性 貸款金額、性別、學歷、婚姻、職業、是
否雙薪、保證人、收入、年齡、子女人數、
負債、信用卡、用卡狀況、建物樣式、建
物坪數、建築年數、押品樓層、寬緩本金、
信用型態…等19個屬性。
目標屬性 信用型態,0代表不違約,1代表違約。
雜訊處理 將2標準差以外的資料視為雜訊,予以刪
除。
資料離散化 以等寬裝箱法,將連續型資料分為5類
樣本選取 原本300筆資料,經過雜訊處理後剩下
226筆,隨機挑選151筆為訓練樣本,75
筆為測試樣本。
探勘演算法 ID3、。
中止條件 最大深度1、2、3層,及無限制。
Company Logo
決策樹分析(續)
實驗結果
ID3 實驗結果
實驗結果
無限制 最大深度1 最大深度2 最大深度3
樣本內準確度 1
樣本外準確度
無限制 最大深度1 最大深度2 最大深度3
樣本內準確度 1
樣本外準確度
Company Logo
決策樹分析(續)
分類規則
Company Logo
決策樹分析(續)
樹狀圖
Company Logo
貝式分類法分析
實驗設定
實驗結果
參與屬性 貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證
人、收入、年齡、子女人數、負債、信用卡數、用卡狀
況、建物樣式、建物坪數、建築年數、押品樓層、寬緩
本金、信用型態…等19個屬性
目標屬性 信用型態,0代表不違約,1代表違約。
雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。
資料離散化 以等寬裝箱法,將連續型資料分為5類
樣本選取 原本300筆資料,經過雜訊處理後剩下226筆,隨機挑選
151筆為訓練樣本,75筆。
探勘演算法 貝氏分類法。
樣本內準確度
樣本外準確度
Company Logo
記憶基礎推論法分析
實驗設定
參與屬性 貸款金額、性別、學歷、婚姻、職業、是
否雙薪、保證人、收入、年齡、子女人數、
負債、信用卡、用卡狀況、建物樣式、建
物坪數、建築年數、押品樓層、寬緩本金、
信用型態…等19個屬性。
目標屬性 信用型態,0代表不違約,1代表違約。
雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。
資料離散化 以等寬裝箱法,將連續型資料分為5類
樣本選取 各類別隨機挑選30筆,共60筆資料作為訓
練樣本集;挑選15筆鄰近資料作為表決資
料集,隨機挑選75比為測試資料集。
探勘演算法 記憶基礎推論法。
其他 1.針對各距離函數及合成方式一一測試,
共有九種測試組合
2.判定方式採民主選舉法
Company Logo
記憶基礎推論法分析(續)
實驗結果
總和 標準化總和 歐基里徳距離
絕對差
平方差
標準差
Company Logo
實例一總結
決策樹因為有一條條的分類規則輸出,較易解釋
獲得之分類結果,在實務上較受歡迎,且輸出之
規則可做為未來決策判斷之用。
貝氏分類法以貝氏定理為基礎簡單易用,且只需
知道各類別所包含的資料個數,即可計算出機率,
因此此方法具漸增性–當資料增加時不必從頭計
算,只需將新舊資料各類別之資料數加總即可
。
記憶基礎推論法之預測效果最優,對於小樣本也
可獲得不錯的準確度,然而卻也是此方法之缺點,
此法因為計算量太過龐大,不適於大樣本之預測。
Company Logo
資料導向的選股模型建構
台灣上市公司個股應用
台灣大盤指數應用
Company Logo
台灣上市公司個股應用
此部份將資料探勘技術應用於股票市場,分析上
市公司的財務資料,用以預測下一季的股票平均
季報酬,進而使用這些規則來協助投資者建立選
股模型。
本實驗採決策樹以及貝氏分類法進行測試,詳細
如下
Company Logo
決策樹
實驗設定
參與屬性 現金週轉率、資產週轉率、營收成長率、成本率、
營業比率、股東權益報酬率、資產報酬率、財務槓
桿度、資產、負債、股本、營業淨利、稅後淨利成
長率、營業外收支、基本EPS、季平均報酬…等16
個屬性
目標屬性 季平均報酬,0代表低於門檻,1代表高於門檻。
門檻值 目標屬性分類的依據,此實驗測試季平均報酬0%
、3%、5%三種情況。
雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。
資料離散化 以等寬裝箱法,將連續型資料分為3類,詳細資料
請見下列資料轉換前數值表,以及資料轉換後數值
表。
實驗資料 台灣上市公司2000年第一季至2007第三季。
樣本選取 經過雜訊處理後剩下11548筆,隨機挑選7698筆為
訓練樣本,3850筆為測試樣本。
探勘演算法
中止條件 最大深度5層,最低樣本比例1%,以及無限制。
Company Logo
決策樹(續)
實驗結果
季平均報酬0% 實驗結果
季平均報酬3% 實驗結果
季平均報酬5% 實驗結果
無限制 最大深度5 最低樣本比例1%
樣本內準確度
樣本外準確度
無限制 最大深度5 最低樣本比例1%
樣本內準確度
樣本外準確度
無限制 最大深度5 最低樣本比例1%
樣本內準確度
樣本外準確度
Company Logo
決策樹(續)
分類規則
由圖中規則可知,營收成長率、股東權益報酬率、資產週轉率…等屬性較
為重要,投資者在分析公司財務狀況時,可以多留意這些屬性,例如,由
圖15之規則我們可知營收成長率介於 ~ ,且資產週轉率介於
~ 則平均季報酬大於5%,因此在進行股票選擇時,投資者可優先
考量符合此條件之公司。
Company Logo
貝氏分類法
實驗設定
參與屬性 現金週轉率、資產週轉率、營收成長率、成本率、
營業比率、股東權益報酬率、資產報酬率、財務
槓桿度、資產、負債、股本、營業淨利、稅後淨
利成長率、營業外收支、基本EPS、季平均報酬…
等16個屬性
目標屬性 季平均報酬,0代表低於門檻,1代表高於門檻。
門檻值 目標屬性分類的依據,此實驗測試季平均報酬0%
、3%、5%三種情況。
雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。
資料離散化 以等寬裝箱法,將連續型資料分為3類,,詳細資
料請見下列資料轉換前數值表,以及資料轉換後
數值表。
實驗資料 台灣上市公司2000年第一季至2007第三季。
樣本選取 經過雜訊處理後剩下11548筆,隨機挑選7698筆
為訓練樣本,3850筆為測試樣本。
探勘演算法 貝氏分類
Company Logo
貝氏分類法(續)
實驗結果
門檻值
0%
門檻值
3%
門檻值
5%
樣本內準確
度
樣本外準確
度
Company Logo
台灣上市公司個股應用總結
以季平均報酬5%所得預測效果不管終止條件為
何皆較其他為好。
實驗最佳準確度約為70%,表現並不優異,可就
參與屬性多做調整,已達到更理想的目標。
Company Logo
台灣大盤指數應用
本案例使用技術指標,結合決策樹演算法,
用以預測台灣大盤趨勢,先利用系統求得分類規
則,再挑選出具代表性之規則,利用所挑選之規
則進行回測,以測試投資績效。
Company Logo
資料區間
資料為1968年1月至2007年12月每日之TES指數,本實驗以移動視窗法將資料進行分段,每
段十五年,共分六段,每段中以前八年為訓練樣本,次兩年為測試樣本,最後五年之資料
進行回測,每段移動幅度為五年,如下圖:
Company Logo
資料數值說明
變數名稱 資料型態 數值說明
移動平均(MA) 類別 0:其他
1:MA走勢向上,指數由下向上
突破MA(黃金交叉)
2:MA走勢向下,指數由上向下
突破MA(死亡交叉)
3:MA走勢向上,指數向下突破
MA(假跌破)
4:MA走勢向下,指數向上突破
MA(假突破)
5:指數由上而下逼近MA,但沒
有跌破MA,且向上翻升(拉回)
6:指數由下而上逼近MA,但沒
有突破MA,且向下反轉(反彈)
乖離率(BIAS) 類別 0:其他
1:BIAS小於%
2:BIAS大於5%
指數平滑異同移動平均
(MACD)
類別 0:其他
1:DIF由下而上突破MACD
2:DIF由下突破MACD
Company Logo
實驗設定
參與屬性 MA、BIAS、MACD、KD…等十三個
技術指標
目標屬性 指數投資報酬率
探勘演算法
中止條件 最大深度5層,最大深3層。
Company Logo
實驗結果
最大深度3層實驗準確度
最大深度5層實驗準確度
期間 1968~1977 1973~1982 1978~1987 1983~1992 1988~1997 1993~2002 1998~2007
準確度 06061
期間 1968~1977 1973~1982 1978~1987 1983~199
2
1988~1997 1993~2002 1998~2007
準確度
Company Logo
有效規則篩選
期間 買賣訊號 使用指標 規則說明
1968~1997 買 DMI, BR,
BIAS, OBV
(1)+DI由上而下突破-DI且BR介於~間
(2)乖離率介於~間且OBV值由正轉負
賣 DMI, BIAS,
%R, OBV
(1)+DI由下而上突破-DI且WMS%R介於20~80間
(2)乖離率介於~間且OBV值由負轉正
1973~1982 買 BIAS, MA,
DMI, %R
(1) 乖離率介於~間且MA走勢向下,指數由上向下突破MA
(死亡交叉)
(2) 乖離率介於~間且MA走勢向上,指數向下突破MA(假跌
破)
(3) 乖離率介於~間且指數由下而上逼近MA,但沒有突破
MA,且向下反轉(反彈)
賣 BIAS, MA,
DMI, PSY
(1)乖離率介於~間且MA走勢向上,指數由下向上突破MA
(黃金交叉)
(2)乖離率介於~間且MA走勢向下,指數向上突破MA(假突
破)
(3)乖離率介於~間且指數由上而下逼近MA,但沒有跌破
MA,且向上翻升(拉回)
(4)+DI由下而上突破-DI且乖離率介於25%~75%間
1978~1987 買 BIAS, DMI,
%R
(1)乖離率介於~間且9日WMS%R值大於80
(2)乖離率介於~間且+DI由上而下突破-DI
賣 BIAS, DMI,
%R
(1)乖離率介於~間且9日WMS%R值小於20
(2)乖離率介於~間且+DI由下而上突破-DI
Company Logo
有效規則篩選 (續)
期間 買賣訊號 使用指標 規則說明
1983~1992 買 BIAS, DMI, %R (1)乖離率小於
(2)乖離率介於~間且9日WMS%R值大於80
(3)乖離率介於~間且+DI由上而下突破-DI
賣 BIAS, DMI, %R (1)(1)乖離率介於~間且9日WMS%R值小於20
(2)(2)乖離率介於~間且+DI由下而上突破-DI且WMS%R介
於20~80間
1988~1997 買 BIAS, MA, DMI (1)乖離率小於
(2)乖離率介於~間且MA走勢向下,指數由上向下突破MA
(死亡交叉)
(3)乖離率介於~間且MA走勢向上,指數向下突破MA(假跌
破)
(4)乖離率介於~間且+DI由上而下突破-DI
賣 BIAS, MA, DMI (1)(1)乖離率介於~間且MA走勢向上,指數由下向上突破
MA(黃金交叉)
(2)(2)乖離率介於~間且MA走勢向下,指數向上突破MA(假
突破)
(3)(3)乖離率介於~間且指數由上而下逼近MA,但沒有跌破
MA,且向上翻升(拉回)
(4)(4)乖離率介於~間且指數由下而上逼近MA,但沒有突破
MA,且向下反轉(反彈)
(5)(5)乖離率介於~間且+DI由下而上突破-DI且WMS%R介
於20~80間
1993~2002 買 BIAS, DMI, %R,
PSY
(1)(1)乖離率介於~間且9日WMS%R值大於80
(2)(2)乖離率介於~間且+DI由上而下突破-DI
(3)(3)乖離率小於且PSY介於25%~75%之間
賣 BIAS, DMI, %R (1)(1)乖離率介於~間且9日WMS%R值小於20
(2)(2)乖離率介於~間且+DI由下而上突破-DI
Company Logo
回測
系統所獲得之分類規則,無非想建立一選股模型,以運用於股票市場,期
能對投資者有所幫助,此處說明將先前獲得之分類規則做適當處理,再利
用程式交易軟體”TradeStation”對選股規則進行回測,驗證選股模型
對投資者是否有所幫助。
報酬率
回測期
間
1978~1
982
1983~1
987
1988~1
992
1993~1
997
1998~2
002
2003~2
007
總報酬
率
53% -
%
%
985% -
%
%
Company Logo
交易資訊以及報酬曲線
期間一(1978~1982)交易資訊
期間一(1978~1982)報酬曲線
期初金額 100000 期末淨利 53000
交易次數 30 獲利次數 23
勝率 % 平均交易獲利/損失
最大獲利金額 30000 最大損失金額 -26000
平均獲利交易金額 平均損失交易金額
期末報酬率 53%
Company Logo
交易資訊以及報酬曲線(續)
期間二(1983~1987)交易資訊
期間二(1983~1987)報酬曲線
期初金額 100000 期末淨利 -574800
交易次數 154 獲利次數 96
勝率 % 平均交易獲利/損失
最大獲利交易金額 167800 最大損失交易金額 -286200
平均獲利交易金額 平均損失交易金額
期末報酬率 %
Company Logo
交易資訊以及報酬曲線(續)
期間三(1988~1992)交易資訊
期間三(1988~1992)報酬曲線
期初金額 100000 期末淨利 1707800
交易次數 114 獲利次數 56
勝率 % 平均交易獲利/損失
最大獲利交易金額 934800 最大損失交易金額 -287800
平均獲利交易金額 平均損失交易金額
期末報酬率 %
Company Logo
交易資訊以及報酬曲線(續)
期間四(1993~1997)交易資訊
期間四(1993~1997)報酬曲線
期初金額 100000 期末淨利 985000
交易次數 186 獲利次數 106
勝率 % 平均交易獲利/損失
最大獲利交易金額 293200 最大損失交易金額 -104000
平均獲利交易金額 平均損失交易金額 -31965
期末報酬率 985%
Company Logo
交易資訊以及報酬曲線(續)
期間五(1998~2002)交易資訊
期間五(1998~2002)報酬曲線
期初金額 100000 期末淨利 -629200
交易次數 243 獲利次數 144
勝率 % 平均交易獲利/損失
最大獲利交易金額 203200 最大損失交易金額 -395800
平均獲利交易金額 平均損失交易金額 -46400
期末報酬率 %
Company Logo
交易資訊以及報酬曲線(續)
期間六(2003~2007)交易資訊
期間六(2003~2007)報酬曲線
期初金額 100000 期末淨利 -629200
交易次數 217 獲利次數 144
勝率 % 平均交易獲利/損失
最大獲利交易金額 204000 最大損失交易金額 -395800
平均獲利交易金額 平均損失交易金額 -46400
期末報酬率 %
Company Logo
台灣大盤指數應用總結
由實驗結果看出,第二及第五段訓練期間所得之規則,
使用移動平均作為判斷依據,在TradeStation回測下所
得之報酬皆為負報酬,且由報酬曲線可看出,隨著交
易次數增多,投資報酬率漸漸趨向於負,曲線呈負斜
率,投資者在做投資時可稍加留意。
由第三、第四以及第六訓練期間所得之規則,同時使
用乖離率、趨向指標以及威廉指標作為選股依據,可
獲得良好之報酬率,再觀察報酬曲線,可發現使用此
三項指標作為策略依據之報酬曲線,期間雖小有震盪,
但大致趨勢呈正斜率,此三指標應可作為投資者參考
之用。
Company Logo
結論與未來研究
此篇論文簡單說明了資料採礦方法及其應用,並以自建
系統操作兩個實例,分別為銀行和股市方面的應用,期
望能以系統所得之分類規則幫助使用者決策。
在銀行應用方面,對銀行貸款資料進行分析,以本系統
所提供之各方法求得之分類規則,準確度約為70% ~
90%。
在台灣上市各股方析方面,獲得數條分類規則,以本系
統所得之分類規則及預測結果,最佳準確度約為70%。
台灣大盤指數分析方面,本實驗將所得之分類規則代入
TradeStation進行回測,在此實驗中以乖離率、趨向指標
以及威廉指標作為選股依據,可獲得較佳之報酬。
Company Logo
結論與未來研究(續)
在上述實驗中,本除了第一個實例中記憶基礎推
論法可達90%,而其他演算法所得之準確度約為
70%,尚有改善空間,未來將對演算法加以改善,
結合不同的方法學及演算法,如(李允中 ,
2002)模糊理論及其應用一書中將模糊理論與決
策樹做結合。
Company Logo
LOGO
決策樹
年齡 婚姻 收入 購買
<30 單身 高 否
<30 單身 中 否
>=30 單身 低 是
>=30 已婚 中 否
>=30 已婚 低 否
>=30 已婚 低 否
>=30 已婚 中 否
<30 單身 高 否
<30 已婚 低 否
>=30 已婚 中 否
<30 已婚 高 是
>=30 已婚 中 否
>=30 單身 中 是
>=30 已婚 低 否
>=30 單身 中 是
<30 單身 低 否
ID3
Company Logo
貝氏分類法
年齡 婚姻 收入 購買
<30 單身 高 否
<30 單身 中 否
>=30 單身 低 是
>=30 已婚 中 否
>=30 已婚 低 否
>=30 已婚 低 否
>=30 已婚 中 否
<30 單身 高 否
<30 已婚 低 否
>=30 已婚 中 否
<30 已婚 高 是
>=30 已婚 中 否
>=30 單身 中 是
>=30 已婚 低 否
>=30 單身 中 是
<30 單身 低 否
假設一未知樣本:年齡大於30、已婚、收入中等
Company Logo
記憶基礎推論法
年齡 婚姻 收入 購買
1 1 3 1
2 1 1 0
3 0 2 0
Company Logo