IBM SPSS Modeler...

Preview:

Citation preview

IBM SPSS Modeler 大數據概論教育訓練 地點:國立高雄第一科技大學 圖書資訊館J609分組討論室

中國科技大學 校務研究辦公室 中國科技大學 資訊管理系 臺北大眾捷運股份有限公司-電子商務及大數據技術應用教師

邱裕賓 albert@cute.edu.tw

資料採礦應用 Let’s start with the first set of slides 1

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

企業資料探勘:零售

資料探勘可以從大量資料中提供零售業者(一般)及雜貨店(特定的)有價值的預測資訊。 利用類同定位(affinity positioning)可加以確認相同顧客群也有可能會購買的產品。 交叉銷售(cross-selling)也是相關的概念,這種概念可被用來行銷互補產品。

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

企業資料探勘:銀行

銀行業是最早使用資料探勘的產業之一。 銀行業已訴諸客戶關係管理(customer relationship management, CRM)這項科技,期能找出可提升業務量的方法,進而讓銀行可持續地經營下去。 客戶關係管理包括監測客戶服務的技術應用,可透過資料探勘的支援增強功能。

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

企業資料探勘:信用卡管理

發卡機構使用資料倉儲及資料探勘的原因之一,就是要確認平衡瀏覽者。 銀行使用的資料探勘包含信用評分,可以對信用卡申請人的即時貸款償還做量化分析,重點是涵括了所有產品的資料倉儲。 資料探勘提供了一種方式來預測顧客的想法,當銀行獲得此資訊,即可執行以改善公司營運。 新一波的技術將擴大資料庫的使用應用範圍及鎖定行銷策略。

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

企業資料探勘:電信

電信產業的開放導致競爭過於激烈,變成電信服務業者與客戶的苦鬥。客戶轉移到其他業者的情境叫做客戶流失(churn)。 補充: 文字探勘

Introduction to Business Data Mining資料探勘2007,鄭滄祥,高立出版社

企業資料探勘:人力資源管理 在人力資源方面,資料分析可以事先找出可能會離職的人,公司即可計畫提供額外的津貼或更好的福利以留住人才。 資料探勘也可拿來檢驗組織用人的方式,能力最好的員工是否在最重要的單位工作,或者讓他們在哪個部門工作可以對公司帶來最大的利益。 健全的人力資源管理能夠辨識公司需要的人,如此一來,組織可以更加善待這些員工並留住人才(降低流失)。這需要追蹤關鍵績效指標,例如收集員工才能、公司需求與競爭者需求等資訊。 補充: 醫療業大數據應用

大數據概論和資料採礦 Let’s start with the first set of slides 2

1. 認真就會有收穫? 2. 真的有大數據嗎? 3. 掌握某些分析軟體就可以成為優秀的分析師? 4. (商業)分析邏輯思路很重要。 5. 委託者想聽的、想達成的方向、目的是甚麼? 6. 用最新潮的分析演算法? 而沒有從問題的角度

出發思考。 7. 有大量數據就會有符合您的需求模型的資料源?

資料分析師的能力與迷思

小小問答 某捷運公司屢屢遭到顧客投訴司機員緊急煞車,造成旅客不適?

資料分析師的能力與迷思

大數據、資料採礦與統計分析

1. 資料採礦善於處理大數據資料 2. 統計分析多半建立許多分佈與變數關係假設之上,

檢驗顯著性。 3. 數據量爆炸,但轉化為規則、決策的知識卻非常

貧乏。 4. 瞭解數據、用專業去看待、管理數據、向數據學

習。 5. 重複權重的變數須排除。 6. 不斷地修正。

當問卷資料已經很難獲得 當充斥一堆無效度、無信度的資料

資料來源:校務研究FB

大數據關鍵

行政權 數據證據

人才

持續改善

智慧型自動化大數據蒐集模式能力

高階主管

IBM SPSS Modeler

IBM SPSS Modeler安裝與簡介 Let’s start with the first set of slides 2

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler安裝與簡介

IBM SPSS Modeler常用的資料欄位處理節點

【過濾器】節點:可移除欄位不輸入或重新命名欄位

【導出】節點:可依照原有欄位內容透過公式、函數產生新欄位

【再分類】節點:可將原有欄位重新分類設定新值

IBM SPSS Modeler常用的資料欄位處理節點

【分割區】節點: 則可以將資料分成訓練區和測試區

IBM SPSS Modeler常用的資料列處理節點 【樣本】節點:可對資料執行抽樣的動作 方式有三種方式: 1) 【第一個】表示從第一筆記錄抽到所設定的值為止,

例如設定值為10000時,即表示抽出第1至第10000筆記錄。

2) 【n中取1】則表示要抽出多少分之一的紀錄,例如使用者選擇2的話即表示抽出記錄的1/2,也就是每兩筆記錄中會選出一筆記錄。

3) 【隨機 %】則表示隨機抽出記錄的百分比,例如設定為50,即表示抽出50%的樣本。

而【最大樣本大小】表示使用者設定要抽出資料的最大值為多少。在【n中取1】與【隨機 %】時可使用,但【第一個】不適用。 另外,在使用【隨機 %】方法抽樣時,可以透過設定種子,隨機開始抽樣的位置,讓抽樣能夠更接近隨機。

一般而言,搭配【選取】節點後面接【樣本】節點可以達到分層隨機抽樣的效果。

IBM SPSS Modeler資料類型角色設定

資料準備與遺漏值處理 Let’s start with the first set of slides 3

應用程序-遺漏值處理

問題描述 1. 某飯店連鎖業者每年有百萬顧客入住,希望

能瞭解會員顧客不同特徵,例如年齡、性別與付款方式,其單次購買金額消費力,提供了2000筆資料後,發現資料庫撈出的資料有一堆遺漏值。

2. 分析師觀察資料與訪談後如何建議處理?

應用程序-遺漏值處理

使用檔案 “ TestMissingValue.xlsx”

應用程序-遺漏值處理

應用程序-遺漏值處理-資料審核內建遺漏值補差方法

應用程序-遺漏值處理 若是大數據資料夠或沒有合適的補差方法

應用程序-遺漏值處理

應用程序-遺漏值處理

應用程序-遺漏值處理 使用

資料處理列應用-導出節點

問題描述 1. 某上市公司有百萬會員,但每年需消費

滿新台幣5000元以上才能持續會員身份,否則會員身份會到期取消。

2. 高階主管想知道會持續消費續卡成為會員的消費者特徵。

3. 觀察資料內容

日期型別資料處理

日期型別資料處理

日期型別資料處理

購物籃關聯網圖

購物籃關聯網圖

購物籃關聯網圖

購物籃關聯網圖

自動數值節點 分析師可透共自動數值建模節點,對於連續數值型態的目標變數創建不同的模型,然後評估和比較這些待選模型。 IBM SPSS Modeler 軟體內建也案例供使用者參考。 資料檔案位置為 $CLEO_DEMOS/property_values_train.sav 串流檔案

自動數值節點 分析師可透共自動數值建模節點,對於連續數值型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

自動數值節點 分析師可透共自動數值建模節點,對於連續數值型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

自動數值節點 分析師可透共自動數值建模節點,對於連續數值型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

自動分類器節點 分析師可透共自動分類器節點,對於旗標或名義尺度型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

pm_binaryclassifier.str

IBM SPSS Modeler 軟體內建也案例供使用者參考。

自動分類器節點 分析師可透共自動分類器節點,對於旗標或名義尺度型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

自動分類器節點 分析師可透共自動分類器節點,對於旗標或名義尺度型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

自動分類器節點 分析師可透共自動分類器節點,對於旗標或名義尺度型態的目標變數創建不同的模型,然後評估和比較這些待選模型。

資料庫連結 Let’s start with the first set of slides 4

透過 ODBC連結其他資料庫-與建置環境有關

簡單IBM SPSS Modeler案例-購物籃+C5.0規則歸納講義 Let’s start with the first set of slides 5

補充案例_請參考 20170309簡單IBM SPSS Modeler案例-購物籃+C5.0規則歸納講義

超級節點

合併、導出、聚合、附加、排序節點綜合應用

Let’s start with the first set of slides 6

合併、導出、聚合、附加、排序節點綜合應用

練習時間 請將 3C賣場銷售競賽公開模擬練習資料.xlsx 四張工作表整合成同一個資料表

請使用 3C賣場銷售競賽公開模擬練習資料合併成同一表單.xlsx 資料 找出本公司 前10購買次數之顧客會員 且須顯示其 會員編號、購買次數、排名

請使用 3C賣場銷售競賽公開模擬練習資料合併成同一表單.xlsx 資料 找出本公司 前10購買金額之顧客會員 且須顯示其 會員編號、購買金額、 購買次數、與金額排名

校務研究-休退學綜合分析案例

Let’s start with the first set of slides 7

休退學綜合分析案例

休退學綜合分析案例

休退學綜合分析案例

休退學綜合分析案例

THANKS! Any quest ions?

You can find me at albert@cute.edu.tw

Recommended