DATA SCIENCE 101by T. C. Hsieh (謝宗震), Ph.D.2014.10.23
About MeEducation • National Tsing-Hua University, Ph.D.
in Statistics, 2009-2013
Experience • Post-doc, NTHU, 2014 • Lecturer and Hacker, DSP, since 2013 • Officer, TW.R group, since 2013 • Statistics consultant, personal studio,
since 2008
Skills • Data manipulation, Data mining and
statistical learning, Ecology statistics, R programing
Blog • 讀數⼀一格 http://readata.org
•資料科學簡介 •⽣生活中的資料科學案例 •資料科學社群經驗分享
Agenda
http://goo.gl/LC5voZ
http://goo.gl/eDFrA5
什麼是資料科學?
什麼是資料科學?
科學是透過理性辯證, 來接近真理的⼀一種⽅方法。
http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg
http://goo.gl/3njGHf
科學是透過理性辯證, 來接近真理的⼀一種⽅方法。
http://commons.wikimedia.org/wiki/File:Scientists_montage.jpg
科學是透過理性與經驗交互辯證, 來接近真理的⼀一種⽅方法。
我認為科學⽅方法可分為以下四個步驟: 1. 觀察現狀,提出問題 2. 將真實問題轉換成科學模型 3. 進⾏行實驗、分析 4. 將結果導回真實問題
http://goo.gl/mFqQN6
在有限的時間下,!你想怎麼分配資源來學習這四步?
什麼是資料科學?⼈人類活動與⾃自然現象的記錄
1 + 1 = 2?
+ = ?�
1 + 1 = 2?數據化的記錄總會喪失部分訊息
⼀一個問題是否能透過資料解決
和資料的收集與記錄⽅方式有關
什麼是資料科學?使⽤用科學⽅方法分析資料,解決真實世界的問題
好像有點複雜,其實...
資料科學就跟做菜⼀一樣http://goo.gl/rbkzfO
最初的動機是因為饑餓(求知若渴!?)
資料=⻝⾷食材http://goo.gl/sbONBy
資料庫=冰箱
http://goo.gl/wbozmd
為什麼需要冰箱? 資料要⽤用什麼形式存放?
分析⼯工具=廚具http://goo.gl/h9nDzO
Math, Statistics, Computer Science, … R, Python, SAS, SPSS IBM, …
分析⽅方法=⻝⾷食譜
http://goo.gl/J6TLsQ
A/B Test, Regression, Doe, Classification, Clustering, Data Mining, Machine Learning…
資料呈現=擺盤http://goo.gl/8eR5IM
Data Visualization or Data Presentation, User Interface / User Experience
那資料科學家呢?
資料科學家=廚師=全能的超⼈人http://goo.gl/QJ6L2n
對廚師表⽰示尊敬!!!
如果你跟我⼀一樣當不成超⼈人
我們可以是各有所⻑⾧長的 資料科學團隊
http://goo.gl/1td0gt
延續團隊的觀點,從Data Lifecycle來談資料科學
Raw Data Clean Data
ModelData Product
Data lifecycle and Data Science Process
by CK Liu - Z > B的資料科學
Raw Data Clean Data
ModelData Product
Data Engineers Data Analysts
Product Managers
Professional Roles of Data Science
by CK Liu - Z > B的資料科學
Core Skills of Data AnalystsData
visual
izatio
n
Machine
Learn
ing
Mathem
atics
Statist
ics
Compu
ter Sc
ience
Commun
icatio
n
Domain
Expe
rties
Viz MLMath Sta
t CSCom DE
Core Skills of Data Science Team
by Rachel Schutt - Next-Gen Data Scientists
分享⼀一些⽣生活案例
台北市頂級豪宅房價預測
http://www.rich-house.com.tw/
台北市頂級豪宅房價預測
http://goo.gl/Tc0Zm6
內政部不動產實價登錄資料 2012 Aug. - 2013 Sep. 全台灣的租賃、買賣、預售 約47萬筆數據 > Open Data Q&A
台北市市政府的豪宅標準:每⼾戶總價8000萬元以上,及房價每坪100萬元以上或單⼾戶80坪以上房型得豪宅物件403件,再從這群豪宅物件中找出頂級豪宅40件進⾏行預測。
統計模型:Generalized Additive Model (GAM) 重要因⼦子:⾯面積⼤大⼩小、屋齡、⾏行政區、是否購買⾞車位、⾼高低樓層 > gam(log10(總價)~s(⾯面積)+s(屋齡)+⾏行政區+⾞車位+樓層) 得到校正後決定係數 (adjust R square) 93.5% 之房價預測模型
http://goo.gl/vT1Smr Web application is available !
台北市頂級豪宅房價預測
http://goo.gl/Tc0Zm6
關於 Generalized Additive Model
媒體報導關聯性分析 ─以太陽花學運為例
http://readata.org/datasci/ecfa-and-data-science/
故事從這裡說起...
http://juan.tw/?p=2269
http://g0v.today
⽂文播組沒說完的話:我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......
還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS
我問⾃自⼰己⼀一個問題 現場⽂文播資料可以怎麼⽤用?
That is data-driven !
現場情況 V.S. 現場⽂文播
現場情況 V.S. 現場⽂文播 V.S. 新聞報導
有沒有辦法量化 新聞媒體報導的真實性?
基本上 沒有完美的辦法
不過 媒體的關聯性應該有辦法
怎麼量化關聯性? 先設想 你需要什麼 / 有什麼資料
怎麼獲取媒體報導資料?
除了堅毅不拔的複製 / 貼上之外...你還會什麼?
特別感謝
Ronny Wang and NewsDiff
我收到了三萬多筆學運相關報導的原始資料
怎麼量化關聯性? 接著問 這些資料可以怎麼⽤用?
使⽤用關鍵字頻作為基本量化元素
http://johnsonhsieh.github.io/study-area-statR/#49 https://github.com/JohnsonHsieh/study-area-statR/blob/gh-pages/src/tm.R
這個過程⽤用了以下技術
Quick references
• Statistics with R (Johnson) • slide: http://johnsonhsieh.github.io/study-area-statR/#49
• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ
• Text Mining with R (Jiawei) • slide : https://docs.google.com/presentation/d/
1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQhQ/edit#slide=id.p
• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8
怎麼計算關聯性?
Pearson correlation coefficient
最廣為⼈人知的相關性指標
但是本案例中完全⽤用不上
觀察資料的結構 該怎麼計算關聯性?
Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)
這個過程⽤用了以下技術
最後得到所謂的媒體關係圖
http://readata.org/datasci/ecfa-and-data-science/
臺北市⻑⾧長選戰觀察
我覺得利⽤用資料學⽅方法 來規劃選舉策略是很有潛⼒力的
譬如說:決策樹(Classification And Regression Trees)
基本上,我拿不到 被視為機密的⺠民調原始數據
但是,我⽤用統計⽅方法 還原數據 (Gibbs Sampling)
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
TVBS⺠民調表格 + 台北市統計資料庫查詢系統, 利⽤用 Gibbs sampling 的概念將⺠民調結果回推原始數據
https://github.com/braz/DublinR-ML-treesandforests/
決策樹基本概念
負⾯面競選
負⾯面競選 何以在各個⺠民主國家如此盛⾏行?
台北市⻑⾧長⺠民調(wikipedia)
利⽤用LOESS法預測 9/16 - 10/16 每⼀一天候選⼈人的⺠民調⽀支持度 (含未表態)
整理成以下表格進⾏行作圖
⼩小結• 資料科學主要精神
• Data-driven thinking • 核⼼心技術
• ⽐比⼤大⼩小、⽐比差異 • 找相關、找趨勢
(ex: 新聞關聯性、負⾯面競選)
• 做預測 (ex: 豪宅房價)
• 做分類 (ex: ⺠民調決策樹)
• 做推薦http://shop.oreilly.com/product/0636920029182.do
資料科學相關社群
TW.RTaiwan R User Group
MLDM Monday
Free R Online Tutorials is here !!!!Meetup: http://www.meetup.com/Taiwan-R/ YouTube: https://www.youtube.com/user/TWuseRGroup
Taiwan R User Group MLDM Monday
Mar 2013, Spider & Crawler 寫作相關主題
Jul 2013, Joint Meeting
Jan 2014, OSSF Data Science with R Workshop
Aug 2014, ETL with R
May 2014, Data visualization
Aug 2014, Taiwan Data Science Conference with R tutorial
2014.10.20 Taiwan R user group 2nd Year Anniversary
DSPThe Data Science Program
資料科學計劃
http://dasp.im
Dec 2013, Team Training #1
Mar 2014, Team Training #2
Jan 2014, Data Fiesta
Jan 2014, Data Fiesta
http://dsp.im
我的社群經驗
Greg Wilsonby Vijaysree Venkatraman - When All Science Becomes Data Science
參與參與社群讓我 • 遇⾒見良師益友 • 接觸更多真實問題 (ex: code for Healthcare) • 懂得團隊協作 (ex: R tutorial, DSP training)
Let DSP ask a question:
如果DSP要舉辦⼀一個 資料科學冬令營 for ⼤大學⽣生 你有什麼建議?
Joint UsTW.R
DSPdsp.im
www.meetup.com/Taiwan-R/
Lecturers
Mentors
Volunteers
thank you