18
IPB University Inspiring Innovation with Integrity Welcome to IPB University Department of Statistics Faculty of Mathematics and Natural Sciences

Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

IPB University

Inspiring Innovation with Integrity

Welcome to

IPB University

Department of Statistics Faculty of Mathematics and Natural Sciences

Page 2: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

IPB University

Inspiring Innovation with Integrity

Statistika untuk Sains Data Prof. Dr. Ir. Khairil Anwar Notodiputro, MS Program Studi Magister Statistika dan Sains Data

Program Studi Doktor Statistika dan Sains Data

Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam twitter: @kh_notodiputro

E-mail: [email protected] Seri web-minar 3 Juni 2020

Page 3: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Pengantar

2

“Statistics ought to be concerned with data analysis. The field should be defined in terms of a set of problems (as are most fields) rather than a set of tools…” (1962)

John W Tukey

Bell Laboratories J. W. Tukey started the statistics and data analysis reformation in his [Annals of Mathematical Statistics] publication, titled “The Future of Data Analysis”.

Page 4: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Pengantar

Ada paper bagus yang ditulis oleh David Donoho (2017), Profesor statistika,

Standford University, yang bergelut dalam Sains Data.

3

Donoho mempertegas bahwa Tukey (1962) telah

mendorong perlunya reformasi statistika: dari

deskripsi dan inferensi ke akuisisi data dan

prediksi.

Inilah yang dinamakan sebagai Data Science atau

Sains Data (Cleveland, 2001). pertama kali ada

istilah Data Science.

Sejak saat itu banyak statistisi masyhur menekuni penelitian untuk mengembangkan

Sains Data, misalnya Jeff Wu, John Chambers, William S. Cleveland, David Donoho,

Leo Breimen, Trevor Hastie, Robert Tibshirani, dan Jerome Friedman.

Page 5: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Pengantar

4

Apakah statistika diperlukan dalam memahami sains data?

Apa keuntungan menjadi imuwan data (data scientist ) yang memiliki pengetahuan

statistika dibanding yang tidak memilikinya?

Tentu kalau hanya ingin mengaplikasikan program machine learning Anda dapat

langsung mengoperasikannya tanpa harus paham statistika.

Tapi jika Anda ingin menjadi ilmuwan data yang dapat menyelesaikan berbagai

masalah dalam sains data maka Anda perlu statistics dan probability theory.

Page 6: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Statistika vs Sains Data

5

Aspect Statistics Data Science

Concept Statistics is the science of data It is used to measure or estimate an

attribute Applies statistical functions or algorithms on

sets of data to determine values as appropriate for the problem being studied

Based on scientific computing techniques Encompasses machine learning, other analytics

processes, business models Uses advanced mathematics and statistics to derive

new information from big data A wide discipline which involves programming,

understanding of business models, trends, and so on

Approach Use of mathematical formulas, models, and concepts

Analysis of random data Estimate values for different data attributes To determine behaviors based on data

Apply scientific methods in problem-solving using random data

Identifies data requirements for a given problem Identify techniques to obtain desired results Provide value to organizations using data

Sumber: https://www.educba.com/data-science-vs-statistics/

Page 7: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Statistika vs Sains Data

6

Network of data scientist skills (AmstatNews, 1 May 2018)

Top 10 Skills Listed by Data Scientists on LinkedIn

Statistics

Statistics is the science concerned

with developing and studying

methods for collecting, analyzing,

interpreting and presenting

empirical data. In developing

methods and studying the theory

that underlies the methods

statisticians draw on a variety of

mathematical and computational

tools. (University of California)

Page 8: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Statistika vs Sains Data

7

A data scientist makes hundreds of decisions every day. They range from small ones like how to tune a

model all the way up big ones like the team's R&D strategy.

Many of these decisions require a strong foundation in statistics and probability theory.

The goals of data scientists and statisticians are

the same:

They both want to extract meaningful information

from data.

Much of statistical technique was originally

developed in an environment where data were

scarce and difficult or expensive to collect, so

statisticians focused on creating methods that

would maximize the strength of inference one is

able to make, given the least amount of data.

(Baumer et al., 2017)

Page 9: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Belajar Statistika untuk Sains Data

Core Statistics Concepts

Bayesian Thinking

Statistical Machine Learning

Core Statistics Concepts Statistika Deskriptif, sebaran peluang, pengujian hipotesis, regresi dan model linear.

1

Bayesian Thinking Peluang bersyarat, sebaran prior, sebaran posterior, and kemungkinan maximum.

3

2

Statistical Machine Learning Konsep pembelajaran mesin, model

klasifikasi, Metode Resampling,

Regularisasi dan Seleksi Model, Model

non-linear, Tree-based methods,

Support vector machine, unsupervised

learning.

Page 10: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Core Statistics Concepts

9

Experimental design: Suatu perusahan memperkenalkan produk baru yang

dijual di berbagai toko eceran. Anda diminta merancang uji perbandingan antar

lokasi toko, juga diminta menentukan berapa jumlah toko yang harus dilibatkan

agar diperoleh hasil yang berbeda nyata (statistically significant ) dengan

tingkat kepercayaan 95%.

Regression modeling: Suatu perusahaan ingin memprediksi permintaan

(demand ) atas suatu produk di setiap toko secara lebih akurat menggunakan

peubah penjelas X yang banyak macamnya. Anda perlu membangun model regresi

berkendala (constrained ) atau shrinkage regression sehingga koefisien yang tidak

nyata dikerutkan menjadi nol.

Data transformation: Anda punya beberapa calon model statistical machine

learning yang akan diuji. Beberapa diantaranya mungkin mensyaratkan asumsi

sebaran peluang tertentu. Anda harus mampu mengidentifikasi apakah asumsi

tersebut layak, atau kalau tidak, apakah bisa dilakukan transformasi sehingga

asumsi tersebut menjadi layak digunakan.

Page 11: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Bayesian Thinking

10

Dua aliran dalam statistika: Bayesians dan frequentists. Aliran

Bayesian lebih banyak relevansinya dalam sains data.

Penganut Frequentist menggunakan peluang dalam memodelkan

proses percontohannya (sampling process). Artinya, data yang

terkumpul dimaknai sesuai mekanisme peluang pengumpulannya.

Di pihak lain, penganut Bayesian menggunakan teori peluang untuk

memodelkan proses percontohannya, juga menggunakan teori peluang

untuk mengkuantifikasi ketakpastian sebelum data dikumpulkan.

Dalam pola pikir Bayesian, ketakpastian sebelum data dikumpulkan

disebut peluang a priori atau prior probability. Kemudian setelah data

terkumpul, ditambah informasi proses peluang dalam percontohannya

(likelihood ), peluang apriori ini diperbaiki menjadi peluang a posteriori atau posterior probability. Inilah pemikiran dasar Bayesian.

Model pengumpulan data. Model

ketakpastian.

P(E|I) P(I|E) P(E)

Page 12: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Bayesian Thinking

11

Laptop Anda sudah dicharge 100% dan bisa digunakan. Baterai laptop

berkurang shg kita sambungkan dengan listrik, tapi baterai tidak terisi.

Karena ini baru terjadi maka kemungkinan arus listrik yg bermasalah,

bukan charger nya. Jadi prior kita “charger tidak masalah”, likelihood-nya adalah peluang baterai laptop tidak terisi jika charger tidak

bermasalah, dan posteriornya adalah peluang charger tidak

bermasalah jika diketahui baterai laptop tidak terisi.

Karena kita percaya charger OK, maka kita sambungkan ke sumber

listrik lain, ternyata tetap baterai tidak terisi. Kita mulai tidak percaya

pada charger, artinya prior kita berubah setelah melihat data/fakta.

Misal dicoba lagi untuk menyambungkan charger ke sumber listrik

yang lain, ternyata batterai tetap tidak terisi. Akhirnya prior kita

perbaiki dan disimpulkan bahwa yg bermasalah adalah charger, bukan

sumber listrik.

The Laptop charging problem

Page 13: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Bayesian Thinking

12

Cara memahami dalil Bayes seperti ini saya peroleh ketika saya menulis

disertasi berjudul:

“Statistical Image Reconstruction from Projection ”

yang intinya merekontruksi gambar benda di dalam benda, misal kanker di

dalam kepala atau kandungan emas dan logam berharga di dalam bumi

(tomography). Gambar benda direkonstruksi dari data (biasanya emisi

proton) yang ditangkap oleh kamera di luar benda. Nah, prior kita adalah

pengetahuan tentang gambar benda tersebut, likelihood-nya adalah data

yang tertangkap kamera, posterior-nya adalah gambar hasil rekonstruksi.

Thomas Bayes secara genius berhasil merumuskan cara berpikir dan dan

cara orang mengambil keputusan ke dalam formula matematika. Dalil Bayes

sangat menakjubkan.

Kenangan pribadi:

Page 14: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Statistical Machine Learning

13

Machine learning allows computers to learn and discern patterns without actually being programmed. When Statistical techniques and machine learning are combined together they are a powerful tool for analysing various kinds of data in many computer science/engineering areas including, image processing, speech processing, natural language processing, robot control, as well as in fundamental sciences such as biology, medicine, astronomy, physics, and materials. (Sugiyama, 2016)

+ = Machine learning Statistics Statistical machine learning

Page 15: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Statistical Machine Learning

14

Klasifikasi : Regresi logistik

Fungsi diskriminan

Metode Resampling : Validasi-silang

Bootstrap

Regularisasi dan Seleksi Model : Seleksi himpunan bagian terbaik

Metode penyusutan (shrinkage)

Metode Reduksi dimensi

Model non-linear : Regresi splines

Regresi lokal

Tree-based Methods : Pohon regresi

Pohon klasifikasi

Bagging, random forest, boosting

Support Vector Machine : Maximal margin classifier Support vektor classifier SVM untuk kasus > 2 klasifikasi

Unsupervised learning : Analisis komponen utama

Metode penggerombolan

Page 16: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Catatan Penutup

15

Tujuan statistisi dan ilmuwan data dalam membedah data sangatlah mirip, walaupun

tidak sama dan sebangun.

Karena itu peran statistika untuk Sains Data tidak diragukan walaupun sempat

tenggelam (under-estimated ) dibanding peran dari sains komputer.

Dalam aspek akuisisi data, pengayaan jenis data, dan pemodelan canggih

(advanced modeling ) untuk prediksi nampaknya para statistisi masih tertinggal.

Karena itu statistisi harus memperkuat perannya dalam Sains Data, suatu disiplin

modern yang semakin diterima oleh berbagai kalangan.

Dengan mengkombinasikan metode statistika dan algoritma komputasi maka Sains

Data akan menghasilkan kesimpulan atau keputusan yang bersifat ilmiah.

Akhirnya, hanya dengan menyeimbangkan peran dari semua sains yang terlibat

maka akan dihasilkan solusi yang terbaik dalam Sains Data.

Page 17: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Inspiring Innovation with Integrity

Catatan Penutup

16

Mari belajar Statistika dan Sains Data di

IPB University

Page 18: Welcome to IPB University · Dua aliran dalam statistika: Bayesians dan frequentists. Aliran Bayesian lebih banyak relevansinya dalam sains data. Penganut Frequentist menggunakan

Thank Y ou twitter: @kh_notodiputro

email: [email protected]