49
Poslovna analitika i optimizacija Gordana Savid E-mail: [email protected] Kabinet: C203 8.11.2016 1 Fakultet organizacionih nauka

Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Poslovna analitika i optimizacija

Gordana Savid

E-mail: [email protected]

Kabinet: C203

8.11.2016 1Fakultet organizacionih nauka

Page 2: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Tema: Nedostajudi podaci - osnovePlan časa

• Uvod

• Nedostajudi podataka – analiza i mehanizmi nedostajanja

• Metode za tretman nedostajudih podataka

• Primer

• Case study – samostalan rad

• Prezentacija studija slučaja za PZ

8.11.2016 Fakultet organizacionih nauka 2

Page 3: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

NEDOSTAJUĆI PODACIPoslova analitika i optimizacija

8.11.2016 Fakultet organizacionih nauka 3

Page 4: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Nedostajudi podaci

Zašto?

8.11.2016 Fakultet organizacionih nauka 4

Page 5: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

POSLOVNA ANALITIKAPoslova analitika i optimizacija

8.11.2016 Fakultet organizacionih nauka 5

Page 6: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Poslovna analitikaPoslovna analitika podrazumeva statističku i

kvantitativnu analizu, eksplanatorno i prediktivno modeliranje i upravljanje bazirano na podacima u cilju donošenja odluka.

Blisko je vezana za management science/ nauka o menadžementu.

Može biti korišdena kao osnov za donošenje odluka od strane čoveka ili za automatizaciju donošenja odluka.

8.11.2016 Fakultet organizacionih nauka 6

Page 7: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Poslovna analitika

• Rad sa podacima!!!

8.11.2016 Fakultet organizacionih nauka 7

Page 8: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 8

Poslovna analitika

Izazovi

Zadaci

Modeliranje i optimizacija

Page 9: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 9

Izazovi

Prikupljanje podataka

Skladištenjepodataka

Outlier Nedostajudi

podaci

Page 10: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 10

Zadaci

Deskriptivna i prediktivna

analiza

Brisanje i popunjavanje nedostajudih

podataka

Klasifikacija i klasterovanje

Redukcija dimenzija

Page 11: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

NEDOSTAJUĆI PODACIPoslovna analitika i optimizacija

8.11.2016 Fakultet organizacionih nauka 11

Page 12: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Nedostajudi podaciNemogude je izbedi nedostatak podataka!!!Podaci nisu dostavljeni (naročito važi za tzv.

longitudinalene studije)

Podaci nisu uneti u bazu

Ispitanici koji učestvuju u istraživanju iz neodređenog razloga ne odgovore na neka pitanja

Zadaci:Pokušati da se minimizuje nedostatak podataka

Pokušati da se utvrdi razlog nedostatka podataka

8.11.2016 Fakultet organizacionih nauka 12

Page 13: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Nedostajudi podaci

Zašto su nedostajudi podaci važni?

Mogu dovesti do dva ključna problema:

Unose grešku

Smanjenje pouzdanosti (modi) istraživanja i rezultata

8.11.2016 Fakultet organizacionih nauka 13

Page 14: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Mehanizmi nedostajanja podataka

Potpuno slučajno distribuirani nedostajudi podaci (Missing completely at random -MCAR)

Slučajno distribuirani nedostajudi podaci (Missing at random -MAR)

• Podaci koji ne nedostaju po slučajnom rasporedu (missing non at random – MNAR)

8.11.2016 Fakultet organizacionih nauka 14

Page 15: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Potpuno slučajno distribuirani nedostajudi podaci (MCAR)

Neodstajude vrednosti varijable Y se mogu smatrati MCAR ako je njihovo nedostajanje nezavisno od drugih vrednosti Y ili vrednosti neke druge varijable u posmatranom skupu.

8.11.2016 Fakultet organizacionih nauka 15

Page 16: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Potpuno slučajno distribuirani nedostajudi podaci (MCAR)

Primer Potrebno je utvrditi da je varijabla mecečna potrošnja za kupovinu “kupoholizam” tipa

MCAR.

Pretpostavka de biti narušena ako žene kao vede “kupoholičarke” ne odgovare na ovo pitanje!!!

Testiranje: podeliti skup na podskupove sa nedostajudim i kompletnim podacima i utvrditi razliku u polu.

Ako se potvrdi nulta hipoteza zaključak je da je varijbla mecečna potrošnja za kupovinu tipa MCAR (iako i dalje može postojati neka veza između “kupoholizma” i pola ispitanika).

MCAR je pretpostavka koju svi pogrešno uvode!

8.11.2016 Fakultet organizacionih nauka 16

Page 17: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Slučajno distribuirani nedostajudi podaci (MAR)

• Verovatnoda da nedostaju podaci za varijablu Y nije vezana za vrednost varijable Y, ali može biti povezana sa nekom drugom varijablom X

• Formalno: P(Y ned.|Y,X) = P(Y ned.|X) (Allison, 2001).

8.11.2016 Fakultet organizacionih nauka 17

Page 18: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Slučajno distribuirani nedostajudi podaci (MAR)

PrimerMAR pretpostavka de biti ispunjena ako je

verovatnoda nedostajudih podataka za varijablu mecečna potrošnja za kupovinu povezana sa polom ispitanika

• Međutim to se ne može testirati da se utvrdi sistematska zavisnost s obzirom da postoje nedostajudi podaci.

(Little maximum likely test)8.11.2016 Fakultet organizacionih nauka 18

Page 19: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Podaci koji ne nedostaju po slučajnom rasporedu (MNAR)

• Verovatnoda da nedostaju podaci za varijablu Y je u direktnoj vezi sa vrednošdu varijable Y

• Formalno: P(Y ned.|Y)

8.11.2016 Fakultet organizacionih nauka 19

Page 20: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Podaci koji ne nedostaju po slučajnom rasporedu (MNAR)

Primer

MNAR pretpostavka de biti ispunjena ako verovatnoda nedostajudih podataka za varijablu mecečna potrošnja za kupovinu direktno povezana sa visokim troškovima.

8.11.2016 Fakultet organizacionih nauka 20

Page 21: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Šeme za nedostajude podatke

Arbitrarno MonotonoY1 Y2 Y3 Y4 Y5 Y1 Y2 Y3 Y4 Y5

x x x x x x X x x x

x x x x x x x X x x

x X x x x x X x x

X X x x x x x

X x X x X x x x

x x x X x x

X x x x x x

x x x x x x x

8.11.2016 Fakultet organizacionih nauka 21

Page 22: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Metode za tretman nedostajudih podataka

Konvencionalne metode

Isključivanje

Metode jednostruke imputacije (popunjavanje)

Napredne metode

Metode višestruke imputacije (popunjavanje)

Metode maksimalne verodostojnosti

....

8.11.2016 Fakultet organizacionih nauka 22

Page 23: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Isključivanje (brisanje)

• Isključivanje ili brisanje slučajeva (opservacija)

• Listwise deletation – case analyis

• Podrazumevani metod za vedinu statističkih paketa.– Vrši se za slučaj da podaci neodostaju po tipu MCAR i kada

je procenat nedostajudih podataka mali.

• Nedostatak: Dimenzije posmatranog skupa se mogu značajno smanjiti

• Tips: Primenjivati kada je nedostajudih podataka <5%

8.11.2016 Fakultet organizacionih nauka 23

Page 24: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Isključivanje (brisanje)

• Isključivanje ili brisanje varijabli

• Isključiti iz analize varijablu za koju nedostaje visok procenat podataka

• Nedostatak: može se isključiti varijabla koja je od značaja za dalju analizu

8.11.2016 Fakultet organizacionih nauka 24

Page 25: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Isključivanje (brisanje)

• Isključivanje ili brisanje samo nedostajudih podataka (pairwise deletation)

• Isključiti iz analize samo opservaciju za koju nedostaje vrednost konkretne varijable

8.11.2016 Fakultet organizacionih nauka 25

Page 26: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Isključivanje (brisanje)

• Isključivanje ili brisanje samo nedostajudih podataka (pairwise delatation)

• Isključiti iz analize samo opservaciju za koju nedostaje vrednost konkretne varijable

8.11.2016 Fakultet organizacionih nauka 26

ListwiseY1 Y2 Y3 Y4 Y5

x x x x x

x x x x x

x X x x

X X x

X x X x X

x x x X

X x x x

x x x x x

Pairwise2011 2012 2013 2014 2015

x x x x x

x x x x x

x X x x

X X x

X x X x X

x x x X

X x x x

x x x x x

Page 27: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka

Fakultet organizacionih nauka 27

Metode jednostruke imutacije

Implicitno modeliranje

Hot deskPopunjavati nedostajude podatke tako što se prepišu od jedinice koja ima slične vrednosti ostalih varijabli.

SubstitucijaZamena cele observacije sa nekom drugom.

Cold deskZamena nedostajude vrednosti sa neko drugom vrednošdu iz eksternog izvora (npr iz prethodne godine)

“uslovna” srednja vrednost

Popunjavanje nedostajude vrednosti sa prosekom prethodne i sledede realizacije(npr. godine).

Eksplicitnomodeliranje

“bezuslovna” srednja vrednost

Popunjavanje nedostajude vrednosti za ceo skup opservacija za posmatranu varijablu..

Regresija i težinskaregresija

Popunjavanje nedostajude vrednosti sa predviđanjem dobijenim primenom regresije

Maksimizacija očekivanjaIterativni proces. Prvo, nedostajuda vrednost se predvidi na osnovu inicijalno procenjenih parametara modela, a onda se ona koristi za ponovno predviđanje parametara i proces se ponavlja.

Page 28: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Hot desk

Fakultet organizacionih nauka 28

Hot Desk

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Nedostatak: 1. Pristrasnost –šum2. Teško pradenje u velikom

skupu podataka

Hot Desk

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 38.0 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Page 29: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Substitucija

Fakultet organizacionih nauka 29

Hot Desk

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 38.0 8.4 3.9 5.6

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Nedostatak: 1. Pristrasnost –šum2. Teško pradenje u velikom

skupu podataka

Page 30: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Cold desk

Fakultet organizacionih nauka 30

Id 2011 2012 2013 2014

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Id 2011 2012 2013 2014

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Page 31: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Srednja vrednost

Fakultet organizacionih nauka 31

Id 2011 2012 2013 2014

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Prednost: JendostavnostNedostatak: 1. Pristrasnost –šum2. Teško pradenje u velikom

skupu podataka

Id 2011 2012 2013 2014

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 27.3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 4.35 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Page 32: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Bezuslovna srednja vrednost

Fakultet organizacionih nauka 32

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

• Najčešde korišden metod

Nedostatak: 1. Pristrasnost –šum2. Ne uzima u obzir uticaj

drugih varijabi3. Ne uzima u obzir

neizvesnost

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 31.18 8.0 2.2 4.8

4 28.3 8.82 5.4

5 31.18 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Page 33: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Regresija (jednostruka i višestruka)

Fakultet organizacionih nauka 33

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 38.0 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

•Ako se primenjuje sa više nezavisnih varijabli od kojih jedna (Y) ima nedostajude vrednosti, posmatraju se “kompletne” opservacije i regresira se Y na osnovu svih nezavisnih varijabli. Procenjeni parametri se kosriste za predviđanje Y.

•Koristi se i kod MCAR i MAR.

•Nedostatak:Pogresna procena ako nedostaje veliki % podatakaNe uzima u obzir neizvesnost-stohastička regresija

Id Y1 Y2 Y3 Y4

1 35.2 9.1 3.5 5.8

2 26.3 7.0 4.1 4.3

3 8.0 2.2 4.8

4 28.3 5.4

5 8.4 3.9 5.6

6 40.7 10.2 7.1

7 30.5 9.3 2.9

8 26.1 9.8 3.5 5.2

Page 34: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka –Regresija (jednostruka i višestruka)

Fakultet organizacionih nauka 34

1

m

i i

i

Y aX b

Y a X b

1

m

i i

i

Y aX b e

Y a X b e

•Linearna regresija

•Stohastička linearna regresija

Page 35: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka

Fakultet organizacionih nauka 35

Metode višestruke imutacije

Nedostajudi podaci se popunjavaju kroz slučajni proces koji uključuje neizvesnost. Popunjavnaje se vrši N puta, u cilju kreiranje N “potpunih” skupova podataka. Parametri se procenjuju svaki put uključujudi i standardnu grešku. Prosečna vrednost svih N procena se kombinuje da bi se dobila nedostajuda vrednost.

Bilo koji metod imutacije se može ponoviti N puta.

Page 36: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka

Fakultet organizacionih nauka 36

Metode višestruke imutacije

Nedostajudi podaci se popunjavaju kroz slučajni proces koji uključuje neizvesnost. Popunjavnaje se vrši N puta, u cilju kreiranje N “potpunih” skupova podataka. Parametri se procenjuju svaki put uključujudi i standardnu grešku..Prosečna vrednost svih N procena se kombinuje da bi se dobila nedostajuda vrednost.

Bilo koji metod imutacije se može ponoviti N puta (regresija...)

Monte Carlo Markovljevi lanciDinamičkio klasterovanje

Page 37: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

ID 2011 2012 2013

1 15 13 13

2 29 32 32

3 43 19 43

4 32 29 25

5 19 36 26

Višestruka imputacija

Podrazumeva se tip nedostajudih podataka MAR

ID 2011 2012 2013

1 15 13 12

2 29 32 30

3 35 36 44

4 32 29 25

5 19 36 26

ID 2011 2012 2013

1 15 13 16

2 29 32 25

3 39 28 40

4 32 29 25

5 19 36 26

Page 38: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Višestruka imputacija

• Donald Rubin (1987)

• Menja nedostajudu vrednost sa nizom vrednosti

• Uključuje nizvesnost

• Podržava pretpostavku MAR ali ne i MCAR

• Podržan statističkim softverima (Stata, SPSS, R, SAS,...)

Page 39: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Podaci sa vremenskim serijama (Longitudinalni)

Određivanje šema i mehanizama za nedostajude podatke

Korišdenje modela za analizu i predviđanje u vremenskim serijama:

-Pokretne sredine

-Otežane pokretne sredine

-Eksponencijalno izglađivanje

-Linearna regresija

-Stohastička linearna regresija

-Modeli bazirani metodama maksimalne verodostojnosti

Page 40: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 40

w=3

Id Y1 Y2 Y3 RMSE

1 35.2 9.1 3.5

2 26.3 7.0 4.1 3.27 2.43

3 8.0 2.2 3.90 2.89

4 28.3 5.4 3.83 2.45

5 8.4 3.9 4.65 0.56

6 40.7 10.2 3.40 1.44

7 30.5 9.3 2.9

8 26.1 9.8 3.5

RMSE (Chai & Draxler, 2014):

Pokretne sredine

Page 41: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 41

w=3

Id Y1 Y2 Y3 RMSE

1 35.2 9.1 3.5

2 26.3 7.0 4.1 3.27 2.43

3 8.0 2.2 3.90 2.89

4 28.3 5.4 3.83 2.45

5 8.4 3.9 4.65 0.56

6 40.7 10.2 3.40 1.44

7 30.5 9.3 2.9

8 26.1 9.8 3.5

RMSE (Chai & Draxler, 2014):

Pokretne sredine

Page 42: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Parcijalna imputacija

• Velike skupove podeliti na delove i

Page 43: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

RezimeTip nedostajudih podataka MCAR MAR MNAR

Brisanje Da Ne Ne

Hot Desk Da Ne Ne

Cold Desk Da Ne Ne Srednja vrednost Da Da Ne

Bezuslovnasrednja vrednost

Da Ne Ne

Regresija Da Da Ne Maksimizacija očekivanja Da Da Ne

Višestruka imputacija Da Da Ne

Preporuka: Popunjavanje nedostajudih vrednosti raditi ako je procenat <20%

Page 44: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 44

Big Data

Izazovi

Zadaci

Modeliranje i optimizacija

Page 45: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 45

Izazovi

Prikupljanje podataka

Cloud Skaldištenje

podataka

Outlier Nedostajudi

podaci

Ogromne baze

Page 46: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

8.11.2016 Fakultet organizacionih nauka 46

Zadaci

Deskriptivna i prediktivna

analiza

Brisanje i popunjavanje nedostajudih

podataka

Klasifikacija i klasterovanje

Redukcija dimenzija

Page 47: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Popunjavanje nedostajudih podataka

Fakultet organizacionih nauka 47

Metode (Samariya i dr, Research Gate, retrived 2016)

Linearne Regresije

Multivarijaciona regresija

Logistička regresija (celobrojne i ograničene vrednosti)

Probit regresija (YES/NO, 0/1 i sl)

Vremenske serije (istorijski podaci)

Neuronske mreže (mreže za učenje – predviđanje i klasifikacija)

Mašinsko učenje (učenje komputera na osnovu postavljenih modela – veštačka inteligencija)

K-najbliži sused (neparametarska metoda klasifikaciju i regresiju)

Dinamičko klasterovanje (Ayujejev i dr, 2009, Research Gate, retrived 2016)

Page 48: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Parcijalna imputacija

• velike skupove podeliti na delove i

• vršiti imputaciju nedostajudih podataka primenom miksa metoda u zavisnosti od šeme i mehanizma nedostajudih podataka.

Page 49: Poslovna analitika i optimizacija - University of Belgradepa.fon.bg.ac.rs/wp-content/uploads/2016/11/Nedostajuci... · 2016. 11. 9. · Poslovna analitika i optimizacija 8.11.2016

Reference• M. Soley-Bori, (2013) Dealing with missing data: Key assumptions and methods for

applied analysis, Technical report, Boston University, School of Public Health

• J. Rakidevid, G. Savid, M. Bulajid, (2016) SELECTING AN APPROPRIATE METHOD FOR MISSING DATA IMPUTATION: A CASE OF COUNTRIES RANKING, SYMORG, FON

• V. Ayuyev, J. Jupin, P. W. Harris and Z. Obradovic, Dynamic Clustering-Based Estimation of Missing Values in Mixed Type Data, CONFERENCE PAPER · AUGUST 2009, Research Gare, Retrived 2016

• OECD, & European Commission-Joint Research Centre. (2008). Handbook on constructing composite indicators: Methodology and User guide. OECD publishing

• P.D Allison (2001) Missing Data. Thousand Oaks, CA: Sage

8.11.2016 Fakultet organizacionih nauka 49