© Helena Palovská 2006
Business intelligence
Helena Palovská
© Helena Palovská 2006
Manažerské informace
• Kteří zákazníci nakupovali produkt „A-Mutt“?• Kolik bylo objednáno zboží v květnu?• Na jaké výrobky jsou jednotliví zákazníci
zaměřeni?• Jaké výrobky se v Brazílii vůbec neprodávají?
Závisí to na kategorii? Na čem to závisí?• Kteří zákazníci jsou perspektivní?
© Helena Palovská 2006
Architektura BI IT
datový sklad
zpracování transakcí
??
reporty
OLAP
datamining
© Helena Palovská 2006
ETL – datové pumpy
• Extraction– Jsou stanovena pravidla pro extrakci
• Transformation– intergrace, čištění
• Loading– podle rozvrhu
© Helena Palovská 2006
Další pomocná úložiště
• Data Stagging Area– když nelze produkční systémy zatěžovat nárazovým
pumpováním– pouze extrakce
• transformace a loading se dělá dávkově podle rozvrhu
• Operational Data Store– Integrované centrální úložiště dostupné pro produkční
systémy• Konsolidované dimenzionální tabulky
– Aktuální data dostupná pro BI aplikace
© Helena Palovská 2006
Data Marty
• Subjektově orientované– replikované části centrálního DWH
nebo– primární úložiště a DWH se z nich integruje
© Helena Palovská 2006
Reporty
• Vznikají na základě analýzy
nebo uživatelských požadavků
• Mohou vznikat problémy s disseminací– reporty jsou, ale uživatelé o nich nevědí
© Helena Palovská 2006
OLAP
• Manažerská aplikace
© Helena Palovská 2006
OLAP
© Helena Palovská 2006
Datamining
• Clusterová analýza– automatické hledání shluků
• Rozhodovací stromy– může používat vyškolený uživatel
• Neuronové sítě
• …
Nutno zakoupit nástroj i školení.
© Helena Palovská 2006
Decision Supporting Systems
• Modelovací nástroje pro podporu rozhodování– data mohu „tahat“ z datového skladu
© Helena Palovská 2006
Expertní systémy
• Napodobují rozhodování experta –
podávají rady– mohou se učit na datech z datového skladu
© Helena Palovská 2006
Charakteristika produkčních databází
• Zpracovávají business transakce– krátké transakce– odezvy v reálném čase
• Normalizovaná schémata databází– většinou v 3. NF (co je normalizovaná databáze)
• Nezávislé systémy mohou být navzájem neintegrované
Optimalizovány pro podporu business operací
pokračuj na charakteristiku dat. skladu
© Helena Palovská 2006
Co je normalizovaná databáze
• 1 změna ve světě ~ 1 změna v databázi– 1.,2.,3. … normální formy
• Takto vznikne normalizovaná databáze:– pečlivá analýza → ER(A) model (co ER(A))
CASE nástroj či „mapovací algoritmus“
– relační databázové schéma
• Kontrola kvality – utilita db serveru (náročné)– hledání závislostí mezi poli tabulky
• na reprezentativním vzorku dat
zpět
© Helena Palovská 2006
Co je E-R(A)
• Jaké jsou entity (objekty), vztahy mezi nimi
• Jaké mají atributy
• Jaká jsou integritní omezení:– kardinality vztahů (1:N, M:N, 1:1)– členství ve vztazích (povinné, nepovinné)– co jsou klíčové atributy
• nalezení event. identifikačních vztahů
• Nalezení generalizace/specializace
zpět
© Helena Palovská 2006
Charakteristika datového skladu - DWH
• Dlouhé a složité dotazy• Konsolidovaná data• Denormalizovaný• Předpočítané výpočty, agregace• Změny pouze přírůstkové
– obsahuje archívní, historická data– nové záznamy vkládány v dávkách podle
rozvrhu
Optimalizován pro business intelligence
© Helena Palovská 2006
Možnosti organizace DWH
• Relační db –tabulka faktů a tabulky pro dimenze:– Hvězda
• Každá dimenze v jediné tabulce (denormalizované)
– Snowflake• Hierarchie každé dimenze rozložena do více tabulek
(normalizovaná dimenze)
• Multidimenzionální db – kostky– popisné atributy dimenzí mohou být
v Operational Data Store