Download ppt - Business intelligence

© Helena Palovská 2006

Business intelligence

Helena Palovská


Manažerské informace

• Kteří zákazníci nakupovali produkt „A-Mutt“?• Kolik bylo objednáno zboží v květnu?• Na jaké výrobky jsou jednotliví zákazníci

zaměřeni?• Jaké výrobky se v Brazílii vůbec neprodávají?

Závisí to na kategorii? Na čem to závisí?• Kteří zákazníci jsou perspektivní?


Architektura BI IT

datový sklad

zpracování transakcí

??

reporty

OLAP

datamining


ETL – datové pumpy

• Extraction– Jsou stanovena pravidla pro extrakci

• Transformation– intergrace, čištění

• Loading– podle rozvrhu


Další pomocná úložiště

• Data Stagging Area– když nelze produkční systémy zatěžovat nárazovým

pumpováním– pouze extrakce

• transformace a loading se dělá dávkově podle rozvrhu

• Operational Data Store– Integrované centrální úložiště dostupné pro produkční

systémy• Konsolidované dimenzionální tabulky

– Aktuální data dostupná pro BI aplikace


Data Marty

• Subjektově orientované– replikované části centrálního DWH

nebo– primární úložiště a DWH se z nich integruje


Reporty

• Vznikají na základě analýzy

nebo uživatelských požadavků

• Mohou vznikat problémy s disseminací– reporty jsou, ale uživatelé o nich nevědí


OLAP

• Manažerská aplikace


OLAP


Datamining

• Clusterová analýza– automatické hledání shluků

• Rozhodovací stromy– může používat vyškolený uživatel

• Neuronové sítě

• …

Nutno zakoupit nástroj i školení.


Decision Supporting Systems

• Modelovací nástroje pro podporu rozhodování– data mohu „tahat“ z datového skladu


Expertní systémy

• Napodobují rozhodování experta –

podávají rady– mohou se učit na datech z datového skladu


Charakteristika produkčních databází

• Zpracovávají business transakce– krátké transakce– odezvy v reálném čase

• Normalizovaná schémata databází– většinou v 3. NF (co je normalizovaná databáze)

• Nezávislé systémy mohou být navzájem neintegrované

Optimalizovány pro podporu business operací

pokračuj na charakteristiku dat. skladu


Co je normalizovaná databáze

• 1 změna ve světě ~ 1 změna v databázi– 1.,2.,3. … normální formy

• Takto vznikne normalizovaná databáze:– pečlivá analýza → ER(A) model (co ER(A))

CASE nástroj či „mapovací algoritmus“

– relační databázové schéma

• Kontrola kvality – utilita db serveru (náročné)– hledání závislostí mezi poli tabulky

• na reprezentativním vzorku dat

zpět


Co je E-R(A)

• Jaké jsou entity (objekty), vztahy mezi nimi

• Jaké mají atributy

• Jaká jsou integritní omezení:– kardinality vztahů (1:N, M:N, 1:1)– členství ve vztazích (povinné, nepovinné)– co jsou klíčové atributy

• nalezení event. identifikačních vztahů

• Nalezení generalizace/specializace

zpět


Charakteristika datového skladu - DWH

• Dlouhé a složité dotazy• Konsolidovaná data• Denormalizovaný• Předpočítané výpočty, agregace• Změny pouze přírůstkové

– obsahuje archívní, historická data– nové záznamy vkládány v dávkách podle

rozvrhu

Optimalizován pro business intelligence


Možnosti organizace DWH

• Relační db –tabulka faktů a tabulky pro dimenze:– Hvězda

• Každá dimenze v jediné tabulce (denormalizované)

– Snowflake• Hierarchie každé dimenze rozložena do více tabulek

(normalizovaná dimenze)

• Multidimenzionální db – kostky– popisné atributy dimenzí mohou být

v Operational Data Store