Upload
muhja-mufidah
View
25
Download
0
Embed Size (px)
DESCRIPTION
Materi Data Mining - Konsep Data Warehouseoleh Agus Wahyu Widodo, ST., MCs.Fakultas Ilmu KomputerUniversitas Brawijaya
Citation preview
Konsep Data WarehouseDisampaikan oleh:
Agus Wahyu Widodo, ST., MCs.Program Studi Teknik Informatika / Ilmu Komputer
Fakultas Ilmu Komputer (FILKOM)Universitas Brawijaya - Malang
Garis Besar Materi
• Pengertian• Aplikasi Data Warehouse• Istilah – istilah dalam Data Warehouse
Pengertian (1)
• Data warehouse adalah database yang didesain khusus untuk mengerjakan proses query, membuat laporan dan analisa.
• Data yang disimpan adalah business history dari sebuah organisasi /perusahaan, dimana data tersebut tidak tersimpan secara rinci/detil.
• Sehingga data dapat bertahan lebih lama berbeda dengan data OLTP (Online Transactional Processing) yang tersimpan sampai prosesnya berlangsung secara lengkap.
Pengertian (2)
• Data warehouse juga merupakan kumpulan dari komponen-komponen perangkat keras dan perangkat lunak yang dapat digunakan untuk mendapatkan analisa yang lebih baik dari data yang berjumlah sangat besar sehingga dapat membuat keputusan yang baik.
Pengertian (3)
• Data Warehouse umumnya digunakan untuk:– memahami trend bisnis– membuat perkiraan keputusan yang lebih baik– menganalisa informasi mengenai penjualan harian– membuat keputusan yang cepat dalam
mempengaruhi kinerja organisasi
Pengertian (4)
• Sumber data pada data warehouse berasal dari berbagai macam format, software, platform dan jaringan yang beda.
• Data tersebut adalah hasil dari proses transaksi perusahan / organisasi sehari.hari. Karena berasal dari sumber yang berbeda beda tadi, maka data pada data warehouse harus tersimpan dalam sebuah format yang baku.
Aplikasi Data Warehouse
• Sales and marketing analysis across all industries• Inventory turn and product tracking in
manufacturing• Analisa penjualan dan perbaikan analisa program
pemasaran yang efektif• Keuntungan dari jalan raya atau analisa resiko
pengemudi dalam hal transportasi• Analisa keuntungan atau resiko penetapan pajak
atau denda dalam bidang perbankan
Istilah-Istilah dalam Data Warehouse
• Data Mart• On-Line Transactional Processing(OLTP)• On-Line Analytical Processing(OLAP)• Dimension Table• Fact Table• Decision Support System (DSS)
Istilah-Istilah dalam Data Warehouse
• Data Mart– Merupakan salah satu bagian pada data
warehousing yang mendukung pembuatan laporan dan analisa data pada suatu unit, bagian atau operasi pada suatu perusahaan.
• On-Line Analytical Processing(OLAP) – merupakan suatu pemrosesan basisdata yang
menggunakan tabel fakta dan dimensi untuk dapat menampilkan berbagai macam bentuk laporan, analisis, query dari data yang berukuran besar.
Istilah-Istilah dalam Data Warehouse
• On-Line Transactional Processing (OLTP), – merupakan suatu pemrosesan yang menyimpan
data mengenai kegiatan operasional transaksi sehari-hari.
• Dimension Table– Tabel yang berisikan kategori dengan ringkasan
data detail yang dapat dilaporkan. Seperti laporan laba pada tabel fakta dapat dilaporkan sebagai dimensi waktu (misal: bulanan, triwulan dan tahunan).
Istilah-Istilah dalam Data Warehouse
• Fact Table– merupakan tabel yang umumnya mengandung angka
dan data history dimana key (kunci) yang dihasilkan sangat unik, karena key tersebut terdiri dari foreign key yang merupakan primary key (kunci utama) dari beberapa dimension table yang berhubungan.
• Decision Suport System– merupakan sistem yang menyediakan informasi kepada
pengguna yang menjelaskan bagaimana sistem ini dapat menganalisa situasi dan mendukung suatu keputusan yang baik.
Karakteristik Data Warehouse
• Berorientasi Subjek– Data Warehouse adalah tempat penyimpanan
berdasarkan subjek bukan berdasarkan aplikasi. Subjek merupakan bagian dari suatu perusahaan. Contoh subjek pada perusahaaan manufaktur adalah penjualan, konsumen, inventori, dan lain sebagainya.
Perbedaan Data Warehouse dan Operational Database
Karakteristik Data Warehouse
• Data yang terintegrasi– Sumber data yang ada dalam data warehouse tidak hanya
berasal dari database operasional (internal source) tetapi juga berasal dari data diluar sistem (external source).
• Nonvolatile– Data dalam database operasional akan secara berkala atau
periodik dipindahkan ke dalam data warehouse sesuai dengan jadwal yang sudah ditentukan. Misal perhari, perminggu, perbulan, dan lain sebagainya. Sekali masuk ke dalam data warehouse, data adalah read-only.
Karakteristik Data Warehouse: Non Volatile
Karakteristik Data Warehouse
• Time-Variant– Sistem operasional mengandung data yang bernilai
sekarang sedangkan data dalam data warehouse mengandung data tidak hanya data terkini tetapi juga data history yang akan digunakan dalam analisis dan pengambilan keputusan.
– Waktu adalah dimensi penting yang harus didukung oleh semua data warehouse. Data untuk analisis dari berbagai sumber berisi berbagai nilai waktu, misalkan harian, mingguan, dan bulanan.
Karakteristik Data Warehouse
• Ringkas– Jika diperlukan, data operasional dikumpulkan ke
dalam ringkasan ringkasan.• Granularity– Pada sistem operasional data dibuat secara real-
time sehingga untuk mendapatkan informasi langsung dilakukan proses query.
– Pada data warehouse dalam proses analisis harus memperhatikan level-of-detail misalkan perhari, ringkasan perbulan, ringkasan per-tiga-bulan.
Karakteristik Data Warehouse
• Tidak ternormalisasi– Data di dalam sebuah data warehouse biasanya
tidak ternormalisasi dan sangat redundan. – Data-data yang ada di dalam data warehouse bisa
berasal dari banyak sumber, misalkan dari database operasional atau transaksional dan sumber dari luar misalkan dari web, penyedia jasa informasi, dari perusahaan lain, dan lain sebagainya.
Manfaat
• Data warehousing diperlukan bagi para pengambil keputusan dari suatu organisasi/perusahaan.
• Dengan adanya data warehouse, akan mempermudah pembuatan aplikasi-aplikasi DSS dan EIS karena data warehousing bertindak sebagai basisdata yang dapat digunakan untuk mendukung proses analisa.
Tugas Data Warehouse
• Pembuatan laporan, – Pembuatan laporan merupakan salah satu
kegunaan data warehousing yang paling umum dilakukan.
– Dengan menggunakan query yang memanfaatkan fungsi agregasi didapatkan laporan perhari, perbulan, pertahun atau jangka waktu lain yang diinginkan.
Tugas Data Warehouse
• On-Line Analytical Processing (OLAP), – Dengan adanya data warehouse, semua informasi baik detail maupun
hasil summary yang dibutuhkan dalam proses analisa mudah didapat. – OLAP mendayagunakan konsep data multi dimensi dan
memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL.
– Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda.
– Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-down.
– Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
Tugas Data Warehouse
• Proses informasi eksekutif, – data warehousing dapat membuat ringkasan
informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data.
– Dengan menggunakan data warehousing segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan data warehousing menjadi target informatif bagi pengguna.
Keuntungan Penggunaan Data Warehouse
• Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi.
• Perbedaan di antara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
• Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari basisdata OLTP ke data warehouse.
• Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.
Keuntungan Penggunaan Data Warehouse bagi Perusahaan
• Kemampuan untuk mengakses data yang besar• Kemampuan untuk memiliki data yang konsistent• Kemampuan kinerja analisa yang cepat• Mengetahui adanya hasil yang berulang-ulang• Menemukan adanya celah pada business knowledge
atau business process.• Mengurangi biaya administrasi• Memberi wewenang pada semua anggota dari
perusaahan dengan menyediakan kepada mereka informasi yang dibutuhkan agar kinerja bisa lebih efektif.
Tugas di Rumah
• Carilah artikel yang berbeda dari ulasan pada bab ini tentang konsep data warehouse yang meliputi:– Pengertian– Karakteristik– Manfaat– Tujuan– Berbagai aplikasi data warehousing
• Catatan : Gunakan sumber pustaka berupa buku berbahasa asing dan cantumkan dalam daftar rujukan dan gunakan sitasinya.
Elemen-elemen Data Warehouse
• Sumber data yang digunakan oleh data warehouse, database transaksional dan sumber data eksternal.
• Meliputi proses ETL (Extraction, Transformation, Loading) dari sumber data ke database data warehouse.
• Membuat suatu ringkasan atau summary terhadap data warehouse misalkan dengan menggunakan fungsi agregat.
Elemen-elemen Data Warehouse
• Metadata.– Metadata menguraikan struktur dan beberapa arti tentang
data, dengan demikian mendukung penggunaan efektif atau tidak efektif dari data.
• Database data warehouse.– Database ini berisi data yang detail dan ringkasan data dari
data yang ada di dalam data warehouse. – Karena data warehouse tidak digunakan dalam proses
transaksi individu, maka databasenya tidak perlu diorganisasikan untuk akses transaksi dan untuk pengambilan data, melainkan dioptimisasikan untuk pola akses yang berbeda di dalam analisis.
Elemen-elemen Data Warehouse
• Query Tools – yaitu dengan OLAP (Online Analytical Processing ) dan data
mining. – Tool untuk query ini meliputi antarmuka pengguna akhir dalam
mengajukan pertanyaan kepada database, dimana proses ini disebut sebagai On-line Analytical Processing (OLAP).
– Tool ini juga terdiri dari tool otomatis yang menemukan pola-pola di dalam data, yang sering disebut sebagai data mining.
– Data warehouse harus memiliki salah satu dari kedua tipe ini atau malah kedua-duanya.
• User– Pengguna yang memanfaatkan data warehehouse tersebut.
Arsitektur Data Warehouse
ETL (Extraction, Transformation, Loading)
• Tiga fungsi utama yang perlu dilakukan untuk membuat data siap digunakan pada data warehouse adalah extraction, transformation dan loading (ETL).
• Ketiga fungsi ini terdapat pada staging area. • Pada data staging ini, disediakan beberapa
fungsi seperti data cleansing, change, convert, dan menyiapkan data untuk disimpan serta digunakan oleh data warehouse.
What is Data Staging
• The Data Warehouse Staging Area – is temporary location where data from source systems is
copied. A staging area is mainly required in a Data Warehousing Architecture for timing reasons. In short, all required data must be available before data can be integrated into the Data Warehouse.
• Due to varying business cycles, data processing cycles, hardware and network resource limitations and geographical factors, it is not feasible to extract all the data from all Operational databases at exactly the same time.
Typical Data Warehousing Environment – ETL Contex
Extraction
• Data Extraction – adalah proses pengambilan data yang diperlukan dari
sumber data warehouse dan selanjutnya dimasukkan pada staging area untuk diproses pada tahap berikutnya.
– Pada fungsi ini, kita akan banyak berhubungan dengan berbagai tipe sumber data.
– Format data, mesin yang berbeda, software dan arsitektur yang tidak sama.
– Sehingga sebelum proses ini kita lakukan, sebaiknya perlu kita definisikan requirement terhadap sumber data yang akan kita butuhkan untuk lebih memudahkan pada extraction data ini.
Transformation
• Pada kenyataannya, pada proses transaksional data disimpan dalam berbagai format sehingga jarang kita temui data yang konsisten antara aplikasi-aplikasi yang ada.
• Transformasi data ditujukan untuk mengatasi masalah ini.
• Dengan proses transformasi data ini, kita melakukan standarisasi terhadap data pada satu format yang konsisten. Beberapa contoh ketidakkonsistenan data tersebut dapat diakibatkan oleh tipe data yang berbeda, data length dan lain sebagainya.
Loading• Data loading adalah memindahkan data ke data warehouse. • Ada dua loading data yang kita lakukan pada data warehouse.
– Pertama adalah inisial load, proses ini dilakukan pada saat kita telah selesai mendesign dan membangun data warehouse.
– Data yang kita masukkan tentunya akan sangat besar dan memakan waktu yang relati lebih lama.
– Kedua Incremental load, dilakukan ketika data warehouse telah dioperasikan. Kita melakukan data extraction, transformation dan loading terhadap data tersebut.
• Untuk inisial load dilakukan sekali saja, namun untuk incremental load dapat kita jadwalkan sesuai dengan kebutuhan, bisa setiap hari, bulan, kuartal atau tahun sesuai dengan kebutuhan sistem kita.
Data Cleansing
• Seperti dijelaskan diatas, pada data staging terdapat fungsi data cleansing.
• Adapun tujuan dari data cleansing ini adalah untuk menghilangkan kesalah-kesalahan pada data yang diakibatkan oleh proses transaksional.
• Mengingat bahwa data warehouse dijadikan sebagai sistem pendukung keputusan, maka jika data cleansing ini salah maka hal yang terburuk yang terjadi adalah pemberian informasi yang salah kepada pengambil kebijakan.
• Jika informasi yang salah ini dipercayai maka keputusan yang diambil akan jatuh dan bisa mengakibatkan kerugian yang besar.
Data Multidimensi
• Selama ini kita mengenal adanya tabel relasional. • Jika kita perhatikan tabel relasional tersebut,
maka dapat kita ketahui karakteristiknya. • Secara jelas dapat kita lihat bahwa tabel
relasional dibangun oleh baris dan kolom. • Hal ini menunjukkan adanya dua sudut pandang,
baris sebagai sumbu x dan kolom sebagi sumbu y. tapi sebenarnya tabel relasional tersebut hanya mempunyai satu dimensi.
Multidimensional Data: Cube