Download pdf - BAB 2 LANDASAN TEORI - · PDF fileYang membedakan antara relational model dengan tabel biasa atau file ... Terdapat 5 tabel fisik yang berhubungan pada Gambar 2 ... dimensi ini merupakan

8

BAB 2

LANDASAN TEORI

2.1 Teori Database

2.1.1 Definisi Database

Menurut Thomas Connolly dan Carolyn Begg, pengertian dari database

adalah “a shared collection of logically related data, and a description of this

data, designed to meet the information needs in an organization” (2002, p14).

Yang dapat diartikan sebagai kumpulan data yang terhubung secara logis, dan

suatu gambaran dari data tersebut, yang dirancang untuk memenuhi kebutuhan

informasi suatu perusahaan.

Menurut Post (2002, p2), database merupakan suatu kumpulan data yang

disimpan dalam format yang terstandarisasi, dirancang untuk digunakan secara

bersama oleh user.

Jadi, database dapat didefinisikan sebagai suatu kumpulan data bersifat

persistent yang terhubung secara logis dan disimpan dalam format yang

terstandarisasi, dan dirancang untuk memenuhi kebutuhan informasi suatu

perusahaan.

2.1.2 Relational Model

Relational Model untuk pertama kalinya dikemukakan oleh E. F. Codd,

seorang anggota dari IBM Research Laboratory di San Jose, California dalam

naskahnya ‘A relational model of data for large shared data banks’. Relational

9

model terdiri atas tiga komponen, yakni komponen struktural (disebut juga

relations), komponen manipulatif, dan sebuah set dari rules yang memelihara

integritas dari database.

Model tersebut didasarkan atas struktur data yang sederhana dan umum

yaitu relasi dan mempunyai pondasi teoritis yang kokoh. Di dalam skema

relasional, antara satu relasi dengan relasi yang lain memiliki nama yang

berbeda. Yang membedakan antara relational model dengan tabel biasa atau file

adalah tidak terurutnya tuple dalam relasi, pengurutan atribut dalam skema relasi,

dan pengurutan nilai yang berhubungan dalam suatu tuple.

2.1.3 Relational Database

Menurut Connolly, relational database adalah suatu kumpulan dari relasi

yang telah dinormalisasi dengan nama-nama relasi yang berbeda (2002, p74).

Relational database adalah database yang sesuai dengan relational

model.. Dalam relational database, semua data yang disimpan dalam kolom

haruslah berasal dari domain yang sama. Beberapa contoh relational key yang

digunakan untuk mengidentifikasi secara unik baris di dalam relasi, antara lain

super key, candidate key, primary key, foreign key, dan composite key.

2.1.4 Relational Database Management System

Menurut Whitten, Relational Database Management System (RDBMS)

adalah sebuah perangkat lunak yang disediakan oleh vendor komputer secara

khusus, yang digunakan untuk membuat, mengakses, mengontrol, dan mengatur

sebuah database (2004, p554).

10

RDBMS didisain untuk memanajemen sebuah database sebagai

sekumpulan data yang disimpan secara terstruktur, dan melakukan operasi-

operasi atas data berdasarkan permintaan user. Untuk saat ini implementasi

RDBMS sudah banyak dan bisa disesuaikan dengan kebutuhan spesifikasi data

sehingga dapat diimplementasikan oleh berbagai perusahaan.

2.1.5 Pengertian Online Transaction Processing

Menurut Peterson, Online Transaction Processing (OLTP) adalah

aplikasi yang menjalankan operasi basis perusahaan. Sistem OLTP menggunakan

data dalam cara-cara : menghasilkan data dalam proses bisnis yang berlangsung

terus-menerus, menyimpan data dalam format yang mengoptimisasikan

pengambilan dan pembaharuan record individual, dan menghasilkan laporan

terbatas yang meringkas event yang sudah dan sedang terjadi (2000, p53).

OLTP dirancang untuk memungkinkan terjadinya pengaksesan beberapa

user secara bersama-sama terhadap sumber data yang sama dan mengatur proses

yang dibutuhkan, tentunya dengan performa tinggi. Transaksi yang dilakukan

meliputi insert, update, dan delete. Data OLTP biasanya bersifat relasional dan

dalam bentuk normal ketiga.

Fokus utama dari OLTP adalah untuk mendukung fungsi dasar sehari-

hari organisasi, misalkan untuk menerima pesanan barang, pengaturan stok,

pengajuan rekening pelanggan, dan sebagainya. (Groff, 1999, p736).

11

2.2 Teori Data Warehouse

2.2.1 Definisi Data Warehouse

Menurut W.H.Inmon, data warehouse adalah “a collection of integrated,

subject-oriented databases designed to support the DSS function, where each

unit of data is relevant to some moment in time.” (2005, p495). Atau dapat

diartikan sebagai “sekumpulan database yang terintegrasi dan berorientasi

subjek, yang dirancang untuk mendukung sistem pengambilan keputusan di

mana setiap unit datanya berhubungan dengan beberapa kejadian pada suatu

waktu tertentu”. Data warehouse berisikan data atomic dan juga berisikan data

yang telah diringkas.

Menurut C.Imhoff, data warehouse adalah “a subject-oriented,

integrated, time-variant, nonvolatile collection of data used to support the

strategic decision-making process for the enterprise.” (2003, p400). Atau dapat

diartikan sebagai “sekumpulan data yang memiliki sifat orientasi subjek,

terintegrasi, time-variant yang berarti data yang tingkat keakuratannya berkaitan

dengan beberapa kejadian rentang waktu tertentu, dan bersifat nonvolatile yang

berarti data tidak berubah-ubah, yang digunakan untuk mendukung proses

pengambilan keputusan pada perusahaan”.

Menurut Peterson, data warehouse adalah koleksi semua data dalam

perusahaan yang digunakan untuk query analisa bisnis (2000, p55).

Menurut Ralph Kimball, data warehouse adalah “The conglomeration of

an organization’s data warehouse staging and presentation areas, where

operational data is specifically structured for query and analysis performance

and ease-of-use.” (2002, p397). Atau dapat diartikan sebagai “Penggabungan

12

antara tingkatan data warehouse yang ada pada suatu organisasi dengan area

presentasi, di mana data operasional secara spesifik disusun untuk query dan

analisis performa, serta kemudahan dalam penggunaan”.

Menurut English, produk dari Data warehouse adalah informasi.

Pelanggan dari data warehouse adalah knowledge worker yang harus membuat

keputusan penting dengan lebih cepat. (1999, p4)

Dari definisi-definisi yang telah dikemukakan di atas, dapat disimpulkan

bahwa data warehouse merupakan database yang terintegrasi atau dapat pula

gabungan dari beberapa tingkatan data warehouse, yang saling berhubungan, dan

data yang ada pada sistem informasi operasional disusun untuk dianalisis

sehingga menghasilkan informasi yang dapat menjadi dasar pengambilan

keputusan bagi pihak eksekutif perusahaan.

.

2.2.2 Goal dari Data Warehouse

Goal yang ingin dicapai dari perancangan data warehouse antara lain :

Data warehouse harus mampu membuat informasi mengenai perusahaan

mudah dimengerti, mudah diakses, cepat, akurat, dan konsisten.

Data warehouse harus mampu mendukung analisis bisnis yang dibutuhkan

serta menyesuaikan dengan teknologi yang ada di perusahaan.

Data warehouse harus mampu menangani dan mengubah perubahan yang

tidak terelakkan yang dikarenakan perubahan kebutuhan dari user, kondisi

bisnis, data, dan teknologi.

13

Data warehouse tidak boleh mengganggu bahkan mengubah data yang

sedang berjalan pada sistem informasi operasional perusahaan.

Data warehouse harus mampu menyajikan dasar untuk pengambilan

keputusan yang lebih baik.

2.2.3 Karakteristik Data Warehouse

Karakteristik yang dimiliki oleh data warehouse yang dapat dipelihara yaitu :

Subject-oriented (berorientasi subjek)

Data warehouse berorientasi subjek, artinya data dikelompokkan

berdasarkan fungsi utama dalam bisnis. Area fungsi utama (subjek) dapat

meliputi customer, product, transaction, policy, claim, account. Setiap area

subjek secara fisik mengimplementasikan urutan dari tabel-tabel yang saling

berhubungan dalam data warehouse. Setiap area subjek dapat memiliki 10,

100, atau lebih tabel fisik yang saling terhubung. Berikut adalah contoh area

subjek yang berbasis customer.

Terdapat 5 tabel fisik yang berhubungan pada Gambar 2.1. Masing-

masing tabel telah dirancang untuk mengimplementasikan bagian dari subjek

utama, yaitu customer. Definisi data mengenai customer berbeda jika dilihat

berdasarkan tahun.

14

Gambar 2.1 Data warehouse berbasis customer (Inmon,2005,p35).

Semua tabel fisik yang subjeknya customer dihubungkan dengan

common key. Gambar 2.2 menunjukkan key “customer ID” yang

menghubungkan semua data yang ditemukan pada area subjek customer.

Data (tabel fisik) dari subjek customer yang saling terhubung (pada Gambar

2.3) tidak harus disimpan dalam disk saja, tetapi dapat ditempatkan pada

media yang berbeda. DASD (Direct Access Storage Device) dan magnetic

tape merupakan dua media yang paling populer untuk menyimpan data

dalam data warehouse.

15

Gambar 2.2 Koleksi data yang memiliki area subjek yang sama diikat

dengan common key (Inmon,2005,p36).

Gambar 2.3 Area subjek dapat berisi data yang berasal dari media yang

berbeda dalam data warehouse (Inmon,2005,p37).

Integrated (terintegrasi / terpadu)

Konsep integration dalam data warehouse dikaitkan dengan

pengambilan sumber data yang berasal dari berbagai sumber yang terpisah.

Data yang diambil tersebut selanjutnya akan diconvert, diformat kembali,

16

diurutkan, diringkas, dan seterusnya. Hasil dari data tersebut ditempatkan

dalam data warehouse yang hanya memiliki satu physical image. Gambar 2.4

menjelaskan mengenai integrasi yang terjadi ketika data lewat dari

lingkungan operasional application-oriented menuju data warehouse.

Gambar 2.4 Pokok persoalan dari integrasi (Inmon,2005,p31).

Konsistensi yang ditunjukkan data warehouse dapat dilihat pada :

Encoding (Pengkodean)

Misalnya, software developer harus memberi kode “m” untuk

jenis kelamin pria, “f” untuk wanita. Jika terdapat kode “1” yang

menjelaskan jenis kelamin pria dan “0” untuk wanita, maka akan diubah

menjadi bentuk standar yaitu “m” atau “f”.

17

Attribute Measurement (Pengukuran Atribut)

Misalnya, ada beberapa satuan ukur yang digunakan untuk satuan

panjang dalam database, seperti cm, inchi, meter, dan yard. Dengan

karakteristik integrasi data, maka satuan panjang tersebut harus konsisten

yaitu dengan cara menetapkan satuan panjang “cm” sebagai standar.

Multiple Source (Banyak Sumber)

Dalam database ada kemungkinan banyaknya deskripsi dari suatu

informasi, namun dengan prinsip integrasi data, seluruh informasi

tersebut harus memiliki kesamaan deskripsi yang konsisten.

Conflicting Keys (Kunci yang Berbeda)

Misalnya, dalam database ada beberapa tipe data yang berbeda

dalam field yang sama, seperti field kode barang dalam tabel penjualan

memiliki tipe data character (char) dengan field size 10 sedangkan dalam

tabel lain berbeda, misal char(12). Semua perbedaan itu harus

diintegrasikan menjadi satu tipe data yaitu char dengan ukuran 12.

Nonvolatile (tidak berubah-ubah)

Data pada data warehouse tidak mengalami perubahan, lain halnya

pada database operasional dimana dapat dilakukan operasi insert, update,

dan delete terhadap data yang menyebabkan perubahan isi pada database.

18

Gambar 2.5 Pokok persoalan dari nonvolatile (Inmon,2005,p32).

Pada data warehouse hanya ada dua kegiatan manipulasi data, yaitu

loading data (mengambil data yang dibutuhkan data warehouse) dan akses

data (proses mengakses data warehouse, seperti melakukan query atau

menampilkan laporan yang dibutuhkan). Dalam data warehouse tidak ada

kegiatan update data. Sebagai gantinya, terdapat snapshot dalam bentuk

format statis yang di-load oleh data warehouse. Apabila terjadi perubahan

data, snapshot baru terbentuk, kemudian snapshot itu akan disimpan bersama

dengan snapshot yang sudah ada dalam data warehouse sehingga menjadi

historical data.

Beberapa perbedaan data operasional dengan data warehouse dapat

dilihat pada Tabel 2.1 ini :

19

Tabel 2.1 Perbandingan data operasional dan data warehouse (Connolly 2002, p1049)

Data Operasional Data warehouse

Menangani data terbaru Menangani data historis

Menyajikan detailed data. Menyajikan detailed, lightly dan highly

summarized data.

Data bersifat dinamis. Data bersifat statis.

Prosesnya repetitif Ad hoc, tidak terstruktur

Pola penggunaan dapat

diprediksi Pola penggunaan tidak dapat diprediksi

Transaction driven Analysis driven

Berorientasi aplikasi Berorientasi subjek

Mendukung keputusan sehari-

hari Mendukung keputusan strategis

Tersedia untuk karyawan bagian

operasional Tersedia untuk para manajer / eksekutif

Time Variant (Rentang Waktu)

Data dalam data warehouse berhubungan dengan suatu titik dalam

suatu periode waktu, dan data dalam data warehouse akurat selama periode

waktu tertentu, sehingga dapat dikatakan memiliki rentang waktu (time

variant). Data warehouse juga memiliki tempat untuk menyimpan data 5-10

tahun yang lalu atau lebih lama lagi, yang mungkin nantinya data tersebut

dapat digunakan untuk perbandingan trend dan forecasting. Sedangkan data

20

operasional hanya memiliki rentang waktu yang sangat kecil yaitu berkisar

60-90 hari. Dengan semakin banyaknya data, maka akan lebih baik dalam

menganalisis sesuatu dalam perusahaan.

Karena dimensi ini merupakan hal yang penting, maka pada bagian

waktu diperlukan suatu pembagian dengan aturan-aturan tertentu. Pada

umumnya rentang waktu analisis dibagi menjadi perbulan, pertriwulan,

perkuartal, pertahun, dan sebagainya.

2.2.4 Struktur Data Warehouse

Data warehouse memiliki struktur yang spesifik serta memiliki

perbedaan dalam tingkatan ringkasan, detil data, dan umur data. Struktur tersebut

terdiri dari :

1. Current Detail Data

Current detail data adalah data detail yang sedang aktif saat ini,

mencerminkan keadaan yang sedang berjalan saat ini dan merupakan tingkat

terendah dalam data warehouse. Current detail data ini biasanya

memerlukan media penyimpanan data yang cukup besar. Alasan perlu

diperhatikannya current detail data adalah sebagai berikut:

• Menggambarkan kejadian yang baru terjadi dan selalu menjadi

perhatian utama.

• Hampir selalu disimpan di media penyimpanan karena diperlukan

akses yang cepat tetapi mahal dan kompleks dalam pengaturannya.

21

• Dapat digunakan dalam membuat rekapitulasi sehingga current detail

data harus akurat.

• Jumlahnya sangat banyak dan disimpan pada tingkat penyimpanan

terendah

.

2. Old Detail Data

Old detail data merupakan detil dari data historis, dapat berupa hasil

back up yang dapat disimpan dalam media penyimpanan yang terpisah dan

dapat diakses kembali pada saat tertentu. Data ini jarang diakses sehingga

disimpan dalam media penyimpanan alternatif seperti tape disk. Penyusunan

direktori untuk data ini harus menggambarkan umur dari data agar

memudahkan pengaksesan kembali.

3. Lightly Summarized Data

Lightly summarized data (ringkasan data level menengah) merupakan

ringkasan dari current detail data. Di dalam tahap ini data belum dapat

digunakan untuk pengambilan keputusan karena sifat data belum “total

summary” yang artinya data masih bersifat detil. Lightly summarized data

seringkali digunakan sebagai gambaran dari keadaan yang sedang

berlangsung maupun yang belum berlangsung.

22

4. Highly Summarized Data

Highly summarized data (ringkasan data level tinggi) merupakan

hasil proses ringkasan yang bersifat “total summary”. Pada tingkat ini data

sangat mudah diakses dan pada akhirnya dapat digunakan sebagai pengambil

keputusan bagi para eksekutif perusahaan. Bagi para eksekutif, hal ini

sangatlah memudahkan karena mereka hanya perlu membaca atau melakukan

analisis dalam waktu yang singkat.

Gambar 2.6 Struktur data warehouse (Inmon,2005,p34).

5. Metadata

Metadata bukanlah merupakan hasil kegiatan operasional seperti

keempat jenis data di atas, namun merupakan komponen penting dalam data

warehouse yang menjalankan seluruh proses yang ada. Metadata seringkali

disebut ‘data tentang data’. Metadata memberikan peranan yang penting

untuk keefektifan penggunaan data warehouse karena dengan adanya

23

metadata akan mempermudah end-user dalam melakukan analisis dan

menghemat waktu. Metadata digunakan untuk beberapa tujuan yang

bervariasi termasuk :

Proses extraction dan loading, yang digunakan untuk pemetaan

sumber data menjadi bentuk data yang common view.

Proses manajemen warehouse, yang digunakan untuk proses

otomatisasi pembentukan tabel ringkasan.

Bagian dari proses manajemen query, yang digunakan untuk

mengarahkan query kepada sumber data yang paling tepat.

.

2.2.5 Komponen Data Warehouse

Komponen data warehouse meliputi :

1. Alat loading warehouse : program yang mengambil data dari sistem

pemrosesan transaksi korporal (database relasional, mainframe dan file

minikomputer), memprosesnya, dan memasukkannya ke warehouse. Proses

ini mencakup pembersihan data transaksi, penyaringan, reformat dan load

ke sebuah basis data besar dalam warehouse.

2. Sebuah database warehouse : sebuah database relasional untuk

menyimpan data yang sangat banyak, mengambil data dengan kecepatan

tinggi dan mendukung query analisa bisnis yang kompleks.

3. Alat analisis data : program untuk melakukan analisa statistik dan

berjangka waktu, melakukan analisa ‘bagaimana jika’ dan menampilkan

hasilnya dalam bentuk grafik.

24

2.2.6 Arsitektur Data Warehouse

Arsitektur data warehouse menyediakan kerangka dengan

mengidentifikasikan dan memahami bagaimana data akan dipindahkan melalui

sistem dan digunakan dalam perusahaan. Arsitektur data warehouse mempunyai

komponen utama yaitu database yang hanya dapat dibaca.

Karakteristik arsitektur data warehouse antara lain :

• Data diambil dari sistem informasi operasional, database, dan file.

• Data dari sistem asal diintegrasikan dan ditransformasi sebelum disimpan

ke dalam data warehouse.

• Data warehouse adalah jenis database read-only yang diciptakan untuk

mengambil keputusan.

• User mengakses data warehouse via front-end tool atau aplikasi.

Gambar 2.7 Arsitektur data warehouse (Connolly,2002,p1053).

25

1. Operational Data

Data operasional yang menjadi sumber data bagi data warehouse

berasal dari mainframe, workstation dan private server yang berisi private

data, dari sistem luar seperti internet, dan juga dari database yang tergabung

dengan pemasok ataupun pelanggan.

2. Operational Datastore (ODS)

ODS merupakan tempat penampungan dari data operasional yang ada

saat ini dan terintegrasi, yang digunakan untuk analisis. ODS ini terstruktur

dan data yang disediakan telah di-extract dan di-cleaned. Proses pemasukan

data pada ODS juga sama seperti pada data warehouse. ODS dibentuk ketika

sistem operasional sudah dirasa tidak mampu memberikan laporan yang

dibutuhkan. Dengan adanya ODS ini maka proses integrasi dan merestruktur

data untuk data warehouse menjadi lebih sederhana.

3. Load Manager

Load manager atau sering disebut komponen front-end melakukan

seluruh operasi yang berhubungan dengan extraction dan loading terhadap

data dan dimasukkan ke dalam data warehouse. Data mungkin di-extract

secara langsung dari sumber data atau umumnya berasal dari ODS.

26

4. Warehouse Manager

Warehouse manager melakukan seluruh operasi yang berhubungan

dengan manajemen data pada warehouse. Komponennya dibangun

menggunakan vendor data management tools dan custom-built programs.

Operasi yang dilakukan oleh warehouse manager meliputi :

Analisis data untuk memastikan konsistensi.

Transformasi dan menggabungkan data sumber dari penampungan

sementara ke dalam tabel data warehouse.

Pembuatan indeks dan view pada tabel utama.

Denormalisasi (jika diperlukan).

Aggregasi (jika diperlukan).

Back-up dan archiving data.

5. Query Manager

Query mnager atau sering dinamakan komponen backend melakukan

seluruh operasi yang berhubungan dengan manajemen dari user queries.

Komponen ini dibentuk menggunakan vendor end-user data access tools,

data warehouse monitoring tools, fasilitas database, dan custom-built

program. Operasi yang dilakukan meliputi mengarahkan langsung query ke

dalam tabel yang cocok dan melakukan penjadwalan terhadap query yang

dieksekusi.

27

6. Detailed Data, Lightly and Highly Summarized Data, Metadata

Detail data dibagi menjadi dua, yaitu current detail data dan old

detail data. Detail data telah dijelaskan pada sub-bab 2.2.4 point ke 1 dan 2.

Lightly dan highly summarized data telah dijelaskan pada sub-bab 2.2.4 point

3 dan 4. Dan meta-data juga telah dijelaskan pada sub-bab 2.2.4 point 5.

7. Archive / Backup Data

Area data warehouse ini menyimpan detailed dan summarized data

dengan tujuan archiving dan backup. Walaupun ringkasan dari data telah

dibentuk dari detail data, masih dibutuhkan backup untuk online summary

data jika data tersebut disimpan melebihi batas waktu penyimpanan untuk

detailed data. Data ditransfer ke storage archive seperti magnetic tape atau

optical disk.

8. End-User Access Tools

Tujuan dari perancangan data warehouse yaitu menyediakan

informasi kepada user (pebisnis) yang mengarah kepada pengambilan

keputusan yang strategis. User berinteraksi dengan warehouse menggunakan

end user access tool. Data warehouse harus secara efisien mendukung

analisis ad hoc dan analisis rutin. Tools ini dibagi menjadi 5 kelompok utama

yaitu :

28

Reporting and query tools

Reporting tools tebagi menjadi production reporting tools yang

digunakan untuk membuat laporan operasional ataupun mendukung

high-volume batch job seperti invoice dan report writer yang

merupakan desktop tools murah yang dibuat untuk end-user.

Query tools untuk relational data warehouse dirancang untuk

menerima SQL atau menghasilkan SQL statement untuk mengquery

data yang disimpan dalam data warehouse.

Application development tools

Aplikasi ini dikembangkan sesuai dengan keinginan user yang

dikarenakan analisis yang diminta tidak dapat dihasilkan atau dapat

pula karena membutuhkan user yang expert untuk berinteraksi. Dengan

adanya aplikasi ini maka analisis yang diminta dapat ditampilkan dalam

bentuk grafik.

Executive Information System (EIS) tools

EIS pada awalnya dikembangkan untuk mendukung

pengambilan keputusan yang bersifat high-level. Fokus dari sistem ini

diperluas sehingga mencakup seluruh level manajemen. EIS tools

dikaitkan dengan pembolehan untuk merancang aplikasi pendukung

pengambilan keputusan yang bersifat customized dan graphical kepada

user sehingga memberikan overview data perusahaan dan menyediakan

akses untuk sumber data eksternal kepada user.

29

Online Analytical Processing (OLAP) tools

OLAP tools merupakan kategori aplikasi yang memungkinkan

seorang system analyst, manager, dan eksekutif memperoleh data

dengan akses yang cepat, konsisten dan interaktif, sehingga informasi

dapat dilihat dari berbagai sudut pandang, di mana data telah

ditransformasikan dari data mentah untuk menggambarkan

multidimensi dari data perusahaan yang dapat dimengerti oleh user.

Tools ini sering digunakan untuk aplikasi bisnis dalam mengakses

efektivitas persaingan pemasaran, peramalan penjualan produk, dan

perencanaan kapasitas.

Keuntungan dari aplikasi OLAP, antara lain :

Meningkatkan produktivitas bisnis dan user, pengembang IT,

seluruh organisasi secara konsekuen.

Meningkatkan pendapatan dan keuntungan dengan

memperbolehkan organisasi memberikan respon lebih cepat

terhadap permintaan pasar.

Mengurangi pemindahan query dan lalu lintas jaringan pada

sistem OLTP ataupun pada data warehouse.

Data mining tools

Data mining merupakan proses menemukan hubungan baru, bentuk

baru, dan tren baru dengan menggali sejumlah besar data menggunakan

teknik statistik, matematika, dan artificial intelligence (AI). Yang

30

menarik dari data mining adalah kemampuan untuk membangun

prediksi / ramalan dibandingkan dengan meninjau kembali bentuk yang

telah dihasilkan.

2.2.7 Anatomi Data Warehouse

1. Data warehouse Fungsional

Data warehouse dibuat lebih dari satu dan dikelompokkan

berdasarkan fungsi masing-masing, seperti fungsi keuangan

(financial), fungsi marketing, fungsi kinerja personalia. Pemodelan

ini berfokus pada kebutuhan dari sebuah fungsi bisnis.

Keuntungan dari bentuk ini adalah dapat dibangun dengan

biaya yang relatif murah, dan memberikan fleksibilitas karena dapat

disesuaikan dengan permasalahan bisnis spesifik dan kemungkinan

dari departemen atau lini bisnis tertentu. Sedangkan kerugiannya

adalah terbatasnya kemampuan dalam pengumpulan data bagi

pengguna. Namun, terdapat resiko hilangnya konsistensi data di luar

lingkungan fungsi bisnis bersangkutan. Apabila pendekatan ini

lingkupnya diperbesar dari lingkungan fungsional menjadi lingkup

perusahaan, konsistensi data perusahaan tidak lagi dapat dijamin

2. Data warehouse Terpusat

Data warehouse terpusat adalah sebuah database fisikal

tunggal yang menyimpan semua data untuk area fungsional spesifik,

departemen, divisi atau perusahaan (enterprise). Data warehouse

31

terpusat biasanya menyimpan data dari sistem operasi yang berbeda-

beda. Data yang disimpan didalamnya dapat diakses dari sebuah

lokasi dan harus diload dan dipelihara pada basis regular.

Bentuk ini terlihat seperti bentuk functional data warehouse,

namun disini sumber data terlebih dahulu dikumpulkan dan

diintegrasikan pada suatu tempat terpusat, setelah itu barulah data

tersebut dibagi–bagi berdasarkan fungsi yang dibutuhkan oleh

perusahaan dan bentuk ini sering digunakan oleh perusahaan yang

belum memiliki jaringan eksternal. Keuntungan bentuk ini adalah

menyediakan gambaran yang komprehensif, tingkat kontrol dan

reliabilitas yang tinggi karena keterpaduan data di dalamnya.

3. Data warehouse Terdistribusi

Data warehouse terdistribusi adalah data warehouse yang

komponennya didistribusikan ke beberapa database fisikal yang

berbeda. Umumnya, pendekatan ini dipilih saat perusahaan besar

ingin menegikutsertakan level organisasinya yang lebih rendah di

dalam pengambilan keputusan, sehingga diperlukan penurunan data

untuk pembuatan keputusan ke komputer lokal tempat pengambil

keputusan lokal. Pendekatan ini melibatkan data yang paling

redundan dan konsekuensinya adalah proses load dan update yang

kompleks.

32

Bentuk ini dikembangkan berdasarkan konsep data warehouse

gateway yang memungkinkan pemakai untuk langsung berhubungan

dengan sumber data maupun dengan pusat pengumpul data lainnya.

Gateway adalah produk yang memungkinkan data untuk melewati

database atau sistem yang heterogen atau berlainan secara lancar.

Gateway dapat mencakup koneksi diantara jaringan yang berbeda,

protokol komunikasi yang berbeda dan representasi data yang

berbeda. Contohnya, dalam lingkungan data warehouse, gateway

digunakan untuk menyediakan konektivitas untuk mengakses data

dari mainframe dengan database yang dijalankan oleh berbagai

sistem operasi yang berbeda.

Pendekatan ini memerlukan biaya yang sangat besar karena

setiap sistem pengumpulan data fungsional dan sistem operasinya

dikelola secara terpisah. Di samping itu, agar berguna bagi

perusahaan, data harus disinkronisasikan untuk memelihara

keterpaduannya. Metode ini akan sangat efektif apabila data telah

tersedia dalam bentuk yang konsisten dan pemakai dapat menambah

data tersebut dengan informasi baru apabila ingin memperoleh

gambaran baru atas informasi.

33

2.2.8 Aliran Data pada Data Warehouse

1. Inflow

Inflow meliputi proses extraction, cleansing dan loading dari

sumber data. Cara alternatif lain, bisa dengan meload data ke dalam

data penyimpanan operasional (ODS) sebelum ditransfer ke dalam

data warehouse. Data harus direkonstruksi terlebih dahulu meliputi :

Membersihkan data kotor.

Merestrukturisasi data agar sesuai dengan kebutuhan dari data

warehouse yang baru, seperti, menambah atau membuang fields,

dan denormalisasi data.

Memastikan bahwa data sumber konsisten dengan dirinya

sendiri dan dengan data lain yang sudah ada dalam data

warehouse.

Proses inflow dapat secara efektif digunakan, dengan mentukan kapan

mengekstrak data untuk melakukan transformasi yang diperlukan dan

untuk menjamin konsistensi. Ketika mengekstrak data dari source

systems, penting untuk memastikan bahwa data dalam keadaan

konsisten untuk menghasilkan view dari korporasi data. Setelah data

diekstrak, maka akan di-load ke dalam penyimpanan temporer untuk

keperluan cleansing dan pengecekan konsistensi.

34

2. Upflow

Upflow meliputi proses menambahkan nilai (value) data dalam

data warehouse melalui aktivitaas summarizing, packaging dan

distribution data. Prosesnya meliputi :

Summarizing data, dengan selecting, projecting, joining, dan

grouping data relasional ke dalam tampilan yang lebih nyaman

bagi end-user. Summarizing melibatkan analisis statistic

modern termasuk identifying trends, clustering, dan sampling

the data.

Packaging data, dengan mengkonversikan data yang telah di-

summarized ke bentuk yang lebih tepat guna seperti, lembar

kerja (spreadsheets), dokumen teks, diagram, bentuk grafik

lainnya, database privat dan animasi.

Distributing data, ke dalam grup-grup yang sesuai untuk

meningkatkan ketersediaan dan kemudahan akses.

Ketika menambahkan nilai (value) ke data, pertimbangan yang

diperlukan untuk mendukung peforma dari data warehouse dan untuk

meminimalisasikan biaya operasional. Kebutuhan tersebut penting

dalam menentukan desain kearah yang benar, memaksa

restrukturisasi untuk memperbaiki query performance atau

menurunkan biaya operasional.

35

3. Downflow

Downflow meliputi proses yang diasosiasikan dengan

mengarsipkan dan membackup data dalam data warehouse.

Mengarsipkan data lama memegang peranan penting dalam

memelihara efektivitas dan peforma warehouse dengan mentransfer

data yang sudah lama, dalam jumlah tertentu, ke tempat penyimpanan

(diarsipkan) seperti magnetic tape, atau optical disc. Jika skema

partisi dipilih secara benar untuk database, jumlah data online

seharusnya tidak mempengaruhi peformansi.

Partisi adalah pilihan desain tepat guna untuk database yang

sangat besar, yang memungkinkan fragmentasi sebuah table

penyimpanan (record) dalam jumlah yang besar, ke dalam beberapa

table yang lebih kecil. Aturan untuk partisi dapat berdasarkan

karakteristik data seperti area di dalam sebuah negara.

Dataflow mencakup proses meyanlinkan bahwa current state

dari sebuah data dapat dibangun kembali jika ada kehilangan data,

atau kegagalan software/hardware. Data yang telah diarsipkan

sebaiknya disimpan sehingga memungkinkan pembaruan data dalam

data warehouse jika diperlukan.

36

4. Outflow

Outflow meliputi proses yang diasosiasikan dengan bagaimana

membuat data tersedia bagi pengguna akhir. Outflow dimana real

value warehouse didasari oleh organisasi. Ini memerlukan re-

engineering proses bisnis untuk mencapai keuntungan kompetitif.

Dua aktivitas kunci yang ada di dalam outflow meliputi :

Accesing, yaitu hal yang berkaitan dengan bagaimana

memuaskan permintaan pengguna akhir akan data yang mereka

butuhkan. Hal utama adalah bagaimana menciptakan suasana

sehingga pengguna bisa menggunakan query tools untuk

mengakses sumber data secara efektif. Frekuensi akses

pengguna dapat bervarisai, mulai dari ad-hoc (sekali-kali) ,

rutin, sampai real-time.penting untuk memastikan bahwa sumer

daya sistem yang digunakan dengan sangat efektif dalam

menjadwalkan eksekusi dari query-query pengguna.

Delivering, yaitu hal yang berkaitan dengan bagaimana

menyampaikan informasi workstation end-users secara proaktif.

Ini adalah area yang relatif baru dalam data warehouse, dan

disebut juga sebagai proses yang bertipe ’publish-and-

subscribe’ proses warehouse menerbitkan bermacam-macam

‘business objects’ yang direvisi secara periodik dengan

memonitor pola pemakaian. Pengguna mendaftar ke suatu set

obyek bisnis yang paling sesuai dengan kebutuhan mereka.

37

Data warehouse berisi summary data secara potensial menyediakan

jumlah sumber data akurat untuk menanggapi sebuah query yang

spesifik termasuk data terperinci itu sendiri dan sejumlah tumpukan

lain yang sesuai dengan kebutuhan pengguna. Bagaimanapun

peformasi query akan bervariasi cukup signifikan, tergantung karakter

data target, isi yang paling penting dari data tersebut. Sebagai bagian

dari manajemen outflow, sistem harus memustuskan cara terefesien

untuk menjawab query.

5. Metaflow

Metaflow meliputi proses yang terasosiasi dengan manajemen

metadata. Flows yang sebelumnya menggambarkan manajemen data

warehouse dengan melihat bagaimana data masuk dan keluar dari

warehouse. Metaflow adalah proses yang memindahkan metadata

(data tentang flows lain). Metadata adalah gambaran isi data dari data

warehouse, apa yang ada di dalam, dari mana asal mulanya, dan apa

yang telah terjadi setelah cleansing, integrating, dan summarizing.

Untuk merespon kebutuhan bisnis yang terus berubah, sistem

yang sudah ada juga terus berubah secara konstan. Oleh sebab itu,

warehouse terlibat dalam merespon perubahan yang terus menerus,

juga merefleksikan perubahan tersebut pada sistem sumber (source

legacy systems) dan lingkungan bisnis yang berubah. Metaflow

(metadata) harus secara kontinu di-update dengan perubahan yang

terjadi.

38

Ketika menambahkan nilai (value) ke data, maka

administrator data warehouse harus mengidentifikasikan desain

database yang paling sesuai dengan kebutuhan, yang seringkali

memerlukan kompromi.

2.3 Teori Perancangan Data Warehouse

2.3.1 Perancangan Database dari Data Warehouse

Alat yang digunakan untuk merancang data warehouse adalah skema

bintang (star schema).

1. Definisi Skema Bintang / Star Schema

Menurut Thomas Connoly, “Star Schema is a logical structure that

has a fact table containing factual data in the center, surrounded by

dimension tables containing reference data (which can be denormalized)”

(2002, p1079), yang berarti skema bintang merupakan struktur logical yang

memiliki tabel fakta yang berisi data fakta, dikelilingi oleh tabel dimensi

yang berisi data referensi (yang dapat didenormalisasikan).

2. Keuntungan Skema Bintang

Keuntungan menggunakan skema bintang menurut Thomas Connolly adalah:

• Efisiensi, struktur database yang konsisten sehingga lebih efisien dalam

mengakses data dengan menggunakan alat / tool untuk menampilkan

data termasuk laporan tertulis dan query.

39

• Kemampuan untuk mengatasi perubahan kebutuhan, skema bintang

dapat beradaptasi terhadap perubahan kebutuhan pengguna, karena

semua tabel dimensi memiliki kesamaan dalam hal menyediakan akses

ke tabel fakta.

• Extensibility, model dimensional dapat dikembangkan. Seperti

menambah tabel fakta selama data masih konsisten, menambah tabel

dimensi selama ada nilai tunggal di tabel dimensi tersebut yang

mendefinisikan setiap record tabel fakta yang ada, menambahkan

attribute tabel dimensi, dan memecah record tabel dimensi yang ada

menjadi level yang lebih rendah dari level sebelumnya.

• Kemampuan untuk menggambarkan situasi bisnis pada umumnya,

pendekatan standar untuk menangani situasi umum di dunia bisnis yang

terus bertambah.

• Proses query yang bisa diprediksi, aplikasi data warehouse yang

mencari data dari level yang di bawahnya akan dengan mudah

menambah jumlah atribut pada tabel dimensi dari sebuah skema

bintang. Aplikasi yang mencari data dari level yang setara akan

menghubungkan tabel fakta yang terpisah melalui tabel dimensi yang

dapat diakses bersama.

40

3. Tipe Tabel Skema Bintang

Dalam skema bintang ada dua tipe tabel, yaitu tabel fakta dan tabel

dimensi. Tabel fakta dapat disebut juga sebagai tabel mayor, terdiri dari data

kuantitatif atau data fakta mengenai bisnis, informasi yang diquery. Infomasi

ini selalu diukur secara statistik dan dapat mengandung banyak kolom dan

baris. Tabel dimensi disebut juga sebagai tabel minor, karena lebih kecil dan

mencerminkan dimensi bisnis.

4. Jenis Skema Bintang

Skema Bintang Sederhana

Dalam skema ini, setiap tabel harus memiliki primary key yang

unik yang terdiri dari satu kolom atau lebih. Primary key dari tabel

fakta terdiri dari satu atau lebih foreign key. Foreign key adalah kolom

pada satu tabel yang nilainya didefinisikan oleh primary key pada tabel

yang lain.

Gambar 2.8 menggambarkan hubungan antara tabel fakta dan

tabel dimensi. Tabel fakta memiliki tiga foreign key, dimana masing-

masing foreign key itu merupakan primary key pada tabel dimensi.

Gambar 2.8 Skema Bintang Sederhana

41

Skema Bintang dengan banyak Tabel Fakta

Skema bintang dapat memiliki lebih dari satu tabel fakta, karena

adanya fakta yang tidak saling berhubungan. Misalnya disamping

penjualan terdapat tabel fakta forecasting dan tabel fakta result. Tetapi

walaupun terdapat banyak tabel fakta, tabel dimensinya tetap digunakan

secara bersama-sama.

Gambar 2.9 menunjukkan adanya dua tabel fakta dan tiga tabel

dimensi yang memperlihatkan hubungan many to one antara foreign key

pada kedua tabel fakta tersebut dengan primary key pada masing

masing tabel dimensi.

Gambar 2.9 Skema Bintang dengan beberapa Tabel Fakta

Skema Bintang dengan Tabel Dimensi Tambahan

Tabel dimensi mungkin juga mengandung foreign key yang

mereferensikan primary key di tabel dimensi lain. Tabel dimensi yang

direferensikan ini dinamakan outboard atau secondary dimension table.

42

Gambar 2.10 Skema Bintang dengan Tabel Dimensi Tambahan

Skema Snowflake

Menurut Thomas Connoly, “snowflake schema is a variant of

the star schema where dimension table do not contain denormalized

data” (2002, p1080), yang berarti skema snowflake merupakan bentuk

lain dari skema bintang dimana tabel dimensi tidak mengandung data

yang telah dinormalisasi. Suatu tabel dimensi dapat memiliki tabel

dimensi lainnya.

Ciri-ciri snowflake adalah:

1. Tabel dimensi dinormalisasi dengan dekomposisi pada level

attribute.

2. Setiap dimensi mempunyai satu key untuk setiap level pada hirarki

dimensi.

3. Kunci level terendah menghubungkan tabel dimensi dengan tabel

fakta dan tabel atribut berlevel rendah.

43

Keuntungan dari skema snowflake adalah :

• Kecepatan memindahkan data dari OLTP kedalam metadata

• Sebagai kebutuhan dari alat pengambil keputusan tingkat tinggi

dimana dengan tipe yang seperti ini seluruh struktur dapat

digunakan sepenuhnya

• Banyak yang beranggapan lebih nyaman merancang dalam bentuk

normal ketiga.

Kerugiannya adalah mempunyai masalah yang besar dalam hal kinerja

(performance), hal ini disebabkan semakin banyaknya join antar tabel-

tabel yang dilakukan dalam skema snowflake ini, maka semakin lambat

juga kinerja yang dilakukan.

Gambar 2.11 Skema Snowflake

44

2.3.2 Metodologi Perancangan Data Warehouse

Metodologi yang digunakan dalam penulisan skripsi ini antara lain :

1. Requirement Collection and Analysis, menggunakan teknik Fact Finding.

Teknik fact finding merupakan teknik yang digunakan untuk

mengumpulkan fakta atau informasi yang dapat dilakukan dengan cara:

• Examining documentation, teknik ini digunakan untuk mencari

dokumentasi yang dapat digunakan untuk menyediakan informasi

yang berhubungan dengan permasalahan, misalnya dokumentasi

mengenai sistem yang sedang berjalan, contoh laporan-laporan

yang ada di perusahaan tersebut baik yang masih manual ataupun

yang sudah terkomputerisasi.

• Interview (wawancara), teknik ini dilakukan dengan memberikan

beberapa pertanyaan sehubungan dengan topik penelitian,

misalnya menanyakan kebutuhan apa yang masih belum ada dan

dibutuhkan oleh eksekutif perusahaan.

• Questionare, teknik ini dilakukan dengan memberikan angket

yang berisi pertanyaan-pertanyaan yang berhubungan dengan

topik kepada sejumlah orang.

45

• Observasi, teknik ini dilakukan dengan cara meneliti langsung ke

perusahaan yang berkaitan dengan pembelajaran sistem.

Pembelajaran sistem dapat dilakukan dengan cara berpartisipasi

langsung atau melihat aktivitas dari sistem. Tujuan dari observasi

yaitu melihat kompleksitas data.

• Research, teknik ini digunakan untuk research aplikasi dan juga

masalah. Dapat dilakukan dengan mencari informasi dari buku-

buku referensi, internet, dan sebagainya.

2. Perancangan Logical menggunakan Nine-Step Methodology

(Kimball,2002), yang terdiri dari :

i. Pemilihan Proses

Pemilihan proses dilakukan untuk mencari subyek permasalahan

dari data mart untuk fungsi bisnis yang berkaitan dengan

penjualan.

ii. Pemilihan Grain

Pemilihan grain ditujukan untuk memperoleh calon tabel fakta.

Dengan menentukan grain, berarti secara langsung juga

menentukan apa yang akan ditampilkan pada tiap record dari

tabel fakta. Ketika grain untuk tabel fakta telah dipilih, maka

dapat diidentifikasikan dimensi untuk tabel fakta tersebut.

46

iii. Identifikasi Dimensi

Dimensi menentukan apa saja yang menjadi pertanyaan yang

diminta yang berhubungan dengan fakta di tabel fakta. Dimensi

yang dibentuk dengan baik dapat membuat data mart mudah

dimengerti dan mudah digunakan.

iv. Pemilihan Fakta

Pemilihan fakta yang dimaksudkan di sini adalah memilih

measure. Measure merupakan suatu nilai yang ingin dihitung atau

diukur dan tipe datanya harus berupa angka (numeric / currency).

v. Penyimpanan Pre-calculation di Tabel Fakta

Pre-calculation berisikan formula untuk menentukan perhitungan-

perhitungan. Biasanya perhitungan yang dilakukan berhubungan

dengan laba dan rugi.

vi. Penentuan Tabel Dimensi

Dimensi merupakan sudut pandang user terhadap data dan

tergantung kebutuhan masing-masing user. Setelah dimensi

terbentuk, deskripsi mengenai dimensi tersebut juga dibuat untuk

menjelaskan deskripsi dari dimensi-dimensi yang ada. Perlu

diperkirakan juga dimensi apa saja yang mungkin dapat berubah

untuk jangka waktu kedepannya.

47

vii. Pemilihan Durasi Database

Pemilihan durasi database ini ditujukan untuk mengetahui mulai

kapan tabel fakta ini digunakan. Biasanya perusahaan meminta

dari tahun yang sedang berjalan sampai 2 tahun sebelumnya. Tapi

ada pula yang meminta sampai 5-10 tahun ke belakang, seperti

perusahaan asuransi.

viii. Menelusuri Slowly Changing Dimension

Client lama dan branch lama masih menggunakan transaksi lama,

jadi data warehouse perlu meng-generate dimensi yang penting

ini agar dapat digunakan oleh berbagai macam client dan branch

untuk periode waktu tertentu.

Ada 3 bentuk dasar perubahan dimensi, antara lain :

1. Adanya perubahan dimensi menyebabkan atribut di-

overwrite.

2. Ada perubahan dimensi menyebabkan terbentuknya record

baru.

3. Ada perubahan dimensi menyebabkan terbentuknya atribut

alternatif, sehingga baik atribut lama maupun baru dapat

diakses bersama pada dimensi yang sama.

48

ix. Penentuan Prioritas dan Cara Query

Langkah ini berhubungan dengan perancangan fisik. Yang perlu

diperhatikan adalah pengurutan table fakta pada disk dan

penyimpanan ringkasan / agregat, administrasi, backup, performa

pengindeksan, dan keamanan.

2.4 Teori Penjualan

Menurut Kamus Besar Bahasa Indonesia, penjualan berarti proses, pembuatan,

cara menjual, serta tempat menjual. Proses penjualan merupakan rangkaian kegiatan

operasi yang melayani pelanggan, membantu pelanggan memilih produk dan jasa yang

mereka butuhkan, mengirim produk dan jasa yang diminta, dan menagih pembayaran

untuk produk dan jasa tersebut.

Berdasarkan hukum permintaan yang isinya “pengurangan harga akan

mempengaruhi tingkat permintaan terhadap produk”, jika harga semakin murah, maka

permintaan akan semakin tinggi, dan juga sebaliknya. Proses penjualan dapat

ditingkatkan dengan memberikan promosi berupa diskon, mengiklankan produk agar

konsumen menjadi lebih familiar, dan sebagainya.

49

Penjualan menurut cara pembayarannya dapat dibedakan menjadi penjualan

tunai dan penjualan kredit (angsuran). Pada penjualan tunai, konsumen harus langsung

membayar untuk memperoleh barang yang dibelinya. Sedangkan penjualan kredit,

konsumen dapat melakukan pembayaran secara bertahap sesuai dengan ketentuan

penjualan yang ada untuk mendapatkan barang yang dibelinya.

Seefisien apapun proses organisasi yang ada, jika proses penjualan tidak

berfungsi dengan baik, maka tidak mungkin organisasi tersebut dapat meraih

penghasilan yang baik.