Thursday 13 June 2013

Data Warehouse dan Data Mining

Apakah yang ada di benak jika kita berbicara tentang data mining? Hmm. Yang pasti kata data kita semua sudah tahu. Lalu ‘mining’, apakah tambang? Jadi data mining adalah data tentang pertambangan ataukah menambang data? Tentu saja bukan itu. Maksudnya data mining adalah suatu teknik untuk mendapatkan informasi yang diperoleh dari data. Jumlah data pada data mining bisa mencapai ribuan atau dalam ukuran memori bisa satuan GB bahkan TB. Kebayang kan gedenya kayak apa?
Data warehouse
Sebelum berbicara lebih banyak apa itu data mining alangkah baiknya jika kita mengenal lebih dahulu data warehouse atau yang lebih kita kenal sebagai gudang data. Data warehouse merupakan teknik penyimpanan data. Data warehouse berbeda dengan database walaupun begitu, keduanya memiliki hubungan yang erat. Mari kita lihat dahulu perbedaan database dengan data warehouse.
Database biasanya merupakan data harian atau rentang waktu yang lebih kecil dari itu, dan sifat datanya adalah real time. Sedangkan data warehouse merupakan gabungan data dari beberapa database, maka data yang ada pada datawarehouse merupakan data historis. Sebagai contoh. Bank X memiliki pusat di kota Y memiliki cabang di kota A, B,C masing-masing kota memiliki database. Nah di kota Y data yang ada pada database lalu dikumpulkan di kota Y. Gabungan data dari beberapa database itu kemudian dimasukkan ke dalam gudang data yang dalam istilah kerennya data warehouse. Data warehouse sifatnya bukan realtime, melainkan data historis.
Software yang bisa digunakan untuk data warehouse adalah pentaho. Kita dapat belajar pentaho secara gratis dengan memanfaatkan pentaho versi community. Nah pada data warehouse dikenal proses ETL yakni extract, transform, dan load. Setelah ketiga proses yang cukup panjang itu maka diperoleh ringkasan data. Gunanya nanti untuk melihat bentuk yang lebih sederhana dari akumulasi suatu data dalam beberapa kelompok. Misalnya dikelompokkan berdasarkan tahun, bulan, kota/lokasi, jenis transaksi, bidang.  Bentuk ini nantinya yang kita kenal dengan sebutan data multidimensional. Nah untuk analisis lebih jauh, daa multidimensional ini di filter sesuai dimensi yang diinginkan. Dimensi adalah sebutan bagi variabel dalam datawarehouse dan data mining. Misalnya dalam datawarehouse ini terdapat dimensi no proposal, kode PT, status, bidang tahun, ingin dilihat jumlah penelitian dari semua bidang pada tiap-tiap tahun maka dilakukan filter terhadap kode PT, no proposal, program, status, dan hasilnya adalah sebagai berikut:

No comments:

Post a Comment