Apakah yang ada di benak jika kita berbicara tentang data mining?
Hmm. Yang pasti kata data kita semua sudah tahu. Lalu ‘mining’, apakah
tambang? Jadi data mining adalah data tentang pertambangan ataukah
menambang data? Tentu saja bukan itu. Maksudnya data mining adalah suatu
teknik untuk mendapatkan informasi yang diperoleh dari data. Jumlah
data pada data mining bisa mencapai ribuan atau dalam ukuran memori bisa
satuan GB bahkan TB. Kebayang kan gedenya kayak apa?
Data warehouse
Sebelum berbicara lebih banyak apa itu data mining alangkah baiknya
jika kita mengenal lebih dahulu data warehouse atau yang lebih kita
kenal sebagai gudang data. Data warehouse merupakan teknik penyimpanan
data. Data warehouse berbeda dengan database walaupun begitu, keduanya
memiliki hubungan yang erat. Mari kita lihat dahulu perbedaan database
dengan data warehouse.
Database biasanya merupakan data harian atau rentang waktu yang lebih
kecil dari itu, dan sifat datanya adalah real time. Sedangkan data
warehouse merupakan gabungan data dari beberapa database, maka data yang
ada pada datawarehouse merupakan data historis. Sebagai contoh. Bank X
memiliki pusat di kota Y memiliki cabang di kota A, B,C masing-masing
kota memiliki database. Nah di kota Y data yang ada pada database lalu
dikumpulkan di kota Y. Gabungan data dari beberapa database itu kemudian
dimasukkan ke dalam gudang data yang dalam istilah kerennya data
warehouse. Data warehouse sifatnya bukan realtime, melainkan data
historis.
Software yang bisa digunakan untuk data warehouse adalah pentaho.
Kita dapat belajar pentaho secara gratis dengan memanfaatkan pentaho
versi community.
Nah pada data warehouse dikenal proses ETL yakni extract, transform,
dan load. Setelah ketiga proses yang cukup panjang itu maka diperoleh
ringkasan data. Gunanya nanti untuk melihat bentuk yang lebih sederhana
dari akumulasi suatu data dalam beberapa kelompok. Misalnya
dikelompokkan berdasarkan tahun, bulan, kota/lokasi, jenis transaksi,
bidang. Bentuk ini nantinya yang kita kenal dengan sebutan data
multidimensional. Nah untuk analisis lebih jauh, daa multidimensional
ini di filter sesuai dimensi yang diinginkan. Dimensi adalah sebutan
bagi variabel dalam datawarehouse dan data mining. Misalnya dalam
datawarehouse ini terdapat dimensi no proposal, kode PT, status, bidang
tahun, ingin dilihat jumlah penelitian dari semua bidang pada tiap-tiap
tahun maka dilakukan filter terhadap kode PT, no proposal, program,
status, dan hasilnya adalah sebagai berikut:
No comments:
Post a Comment