Monday 22 July 2013

Pendekatan Distribusi

Download pendekatan distribusi (pdf)

1. Hypergeometrik ke Binomial
2. Binomial ke Poisson
3. Poisson ke normal
4. Binomial ke normal
5. Contoh soal

Download materi Statistika Non Parametrik (pdf)

Download materi Statistika Non Parametrik (pdf)

isi:
A. Uji mean satu populasi
   1. Uji binomial
B. Uji mean dua sampel independen/bebas
   1. Mann-Whitney test
   2. Kolmogorov Smirnov test
C. Uji mean untuk dua sampel dependen/berpasangan
   1. Wilcoxon Signed-Rank test
   2. McNemar test
D. Uji mean K sampel independen/bebas
   1. Kruskal Wallis test
   2. Median test
E. Uji mean untuk K sampel dependen/berpasangan
   1. Friedman test
   2. Q Cochran test

Wednesday 19 June 2013

Program R dan Statistika

Selama ini  banyak orang mengaitkan statistika dengan software terkenal yakni SPSS. Padahal, banyak sekali di luar sana software yang bermunculan untuk penghitungan analisis statistika. Disini saya akan memperkenalkan apa itu R.

R merupakan program Statistika dapat di download secara bebas di CRAN-archive (The Comprehensive R Archive Network) melalui  http://CRAN.R-project.org. Server utama CRAN berlokasi di Universitas Teknologi Vienna, Austria dan di mirror world-wide lebih kurang 90 reporsitory di seluruh dunia termasuk Indonesia

R dapat dioperasikan di bawah sistem operasi Windows, Linux dan Macintosh. R juga menyediakan fasilitas dimana user dapat melakukan analisa statistik, membangun prosedur-prosedur baru dan membuat paket agar bisa digunakan oleh semua orang. Versi paling awal R-1.0.0 dibuat tahun 1992 di Universitas Auckland, New Zeland oleh Ross Ihaka dan Robert Gentleman.

Saat ini source code kernel R dikembangkan oleh R Core Team, yang beranggotakan 22 orang statistisi dari berbagai penjuru dunia (http://www.r-project.org/contributors.html) dan oleh dukungan dari masyarakat statistisi dunia yang memberikan kontribusi berupa kode, melaporkan bugs dan membuat dokumentasi untuk R. Versi R yang terbaru (16 Mei 2013) untuk Windows adalah R 3.0.1



Kelebihan dan Kelemahan R

Selain R yang bersifat GPL sehingga kita tidak diharuskan membayar lisensi untuk penggunaannya, di bawah ini  berikut beberapa kelebihan dan kekurangan yang utama dari program R:

Kelebihan Utama Program R

  • Free : User dapat meng-copy dan menginstall program ini secara bebas tanpa perlu membayar lisensinya.
  • Multiplatform : R bersifat multiplatform operating systems, lebih umum dibanding program statistika yang pernah ada dengan demikian jika user ingin berpindah sistem operasi maka penyesuaian akan lebih mudah dilakukan. (contoh Windows ke Linux atau Linux ke Windows ).
  • Programmable : User dapat memprogramkan metode baru atau mengembangkan modifikasi dari fungsi-fungsi analisa statistika yang sudah ada dalam R. Dan juga dikarenakan berbasis analisa statistika pemrograman dalam membuat paket ini jauh lebih mudah karena sudah ditunjang beberapa program dasar statistik yang telah ada.
  • Bahasa berbasis analisa matriks. Bahasa R sangat baik untuk melakukan programming berbasis matriks. Sehingga sangat cocok dan powerfull untuk pemrograman dibidang multivariat.
  • Mempunyai kemampuan menampilkan grafis yang sangat baik dan lengkap sehingga sangat memudahkan bagi kita untuk menampilkan bentuk-bentuk grafik sesuai yang diinginkan dan mudah dibaca.

Kelemahan Utama Progam R:

  • R dibangun dalam versi CLI (Command Line Interface) yang banyak menggunakan syntax-syntax dalam pemrograman sehingga agak kurang user friendly  bagi para pengguna yang biasa menggunakan software dengan Point Click & GUI. Namun saat ini hal itu sudah mulai dapat teratasi dengan versi R-GUI yakni R-Commander walaupun masih belum memiliki tools yang lengkap namun sudah cukup powerfull untuk pengguna pemula.
  •  Missing Statistical Function : Walapun analisa statistika dalam R sudah cukup lengkap, belum semua metode statistika telah diimplementasikan didalam R

Paket dan Library

Fungsionalitas dan kemampuan dari R sebagian besar diperoleh dari Add on packages/library. Suatu library adalah kumpulan perintah atau fungsi yang dapat digunakan untuk melakukan analisa statistika. Sebagai contoh library ts berisikan berbagai fungsi yang dapat digunakan dalam analisa runtun waktu. Instalasi standar dari R memuat berbagai library-library dasar seperti stats, graphics, utils, datasets dan base. Diluar library-library dasar ini terdapat sejumlah besar library hasil kontribusi dari pengguna R yang harus di install satu-satu jika diperlukan. Daftar semua library yang tersedia dapat diakses dari link download CRAN pada alamat http://CRAN.R-project.org. Sebelum digunakan suatu library yang telah diinstall dalam R harus diloading kedalam memori.
 

Thursday 13 June 2013

Metode dalam Data Mining

Artikel sebelumnya telah membahas perkenalan data warehouse. Baca di sini. Selanjutnya dalam artikel kali ini akan di bahas metode apa saja yang ada dalam data mining. Terdapat beberapa metode dalam data mining, antara lain metode untuk clustering, classification, dan association.

Clustering atau pengelompokan merupakan teknik untuk mengelompokkan data ke dalam suatu kelompok tertentu. Metode clustering dalam data mining antara lain DBScan, Simple K-mean, Hierarchical CLustering. Dua terakhir pada metode clustering dalam data mining ini juga dipelajari pada mata kuliah Statistika Multivariat Terapan. Sebagai contoh untuk clustering: Terdapat 5 negara: Indonesia, Singapura, India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan dua klaster berdasarkan letak geografisnya: Eropa (Inggris, Jerman) dan Asia (Indonesia, Singapura, India). Namun juga dapat dijadikan dua klaster yang berbeda berdasarkan tingkat sector industri dan jasa: Negara maju (Singapura, Inggris, Jerman) dan Negara berkembang (Indonesia, India).

Classification merupakan teknik pengklasifikasian data. Bedanya data dengan clustering pada clustering variabel dependen tidak ada sedangkan pada classification diharuskan ada variabel dependen. Contohnya pembagian criteria calon debitur yakni debitur baik dan buruk. Metode classification dalam data mining banyak sekali, misalnya ID3, C4.5, K Nearest Neighbors.

Associaton merupakan teknik dalam data mining yang mempelajari hubungan data. Associatin Rule  ini biasa digunakan pada supermarket untuk menganalisis perilaku pelanggan dalam berbelanja. Sebagai contoh jika pelanggan membeli barang A, B, C maka pelanggan akan membeli barang X. Atau dalam notasi biasa ditulis: A, B, C -> X .
Biasanya dalam software data mining juga ada beberapa metode baik clustering atau klasifikasi yang berasal dari cabang soft computing, misalnya neural network. Metode yang berasal dari soft computing yang biasanya juga disinggung dalam data mining antara lain perceptron , backpropagation (multilayer perceptron), self organizing map (SOM).

Data Warehouse dan Data Mining

Apakah yang ada di benak jika kita berbicara tentang data mining? Hmm. Yang pasti kata data kita semua sudah tahu. Lalu ‘mining’, apakah tambang? Jadi data mining adalah data tentang pertambangan ataukah menambang data? Tentu saja bukan itu. Maksudnya data mining adalah suatu teknik untuk mendapatkan informasi yang diperoleh dari data. Jumlah data pada data mining bisa mencapai ribuan atau dalam ukuran memori bisa satuan GB bahkan TB. Kebayang kan gedenya kayak apa?
Data warehouse
Sebelum berbicara lebih banyak apa itu data mining alangkah baiknya jika kita mengenal lebih dahulu data warehouse atau yang lebih kita kenal sebagai gudang data. Data warehouse merupakan teknik penyimpanan data. Data warehouse berbeda dengan database walaupun begitu, keduanya memiliki hubungan yang erat. Mari kita lihat dahulu perbedaan database dengan data warehouse.
Database biasanya merupakan data harian atau rentang waktu yang lebih kecil dari itu, dan sifat datanya adalah real time. Sedangkan data warehouse merupakan gabungan data dari beberapa database, maka data yang ada pada datawarehouse merupakan data historis. Sebagai contoh. Bank X memiliki pusat di kota Y memiliki cabang di kota A, B,C masing-masing kota memiliki database. Nah di kota Y data yang ada pada database lalu dikumpulkan di kota Y. Gabungan data dari beberapa database itu kemudian dimasukkan ke dalam gudang data yang dalam istilah kerennya data warehouse. Data warehouse sifatnya bukan realtime, melainkan data historis.
Software yang bisa digunakan untuk data warehouse adalah pentaho. Kita dapat belajar pentaho secara gratis dengan memanfaatkan pentaho versi community. Nah pada data warehouse dikenal proses ETL yakni extract, transform, dan load. Setelah ketiga proses yang cukup panjang itu maka diperoleh ringkasan data. Gunanya nanti untuk melihat bentuk yang lebih sederhana dari akumulasi suatu data dalam beberapa kelompok. Misalnya dikelompokkan berdasarkan tahun, bulan, kota/lokasi, jenis transaksi, bidang.  Bentuk ini nantinya yang kita kenal dengan sebutan data multidimensional. Nah untuk analisis lebih jauh, daa multidimensional ini di filter sesuai dimensi yang diinginkan. Dimensi adalah sebutan bagi variabel dalam datawarehouse dan data mining. Misalnya dalam datawarehouse ini terdapat dimensi no proposal, kode PT, status, bidang tahun, ingin dilihat jumlah penelitian dari semua bidang pada tiap-tiap tahun maka dilakukan filter terhadap kode PT, no proposal, program, status, dan hasilnya adalah sebagai berikut: