Gambaran umum
-
Data mining lahir karena ledakan data di database/data warehouse—bukan karena kekurangan data seperti era awal statistics.
-
Sinonim dari data Mining adalah Knowledge Discovery in Databases (KDD)—tujuannya menemukan informasi bernilai dari data perusahaan yang besar dan kompleks.
Perbedaan inti
-
Statistics dan banyak kasus machine learning: sejak awal sudah ada hipotesis/tujuan tunggal yang jelas (mis. memprediksi harga rumah).
-
Data mining dimulai dari data yang kaya variabel: kita menyusun beberapa hipotesis awal, lalu mengeksplorasi untuk menggali pola. Fokus utamanya adalah informasi/insight, bukan sekadar mengejar satu model paling akurat. Karena itu, banyak data → banyak hipotesis → banyak pengujian (Model 1, Model 2, Model 3, dst.). Dari tiap putaran kita menarik insight (1, 2, 3); bila hasilnya belum memadai, proses diulang: revisi hipotesis, bangun model lagi, uji lagi.
Proses kerja (iteratif dan eksploratif)
Business/domain understanding: memahami konteks masalah industri/organisasi.
-
Hipotesis awal: menyusun beberapa dugaan hubungan antarkomponen data (mana yang cocok untuk supervised /unsupervised atau interdependence methods).
Pemodelan & pengujian: bangun beberapa model (Model 1, 2, 3), uji, bandingkan.
- Interpretasi: tarik informasi yang bermakna; revisi hipotesis bila perlu.
- Ulangi (iteratif) sampai terkumpul insight yang memadai.
Unsupervised learning: pembelajaran tanpa label; mencari struktur/pola. Contoh: clustering segmen pelanggan.
Interdependence methods: teknik yang memetakan keterkaitan bersama antarvariabel tanpa target khusus. Contoh: association rules (Apriori) untuk market basket.
Apa yang dicari
-
Non-trivial (hiden pattern) dan latent patterns: temuan tidak boleh hal yang sudah “jelas di akal sehat”; harus pola yang sebelumnya tidak tampak tanpa alat statistics/machine learning.
-
Interpretability > accuracy (dalam konteks data mining): model dengan accuracy 75% namun kaya insight dan dapat ditindaklanjuti lebih bernilai dibanding black box 98% tanpa insight. Karena itu, beberapa buku data mining kurang menekankan neural networks yang sulit diinterpretasi.
Jenis data
-
Umumnya observational data (apa adanya tanpa intervensi data) yang tersimpan di sistem (log transaksi, tabel operasional), bukan data hasil survey/questionnaire yang dirancang khusus.
Ringkasnya
-
Data mining = proses KDD yang iteratif (pengulangan), eksploratif, berfokus pada insight dengan pijakan business understanding /domain knowledge.
-
Bedanya dari statistics/machine learning klasik: tujuan tidak selalu tunggal sejak awal, dan nilai utama ada pada interpretasi pola yang non-trivial, bukan sekadar accuracy model.
Tidak ada komentar:
Posting Komentar