Minggu, 19 Oktober 2025

Data Mining ( Dr. Taufik Sutanto, MscTech )

 

Gambaran umum

  • Data mining lahir karena ledakan data di database/data warehouse—bukan karena kekurangan data seperti era awal statistics.

  • Sinonim dari data Mining adalah Knowledge Discovery in Databases (KDD)—tujuannya menemukan informasi bernilai dari data perusahaan yang besar dan kompleks.


Perbedaan inti

  • Statistics dan banyak kasus machine learning: sejak awal sudah ada hipotesis/tujuan tunggal yang jelas (mis. memprediksi harga rumah).

  • Data mining dimulai dari data yang kaya variabel: kita menyusun beberapa hipotesis awal, lalu mengeksplorasi untuk menggali pola. Fokus utamanya adalah informasi/insight, bukan sekadar mengejar satu model paling akurat. Karena itu, banyak data → banyak hipotesis → banyak pengujian (Model 1, Model 2, Model 3, dst.). Dari tiap putaran kita menarik insight (1, 2, 3); bila hasilnya belum memadai, proses diulang: revisi hipotesis, bangun model lagi, uji lagi.


Proses kerja (iteratif dan eksploratif)

  • Business/domain understanding: memahami konteks masalah industri/organisasi.

  • Hipotesis awal: menyusun beberapa dugaan hubungan antarkomponen data (mana yang cocok untuk supervised /unsupervised atau interdependence methods). 

  • Pemodelan & pengujian: bangun beberapa model (Model 1, 2, 3), uji, bandingkan.

  • Interpretasi: tarik informasi yang bermakna; revisi hipotesis bila perlu.
  • Ulangi (iteratif) sampai terkumpul insight yang memadai.
Supervised learning: pembelajaran dengan label target. Contoh: memprediksi harga (regresi) atau churn (klasifikasi).
Unsupervised learning: pembelajaran tanpa label; mencari struktur/pola. Contohclustering segmen pelanggan.
Interdependence methods: teknik yang memetakan keterkaitan bersama antarvariabel tanpa target khusus. Contohassociation rules (Apriori) untuk market basket.

Apa yang dicari

  • Non-trivial (hiden pattern) dan latent patterns: temuan tidak boleh hal yang sudah “jelas di akal sehat”; harus pola yang sebelumnya tidak tampak tanpa alat statistics/machine learning.

  • Interpretability > accuracy (dalam konteks data mining): model dengan accuracy 75% namun kaya insight dan dapat ditindaklanjuti lebih bernilai dibanding black box 98% tanpa insight. Karena itu, beberapa buku data mining kurang menekankan neural networks yang sulit diinterpretasi.

Model: representasi matematis/statistik untuk memetakan input→output atau struktur data. Contoh: decision tree, logistic regression.
Accuracy (akurasi): proporsi prediksi benar (umum pada klasifikasi); bukan satu-satunya ukuran nilai dalam data mining.
Interpretability (keterjelasan model): seberapa mudah alasan prediksi/pola dipahami manusia. Contoh: decision tree lebih mudah dijelaskan daripada deep neural network.

Jenis data

  • Umumnya observational data (apa adanya tanpa intervensi data) yang tersimpan di sistem (log transaksi, tabel operasional), bukan data hasil survey/questionnaire yang dirancang khusus.

Ringkasnya

  • Data mining = proses KDD yang iteratif (pengulangan), eksploratif, berfokus pada insight dengan pijakan business understanding /domain knowledge.

  • Bedanya dari statistics/machine learning klasik: tujuan tidak selalu tunggal sejak awal, dan nilai utama ada pada interpretasi pola yang non-trivial, bukan sekadar accuracy model.

Tidak ada komentar:

Posting Komentar