PERTEMUAN 1 Data Mining (Proses atau tahapan data mining)

Data Mining

 

Data mining adalah proses pengumpulan dan pengolahan data yang bertujuan untuk mengekstrak informasi penting pada data. Proses pengumpulan dan ekstraksi informasi tersebut dapat dilakukan menggunakan perangkat lunak dengan bantuan perhitungan statistika, matematika, ataupun teknologi Artificial Intelligence (AI). Data mining sering disebut juga Knowledge Discovery in Database (KDD).

A. Proses atau tahapan data mining

1. Pemahaman Bisnis (Business Understanding): Identifikasi tujuan bisnis yang ingin dicapai dengan menggunakan data mining. Ini melibatkan pemahaman mendalam tentang masalah yang ingin dipecahkan atau pertanyaan yang ingin dijawab.
2. Pemahaman Data (Data Understanding): Mengumpulkan data yang relevan untuk mencapai tujuan bisnis. Ini melibatkan eksplorasi data, pemahaman struktur data, dan identifikasi masalah kualitas data.
3. Pemersatu (Data Preparation): Persiapan data adalah tahap di mana data disiapkan untuk analisis lebih lanjut. Ini mencakup pembersihan data, penggabungan data dari berbagai sumber, pemilihan atribut yang relevan, dan transformasi data jika diperlukan. 
4. Modeling: Tahap ini melibatkan pemilihan model atau algoritma data mining yang sesuai dengan tujuan analisis. Model ini kemudian diterapkan pada data yang telah dipersiapkan sebelumnya.
5. Evaluasi (Evaluation): Setelah model dibangun, evaluasi dilakukan untuk memeriksa seberapa baik model tersebut bekerja dalam mencapai tujuan bisnis yang ditetapkan. Ini melibatkan penggunaan metrik evaluasi yang sesuai untuk mengukur kinerja model.
6. Pengoptimalan (Optimization): Jika perlu, model dan proses data mining diperbaiki atau dioptimalkan untuk meningkatkan kinerja.
7. Pengimplementasian (Deployment): Model yang telah diverifikasi dan dioptimalkan diimplementasikan dalam lingkungan produksi untuk digunakan dalam pengambilan keputusan atau operasi bisnis.
8. Pemantauan (Monitoring): Setelah implementasi, model dan proses data mining harus dipantau secara berkala untuk memastikan bahwa tetap bekerja secara efektif dalam menghadapi perubahan data atau kebutuhan bisnis.

B. CRISP-DM (Cross-Industry Standard Process for Data Mining) 

CRISP-DM (Cross-Industry Standard Process for Data Mining) merupakan kerangka kerja yang umum digunakan dalam industri untuk menggambarkan proses atau tahapan dalam proyek data mining. Kerangka kerja ini terdiri dari enam tahap utama yang membentuk siklus iteratif:

1. Understanding the Business Understanding (Pemahaman Bisnis): Tahap awal ini melibatkan  pemahaman menyeluruh tentang tujuan bisnis dari proyek data mining. Ini termasuk identifikasi masalah bisnis yang ingin diselesaikan, tujuan yang ingin dicapai, dan kebutuhan informasi yang ingin dipenuhi.
2. Understanding the Data (Pemahaman Data): Pada tahap ini, data yang relevan untuk proyek dianalisis dan dipahami. Ini melibatkan pemahaman terhadap struktur, kualitas, dan karakteristik data yang tersedia.
3. Data Preparation (Persiapan Data): Tahap ini melibatkan persiapan data untuk analisis lebih lanjut. Ini mencakup pembersihan data, integrasi data dari berbagai sumber, pemilihan atribut yang relevan, dan transformasi data jika diperlukan.
4. Modeling (Pemodelan): Pada tahap ini, model data mining yang sesuai dipilih dan dibangun. Berbagai teknik pemodelan dapat digunakan, seperti regresi, klasifikasi, pengelompokan, atau asosiasi, tergantung pada tujuan proyek.
5. Evaluation (Evaluasi): Setelah model dibangun, mereka dievaluasi untuk memeriksa seberapa baik mereka memenuhi tujuan bisnis yang ditetapkan. Evaluasi dilakukan dengan menggunakan metrik yang relevan untuk mengukur kinerja model.
6. Deployment (Implementasi): Tahap terakhir adalah implementasi model data mining yang diverifikasi dalam lingkungan produksi. Ini melibatkan integrasi model ke dalam sistem yang ada atau penggunaannya dalam pengambilan keputusan bisnis.

C. SEMMA (Sample, Explore, Modify, Model, Assesss)

SEMMA (Sample, Explore, Modify, Model, Assesss) Adalah kerangka kerja yang dikembangkan oleh SAS Institute untuk proses analisis data yang mencakup tahapan-tahapan berikut:

1. Sample (Sampel): Tahap pertama melibatkan pemilihan sampel dari data yang tersedia untuk analisis lebih lanjut. Sampel ini mewakili populasi yang lebih besar dan dapat digunakan untuk membuat estimasi atau inferensi tentang populasi tersebut.
2. Explore (Eksplorasi): Setelah sampel dipilih, data dieksplorasi secara mendalam untuk memahami karakteristiknya. Ini termasuk visualisasi data, analisis statistik deskriptif, dan identifikasi pola atau tren yang menarik.
3. Modify (Modifikasi): Tahap modifikasi melibatkan pembersihan data dan transformasi variabel untuk mempersiapkannya untuk pemodelan lebih lanjut. Ini termasuk penanganan missing values, pengkodean variabel kategorikal, dan normalisasi data.
4. Model (Pemodelan): Pada tahap ini, model statistik atau matematika dibangun untuk menggambarkan hubungan antara variabel-variabel dalam data. Berbagai teknik pemodelan bisa digunakan, seperti regresi, klasifikasi, atau pengelompokkan, tergantung pada tujuan analisis.
5. Assess (Penilaian): Tahap terakhir melibatkan evaluasi model yang dibangun untuk memeriksa seberapa baik mereka bekerja dalam memenuhi tujuan analisis. Evaluasi ini dapat melibatkan penggunaan metrik kinerja yang sesuai dan validasi model menggunakan data yang berbeda.

D. CCC (Computational, Cognitive, and Communication)

CCC (Computational, Cognitive, and Communication) Adalah tiga dimensi yang penting dalam memahami dan menerapkan teknik data mining dengan efektif.

1. Computational (Komputasional): Ini merujuk pada aspek teknik dan komputasional dari data mining, seperti pemilihan algoritma yang tepat, pemrosesan data yang efisien, dan penggunaan perangkat lunak dan perangkat keras yang sesuai. Aspek ini mencakup penggunaan teknologi komputer dan sistem informasi untuk menganalisis data dengan cepat dan efisien. 
2. Cognitive (Kognitif): Ini mengacu pada pemahaman yang mendalam tentang bagaimana manusia memahami dan menggunakan informasi. Aspek kognitif dalam data mining mencakup desain antarmuka pengguna yang intuitif, representasi visual data yang efektif, dan interpretasi hasil analisis data yang dapat dimengerti oleh manusia. Memahami bagaimana manusia berinteraksi dengan informasi dapat membantu dalam merancang sistem data mining yang lebih efektif dan dapat diterima pengguna.
3. Communication (Komunikasi): Ini melibatkan kemampuan untuk berkomunikasi hasil analisis data dengan jelas dan efektif kepada pemangku kepentingan yang berbeda. Aspek ini termasuk penyajian visual efektif dari hasil analisis, penulisan laporan yang informatif, dan penyampaian temuan dengan bahasa yang dapat dimengerti oleh audiens yang tidak terbiasa dengan teknis data mining. Komunikasi yang baik adalah kunci untuk memastikan bahwa hasil analisis data dipahami dan diterapkan dengan baik oleh orang-orang yang membutuhkannya.

 


Komentar

Postingan Populer