PERTEMUAN 3 (Pre-Processing)
Pre-processing (pra-pemrosesan) adalah tahapan kritis dalam analisis data yang bertujuan untuk membersihkan, merapihkan, dan mempersiapkan data mentah agar sesuai untuk analisis lebih lanjut. Ini melibatkan sejumlah langkah yang diperlukan untuk mengatasi masalah umum yang sering ditemui dalam dataset, seperti kekurangan data, outlier, format yang tidak konsisten, atau kompleksitas yang berlebihan. Berikut adalah penjelasan lebih rinci tentang langkah-langkah yang terlibat dalam pre-processing:
1. Data Collection (Pengumpulan Data)
Tahap pertama dalam pre-processing adalah mengumpulkan data dari berbagai sumber, database, file CSV, API, web scraping, dan lainnya.
2. Data Cleaning (Pembersihan Data)
Data mentah sering kali tidak sempurna dan dapat berisi kekosongan, nilai yang tidak valid, atau outlier. Pada tahap ini, langkah-langkah seperti penanganan nilai yang hilang, deteksi dan penanganan outlier, serta konsistensi data dilakukan untuk memastikan keakuratan dan konsistensi data. Berikut contoh nya:
3. Data Transformation (Transformasi Data)
Setelah data dibersihkan, seringkali perlu untuk mengubah struktur atau format data agar lebih sesuai untuk analisis yang akan dilakukan. Ini bisa termasuk normalisasi data (menyesuaikan skala data), encoding variabel kategorikal menjadi format yang dapat diolah oleh algoritma, atau reduksi dimensi untuk mengurangi kompleksitas data.
4. Data Reduction (Pengurangan Data)
Proses mengurangi volume data sambil mencoba mempertahankan informasi yang relevan. Ini bisa melibatkan teknik seperti agregasi data, seleksi fitur, atau analisis komponen utama. Berikut contoh proses data reduction:
Setelah melewati tahapan pre-processing, data akan siap untuk analisis lebih lanjut menggunakan teknik seperti data mining, machine learning, atau analisis statistik. Pre-processing merupakan langkah kritis yang memastikan data yang digunakan untuk analisis adalah data yang berkualitas dan siap untuk memberikan wawasan yang berharga.
Komentar
Posting Komentar