PERTEMUAN 5 QUIZ DATA MINING

Quiz Pertemuan 5 Data Mining

  Pendahuluan

Laporan ini menggambarkan hasil analisis data akademik mahasiswa yang meliputi penggabungan, penyaringan, dan analisis statistik untuk menemukan pola dan tren penting. Selain itu, dilakukan evaluasi terhadap berbagai faktor yang berdampak pada kelulusan tepat waktu dan prestasi akademik mahasiswa. Proses analisis ini dilakukan dengan menggunakan data dari API universitas yang diolah menggunakan bahasa pemrograman Python.


1.     
Integrasi Data dan pembersihan Data

A.    Get Data Transkip_Nilai dan Ms_Lulusan

Gambar 1. 1 Get Data Transkip_nilai dan Ms_lulusan

Pada Gambar 1.1 menunjukkan bagaimana kode yang ditampilkan digunakan untuk mengambil data dari sebuah API menggunakan Python. Dalam kode tersebut, library requests digunakan untuk mengirim permintaan HTTP dan pandas untuk memanipulasi data yang diterima. Fungsi fetch_data yang dibuat bertujuan untuk mengambil data dari URL API tertentu dengan mengirimkan permintaan GET yang mencakup header autentikasi. Setelah data transkip_nilai dan ms_lulusan berhasil diambil, akan mengonversi data tersebut menjadi DataFrame pandas. Pada gambar 2 menunjukkan hasil get data transkip_nilai dan ms_lulusan.

Gambar 1. 2 Total Data Transkip_nilai dan ms_lulusan

Pada gambar 1.2 menunjukkan total data yang berhasil didapatkan untuk data transkip_nilai sebanyak 256299 record, sedangkan untuk data ms_lulusan berhasil mengambil data sebanyak 4542 record.

B.    Mencari IPS Setiap Semester Permahasiswa. Ini Bisa Memudahkan Untuk Normalisasi Data

Gambar 1. 3 Mencari IPS Permahasiswa

Pada Gambar 1.3 menunjukkan mencari IPS permahasiswa dengan menghitung Indeks Prestasi Semester (IPS) setiap mahasiswa dari data transkrip nilai. Proses ini dilakukan dengan mengelompokkan data berdasarkan nim dan semester menggunakan groupby pada DataFrame df_transkrip. Selanjutnya, dengan fungsi apply, dilakukan perhitungan IPS dengan mengalikan nilai grade dari setiap mata kuliah (nilai_grade) dengan jumlah SKS (sks_mk), menjumlahkan hasilnya, dan membagi dengan total SKS yang diambil pada semester tersebut. Hasilnya dibulatkan menjadi dua desimal dan disimpan dalam kolom 'IPS' yang ditunjukkan pada gambar 1.4.

Gambar 1. 4 Hasil Mencari IPS Permahasiswa

Menampilkan hasil untuk beberapa baris pertama, yang menunjukkan nilai IPS dari mahasiswa untuk setiap semester yang telah mereka tempuh. Data yang ditampilkan mencakup nim, semester, dan IPS yang telah dihitung, memberikan gambaran tentang prestasi akademik mahasiswa selama periode studi.

C.    Gabungkan IPS Permahasiswa Dengan Dataset Yang Lainya ("ms_lulusan") Berdasarkan NIM.

Gambar 1. 5 Penggabungan Data

Pada Gambar 1.5 proses yang dilakukan selanjutnya adalah menggabungkan data Indeks Prestasi Semester (IPS) yang telah dihitung sebelumnya dengan dataset kelulusan (ms_lulusan) berdasarkan 'nim' mahasiswa. Penggabungan ini dilakukan menggunakan fungsi merge dari pandas, di mana ips_df adalah DataFrame yang berisi data IPS per semester per mahasiswa, dan df_lulusan adalah DataFrame yang berisi data kelulusan mahasiswa. Kedua DataFrame ini digabungkan dengan metode 'left', yang berarti semua entri dari ips_df akan dijaga dan informasi dari df_lulusan akan ditambahkan berdasarkan kolom 'nim'. Hasil penggabungan data dapat dilihat pada gambar 1.6.

Gambar 1. 6 Hasil Penggabungan Data

Menunjukkan DataFrame hasil (merged_df) yang menampilkan kolom-kolom seperti 'nim', 'semester', 'IPS', 'prodi' (program studi), 'predikat' (predikat kelulusan), 'tanggal_lulus', 'tgl_masuk' (tanggal masuk), 'status_masuk', 'jenis_kelamin', 'tahun_lahir', 'status_pegawai', 'Durasi_Studi', dan 'lulus_tepat_waktu'. Data ini memberikan gambaran komprehensif mengenai prestasi akademik mahasiswa selama masa studi mereka serta detail kelulusan seperti program studi, predikat kelulusan, dan apakah mereka lulus tepat waktu. 

D.    Tambahkan Hasil Dari Durasi Studi Masing-masing Mahasiswa

Gambar 1. 7 Menambahkan Hasil Studi Permahasiswa

Pada Gambar 1.7 mengonversi tanggal masuk dan tanggal lulus ke format DateTime untuk memastikan akurasi dalam perhitungan. Selanjutnya, durasi studi dihitung dengan mengurangi tanggal masuk dari tanggal lulus dan hasilnya dibagi dengan 365 untuk mendapatkan durasi dalam tahun, yang kemudian dibulatkan. Kode juga menentukan apakah mahasiswa tersebut lulus tepat waktu, yaitu dalam waktu empat tahun atau kurang, dan menandainya sebagai "tepat waktu" atau "tidak tepat waktu".  Hasil penambahan hasil studi mahasiswa dapat dilihat pada gambar 1.8.

Gambar 1. 8 Hasil Penambahan Studi Pada Masing-masing Mahasiswa

        Hasil penambahan studi pada masing-masing mahasiswa menampilkan informasi seperti 'nim', 'prodi', 'predikat', 'tanggal_lulus', 'tgl_masuk', 'jenis_kelamin', 'tahun_lahir', 'status_pegawai', 'Durasi_Studi', 'lulus_tepat_waktu', 'semester', dan 'IPS'.

E.    Lakukan Pembersihan Data, termasuk mengidentifikasi dan mengatasi nilai yang hilang atau tidak konsisten dalam data.

Gambar 1. 9 Pembersihan Data

   Pada Gambar 1.9 dilakukan identifikasi missing values dalam DataFrame df_lulusan dengan menggunakan metode isnull() yang diikuti oleh sum(). Proses ini memberikan informasi mengenai jumlah nilai yang hilang di setiap kolom. Kemudian, mencari baris-baris yang duplikat dalam DataFrame merged_df menggunakan metode duplicated (). Setelah mendeteksi baris yang duplikat, jumlah total baris duplikat tersebut dihitung dengan sum (). Hasil pembersihan dapat dilihat pada gambar 1.10.

Gambar 1. 10 Hasil Pembersihan Data

   Hasil dari proses pembersihana data ini mengindikasikan bahwa dalam DataFrame df_lulusan, tidak ada missing values maupun dupilcated data di semua kolom, Setiap kolom memiliki jumlah missing values dan duplicated data sebanyak 0, yang menunjukkan bahwa data tersebut sudah lengkap.

F.    Hilangkan Mahasiswa Pindahan

Gambar 1. 11 Seleksi Data

Pada Gambar 1.11 dilakukan proses seleksi dan analisis terhadap subkelompok mahasiswa pindahan dalam DataFrame merged_df. Langkah pertama adalah memilih baris di mana kolom 'status_masuk' memiliki nilai 1, yang menandakan mahasiswa tersebut adalah mahasiswa pindahan. Hasil seleksi data dapat dilihat pada gambar 1.12.

Gambar 1. 12 Hasil Seleksi Data

Jumlah data yang didapatkan adalah sebanyak 60. Ditampilkan lima baris pertama dari DataFrame df_status_msk untuk memberikan gambaran tentang data mahasiswa pindahan. Seteleh proses seleksi data, dilakukan penghapusan baris dari DataFrame merged_df yang berkaitan dengan mahasiswa pindahan yang dijelaskan pada gambar 1.13.

Gambar 1. 13 Menghapus Mahasiswa Pindahan

Dilakukan penghapusan baris dari DataFrame merged_df yang berkaitan dengan mahasiswa transfer, yaitu mereka yang memiliki nilai 1 pada kolom 'status_masuk'. Ini dilakukan untuk fokus analisis pada mahasiswa yang bukan pindahan. Hasil penghapusan mahasiswa dapat dilihat pada gambar 1.14.

Gambar 1. 14 Hasil Penghapusan Mahasiswa Pindahan

Hasil yang ditampilkan pada Gambar 1.14, dapat dilihat bahwa semua baris yang tersisa memiliki nilai 0 pada kolom 'status_masuk', yang menandakan bahwa tidak ada mahasiswa transfer yang tersisa dalam data tersebut.

G. Standardisasi Format Jenis Kelamin Untuk Analisis Lebih Lanjut

Gambar 1. 15 Standardisasi Format Jenis Kelamin

Pada Gambar 1.15 Tahapan Standardisasi ini berfokus pada peningkatan keterbacaan data dengan melakukan standardisasi pada kolom 'jenis_kelamin' dalam DataFrame merged_df. Untuk memudahkan pemahaman dan analisis lebih lanjut, nilai numerik 0 dan 1 di kolom tersebut diganti dengan label teks "laki-laki" dan "perempuan". Proses ini dilakukan menggunakan metode replace pada DataFrame. Hasil Standardisasi dapat dilihat pada gambar 1.16.

Gambar 1. 16 Hasil Standardisasi

       Hasil yang ditunjukkan pada Gambar 18, dapat diperhatikan bahwa kolom 'jenis_kelamin' kini menampilkan teks "perempuan" dan "laki-laki" yang sesuai, memastikan bahwa data telah diperbarui dengan benar.

2.1 Analisis

A.    Analisis Apakah Ada Hubungan  antara IPS Dengan Lulusan Tepat Waktu

Gambar 2. 1 Analisis Hubungan Antara IPS Dengan Lulusan Tepat Waktu

Pada Gambar 2.1 menganalisis hubungan antara nilai rata-rata mata kuliah atau Indeks Prestasi Semester (IPS) dengan kelulusan tepat waktu. Pertama, menghitung nilai rata-rata atau IPS setiap mahasiswa per semester. Kemudian, kode tersebut menghitung durasi studi setiap mahasiswa dan menentukan apakah mahasiswa tersebut lulus tepat waktu atau tidak. Setelah itu, data IPS dan status kelulusan tepat waktu digabungkan menjadi satu dataframe. Dengan dataframe ini, Anda dapat melakukan analisis lebih lanjut untuk melihat apakah ada hubungan antara IPS dan kelulusan tepat waktu. Hasil analisis dapat dilihat pada gambar 2.2.

Gambar 2. 2 Hasil Analisis

Berdasarkan Gambar 2.2 hasil analisis yang ditampilkan, ada hubungan signifikan antara Indeks Prestasi Semester (IPS) dan kelulusan tepat waktu. Rata-rata IPS bagi mereka yang lulus tepat waktu lebih tinggi dibandingkan dengan mereka yang tidak. Nilai p-value yang sangat kecil (7.78388e-93) menunjukkan bahwa perbedaan ini tidak terjadi secara kebetulan. Boxplot juga menunjukkan distribusi nilai IPS yang lebih tinggi untuk kelompok yang lulus tepat waktu. Jadi, dapat disimpulkan bahwa IPS berpengaruh terhadap kelulusan tepat waktu.

B.    Analisis Apakah Ada Korelasi Positif Antara Predikat Kelulusan 'Pujian' Dengan Lulusan Tepat Waktu

Gambar 2. 3 Analisis Korelasi Positif Antara Predikat Dengan Lulusan

Pada Gambar 2.3 melakukan analisis untuk mengetahui apakah ada korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu. Pertama, kode ini membuat kolom baru 'pujian' berdasarkan kondisi di kolom 'predikat'. Kemudian, kode ini membuat visualisasi data untuk menunjukkan distribusi jumlah mahasiswa yang lulus tepat waktu dan tidak tepat waktu, dengan perbedaan warna berdasarkan apakah mereka mendapat predikat 'pujian' atau tidak. Akhirnya, jika kolom 'IPS' ada, kode ini akan menghitung rata-rata IPS berdasarkan predikat 'pujian'. Hasil analisis korelasi positif antara predikat kelulusan ‘pujian’ dengan lulusan tepat waktu disajikan dalam bentuk visualisasi pada gambar 2.4.

Gambar 2. 4 Visualisasi Hasil Analisis Korelasi Predikat Kelulusan

Berdasarkan Gambar 2.4 menunjukkan ada lebih banyak mahasiswa yang lulus tepat waktu predikat pujian dibandingkan dengan yang lulus tidak waktu dengan predikat pujian. Hal ini bisa mengindikasikan bahwa tidak ada korelasi yang kuat antara predikat pujian dan kelulusan tepat waktu, atau bahkan mungkin ada korelasi negatif. Namun, tanpa data yang lebih rinci, tidak mungkin untuk membuat kesimpulan yang pasti. Selain itu, rata-rata IPK untuk predikat 'Pujian' adalah 3.557393, yang bisa menjadi indikator bahwa mahasiswa dengan predikat pujian memiliki IPK yang relatif tinggi.

C.    Analisis Untuk Melihat Apakah Durasi Studi Lebih Pendek Berkorelasi Dengan Predikat   Kelulusan Yang Lebih Baik

Gambar 2. 5 Analisis Durasi Studi Dengan Predikat Kelulusan

Berdasarkan Gambar 2.5 tahap pertama memfilter data untuk menghilangkan baris dengan predikat kelulusan yang tidak diketahui. Kemudian, menghitung rata-rata durasi studi untuk setiap predikat kelulusan. Selanjutnya, kode ini membuat boxplot yang menampilkan distribusi durasi studi untuk setiap predikat kelulusan. Dari visualisasi ini, kita dapat melihat apakah ada korelasi antara durasi studi yang lebih pendek dengan predikat kelulusan yang lebih baik. Hasil visualisasi disajikan mennggunakan boxplot yang dapat dilihat pada gambar 2.6.

Gambar 2. 6 Visualisasi Analisis Durasi Studi Dengan Predikat Kelulusan

Berdasarkan visualisasi boxplot analisis yang telah dilakukan, bahwa durasi studi yang lebih pendek cenderung berkorelasi dengan predikat kelulusan yang lebih baik. Predikat "Pujian" dan "Sangat Memuaskan" memiliki rata-rata durasi studi yang lebih pendek dibandingkan dengan predikat "Memuaskan". Visualisasi boxplot juga menunjukkan distribusi durasi studi yang lebih rendah untuk predikat kelulusan yang lebih baik.

D.    Hitung Rata-rata Nilai Total Untuk Masing-masing Jenis Kelamin dan Bandingkan Untuk   Melihat Apakah Ada Perbedaan Signifikan dalam Prestasi Akademik Berdasarkan Jenis   Kelamin

Gambar 2. 7 Hitung Rata-rata Total Masing-masing Jenis kelamin

Berdasarkan Gambar 2.7 menunjukkan menghitung rata-rata nilai total berdasarkan jenis kelamin dan membandingkannya untuk melihat apakah ada perbedaan signifikan dalam prestasi akademik antara laki-laki dan perempuan. Pertama, kode ini mengelompokkan data berdasarkan 'nim' dan 'semester', menghitung total nilai, dan menggabungkannya dengan dataframe lain berdasarkan 'nim' dan 'semester'. Kemudian, kode ini menghitung rata-rata nilai total untuk masing-masing jenis kelamin dan mencetaknya. Selanjutnya, kode ini melakukan uji t independen antara grup laki-laki dan perempuan untuk melihat apakah ada perbedaan yang signifikan. Hasil uji t, yang mencakup statistik t dan p-value, dicetak untuk evaluasi lebih lanjut. Hasil hitung rata-rata total Masing-masing Jenis kelamin dapat dilihat pada gambar 2.8.

Gambar 2. 8 Hasil Hitung Rata-rata Total Masing-Masing Jenis Kelamin

Berdasarkan Gambar 2.8 menunjukkan bahwa rata-rata nilai total untuk mahasiswa laki-laki adalah 82.27, sedangkan untuk mahasiswa perempuan adalah 80.82. Ini menunjukkan bahwa terdapat perbedaan prestasi akademik berdasarkan jenis kelamin, dengan laki-laki memiliki rata-rata nilai yang sedikit lebih tinggi. Selanjutnya, hasil uji t-statistik yang sangat tinggi dan nilai p-value yang sangat rendah menegaskan bahwa perbedaan ini signifikan secara statistik, mengindikasikan bahwa jenis kelamin mungkin mempengaruhi prestasi akademik dalam sampel data yang di analisis. Selanjutnya Pada gambar 2.9 merupakan visualisasi dari tahapan dilakukan.

Gambar 2. 9 Hitung Rata-rata Total Masing-Masing Jenis Kelamin

Berdasarkan Gambar 2.9 tahapan ini akan memvisualisasikan dan membandingkan rata-rata nilai total berdasarkan jenis kelamin. Pertama, data dikumpulkan dan dibagi menjadi dua grup berdasarkan jenis kelamin. Kemudian, histogram dibuat untuk masing-masing grup dengan tingkat kejernihan 0.5. Hasil uji T ditampilkan dengan dua garis putus-putus vertikal yang menunjukkan rata-rata nilai total untuk laki-laki dan perempuan. T-statistik dan p-value juga dicetak untuk menentukan apakah ada perbedaan yang signifikan secara statistik antara rata-rata kedua kelompok. Akhirnya, plot diberi judul, label sumbu, dan legenda sebelum ditampilkan. Hasil visualisasi disajikan menggunakan histogram yang dapat dilihat pada gambar 2.10.

Gambar 2. 9 Visualisasi Distribusi Nilai Total Berdasarkan Jenis Kelamin

Berdasarkan visualisasi histogram pada Gambar 2.10, menunjukkan bahwa rata-rata nilai total untuk laki-laki sedikit lebih tinggi dibandingkan perempuan. Hal ini ditunjukkan oleh posisi garis biru yang lebih tinggi dari garis oranye. Selain itu, nilai T-statistik dan P-value menunjukkan bahwa perbedaan ini signifikan secara statistik, yang berarti perbedaan ini tidak mungkin terjadi secara kebetulan. Jadi, dapat disimpulkan bahwa ada perbedaan prestasi akademik yang signifikan berdasarkan jenis kelamin dalam dataset ini.

Kesimpulan:

Dari analisis data yang mendalam, penulis  menyimpulkan bahwa predikat kelulusan, masa studi, dan jenis kelamin memiliki dampak penting terhadap tingkat kelulusan tepat waktu. Dengan pemahaman yang lebih baik tentang variabel-variabel tersebut, universitas dapat mengambil langkah-langkah strategis untuk meningkatkan tingkat kelulusan tepat waktu mahasiswa. 

Komentar

Postingan Populer