PERTEMUAN 5 QUIZ DATA MINING
Quiz Pertemuan 5 Data Mining
PendahuluanLaporan ini menggambarkan hasil analisis data akademik mahasiswa yang meliputi penggabungan, penyaringan, dan analisis statistik untuk menemukan pola dan tren penting. Selain itu, dilakukan evaluasi terhadap berbagai faktor yang berdampak pada kelulusan tepat waktu dan prestasi akademik mahasiswa. Proses analisis ini dilakukan dengan menggunakan data dari API universitas yang diolah menggunakan bahasa pemrograman Python.
1. Integrasi Data dan
pembersihan Data
A. Get Data Transkip_Nilai dan Ms_Lulusan
Pada Gambar 1.1 menunjukkan bagaimana kode yang
ditampilkan digunakan untuk mengambil data dari sebuah API menggunakan Python.
Dalam kode tersebut, library requests
digunakan untuk mengirim permintaan HTTP dan pandas
untuk memanipulasi data yang diterima. Fungsi fetch_data
yang dibuat bertujuan untuk mengambil data
dari URL API tertentu dengan mengirimkan permintaan GET yang mencakup header
autentikasi. Setelah data transkip_nilai dan ms_lulusan berhasil diambil,
akan mengonversi data tersebut menjadi DataFrame pandas. Pada gambar 2
menunjukkan hasil get data transkip_nilai dan ms_lulusan.
Pada gambar 1.2 menunjukkan total data yang berhasil didapatkan untuk data transkip_nilai sebanyak 256299 record, sedangkan untuk data ms_lulusan berhasil mengambil data sebanyak 4542 record.
B. Mencari IPS Setiap Semester Permahasiswa. Ini Bisa Memudahkan Untuk Normalisasi Data
Pada Gambar 1.3 menunjukkan mencari IPS permahasiswa dengan menghitung Indeks Prestasi
Semester (IPS) setiap mahasiswa dari data transkrip nilai. Proses ini dilakukan
dengan mengelompokkan data berdasarkan nim
dan semester
menggunakan groupby
pada DataFrame df_transkrip
. Selanjutnya, dengan fungsi apply
, dilakukan perhitungan IPS dengan mengalikan
nilai grade dari setiap mata kuliah (nilai_grade
) dengan jumlah SKS (sks_mk
), menjumlahkan hasilnya, dan membagi dengan
total SKS yang diambil pada semester tersebut. Hasilnya dibulatkan menjadi dua
desimal dan disimpan dalam kolom 'IPS' yang ditunjukkan pada gambar 1.4.
Gambar 1. 4 Hasil Mencari IPS Permahasiswa
Menampilkan hasil untuk beberapa baris pertama, yang menunjukkan nilai
IPS dari mahasiswa untuk setiap semester yang telah mereka tempuh. Data yang
ditampilkan mencakup nim, semester, dan IPS yang telah dihitung, memberikan gambaran
tentang prestasi akademik mahasiswa selama periode studi.
C.
Gabungkan
IPS Permahasiswa Dengan Dataset Yang Lainya ("ms_lulusan") Berdasarkan
NIM.
Pada Gambar 1.5 proses yang dilakukan selanjutnya adalah
menggabungkan data Indeks Prestasi Semester (IPS) yang telah dihitung
sebelumnya dengan dataset kelulusan (ms_lulusan) berdasarkan 'nim' mahasiswa.
Penggabungan ini dilakukan menggunakan fungsi merge dari pandas, di mana ips_df
adalah DataFrame yang berisi data IPS per semester per mahasiswa, dan
df_lulusan adalah DataFrame yang berisi data kelulusan mahasiswa. Kedua
DataFrame ini digabungkan dengan metode 'left', yang berarti semua entri dari
ips_df akan dijaga dan informasi dari df_lulusan akan ditambahkan berdasarkan
kolom 'nim'. Hasil penggabungan data dapat dilihat pada gambar 1.6.
Menunjukkan DataFrame hasil (merged_df) yang menampilkan kolom-kolom seperti 'nim', 'semester', 'IPS', 'prodi' (program studi), 'predikat' (predikat kelulusan), 'tanggal_lulus', 'tgl_masuk' (tanggal masuk), 'status_masuk', 'jenis_kelamin', 'tahun_lahir', 'status_pegawai', 'Durasi_Studi', dan 'lulus_tepat_waktu'. Data ini memberikan gambaran komprehensif mengenai prestasi akademik mahasiswa selama masa studi mereka serta detail kelulusan seperti program studi, predikat kelulusan, dan apakah mereka lulus tepat waktu.
D. Tambahkan Hasil
Dari Durasi Studi Masing-masing Mahasiswa
Pada Gambar 1.7 mengonversi tanggal masuk dan tanggal lulus ke
format DateTime untuk memastikan akurasi dalam perhitungan. Selanjutnya, durasi
studi dihitung dengan mengurangi tanggal masuk dari tanggal lulus dan hasilnya
dibagi dengan 365 untuk mendapatkan durasi dalam tahun, yang kemudian
dibulatkan. Kode juga menentukan apakah mahasiswa tersebut lulus tepat waktu,
yaitu dalam waktu empat tahun atau kurang, dan menandainya sebagai "tepat
waktu" atau "tidak tepat waktu". Hasil penambahan hasil studi
mahasiswa dapat dilihat pada gambar 1.8.
Gambar 1. 8 Hasil Penambahan Studi Pada Masing-masing Mahasiswa
Hasil
penambahan studi pada masing-masing mahasiswa menampilkan informasi seperti 'nim',
'prodi', 'predikat', 'tanggal_lulus', 'tgl_masuk', 'jenis_kelamin',
'tahun_lahir', 'status_pegawai', 'Durasi_Studi', 'lulus_tepat_waktu',
'semester', dan 'IPS'.
E.
Lakukan Pembersihan Data, termasuk mengidentifikasi dan
mengatasi nilai yang hilang atau tidak konsisten dalam data.
Gambar 1. 9 Pembersihan Data
Pada
Gambar 1.9 dilakukan
identifikasi missing values dalam DataFrame df_lulusan dengan menggunakan
metode isnull() yang diikuti oleh sum(). Proses ini memberikan informasi
mengenai jumlah nilai yang hilang di setiap kolom. Kemudian, mencari
baris-baris yang duplikat dalam DataFrame merged_df menggunakan metode
duplicated (). Setelah mendeteksi baris yang duplikat, jumlah total baris
duplikat tersebut dihitung dengan sum (). Hasil pembersihan dapat dilihat pada
gambar 1.10.
Gambar 1. 10 Hasil Pembersihan Data
Hasil dari proses
pembersihana data ini mengindikasikan bahwa dalam DataFrame df_lulusan, tidak
ada missing values maupun dupilcated data di semua kolom, Setiap kolom memiliki
jumlah missing values dan duplicated data sebanyak 0, yang menunjukkan bahwa
data tersebut sudah lengkap.
F.
Hilangkan Mahasiswa Pindahan
Pada Gambar 1.11 dilakukan
proses seleksi dan analisis terhadap subkelompok mahasiswa pindahan dalam
DataFrame merged_df. Langkah pertama adalah memilih baris di mana kolom
'status_masuk' memiliki nilai 1, yang menandakan mahasiswa tersebut adalah
mahasiswa pindahan. Hasil seleksi data dapat dilihat pada gambar 1.12.
Jumlah data yang didapatkan
adalah sebanyak 60. Ditampilkan lima baris pertama dari DataFrame df_status_msk
untuk memberikan gambaran tentang data mahasiswa pindahan. Seteleh proses
seleksi data, dilakukan penghapusan baris dari DataFrame merged_df yang
berkaitan dengan mahasiswa pindahan yang dijelaskan pada gambar 1.13.
Dilakukan penghapusan baris
dari DataFrame merged_df yang berkaitan dengan mahasiswa transfer, yaitu mereka
yang memiliki nilai 1 pada kolom 'status_masuk'. Ini dilakukan untuk fokus
analisis pada mahasiswa yang bukan pindahan. Hasil penghapusan mahasiswa dapat
dilihat pada gambar 1.14.
Gambar 1. 14 Hasil Penghapusan Mahasiswa Pindahan
Hasil yang ditampilkan pada Gambar 1.14, dapat dilihat bahwa semua baris yang tersisa memiliki nilai 0 pada kolom 'status_masuk', yang menandakan bahwa tidak ada mahasiswa transfer yang tersisa dalam data tersebut.
G. Standardisasi Format Jenis Kelamin Untuk Analisis Lebih Lanjut
Pada Gambar 1.15 Tahapan Standardisasi ini berfokus pada
peningkatan keterbacaan data dengan melakukan standardisasi pada kolom
'jenis_kelamin' dalam DataFrame merged_df. Untuk memudahkan pemahaman dan
analisis lebih lanjut, nilai numerik 0 dan 1 di kolom tersebut diganti dengan
label teks "laki-laki" dan "perempuan". Proses ini
dilakukan menggunakan metode replace pada DataFrame. Hasil Standardisasi
dapat dilihat pada gambar 1.16.
Hasil yang ditunjukkan pada Gambar 18, dapat diperhatikan bahwa kolom 'jenis_kelamin' kini menampilkan teks "perempuan" dan "laki-laki" yang sesuai, memastikan bahwa data telah diperbarui dengan benar.
2.1 Analisis
A. Analisis Apakah Ada
Hubungan antara IPS Dengan Lulusan Tepat
Waktu
Pada Gambar 2.1 menganalisis hubungan antara
nilai rata-rata mata kuliah atau Indeks Prestasi Semester (IPS) dengan
kelulusan tepat waktu. Pertama, menghitung nilai rata-rata atau IPS setiap
mahasiswa per semester. Kemudian, kode tersebut menghitung durasi studi setiap
mahasiswa dan menentukan apakah mahasiswa tersebut lulus tepat waktu atau
tidak. Setelah itu, data IPS dan status kelulusan tepat waktu digabungkan
menjadi satu dataframe. Dengan dataframe ini, Anda dapat melakukan analisis
lebih lanjut untuk melihat apakah ada hubungan antara IPS dan kelulusan tepat
waktu. Hasil analisis dapat dilihat pada gambar 2.2.
Berdasarkan Gambar 2.2 hasil analisis yang
ditampilkan, ada hubungan signifikan antara Indeks Prestasi Semester (IPS) dan
kelulusan tepat waktu. Rata-rata IPS bagi mereka yang lulus tepat waktu lebih
tinggi dibandingkan dengan mereka yang tidak. Nilai p-value yang sangat kecil
(7.78388e-93) menunjukkan bahwa perbedaan ini tidak terjadi secara kebetulan. Boxplot
juga menunjukkan distribusi nilai IPS yang lebih tinggi untuk kelompok yang
lulus tepat waktu. Jadi, dapat disimpulkan bahwa IPS berpengaruh terhadap
kelulusan tepat waktu.
B.
Analisis Apakah
Ada Korelasi Positif Antara Predikat Kelulusan 'Pujian' Dengan Lulusan Tepat Waktu
Pada Gambar 2.3 melakukan analisis untuk
mengetahui apakah ada korelasi positif antara predikat kelulusan 'Pujian'
dengan lulusan tepat waktu. Pertama, kode ini membuat kolom baru 'pujian'
berdasarkan kondisi di kolom 'predikat'. Kemudian, kode ini membuat visualisasi
data untuk menunjukkan distribusi jumlah mahasiswa yang lulus tepat waktu dan
tidak tepat waktu, dengan perbedaan warna berdasarkan apakah mereka mendapat
predikat 'pujian' atau tidak. Akhirnya, jika kolom 'IPS' ada, kode ini akan
menghitung rata-rata IPS berdasarkan predikat 'pujian'. Hasil analisis korelasi
positif antara predikat kelulusan ‘pujian’ dengan lulusan tepat waktu disajikan
dalam bentuk visualisasi pada gambar 2.4.
Gambar 2. 4 Visualisasi Hasil Analisis Korelasi Predikat Kelulusan
Berdasarkan Gambar 2.4 menunjukkan ada lebih
banyak mahasiswa yang lulus tepat waktu predikat pujian dibandingkan dengan
yang lulus tidak waktu dengan predikat pujian. Hal ini bisa mengindikasikan
bahwa tidak ada korelasi yang kuat antara predikat pujian dan kelulusan tepat
waktu, atau bahkan mungkin ada korelasi negatif. Namun, tanpa data yang lebih
rinci, tidak mungkin untuk membuat kesimpulan yang pasti. Selain itu, rata-rata
IPK untuk predikat 'Pujian' adalah 3.557393, yang bisa menjadi indikator bahwa
mahasiswa dengan predikat pujian memiliki IPK yang relatif tinggi.
C. Analisis
Untuk Melihat Apakah Durasi Studi Lebih Pendek Berkorelasi Dengan Predikat Kelulusan
Yang Lebih Baik
Gambar 2. 5 Analisis Durasi Studi Dengan Predikat Kelulusan
Berdasarkan Gambar 2.5 tahap pertama memfilter
data untuk menghilangkan baris dengan predikat kelulusan yang tidak diketahui.
Kemudian, menghitung rata-rata durasi studi untuk setiap predikat kelulusan.
Selanjutnya, kode ini membuat boxplot yang menampilkan distribusi durasi studi
untuk setiap predikat kelulusan. Dari visualisasi ini, kita dapat melihat
apakah ada korelasi antara durasi studi yang lebih pendek dengan predikat
kelulusan yang lebih baik. Hasil visualisasi disajikan mennggunakan boxplot
yang dapat dilihat pada gambar 2.6.
Gambar 2. 6 Visualisasi Analisis Durasi Studi Dengan Predikat Kelulusan
Berdasarkan visualisasi boxplot analisis yang
telah dilakukan, bahwa durasi studi yang lebih pendek cenderung berkorelasi
dengan predikat kelulusan yang lebih baik. Predikat "Pujian" dan
"Sangat Memuaskan" memiliki rata-rata durasi studi yang lebih pendek
dibandingkan dengan predikat "Memuaskan". Visualisasi boxplot juga
menunjukkan distribusi durasi studi yang lebih rendah untuk predikat kelulusan
yang lebih baik.
D. Hitung
Rata-rata Nilai Total Untuk Masing-masing Jenis Kelamin dan Bandingkan Untuk Melihat
Apakah Ada Perbedaan Signifikan dalam Prestasi Akademik Berdasarkan Jenis Kelamin
Gambar 2. 7 Hitung Rata-rata Total Masing-masing Jenis kelamin
Berdasarkan Gambar 2.7 menunjukkan menghitung
rata-rata nilai total berdasarkan jenis kelamin dan membandingkannya untuk
melihat apakah ada perbedaan signifikan dalam prestasi akademik antara
laki-laki dan perempuan. Pertama, kode ini mengelompokkan data berdasarkan
'nim' dan 'semester', menghitung total nilai, dan menggabungkannya dengan
dataframe lain berdasarkan 'nim' dan 'semester'. Kemudian, kode ini menghitung
rata-rata nilai total untuk masing-masing jenis kelamin dan mencetaknya.
Selanjutnya, kode ini melakukan uji t independen antara grup laki-laki dan
perempuan untuk melihat apakah ada perbedaan yang signifikan. Hasil uji t, yang
mencakup statistik t dan p-value, dicetak untuk evaluasi lebih lanjut. Hasil hitung
rata-rata total Masing-masing Jenis kelamin dapat dilihat pada gambar 2.8.
Berdasarkan
Gambar 2.8 menunjukkan bahwa
rata-rata nilai total untuk mahasiswa laki-laki adalah 82.27, sedangkan untuk
mahasiswa perempuan adalah 80.82. Ini menunjukkan bahwa terdapat perbedaan
prestasi akademik berdasarkan jenis kelamin, dengan laki-laki memiliki
rata-rata nilai yang sedikit lebih tinggi. Selanjutnya, hasil uji t-statistik
yang sangat tinggi dan nilai p-value yang sangat rendah menegaskan bahwa
perbedaan ini signifikan secara statistik, mengindikasikan bahwa jenis kelamin
mungkin mempengaruhi prestasi akademik dalam sampel data yang di analisis. Selanjutnya
Pada gambar 2.9 merupakan visualisasi dari tahapan dilakukan.
Berdasarkan
Gambar 2.9 tahapan ini akan memvisualisasikan dan membandingkan rata-rata nilai total
berdasarkan jenis kelamin. Pertama, data dikumpulkan dan dibagi menjadi dua
grup berdasarkan jenis kelamin. Kemudian, histogram dibuat untuk masing-masing
grup dengan tingkat kejernihan 0.5. Hasil uji T ditampilkan dengan dua garis
putus-putus vertikal yang menunjukkan rata-rata nilai total untuk laki-laki dan
perempuan. T-statistik dan p-value juga dicetak untuk menentukan apakah ada
perbedaan yang signifikan secara statistik antara rata-rata kedua kelompok.
Akhirnya, plot diberi judul, label sumbu, dan legenda sebelum ditampilkan.
Hasil visualisasi disajikan menggunakan histogram yang dapat dilihat pada
gambar 2.10.
Berdasarkan visualisasi histogram pada Gambar 2.10, menunjukkan bahwa rata-rata nilai total untuk laki-laki sedikit lebih tinggi dibandingkan perempuan. Hal ini ditunjukkan oleh posisi garis biru yang lebih tinggi dari garis oranye. Selain itu, nilai T-statistik dan P-value menunjukkan bahwa perbedaan ini signifikan secara statistik, yang berarti perbedaan ini tidak mungkin terjadi secara kebetulan. Jadi, dapat disimpulkan bahwa ada perbedaan prestasi akademik yang signifikan berdasarkan jenis kelamin dalam dataset ini.
Kesimpulan:
Dari analisis data yang mendalam, penulis menyimpulkan bahwa predikat kelulusan, masa studi, dan jenis kelamin memiliki dampak penting terhadap tingkat kelulusan tepat waktu. Dengan pemahaman yang lebih baik tentang variabel-variabel tersebut, universitas dapat mengambil langkah-langkah strategis untuk meningkatkan tingkat kelulusan tepat waktu mahasiswa.
Komentar
Posting Komentar