Saat ini, industri teknologi sedang dibanjiri dengan istilah “AI” dan “Machine Learning”. Setiap bulan, bahkan hampir setiap minggu rilis berbagai model dengan versi terbaru yang menjanjikan revolusi industri. Tentu hal ini sangat menggoda untuk menggunakan model tersebut dalam segala pekerjaan terutama di bidang data. Banyak yang beranggapan bahwa dengan mengimpor library canggih, menyusun arsitektur, menjalankan fungsi latih kemudian selesai.
Padahal, realitasnya tak seindah euforianya, model state-of-the-art telah berubah menjadi sekedar komoditas. Berbagai model Machine Learning, Computer Vision, LLM, dan model lainnya mudah ditemukan di luar sana dan dapat diunduh hanya dalam hitungan menit. Jika semua dapat mengakses tersebut, lalu apa yang membedakan model baik dan buruk?
Jawabannya adalah Data.
Mengapa Banyak Proyek Machine Learning Gagal Memberikan Dampak Bisnis
Mayoritas proyek Machine Learning gagal memberikan dampak bisnis yang nyata (Return of Investment). Mengapa hal ini bisa terjadi? Jika terdapat kesalahan dalam output model maka kebanyakan yang pertama kali disalahkan adalah modelnya. Padahal model open source saat ini sudah sangat mumpuni. Lalu apa yang menyebabkan hal itu terjadi?
Penyebab utamanya yaitu Fondasi Data yang Kurang Kuat.
Fondasi Data dan Konsep “Garbage In, Garbage Out”
Kita perlu kembali lagi ke fundamental data yang memengaruhi performa model Machine Learning, yaitu kualitas data. Mungkin kita sering mendengar istilah “Garbage In, Garbage Out” atau GIGO. Istilah ini menggambarkan kondisi ketika sistem memperoleh data dengan kualitas yang buruk, sehingga hasil yang dihasilkan oleh model juga kurang baik.
Oleh karena itu, data harus mendapatkan perhatian lebih sebelum digunakan. Setelah data memiliki fondasi yang kuat, barulah pemilihan model dan proses tuning parameter dilakukan untuk memperoleh performa yang sesuai dengan kondisi realita.
Jenis-Jenis “Garbage” dalam Data Machine Learning
Beberapa jenis “garbage” berikut perlu diperhatikan karena dapat menurunkan kualitas data secara signifikan.
1. Noisy Data
Noisy data merupakan salah satu penyebab paling umum dari rendahnya kualitas data. Contohnya meliputi data kosong atau hilang (NULL), duplikasi data, kesalahan tipe data, keberadaan outlier ekstrem, serta ketidakkonsistenan format seperti format tanggal (DD/MM/YYYY vs MM/DD/YYYY).
Masalah ini sering dianggap sepele, padahal dapat memengaruhi proses pembelajaran model. Nilai yang tidak konsisten atau salah dapat menyebabkan overfitting dan menurunkan akurasi, sehingga sistem menghasilkan output yang tidak tepat.
2. Biased Data
Biased data merupakan jenis yang lebih berbahaya karena sering kali tidak terdeteksi secara langsung. Data dapat terlihat bersih dan lengkap, tetapi tidak merepresentasikan kondisi populasi yang sebenarnya.
Bias dapat muncul akibat pengambilan sampel yang tidak merata, keterbatasan sumber data, atau penggunaan data historis yang sudah tidak relevan. Jika model dilatih menggunakan data seperti ini, maka besar kemungkinan prediksi yang dihasilkan tidak sesuai dengan kondisi realita.
3. Data Leakage
Data leakage merupakan kondisi yang sangat berbahaya, yaitu ketika model dilatih menggunakan data training yang secara tidak sengaja mengandung informasi yang ingin diprediksi atau label dari data tersebut.
Hal ini membuat model terlihat memiliki akurasi yang sangat tinggi, tetapi gagal saat diterapkan pada data baru. Akibatnya, model memberikan hasil yang menyesatkan dan keputusan diambil berdasarkan kepercayaan yang salah terhadap performa model.
4. GIGO sebagai Otomatisasi Kesalahan
Kualitas data menjadi krusial karena penerapan Machine Learning dengan data yang buruk tidak hanya menghasilkan kesalahan, tetapi juga mengotomatisasi dan memperbesar skala kesalahan tersebut.
Jika model dilatih menggunakan data yang tidak divalidasi, model akan mempelajari pola yang salah dan mengubahnya menjadi keputusan otomatis yang berulang dan berpotensi merugikan.
5. Model Menjadi Usang akibat Degradasi Data
Kualitas data bersifat dinamis dan dapat mengalami degradasi seiring waktu. Data yang sebelumnya sangat relevan dapat menjadi tidak representatif karena perubahan perilaku konsumen, kondisi pasar, maupun faktor lainnya.
Tanpa pembaruan data secara berkala, model akan terus menggunakan data lama yang sudah tidak relevan dan menghasilkan prediksi yang menyesatkan.
Kesimpulan
Fondasi data merupakan hal yang paling mendasar dalam membangun sistem Machine Learning. Seluruh proses—mulai dari pencarian pola, pembentukan parameter, hingga pengambilan keputusan—sangat bergantung pada kualitas data yang digunakan.
Secanggih apa pun model yang dipilih, model tersebut tidak akan mampu menghasilkan output yang berkualitas apabila dilatih dengan data yang bermasalah. Oleh karena itu, keberhasilan implementasi Machine Learning sangat ditentukan oleh kekuatan fondasi datanya.





