Pendahuluan
Dalam proses pengolahan data, file CSV (Comma Separated Values) sering digunakan sebagai format pertukaran data karena sifatnya yang sederhana dan mudah diolah. Namun, masalah umum yang sering muncul adalah ketidakkonsistenan data, nilai kosong, atau tipe data yang tidak sesuai, yang dapat menurunkan integritas data secara keseluruhan.
Untuk memastikan bahwa data CSV dapat diandalkan sebelum digunakan dalam analisis atau sistem produksi, diperlukan proses validasi dan pengujian integritas data. Artikel ini membahas langkah-langkah praktis menggunakan Python di Visual Studio Code (VS Code) pada sistem berbasis UNIX (macOS/Linux) untuk memvalidasi dan menguji integritas data CSV secara otomatis.
Tujuan
Tujuan utama dari artikel ini adalah untuk:
- Menerapkan skrip Python dalam melakukan validasi data CSV.
- Menjaga integritas data melalui pemeriksaan format, tipe, dan kelengkapan.
- Menggunakan VS Code sebagai IDE lintas platform yang efisien.
- Menunjukkan kompatibilitas pengembangan di lingkungan UNIX (macOS/Linux).
Pengertian Validasi Data
Validasi data adalah proses pemeriksaan nilai untuk memastikan bahwa data:
- Memiliki format yang benar (misalnya tanggal, angka, teks).
- Tidak mengandung nilai kosong pada kolom penting.
- Sesuai dengan batasan bisnis yang ditetapkan.
Contoh:
- Kolom email harus berformat [email protected]
- Kolom umur harus berupa angka positif
Pentingnya Integritas Data dalam CSV
Integritas data menjamin bahwa data tetap konsisten, akurat, dan dapat dipercaya sepanjang siklus hidupnya.
Jenis integritas data meliputi:
- Entity Integrity: setiap baris memiliki ID unik.
- Referential Integrity: hubungan antar-data konsisten.
- Domain Integrity: nilai data sesuai dengan tipe atau rentang yang ditetapkan.
Persiapan Environment
- Sistem operasi: macOS atau Linux (UNIX-based)
- Python: versi 3.8 atau lebih baru
- VS Code: dengan ekstensi Python terinstal
Instal Python
Sebagian besar distribusi Linux sudah menyertakan Python. Gunakan package manager Anda untuk memastikan Anda memiliki versi terbaru Python 3 dan PIP (pengelola paket).
| # Perbarui daftar paketsudo apt update # Instal Python 3 dan PIPsudo apt install python3 python3-pip -y # Verifikasi Instalasipython3 –versionpip3 –version |
Struktur Folder
| data_validation/ ├── data/ │ └── dataset.csv ├── scripts/ │ └── validate_csv.py └── output/ └── report.csv |
Persiapan Visual Studio Code (VS Code)
VS Code adalah code editor terbaik untuk Python.
- Instalasi VS Code: Unduh dan instal VS Code dari situs resminya : https://code.visualstudio.com/download .
- Instal Ekstensi Python: Buka VS Code, buka menu Extensions (Ctrl+Shift+X), dan instal ekstensi Python (dibuat oleh Microsoft).

Menyiapkan Data CSV
Validasi akan menggunakan dua modul built-in Python: csv (untuk membaca data) dan re (untuk format yang kompleks seperti email).
Buat file data.csv di folder proyek Anda. Kita akan memvalidasi Nama (tidak boleh kosong), Email (format), dan Harga (numerik positif).

Skrip Validasi Inti (test_validation.py)
Skrip ini akan memproses data row-by-row menggunakan csv.DictReader dan mengumpulkan error dalam daftar.

Eksekusi dan Pengujian di VS Code
Menjalankan Skrip
- Buka validator.py di VS Code.
- Buka Terminal (Ctrl + ‘ atau `).
- Jalankan skrip Anda:
Gunakan Perintah ini

Hasil Validasi

Laporan validasi ini adalah hasil dari skrip Python (test_validation.py) yang memproses setiap baris dari file CSV Anda untuk memastikan integritas data. Skrip memeriksa tiga aturan penting: format Email, keberadaan Nama, dan Harga harus berupa angka positif.
Secara keseluruhan, dua pertiga dari data yang diuji (ID 3, 4, 5, dan 6) mengandung error yang signifikan di field penting (Email, Nama, dan Harga). Laporan ini berfungsi sebagai panduan yang tepat bagi tim Data Quality untuk langsung menuju baris-baris tersebut dan melakukan pembersihan data (data cleaning) berdasarkan pesan error yang spesifik.
Manfaat Pendekatan Ini
| Aspek | Manfaat |
| Kualitas Data | Menjamin dataset bersih dan konsisten sebelum analisis. |
| Efisiensi QA Data | Proses validasi otomatis mengurangi kesalahan manual. |
| Reusability | Skrip Python dapat digunakan ulang untuk berbagai dataset. |
| Portabilitas | Dapat dijalankan di macOS maupun Linux tanpa konfigurasi tambahan. |
Kesimpulan
Validasi dan pengujian integritas data merupakan tahap penting dalam memastikan keandalan sistem informasi dan analisis data. Dengan memanfaatkan Python dan VS Code di lingkungan berbasis UNIX, proses validasi dapat dilakukan secara efisien, otomatis, dan konsisten lintas platform.
Pendekatan ini juga membantu tim QA atau Data Engineer dalam menjaga standar kualitas data sebelum data digunakan dalam proses analitik atau integrasi sistem lainnya.
Referensi
Pandas Documentation – https://pandas.pydata.org
Python Official Docs – https://docs.python.org
Open Group Base Specifications Issue 7 – Definition of UNIX, 2022





