Validasi Data CSV dengan Python: Studi Kasus Pengujian Integritas Data di VS Code (UNIX)

Contents

Share the article

Contents

Pendahuluan

Dalam proses pengolahan data, file CSV (Comma Separated Values) sering digunakan sebagai format pertukaran data karena sifatnya yang sederhana dan mudah diolah. Namun, masalah umum yang sering muncul adalah ketidakkonsistenan data, nilai kosong, atau tipe data yang tidak sesuai, yang dapat menurunkan integritas data secara keseluruhan.

Untuk memastikan bahwa data CSV dapat diandalkan sebelum digunakan dalam analisis atau sistem produksi, diperlukan proses validasi dan pengujian integritas data. Artikel ini membahas langkah-langkah praktis menggunakan Python di Visual Studio Code (VS Code) pada sistem berbasis UNIX (macOS/Linux) untuk memvalidasi dan menguji integritas data CSV secara otomatis.

Tujuan

Tujuan utama dari artikel ini adalah untuk:

  • Menerapkan skrip Python dalam melakukan validasi data CSV.
  • Menjaga integritas data melalui pemeriksaan format, tipe, dan kelengkapan.
  • Menggunakan VS Code sebagai IDE lintas platform yang efisien.
  • Menunjukkan kompatibilitas pengembangan di lingkungan UNIX (macOS/Linux).

Pengertian Validasi Data

Validasi data adalah proses pemeriksaan nilai untuk memastikan bahwa data:

  • Memiliki format yang benar (misalnya tanggal, angka, teks).
  • Tidak mengandung nilai kosong pada kolom penting.
  • Sesuai dengan batasan bisnis yang ditetapkan.

Contoh:

Pentingnya Integritas Data dalam CSV

Integritas data menjamin bahwa data tetap konsisten, akurat, dan dapat dipercaya sepanjang siklus hidupnya.

Jenis integritas data meliputi:

  • Entity Integrity: setiap baris memiliki ID unik.
  • Referential Integrity: hubungan antar-data konsisten.
  • Domain Integrity: nilai data sesuai dengan tipe atau rentang yang ditetapkan.

Persiapan Environment

  • Sistem operasi: macOS atau Linux (UNIX-based)
  • Python: versi 3.8 atau lebih baru
  • VS Code: dengan ekstensi Python terinstal

Instal Python

Sebagian besar distribusi Linux sudah menyertakan Python. Gunakan package manager Anda untuk memastikan Anda memiliki versi terbaru Python 3 dan PIP (pengelola paket).

# Perbarui daftar paketsudo apt update
# Instal Python 3 dan PIPsudo apt install python3 python3-pip -y
# Verifikasi Instalasipython3 –versionpip3 –version

Struktur Folder

data_validation/
├── data/
│ └── dataset.csv
├── scripts/
│   └── validate_csv.py
└── output/
    └── report.csv

Persiapan Visual Studio Code (VS Code)

VS Code adalah code editor terbaik untuk Python.

  • Instalasi VS Code: Unduh dan instal VS Code dari situs resminya : https://code.visualstudio.com/download .
  • Instal Ekstensi Python: Buka VS Code, buka menu Extensions (Ctrl+Shift+X), dan instal ekstensi Python (dibuat oleh Microsoft).

Menyiapkan Data CSV

Validasi akan menggunakan dua modul built-in Python: csv (untuk membaca data) dan re (untuk format yang kompleks seperti email).

Buat file data.csv di folder proyek Anda. Kita akan memvalidasi Nama (tidak boleh kosong), Email (format), dan Harga (numerik positif).

Skrip Validasi Inti (test_validation.py)

Skrip ini akan memproses data row-by-row menggunakan csv.DictReader dan mengumpulkan error dalam daftar.

Eksekusi dan Pengujian di VS Code

Menjalankan Skrip 

  1. Buka validator.py di VS Code.
  2. Buka Terminal (Ctrl + ‘ atau `).
  3. Jalankan skrip Anda:

Gunakan Perintah ini

Hasil Validasi

Laporan validasi ini adalah hasil dari skrip Python (test_validation.py) yang memproses setiap baris dari file CSV Anda untuk memastikan integritas data. Skrip memeriksa tiga aturan penting: format Email, keberadaan Nama, dan Harga harus berupa angka positif.

Secara keseluruhan, dua pertiga dari data yang diuji (ID 3, 4, 5, dan 6) mengandung error yang signifikan di field penting (Email, Nama, dan Harga). Laporan ini berfungsi sebagai panduan yang tepat bagi tim Data Quality untuk langsung menuju baris-baris tersebut dan melakukan pembersihan data (data cleaning) berdasarkan pesan error yang spesifik.

Manfaat Pendekatan Ini

AspekManfaat
Kualitas DataMenjamin dataset bersih dan konsisten sebelum analisis.
Efisiensi QA DataProses validasi otomatis mengurangi kesalahan manual.
ReusabilitySkrip Python dapat digunakan ulang untuk berbagai dataset.
PortabilitasDapat dijalankan di macOS maupun Linux tanpa konfigurasi tambahan.

Kesimpulan

Validasi dan pengujian integritas data merupakan tahap penting dalam memastikan keandalan sistem informasi dan analisis data. Dengan memanfaatkan Python dan VS Code di lingkungan berbasis UNIX, proses validasi dapat dilakukan secara efisien, otomatis, dan konsisten lintas platform.

Pendekatan ini juga membantu tim QA atau Data Engineer dalam menjaga standar kualitas data sebelum data digunakan dalam proses analitik atau integrasi sistem lainnya.

Referensi

Pandas Documentation – https://pandas.pydata.org 
Python Official Docs – https://docs.python.org 
Open Group Base Specifications Issue 7 – Definition of UNIX, 2022

Share the article

Grow Your Knowledge

About Software Development with Our Free Guidebook

Grow Your Knowledge

About Software Development with Our Guidebook

You dream it.

We build it!

We provide several bonuses FOR FREE to help you in making decisions to develop your own system/application.

  • Risk Free Development Trial 
  • Zero Requirement and Consultation Cost 
  • Free Website/Mobile Audit Performance

Our Services

Software Development • Quality Assurance • Big Data Solution • Infrastructure • IT Training

You might also like

Implementasi Data Quality Menyeluruh dari Sumber Data hingga Insight

Peran QA dalam Menjaga Kualitas Data di Era Big Data

5 Jenis Data Error yang Wajib Diketahui QA dan Cara Mengujinya

Silakan isi data di bawah sebelum mendownload file.

Silakan isi data di bawah sebelum mendownload file.

Silakan isi data di bawah sebelum mendownload file.

Silakan isi data di bawah sebelum mendownload file.

Signup for Free Software Development Guidebook: Input Email. Submit me.