Technology

4 Langkah Data Preprocessing Agar Data Lebih Mudah Dibaca

Published on
Min read
7 min read
time-icon
Fakhrizal Muttaqien

I'm a writer with experience in content writing, copywriting, and script writing. I'm used to writing articles on blogs or websites, social media, and video content for Youtube and TikTok.

pexels-christina-morillo-1181243_(1).jpg

Di era digital seperti saat ini, keberadaan data menjadi sesuatu yang sangat penting. Dengan menggunakan big data, sebuah perusahaan akan terbantu untuk menentukan rencana bisnis, mengembangkan arah bisnisnya, dan memahami lebih dalam target market-nya.

Namun, data di dunia nyata, baik yang tersedia di internet ataupun hasil mengumpulkan sendiri, tidak bisa langsung diolah dan diproses menggunakan komputer. Ada proses yang harus dilakukan sebelum mengolah dan menggunakan data. Maka dari itu, ada proses yang dinamakan data preprocessing.

Lalu, bagaimanakah data preprocessing dilakukan? Pada artikel kali ini akan dibahas berbagai hal tentang data preprocessing, dari mulai pengertian, pentingnya data preprocessing,  langkah-langkah melakukan data preprocessing, hingga contoh penerapannya. Jadi, langsung aja disimak artikelnya!

Baca juga: Data Mining: Pengertian, Proses, Manfaat, dan 3 Contoh Penerapannya

Apa itu data preprocessing?


Data preprocessing adalah bagian penting dalam proses data mining. (Sumber: Pexels)

Data preprocessing merupakan salah satu langkah dalam proses data mining dan analisis data. Pada proses ini, data mentah diambil dan dipersiapkan agar menjadi format yang dapat dipahami dan dianalisis oleh komputer dan machine learning. Hal itu perlu dilakukan karena data mentah di dunia nyata, baik dalam bentuk teks, gambar, atau video, itu berantakan. Sehingga akan menyulitkan komputer untuk memprosesnya.

Data preprocessing adalah langkah awal dalam pembuatan model machine learning dan kecerdasan buatan. Proses tersebut akan mengubah data menjadi format yang lebih mudah dan efektif untuk diproses, sehingga pembelajaran machine learning dan pengembangan kecerdasan buatan mengeluarkan hasil yang lebih akurat.

Baca juga: Machine Learning: Pengertian, Cara Kerja, dan 3 Metodenya!

Kenapa data preprocessing penting?


Data preprocessing membuat pembelajaran machine learning dan kecerdasan buatan lebih akurat. (Sumber: Pexels)

Dataset yang real time dan didapatkan dari dunia nyata biasanya berantakan. Bisa karena nilainya yang tidak lengkap, ada kesalahan input, atau memiliki duplikat satu sama lain. Kondisi data yang berantakan seperti itu mungkin dapat diidentifikasi dengan baik oleh manusia, tetapi jika untuk melatih machine learning dan kecerdasan buatan, kondisi data yang berantakan dapat membuat hasil yang tidak maksimal.

Machine learning dan kecerdasan buatan bekerja sangat optimal ketika data yang disajikan relevan dengan algoritma yang sudah dirancang. Data preprocessing, yang termasuk data wrangling, transformasi data, data reduction, feature selection, dan data scaling, membantu restrukturisasi data mentah menjadi bentuk data yang sesuai dengan algoritma. Dengan begitu, akan mengurangi daya pemrosesan dan waktu yang diperlukan untuk melatih machine learning dan kecerdasan buatan.

Maka dari itu, dalam data analysis, data science, atau pengembangan kecerdasan buatan memerlukan data preprocessing. Tujuannya tidak lain, agar model yang nantinya dihasilkan dapat optimal dan dapat memberikan insight untuk kebutuhan bisnis.

Baca juga: Artificial Intelligence (AI): Definisi, Cara Kerja, dan Contohnya

4 Langkah melakukan data preprocessing


Terdapat beberapa langkah dalam data preprocessing. (Sumber: Pexels)

Saat melakukan data preprocessing, ada 4 langkah yang bisa kamu lakukan untuk menghasilkan data yang siap diolah. Keempat langkah tersebut akan dibahas secara detail di bawah ini.

1. Data cleaning

Data cleaning atau membersihkan data merupakan langkah awal dalam data preprocessing. Tujuan dari data cleaning ini adalah untuk menyeleksi data dan membuang data yang berpotensi mengurangi akurasi machine learning dan kecerdasan buatan. Pada tahap ini, kamu harus mengatasi data yang bermasalah.

Beberapa masalah yang biasa terjadi pada dataset adalah sebagai berikut:

  • Missing value, yaitu ketika ada nilai yang hilang pada dataset. Misalnya, dalam satu row table data, ada satu sel yang tidak memiliki nilai. Maka untuk mengatasinya, kamu bisa abaikan row yang tidak lengkap jika dataset dirasa sangat banyak. Namun, jika kamu tidak bisa mengabaikannya, kamu bisa isi secara manual dengan mengacu ke berbagai referensi.
  • Noisy data, yaitu ketika data berisi nilai-nilai yang salah atau anomali. Kondisi itu disebut juga outlier. Untuk mengatasi noisy data, ada beberapa teknik yang dapat dilakukan, diantaranya:
    • Binning, yaitu metode dengan membagi data ke beberapa partisi, kemudian partisi-partisi tersebut ditangani secara tersendiri. Kemudian, dari semua partisi data itu dicari nilai mean, median, atau nilai batas yang sudah ditentukan.
    • Regression, yaitu suatu metode dengan memprediksi nilai pada data menggunakan persamaan regresi linier. Metode ini dapat digunakan jika hanya ada satu atribut independen.
    • Clustering, yaitu suatu metode dengan membuat grup atau cluster dari data yang memiliki nilai serupa. Nilai-nilai yang tidak masuk ke cluster dapat dianggap sebagai noisy data dan dapat dihapus.
  • Inconsistent data, yaitu kondisi ketika nilai-nilai yang ada pada data tidak konsisten. Sama seperti mengatasi noisy data, metode binning, regression, dan clustering dapat diterapkan untuk mengatasi inconsistent data.

2. Data integration

Data integration atau integrasi data adalah tahap untuk menggabungkan data dari berbagai sumber menjadi satu kesatuan data yang lebih besar. Saat menggabungkan data tersebut, kamu harus mengecek dan memastikan bahwa data yang datang dari berbagai sumber itu punya format yang sama. Misalnya, ada data yang memuat tanggal, di dataset A, format penulisannya hari-bulan-tahun, tetapi di dataset B, penulisannya bulan-hari-tahun. Maka ketika kedua dataset digabungkan, harus diubah ke format yang sama.

Pada proses data integration ini kamu harus melakukan beberapa hal, yaitu:

  • Memastikan data memiliki format dan atribut yang sama.
  • Menghapus atribut yang tidak dibutuhkan dari semua sumber data.
  • Mendeteksi nilai data yang konflik.

Baca juga: Mengenal Gerbang Logika Mulai dari Pengertian, Fungsi, Jenis, beserta Simbolnya

3. Data transformation

Langkah berikutnya setelah melakukan data integration adalah data transformation. Langkah ini dilakukan agar data yang sudah terkumpul dari berbagai sumber tersebut menjadi seragam. Dalam data transformation, kamu bisa mengubah struktur data, format data, atau nilai data sedemikian rupa sehingga menghasilkan dataset yang sesuai untuk proses mining atau sesuai dengan algoritma yang sudah kamu rancang.

Langkah yang dapat dilakukan saat data transformation adalah sebagai berikut:

  • Agregation, yaitu langkah untuk menggabungkan semua data dalam format yang seragam.
  • Normalization, yaitu langkah untuk mengubah data ke dalam skala yang teratur, sehingga dapat membandingkannya dengan lebih akurat.
  • Feature selection, yaitu langkah untuk menentukan variabel apa saja yang paling penting untuk analisismu. Variabel ini yang nantinya digunakan untuk melatih model machine learning atau kecerdasan buatan.
  • Discreditization, yaitu langkah untuk mengumpulkan data ke dalam interval yang lebih kecil. Misalnya, saat menghitung latihan harian rata-rata, dibandingkan kamu menggunakan menit dan detik secara rinci, kamu bisa mengelompokkannya menjadi 0-15 menit, 15-30 menit, dan seterusnya.
  • Concept hierarchy generation, yaitu langkah untuk menambahkan hierarki baru di dalam dataset. Misalnya, di dalam dataset berisi ayam dan bebek, maka kamu bisa menambahkan hierarki baru untuk menggabungkan keduanya, yaitu unggas.

4. Data reduction

Langkah terakhir dalam data preprocessing adalah data reduction atau pengurangan data. Langkah ini bertujuan untuk mengurangi jumlah sampel data yang diambil. Namun, perlu diperhatikan juga kalau data yang kamu buang tidak akan mengubah hasil analisis data.

Misalnya, data yang kamu butuhkan adalah berupa teks dari ucapan manusia. Jika ucapan yang menjadi sampel datamu berlebihan, maka kamu bisa berfokus pada apa yang paling relevan untuk kebutuhanmu dan membuang sisanya.

Saat melakukan data reduction, ada 3 teknik yang bisa diterapkan, diantaranya:

  • Attribute selection, yaitu dengan mengombinasikan tag atau feature, sehingga data bisa lebih sederhana lagi. Misalnya, pada dataset ada tags laki-laki/perempuan dan professor. Kamu bisa menggabungkan kedua tags tersebut menjadi profesor laki-laki/profesor perempuan.
  • Numerosity selection, yaitu merepresentasikan data sebagai model atau persamaan seperti model regresi. Pemodelan ini akan menghemat beban penyimpanan data dan transmisi data.
  • Dimensionality reduction, yaitu teknik pengurangan jumlah fitur yang berulang pada dataset.

Baca juga: Apa Itu Database? Berikut Pengertian, Manfaat, Jenis, serta Fungsinya

Contoh data preprocessing


Untuk data yang sangat banyak, data preprocessing harus menggunakan teknik komputasi. (Sumber: Pexels)

Misalkan kamu punya sebuah dataset tentang pemain bola yang berisi 3 variabel, yaitu nama, umur, klub. Pada contoh pertama, kamu dapat melihat bahwa row 2 dan 3 ada kesalahan pada klub.

Nama Umur Klub
Cristiano Ronaldo 37 Manchester United
Lionel Messi 35 Barcelona
Aubameyang 33 Arsenal
Karim Benzema 34 Real Madrid

Untuk mengatasinya, kamu bisa menggunakan teknik data cleaning, yaitu dengan membuang data yang salah, sehingga dataset kamu sekarang adalah sebagai berikut.

Nama Umur Klub
Cristiano Ronaldo 37 Manchester United
Karim Benzema 34 Real Madrid

Namun, jika data dirasa terlalu sedikit, maka kamu bisa mengatasi data yang salah dengan melakukan data transformation. Pada kasus ini, kamu bisa mengubahnya secara manual. Sehingga dataset kamu sekarang adalah sebagai berikut.

Nama Umur Klub
Cristiano Ronaldo 37 Manchester United
Lionel Messi 35 PSG
Aubameyang 33 Barcelona
Karim Benzema 34 Real Madrid

Setelah datanya diperbaiki, kamu bisa melakukan data reduction dengan mengurutkan berdasarkan usia. Sehingga dataset kamu sekarang adalah sebagai berikut.

Nama Umur Klub
Cristiano Ronaldo 37 Manchester United
Lionel Messi 35 PSG
Karim Benzema 34 Real Madrid
Aubameyang 33 Barcelona

Dengan demikian, dataset kamu telah selesai melalui data preprocessing dan siap untuk diolah lebih lanjut. Jika data yang kamu miliki lebih besar lagi, tahap data preprocessing ini dapat dilakukan menggunakan teknik komputasi yang lebih canggih untuk memudahkan dan mempercepat proses pengerjaannya.

Baca juga: 7 Cara Efektif Belajar Data Science beserta Online Course Terbaiknya

Itulah pembahasan mengenai data preprocessing, dari mulai pengertian, manfaat, langkah-langkah melakukannya, hingga contoh melakukan data preprocessing. Jika kamu berminat menjadi seorang data analyst atau data scientist, maka kamu harus akrab dengan data preprocessing ini, karena akan menjadi bagian dari pekerjaanmu.

Selain itu, jika kamu sedang mencari pekerjaan sebagai data analyst atau data scientist, kamu bisa mendapatkannya di EKRUT. Cukup dengan registrasi dan melengkapi profilmu, kamu bisa mendapatkan pekerjaan, bahkan tanpa apply ke perusahaan-perusahaan, lho! Jadi, sign up EKRUT sekarang juga!

Sumber:

  • algorit.ma
  • v7labs.com
  • techtarget.com
  • monkeylearn.com
0

Tags

Share

Apakah Kamu Sedang Mencari Pekerjaan?

    Already have an account? Login

    Artikel Terkait

    cover_(2).jpg

    Technology

    30 Contoh Slogan Unik dan Menarik Serta Cara Membuatnya

    Detty Risetya

    13 February 2023
    4 min read
    H1_jadwal_fyp_tiktok.jpg

    Technology

    Jadwal FYP TikTok 2022: Jam Terbaik untuk Upload Video

    Nurina Ulfah

    16 January 2023
    5 min read
    0-cara-cek-nomor-indosat.jpg

    Technology

    5 Cara Cek Nomor Indosat dengan Mudah dan Cepat 2022

    Arin Khurota

    19 December 2022
    5 min read

    Video