Apa itu Data Set?
Data set, kadang juga ditulis sebagai dataset, adalah kumpulan data terkait yang biasanya disusun dalam format standar. Data set digunakan untuk analisis, business intelligence, pelatihan model kecerdasan buatan (AI), dan berbagai keperluan lainnya. Ukuran dan jenis data dalam data set bisa sangat bervariasi. Misalnya, data set bisa berisi informasi tentang spesies pohon, suhu laut, total penjualan regional, harga buah, pemenang lotre, penyakit, atau hampir semua jenis data lainnya.
Meskipun formatnya berbeda-beda, organisasi data dalam data set umumnya dapat dikonsepkan sebagai kolom dan baris, seperti dalam spreadsheet atau tabel database. Setiap kolom mewakili sebuah variabel yang mendeskripsikan data, sementara setiap baris adalah satu catatan yang berisi serangkaian nilai variabel yang saling berhubungan. Nilai dalam sebuah data set kadang disebut sebagai datum atau data point.
Banyak data set yang tersedia secara gratis di internet. Data set ini dapat digunakan untuk mengembangkan dan menguji aplikasi, melatih model AI, melakukan analisis, atau proyek lainnya. Misalnya, gambar di bawah menunjukkan data set kualitas udara dari Data.gov, yang menyediakan berbagai data set gratis. Data set ini berisi data pemantauan kualitas udara di Kota New York.

Pada gambar tersebut, data set kualitas udara ditampilkan dalam spreadsheet Microsoft Excel. Namun, data aslinya berasal dari file format CSV (comma-separated values) yang diunduh dari Data.gov. Data set ini mencakup kolom seperti Unique ID, Geo Place Name, dan Time Period, yang merupakan beberapa variabel dalam data set tersebut.
Setiap baris dalam data set mewakili satu pengukuran kualitas udara yang spesifik untuk tempat dan waktu tertentu. Artinya, setiap baris adalah catatan dari suatu pengukuran kualitas udara. Catatan ini terdiri dari serangkaian nilai yang saling terkait, di mana setiap nilai sesuai dengan sebuah kolom atau variabel. Misalnya, nilai dalam kolom Start_Date untuk catatan pertama adalah 12/1/2010.
Data Set vs. Database
Istilah data set sering kali disamakan dengan database, tetapi keduanya memiliki makna yang berbeda. Database digunakan untuk menyimpan dan mengelola data. Database merupakan bagian dari platform manajemen yang lebih besar, mencakup fitur untuk mengamankan, mengakses, memperbarui, serta mengelola dan melindungi data. Sementara itu, data set hanyalah sebuah file atau struktur lain yang berisi nilai data dalam format tertentu. Database bisa saja berisi data dari satu atau lebih data set, tetapi keduanya tidaklah sama.
Format Data Set
Data set tersedia dalam berbagai format, seperti JavaScript Object Notation (JSON) dan Extensible Markup Language (XML). Format-format ini menyediakan struktur standar untuk berbagi data di berbagai platform dan aplikasi. Biasanya, data dalam format ini ditulis dalam teks biasa sehingga mudah difilter, diperbarui, dan dimodifikasi sesuai kebutuhan.
Beberapa data set tersedia dalam lebih dari satu format. Misalnya, data kualitas udara bisa diunduh dari Data.gov dalam format CSV, JSON, XML, atau Resource Description Framework (RDF). Jika data set tersedia dalam berbagai format, setiap file diharapkan berisi kumpulan data yang sama, hanya saja formatnya disesuaikan dengan standar yang berlaku.
Contoh sederhana bisa dilihat dengan menampilkan satu rekaman data kualitas udara dalam empat format berikut:
Rekaman CSV:
172653,375,Nitrogen dioxide (NO2),Mean,ppb,UHF34,203,Bedford Stuyvesant โ Crown Heights,Annual Average 2011,12/01/2010,25.3
Rekaman JSON:
[ "row-frzi_7bar_4cbg", "00000000-0000-0000-AF08-C339B5581012", 0, 1698955938, null, 1698955938, null, "{ }", "172653", "375", "Nitrogen dioxide (NO2)", "Mean", "ppb", "UHF34", "203", "Bedford Stuyvesant โ Crown Heights", "Annual Average 2011", "2010-12-01T00:00:00", "25.30", null ]
Rekaman XML:
<row _id="row-frzi_7bar_4cbg" _uuid="00000000-0000-0000-AF08-C339B5581012" _position="0" _address="https://data.cityofnewyork.us/resource/c3uy-2p5r/172653"> <unique_id>172653</unique_id> <indicator_id>375</indicator_id> <name>Nitrogen dioxide (NO2)</name> <measure>Mean</measure> <measure_info>ppb</measure_info> <geo_type_name>UHF34</geo_type_name> <geo_join_id>203</geo_join_id> <geo_place_name>Bedford Stuyvesant โ Crown Heights</geo_place_name> <time_period>Annual Average 2011</time_period> <start_date>2010-12-01T00:00:00</start_date> <data_value>25.30</data_value> </row>
Rekaman RDF:
<rdf:Description rdf:about="https://data.cityofnewyork.us/resource/c3uy-2p5r/172653">
Setiap format menyajikan informasi yang sama tetapi dalam cara yang berbeda. Ketika sebuah data set tersedia dalam beberapa format, data scientist dan pengguna lainnya bisa memilih format yang paling sesuai dengan kebutuhan proyek atau lingkungan mereka. Karena format ini sudah terstandarisasi, pengguna dapat dengan mudah memuat data ke dalam sistem yang mendukung format tersebut, memungkinkan manipulasi dan analisis data secara lebih efisien.
Jenis-Jenis Data Set
Data set dapat dikategorikan berdasarkan berbagai cara. Salah satu pendekatan yang umum digunakan dalam statistik adalah membaginya ke dalam kategori berikut:
- Numerik: Berisi hanya angka dan digunakan dalam berbagai analisis, seperti penjualan pelanggan atau data cuaca.
- Bivariat: Berisi dua variabel yang memiliki hubungan, misalnya data suhu dan waktu.
- Multivariat: Berisi tiga atau lebih variabel yang saling terkait, seperti warna, ukuran, dan berat suatu produk.
- Kategorikal: Mengelompokkan data berdasarkan atribut spesifik, seperti warna rambut atau ukuran baju.
- Koorelasi: Mengandung variabel yang saling bergantung, misalnya hubungan antara suhu luar ruangan dan penjualan es krim.
Bekerja dengan Data Numerik
Dalam statistik dan analitik, data numerik dalam data set sering dikarakterisasi berdasarkan ukuran tertentu, seperti:
- Mean: Rata-rata dari semua nilai dalam data set.
- Median: Nilai tengah dalam data set setelah diurutkan.
- Mode: Nilai yang paling sering muncul.
- Range: Selisih antara nilai tertinggi dan terendah.
- Minimum: Nilai terendah dalam data set.
- Maksimum: Nilai tertinggi dalam data set.
- Sum: Total dari semua nilai dalam data set.
- Count: Jumlah total nilai dalam data set.