Empat Sumber Dataset untuk Belajar dan Penelitian Bidang Data Mining

Dataset adalah istilah informal yang merujuk pada kumpulan data. Secara umum, dataset berisi lebih dari satu variabel dan menyangkut suatu topik tertentu. Dataset juga dikatakan sebuah kumpulan data yang berasal dari informasi-informasi pada masa lalu dan siap untuk dikelola menjadi sebuah informasi baru.

Dataset terdiri dari dua jenis, yaitu Private Dataset dan Public Dataset. Private dataset adalah dataset yang dapat diambil dari sebuah organisasi yang akan dilakukan sebagai objek penelitian, seperti data bank, rumah sakit, sekolah, universitas, perusahaan, dan lain sebagainya. Sedangkan Public dataset adalah dataset yang bisa diambil dari repository publik yang disepakati oleh pakar peneliti data mining. Dataset bertujuan untuk menguji suatu metode penelitian yang dikembangkan oleh para pakar peneliti dengan public dataset maupun private dataset.

Saat ini, dataset yang banyak digunakan untuk penelitian data mining adalah menguji metode yang dikembangkan oleh pakar peneliti dengan public dataset, sehingga penelitian dapat bersifat comparable (dapat dibandingkan), repeatable (dapat diulang), dan verifiable (dapat diverifikasi).

Beberapa dataset dengan jenis Public Dataset yang sering digunakan oleh peneliti data mining adalah:

  • Kaggle

Kaggle adalah salah satu situs web pembelajaran yang terkenal di dunia untuk Data Science dan Machine Learning. Situs ini terdiri dari lebih dari 6000 set data yang dapat diunduh dalam format CSV. Set data ini banyak membantu ilmuwan di seluruh dunia untuk membuat model. Kaggle bukan hanya kumpulan dataset tetapi terdiri dari komunitas ilmuwan data terbesar. Ada pula kompetisi yang membantu para ilmuwan data pemula untuk menunjukkan keahlian mereka. Untuk download data pada kaggle dapat mengunjungi https://www.kaggle.com/

  • UCI Machine Learning Repository

UCI Machine Learning Repository adalah pusat set data yang tersedia untuk diunduh secara gratis. Terdapat 427 set data di situs ini sebagai layanan untuk komunitas Machine Learning. Set data di repositori ini sangat teratur dan dapat difilter untuk mencari kumpulan data yang diinginkan. Untuk download data pada UCI MLR dapat mengunjungi https://archive.ics.uci.edu/ml/index.php

  • data.gov

data.gov adalah pusat data terbuka Pemerintah AS yang terdiri terdiri dari berbagai kategori kumpulan data dan topik yang berbeda seperti Pertanian, Iklim, Konsumen, Ekosistem, Pendidikan, Energi, Keuangan, Sains, dan Penelitian. data.gov dikelola dan diselenggarakan oleh Administrasi Layanan Umum AS. Untuk download data pada data.gov dapat mengunjungi https://data.gov/

  • Zdataset

Zdataset juga merupakan kumpulan dataset dari berbagai jenis dan negara seperti UCI Machine Learning. Dataset ini dibandingkan dengan kumpulan data yang lain lebih banyak menyimpan data-data dengan kapasitas besar, baik data dalam bentuk text, gambar mapun video. Untuk download data pada Zdataset dapat mengunjungi https://zdataset.com/

Untuk Belajar Preprocessing Data Menggunakan Machine Learning: https://www.youtube.com/watch?v=E4daxdIyCWI&t=579s

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *