Part 03: Data dan Model Statistika

Materi Pertemuan 3

Tinjauan Multi Dimensi

  • Database/ dataset yang akan digali
  • Pengetahuan yang akan dicari
  • Teknik yang digunakan
  • Aplikasi atau tools yang digunakan
  • Hasil yang diperoleh
  • Analisis dari hasil yang dicapai

Persepsi dan Konotasi Data

Ketika dihadapkan dengan sebuah masalah, maka kebanyakan dari kita ingin merubah data menjadi informasi, lalu menjadi pengetahuan atau kebijakan, dan kemudian mengambil suatu manfaat (baru) darinya.

Sumber Data

Data Primer

  • Data dapat bersumber dari sang peneliti langsung lewat eksperimen, sensor, observasi langsung, atau survey.

Data Skunder

  • Data juga dapat berasal repository data (database/data warehouse)  atau data dari penelitian sebelumnya, data yang tidak diambil langsung oleh penelitinya.

Data Terstruktur

  • Data yang biasanya kita ketahui berbentuk tabular (tabel/ kolom-baris/ matriks/ array/ larik), data seperti ini disebut data terstruktur (structured data).
  • Data terstruktur dapat disimpan dengan baik di spreadsheet(misal: Excel) atau basis data (database) relasional dan secara umum dapat digunakan langsung oleh berbagai model/ toolsstatistik/ data mining konvensional.

Data Tidak Terstruktur

  • Data tidak terstruktur adalah data yang tidak mudah diklasifikasi dan dimasukan kedalam sebuah kotak dengan rapi.
  • Contohnya adalah foto, gambar grafis, streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog, Sosial Media, dokumen al-qur’an, youtube dll

Data Transaksi

  • Pada toko grosir, sekumpulan produk yang dibeli oleh seorang pelanggan selama satu kali perjalanan belanja merupakan sebuah transaksi, dengakan produk individual yang dibeli merupakan item.
  • Setiap baris menyatakan pembelian dari seorang pelanggan pada waktu tertentu.

Waktu/ Time Series/ Runtun Waktu

  • Data dimasa depan lebih banyak (dominan) hanya dipengaruhi dari nilai-nilainya di masa lalu, disebut model runtun waktu Univariate (satu peubah/ variabel
  • Bila satu atau beberapa peubah yang bergantung waktu dipengaruhi juga oleh variable lain selain nilai-nilainya di masa lalu, disebut model runtun waktu Multivariate (peubah ganda).

Tiga Permasalahan Kualitas Data

  • Noise & Outliers, merupakan permasalahan data dimana terdapat data yang memiliki perbedaan yang sangan besar dengan data-data lain yang ada pada kumpulan data. Hal ini mengakibatkan terjadi persebaran data yang tidak seimbang
  • Missing Values, data yang hilang/ kosong/ null terjadi ketika proses pengukuran/ pencatatan terdapat data yang memang tidak bisa didapatkan.
  • Duplicate data, data yang terduplikasi atau ganda

Download Full Materi

Lihat Video: https://www.youtube.com/watch?v=6CEOwDKO-2E&t=183s

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *