Mengenal Lebih Dekat Tentang Big Data

bigdata security

Perkembangan teknologi informasi yang semakin pesat telah menyebabkan aktivitas manusia tidak terlepas dari data. Setiap individu dapat membuat data dan mengirimkannya setiap detiknya. Hal ini menyebabkan data di jaringan bertambah secara massive (besar-besaran). Pertambahan data yang massive tersebut didominasi oleh data tidak terstruktur seperti teks, citra, audio, video, email, slide persentasi, animasi, dll. Data ini berasal dari berbagai macam sumber, misalnya dari jejaring sosial dan situs-situs portal berita. Bahkan penggunaan perangkat genggam untuk berkomunikasi sehari-hari membuat trafik data semakin membengkak. Tidak dapat dipungkiri lagi bahwa penyimpanan sebesar petabyte bahkan exabyte kerapkali dijumpai.

Apa Itu Big Data ?

Jika diartikan langsung, big data adalah volume data yang besar, baik data yang terstruktur maupun data yang tidak terstruktur.

Dalam pengertian teknis, big data didefinisikan sebagai sebuah problem yang terjadi ketika teknologi tradisional seperti relasional database tidak mampu untuk memberikan layanan. Big data mempunyai tiga karakteristik yaitu volume, velositas, dan variasi datanya. Peningkatan volume, velositas, dan variasi data diakibatkan oleh adopsi internet. Selain itu, peningkatan tersebut juga diakibatkan oleh penggunaan perangkat genggam untuk berkomunikasi sehari-hari. Setiap individu memproduksi konten atau paling tidak meninggalkan sidik jari digital yang berpotensi digunakan untuk hal-hal baru.

Beberapa prinsip dari big data adalah tidak membuang data apapun karena residu tersebut mungkin akan menjadi penting sejalannya waktu. Sedangkan untuk menghadapi variasi data yang tinggi, big data menciptakan struktur melalui ekstraksi, transformasi, tanpa harus membuang data mentah yang dimiliki.

Sejumlah data atau informasi dikatakan big data apabila memenuhi tiga karakteristik, antara lain :

1. Volume
Ciri ini menandakan bahwa ukuran dan kapasitas data tersebut besar dan memungkinkan selalu bertambah seiring dengan pertambahan waktu. Dengan data yang semakin besar merupakan tantangan bagi media penyimpanan.

2. Velocity
Pengolahan data maupun pemrosesan informasi memerlukan kecepatan (real time
processing).

3. Variety
Data atau informasi bervariasi jenisnya baik data terstruktur maupun tidak terstruktur. Data terstruktur adalah data yang mudah dianalisa menggunakan database relasional. Sedang data tidak terstruktur tidak bisa diolah menggunakan database relasional. Big data didominasi oleh data tidak terstruktur.

Mengenal Data Tidak Terstruktur

Salah satu tantangan dalam pengolahan big data adalah data tidak terstruktur dimana tidak memiliki hirarki relasional dan tidak cocok dengan database tradisional seperti Relational Database Management System (RDBMS). Beberapa karakteristik dari data tidak terstruktur, antara lain sebagai berikut :
  • Berisikan obyek atau dokumen baik ukuran maupun tipe datanya bebas.
  • Tidak terorganisir.
  • Organisasi dan informasi tidak konsisten.
  • Berisikan teks, image, audio, video, email dan persentasi powerpoint.
  • Data yang ditampilkan pada halaman web.
Optimasi Mesin Pencari (Search Engine Optimization)

Sejalan dengan adanya fenomena big data yang didominasi data tidak terstruktur, maka diperlukan sebuah teknik pencarian informasi (information retrieval) yang efisien. Teknik tersebut dinamakan dengan optimasi mesin pencari (search engine optimization).

Optimasi mesin pencari mengacu pada peningkatan kinerja mesin pencari dalam hal akurasi dan kecepatan. Tujuan dari optimasi mesin pencari adalah menempatkan sebuah situs web pada posisi teratas, atau setidaknya halaman pertama hasil pencarian berdasarkan kata kunci tertentu yang ditargetkan. Secara logis, situs web yang menempati posisi teratas pada hasil pencarian memiliki peluang lebih besar untuk mendapatkan pengunjung.

Mesin pencari telah menjadi bagian yang paling dominan dalam hidup pengguna internet. Dengan makin berkembangnya pemanfaatan jaringan internet sebagai media bisnis, kebutuhan akan optimasi mesin pencari (search engine optimization) juga semakin meningkat. Berada pada posisi teratas hasil pencarian akan meningkatkan peluang sebuah perusahaan pemasaran berbasis web untuk mendapatkan pelanggan baru. Peluang ini dimanfaatkan sejumlah pihak untuk menawarkan jasa optimasi mesin pencari bagi perusahaan-perusahaan yang memiliki basis usaha di internet.

Temu Kembali Informasi (Information Retrieval)

Temu kembali informasi merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.

Berdasarkan referensi dijelaskan bahwa temu kembali informasi (information retrieval) merupakan suatu pencarian informasi yang didasarkan pada suatu kata kunci yang diharapkan dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Selain itu referensi lain menyebutkan bahwa temu kembali informasi merupakan studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.

Informasi atau data yang dicari dapat berupa berupa teks, image, audio, video dan lain-lain. Koleksi data teks yang dapat dijadikan sumber pencarian juga dapat berupa pesan teks, seperti e-mail, fax, dan dokumen berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi yang besar sebagai sumber pencarian, maka dibutuhkan suatu sistem yang dapat membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan tepat.

Text Mining

Definisi dari text mining sudah sering diberikan oleh banyak ahli riset dan praktisi. Seperti halnya data mining, text mining adalah proses penemuan akan informasi yang sebelumnya tidak terungkap dengan memproses dan menganalisa data dalam jumlah besar.

Dalam menganalisa sebagian atau keseluruhan data teks tidak terstruktur, text mining mencoba untuk mengasosiasikan satu bagian teks dengan yang lainnya berdasarkan aturan-aturan tertentu. Hasil yang
diharapkan adalah informasi baru yang tidak terungkap jelas sebelumnya.

Seperti halnya data mining, text mining juga menghadapi masalah yang sama, termasuk jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah. Berbeda dengan data mining yang utamanya memproses data terstruktur, data yang digunakan text mining pada umumnya dalam bentuk tidak terstruktur. Akibatnya, text mining mempunyai tantangan tambahan yang tidak ditemui di data mining, seperti struktur teks yang kompleks dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat.

Dikarenakan struktur data ditujukan agar mudah di proses komputer secara otomatis, preprocessing data di data mining jauh lebih mudah dilakukan daripada di text mining. Teks diciptakan bukan untuk digunakan oleh mesin, tapi untuk dikonsumsi manusia langsung. Text mining telah mengadopsi teknik yang digunakan di bidang natural language processing dan computational linguistics. Walaupun teknik di computational linguistics bisa dibilang maju dan cukup akurat untuk mengekstrak informasi, tujuan text mining bukan hanya mengekstrak informasi. Melainkan untuk menemukan pola dan informasi baru yang belum terungkap.

Mengenal Metode Klasterisasi

Klaster adalah suatu kumpulan objek atau data yg mimiliki kesamaan diantara mereka dan data yg tidak mmiliki kesamaan dimasukkan kedalam klaster lain.

Sedangkan klasterisasi proses pengelompokan objek atau data kedalam grup yang anggotanya memiliki kesamaan tertentu. Klasterisasi merupakan metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode data mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu wilayah yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain.

Note : Tulisan diringkas dari jurnalnya Imam Marzuki dengan judul : "Temu Kembali Informasi Big Data Menggunakan K-Means Clustering".

Terimakasih telah membaca artikel ini, semoga bermamfaat. Komentar yang membangun dan bersifat positif anda sangat diharapkan.