Tuesday, January 4, 2011

Arti Data Mining, Definisi Data Mining, Metodologi Data Mining

BAB 1

PENDAHULUAN



1.1 Latar Belakang

Tahun 90-an telah melahirkan “gunungan” data di bidang ilmu pengetahuan, bisnis dan pemerintah. Kemampuan teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan untuk menganalisis, meringkas dan mengekstraksi “pengetahuan” dari data. Metodologi tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar.

Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu data mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaanperusahaan untuk memecahkan berbagai permasalahan bisnis. Makalah ini akan membahas kebutuhan bisnis, solusi yang dipikirkan para pelaku bisnis, pemanfaatan, cara kerja tugas dan metodologi-metodologi populer pada data mining.

2.1 Maksud Dan Tujuan



1. Untuk dapat memahami konsep data mining dan memahami bagaimana data mining dapat diaplikasikan untuk mengatasi berbagai persoalan nyata.
2. Untuk dapat menganalisis, meringkas, mengekstrasi pengetahuan dari data dengan cepat.
3. Untuk dapat mengaplikasikan teknik – teknik berbasis statistic dan non statistic untuk mengevaluasi hasil – hasil sesi data mining.
4. Untuk dapat memahami beberapa teknik data mining dan mengatahui kapan masing – masing teknik harus digunakan.





BAB 2

PEMBAHASAN



2.1 Data Mining

Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar.

Selain itu juga ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining. Diantaranya adalah :

* Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.

* Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :

1. data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
2. objek dari data mining adalah data yang berjumlah besar atau kompleks
3. tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat

Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

Data Mining merupakan teknologi baru yang sangat berguna untuk membantu perusahaan-perusahaan menemukan informasi yang sangat penting dari gudang data mereka.

Kakas data mining meramalkan tren dan sifat-sifat perilaku bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan.

Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan cara tradisional memerlukan banyak waktu untuk menjawabnya. Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

2.2 Tugas Data Mining

Tugas Utama Data Mining Telah disebutkan di ruang lingkup data mining bahwa pada kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini.

Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini. Pada setiap tugas akan diberikan pointer ke masalah bisnis yang dapat diselesaikan (yang telah dibahas pada butir 3). Gambar-gambar yang ada dimisalkan menunjukkan hubungan antara penghasilan pengecer dan kekurangan pembayaran yang ditanggung oleh distributor (pemasok barang).

a) Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsure (item) data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Gambar menunjukkan pembagian sederhana pada data peminjaman menjadi dua ruang kelas (punya dan tidak punya peminjaman). Pada gambar tersebut x merepresentasikan peminjaman yang bermasalah dan o peminjaman yang pengembaliannya lancar. (Sebagai solusi 3.e, 3.d dan 3.g).

b) Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.

c) Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasu yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).

Di sini, cluster – cluster dapat saling menumpu, sehingga titik-titik data dapat menjadi anggota lebih dari satu cluster. (Label x dan o pada gambar sebelumnya diubah menjadi + untuk mengindikasikan bahwa keanggotaan kelas diasumsikan belum diketahui).

d) Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.

e) Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat structural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik.

f) Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.

2.2.1 Ruang Lingkup Data Mining



Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut:

2.2.2 Mengotomatisasi prediksi tren dan sifat-sifat bisnis.



Data mining mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar. Pertanyaanpertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan dan bentukbentuk kerugian lainnya.



2.2.3 Cara Kerja Data Mining



Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya

3

Metode dalam data miningBahasan Teknis Data Mining

Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.

1. Aturan dan Pohon Keputusan

Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana.. Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model. Memberikan ilustrasi mengenai efek penerapan pemisahan, yang didasarkan pada nilai ambang tertentu, pada variable penghasilan (income) di himpunan data peminjaman: sangat jelas terlihat bahwa penerapan pemisahan nilai ambang sederhana sangat membatasi tipe batas (boundary) klasifikasi yang dapat dihasilkan.

Jika ruang model dilebarkan untuk memfasilitasi ekspresi-ekspresi yang lebih umum (misalnya multivariate hyperplanes pada berbagai sudut), maka model ini menjadi lebih canggih untuk prediksi. Hanya saja, mungkin akan lebih sulit untuk dipahami pemakai.

Metodologi ini terutama digunakan untuk pemodelan prediksi, keduanya untuk klasifikasi dan regresi4. Selain itu, dapat digunakan juga untuk pemodelan deskripsi ringkasan.

b. Metodologi Klasifikasi dan Regresi

Non-linier Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi kombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan non-linier pada fungsi-fungsi dasar (sigmoid, splines, polinomial). Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit. menunjukkan tipe boundary keputusan non-linier yang mungkin dihasilkan oleh jaringan saraf . Metodologi regresi non-linier, walaupun canggih dalam representasinya, mungkin sulit untuk diinterpretasikan

Contoh boundary klasifikasi yang “dipelajari” pengklasifikasi non-linier4

c. Metodologi Berbasis-sampel

Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basisdata untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang prediksinya sudah diketahui. Teknik ini misalnya adalah klasifikasi tetangga terdekat, algoritma regresi dan system reasoning berbasis-kasus. Gambar 6 menunjukkan hasil dari klasifikasi tetangga terdekat pada himpunan data peminjaman: kelas pada setiap titik di dalam ruang 2-dimensi sama dengan kelas dari titik terdekat di dalam himpunan data yang ditelaah dan orisinil.

Boundary klasifikasi untuk pengklasifikasi tetangga-terdekat

pada himpunan data peminjaman4.

Kekurangan pada metodologi berbasis sampel (misalnya jika dibandingkan dengan berbasis-pohon) adalah dibutuhkannya metrik jarak yang akurat untuk mengevaluasi jarak antara titik-titik data.

d. Model Kebergantungan Grafik Probabilistik

Model grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik.

Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain. Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan. Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter-parameter pada model grafik “dipelajari” secara langsung dari basis data.

e. Model Belajar Relasional

Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu. Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik.

BAB 3

PENUTUP

3.1 Kesimpulan



Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka. Akan tetapi, agar teknologi data mining dan KDD ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat. Penyempurnaan di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.

No comments:

Post a Comment