PEMBAHASAN
A. Pengertian dan Sejarah RapidMiner
RapidMiner adalah platform perangkat lunak ilmu data yang dikembangkan oleh perusahaan bernama sama
dengan yang menyediakan lingkungan terintegrasi untuk persiapan data, pembelajaran mesin, pembelajaran dalam, penambangan
teks, dan analisis prediktif. Hal ini digunakan untuk
bisnis dan komersial, juga untuk penelitian, pendidikan, pelatihan, rapid
prototyping, dan pengembangan aplikasi serta mendukung semua langkah dalam
proses pembelajaran mesin termasuk persiapan data, hasil visualisasi, validasi model, dan optimasi.[1] RapidMiner
dikembangkan pada model inti terbuka. Dengan RapidMiner Studio Free Edition,
yang terbatas untuk 1 prosesor logika dan 10.000 baris data, tersedia di bawah
lisensi AGPL.[2] Harga
komersial dimulai dari $2.500 dan tersedia dari pengembang.
RapidMiner sebelumnya
dikenal sebagai YALE (Yet Another Learning Environment), mulai
dikembangkan pada tahun 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon
Fischer dari Unit Kecerdasan Buatan Universitas Teknik Dortmund.[3] Mulai
tahun 2006, perkembangannya didorong oleh Rapid-I, sebuah perusahaan yang
didirikan oleh Ingo Mierswa dan Ralf Klinkenberg pada tahun yang sama.[4] Pada
tahun 2007, nama perangkat lunak itu berubah dari YALE menjadi RapidMiner. Pada
tahun 2013, perusahaan melakukan rebranding dari Rapid-I
menjadi RapidMiner.[5]
RapidMiner merupakan sebuah perangkat lunak untuk melakukan
analisis terhadap data mining, text mining dan analisis prediksi.RapidMiner menggunakan
berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada
pengguna sehingga dapat membuat keputusan yang paling baik.RapidMiner memiliki
kurang lebih 500 operator data mining, termasuk operator untuk input, output,
data preprocessing dan visualisasi.
1. Beberapa sifat RapidMiner
·
Ditulis dengan bahasa
pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.
·
Proses penemuan
pengetahuan dimodelkan sebagai operator trees
·
Representasi XML
internal untuk memastikan format standar pertukaran data.
·
Bahasa scripting
memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen.
·
Konsep multi-layer untuk menjamin tampilan data yang
efisien dan menjamin penanganan data.
·
Memiliki GUI, command
line mode, dan Java API yang dapat dipanggil dari program lain.
2. Beberapa Fitur RapidMiner
·
Banyaknya algoritma
data mining, seperti decision treee dan self-organization map.
·
Bentuk grafis yang
canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter
plots.
·
Banyaknya variasi
plugin, seperti text plugin untuk melakukan analisis teks.
·
Menyediakan prosedur
data mining dan machine learning termasuk: ETL (extraction, transformation,
loading), data preprocessing, visualisasi, modelling dan evaluasi
·
Proses data mining
tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan
dibuat dengan GUI
·
Mengintegrasikan proyek data mining Weka dan
statistika
3. Sistem Operasi yang dibutuhkan software
RapidMiner
·
Microsoft Windows
(x86-32) à Windows XP, Windows Server 2003, Windows Vista, Windows Server 2008,
Windows 7
·
Microsoft Windows
(x64) à Windows XP untuk x64, Windows Server 2003 untuk x64, Windows Vista
untuk x64, Windows Server 2008 untuk x64, Windows 7 untuk x64
·
Unix sistem 32 atau
64 bit
·
Linux sistem 32 atau
64 bit
·
Apple Macintosh
sistem 32 atau 64 bit
B. Instalasi RapidMiner
2. Untuk memulai instalasi software RapidMiner pada
sistem operasi Microsoft Windows, jalankan file installer RapidMiner-5.3.000x32-install.exe
C. Pengenalan Interface
Ø
Tampilan pada
RapidMiner dikenal dengan istilah Perspective.
Ø
Pada RapidMiner
terdapat 3 Perspective, yaitu;
a.
Welcome Perspective
b.
Design Perspective
c.
Result Perspective
a. Welcome Perspective
Ø
Perspectives : terdiri
dari ikon-ikon untuk menampilkan perspective dari RapidMiner.
Ø
News : menampilkan
berita terbaru mengenai RapidMiner (Jika komputer Anda terhubung dengan
internet)
Ø
Last
Processes : menampilkan daftar proses analisis yang baru saja
dilakukan
Ø
Actions : menunjukkan daftar aksi yang dapat Anda lakukan
setelah membuka RapidMiner
Actions
1. New :
Aksi ini berguna ntuk memulai proses analis baru. Untuk memulai proses
analisis, pertama-tama Anda harus menentukan nama dan lokasi proses dan Data
Repository. Setelah itu, Anda bisa mulai merancang sebuah analisis baru.
2. Open Recent Process : Aksi ini berguna untuk membuka proses yang baru saja
ditutup. Selain aksi ini, Anda juga bisa membuka proses yang baru ditutup
dengan mengklik dua kali salah satu daftar yang ada pada Recent Process.
Kemudian tampilan Welcome Perspective akan otomotasi beralih ke Design
Perspective.
3. Open Process : Aksi ini untuk membuka Repository Browser yang
berisi daftar proses. Anda juga bisa memilih proses untuk dibuka pada Design
Perspective.
4. Open Template : Aksi ini menunjukkan pilihan lain yang sudah
ditentukan oleh proses analisis.
5. Online Tutorial : Aksi digunakan untuk memulai tutorial secara online (terhubung
internet). Tutorial yang dapat secara langsung digunakan dengan RapidMiner ini,
memberikan perkanalan dan beberapa konsep data mining. Hal ini direkomendasikan
untuk Anda yang sudah memiliki pengetahuan dasar mengenai data mining dan sudah
akrab dengan operasi dasar RapidMiner.
Wellcome View
Ø
Close : Aksi ini untuk menutup view yang ditampilkan pada
perspective. Anda bisa menampilkan view kembali dengan mengklik menu view dan
memilih view yang ingin ditampilkan.
Ø
Maximize : Aksi ini untuk memperbesar ukuran view pada
perspective.
Ø
Minimize : Aksi ini untuk memperkecil ukuran view pada
perspective.
Ø
Detach : Aksi ini untuk melepaskan view dari perspective
menjadi jendela terpisah, kemudian Anda juga dapat memindahkannya sesuai dengan
keinginan Anda.
b. Design Perspective
Design
Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective
ini merupakan perspective utama dari RapidMiner yang digunakan sebagai area
kerja untuk membuat dan mengelola proses analisis.
Nb
: Anda bisa mengganti perspective dengan mengklik menu view, kemudian pilih
perspective, lalu pilih perspective yang ingin Anda tampilkan, atau dengan
memilih icon perspektif yang terdapat pada menu utama
a) Design Perspective - Operator View
Semua operator atau
langkah kerja dari RapidMiner disajikan dalam bentuk kelompok hierarki di
Operator View, sehingga operator-operator tersebut dapat digunakan pada proses
analisis
Ø
Process Control : Operator ini terdiri dari operator perulangan dan
percabangan yang dapat mengatur aliran proses.
Ø
Utility : Operator bantuan, seperti operator macros, loggin,
subproses, dan lain-lain.
Ø
Repository Access :
Kelompok ini terdiri dari operator-operator yang dapat digunakan untuk membaca
atau menulis akses pada repository.
Ø
Import : Kelompok ini terdiri dari banyak operator yang dapat
digunakan untuk membaca data dan objek dari format tertentu seperti file,
database, dan lain-lain.
Ø
Export : Kelompok ini terdiri dari banyak operator yang dapat
digunakan untuk menulis data dan objek menjadi format tertentu.
Ø
Data
Transformation : kelompok ini
terdiri dari semua operator yang berguna untuk transformasi data dan meta data.
Ø
Modeling : kolompok ini berisi proses data mining untuk
menerapkan model yang dihasilkan menjadi set data yang baru.
Ø
Evaluation : kelompok ini berisi operator yang dapat digunakan
untuk menghitung kualitas pemodelan dan untuk data baru.
b) Design Perspective – Repository View
View ini dapat Anda
gunakan untuk mengelola dan menata proses Analisis Anda menjadi proyek dan pada
saat yang sama juga dapat digunakan sebagai sumber data dan yang berkaitan
dengan meta data.
c) Design Perspective – ProcessView
Process View
menunjukkan langkah-langkah tertentu dalam proses analisis dan sebagai
penghubung langkah-langkah tersebut.
Pada dasarnya bekerja
dengan RapidMiner ialah mendefinisikan proses analisis, yaitu dengan
menunjukkan serangkaian langkah kerja tertentu. Dalam RapidMiner, komponen
proses ini dinamakan sebagai operator.
Operator pada RapidMiner didefinisikan sebagai
berikut:
• Deskripsi dari
input yang diharapkan.
• Deskripsi dari
output yang disediakan.
• Tindakan yang
dilakukan oleh operator pada input, yang akhirnya mengarah dengan penyediaan
output.
Sejumlah parameter yang dapat
mengontrol action performed.
d)Design Perspective – Parameter View
Beberapa operator
dalam RapidMiner membutuhkan satu atau lebih parameter agar dapat diindikasikan
sebagai fungsionalitas yang benar. Namun terkadang parameter tidak mutlak
dibutuhkan, meskipun eksekusi operator dapat dikendalikan dengan menunjukkan
nilai parameter tertentu.
Huruf tebal berarti
bahwa parameter mutlak harus didefinisikan oleh analis dan tidak memiliki nilai
default. Sedangkan huruf miring berarti bahwa parameter diklasifikasikan
sebagai parameter ahli dan seharusnya tidak harus diubah oleh pemula untuk
analisis data.
Poin pentingnya ialah
beberapa parameter hanya ditunjukkan ketika parameter lain memiliki nilai
tertentu.
e) Design Perspective – Help&Comment View
Setiap kali Anda
memilih operator pada Operator View atau Process View, maka jendela bantuan
dalam Help View akan menunjukkan penjelasan mengenai operator ini.
Sedangkan Comment
View merupakan area bagi Anda untuk menuliskan komentar pada langkah-langkah
proses tertentu. Untuk membuat komentar, Anda hanya perlu memilih operator dan
menulis teks di atasnya dalam bidang komentar. Kemudian komentar tersebut
disimpan bersama-sama dengan definisi proses Anda. Komentar ini dapat berguna
untuk melacak langkah-langkah tertentu dalam rancangan nantinya.
f) Design Perspective – Problem & Log View
Problem View
merupakan komponen yang sangat berharga dan merupkan sumber bantuan bagi Anda
selama merancang proses analisis. Setiap peringatan dan pesan kesalahan jelas
ditunjukkan dalam Problem View.
Pada kolom Message,
Anda akan menemukan ringkasan pendek dari masalah.
Kolom Fixes
memberikan gambaran dari kemungkinan solusi tersebut, baik secara langsung
sebagai teks (jika hanya ada satu kemungkinan Solusi) atau sebagai indikasi
dari berapa banyak kemungkinan yang berbeda untuk memecahkan masalah.
Kolom Location berisi
tempat di mana masalah muncul dalam bentuk nama Operator dan nama port input
yang bersangkutan.
c. Cara Menggunakan Repositori
Repositori merupakan
Tabel, database, koleksi teks, yang kita miliki untuk dapat digali datanya
untuk mendapatkan informasi yang kita inginkan. Ini merupakan awal dari seluruh
proses Data Mining.RapidMiner menyediakan contoh database yang dapat digunakan
§
Sample Data
Repository
Pada bagian Repositori terdapat 3 buah lokasi repositori
: yakni Samples, DB, Local Repository.
Untuk mengambil Sample Data
Repository, buka hirarki Samples, masuk ke folder Data.
§
Import Repository
RapidMiner menyediakan layanan agar
pengguna dapat mengimport database miliknya.
RapidMiner memiliki kelebihan tersendiri
yakni dapat langsung melakukan import file dengan ekstensi .xls atau .xlsx,
yakni file dari Microsoft Excel, Program yang relatif sering digunakan oleh
pengguna.
Berikut adalah cara untuk melakukan
import file Microsoft Excel.
D.
WEKA

Gambar 1. WEKA Graphical User Interface
WEKA merupakan
sebuah perangkat lunak yang menerapkan berbagai algoritma machine
learning untuk melakukan beberapa proses yang berkaitan dengan sistem
temu kembali informasi atau data mining. Beberapa fitur unggulan
yang dimiliki oleh WEKA yaitu:
·
Classification
Di dalam WEKA terdapat banyak algoritma yang mendukung untuk proses klasifikasi sebuah objek serta pengguna dimudahkan dalam melakukan implementasi secara langsung. User dapat melakukan load dataset, melakukan pemilihan algoritma untuk klasifikasi, kemudian diberikan beberapa representasi data yang mewakili hasil akurasi, tingkat kesalahan dari proses klasifikasi.
Di dalam WEKA terdapat banyak algoritma yang mendukung untuk proses klasifikasi sebuah objek serta pengguna dimudahkan dalam melakukan implementasi secara langsung. User dapat melakukan load dataset, melakukan pemilihan algoritma untuk klasifikasi, kemudian diberikan beberapa representasi data yang mewakili hasil akurasi, tingkat kesalahan dari proses klasifikasi.
·
Regression
Regression merupakan sebuah proses yang dapat melakukan suatu prediksi terhadap berbagai pola yang sudah terbentuk sebelumnya yang dijadikan sebagai model data. Tujuan dari regression adalah menciptakan suatu variabel baru yang mewakili suatu representasi perkembangan data pada masa yang akan datang. WEKA mendukung proses regression dan hal tersebut dipermudah dengan user interface/user experience yang sederhana.
Regression merupakan sebuah proses yang dapat melakukan suatu prediksi terhadap berbagai pola yang sudah terbentuk sebelumnya yang dijadikan sebagai model data. Tujuan dari regression adalah menciptakan suatu variabel baru yang mewakili suatu representasi perkembangan data pada masa yang akan datang. WEKA mendukung proses regression dan hal tersebut dipermudah dengan user interface/user experience yang sederhana.
·
Clustering
Clustering merupakan salah satu cabang konsep dari unsupervised method dari machine learning yang bertujuan untuk melakukan pengelompokan data dan juga menjelaskan hubungan/relasi yang ada di antara data tersebut dan memaksimalkan kesamaan antar satu kelas/cluster tetapi meminimumkan kesamaan antar kelas/cluster. Clustering digunakan untuk analisa suatu data dan diharapkan menghasilkan suatu representasi data yang mewakili suatu pola yang terbentuk akibat relasi yang ada antar data.
Clustering merupakan salah satu cabang konsep dari unsupervised method dari machine learning yang bertujuan untuk melakukan pengelompokan data dan juga menjelaskan hubungan/relasi yang ada di antara data tersebut dan memaksimalkan kesamaan antar satu kelas/cluster tetapi meminimumkan kesamaan antar kelas/cluster. Clustering digunakan untuk analisa suatu data dan diharapkan menghasilkan suatu representasi data yang mewakili suatu pola yang terbentuk akibat relasi yang ada antar data.
Di
dalam WEKA tersedia beberapa pendekatan algoritma
untuk menangani permasalahan clustering dan pada fitur ini juga terdapat bagian kesimpulan dari
proses clustering data yang memberikan
secara garis besar perhitungan dan hasil yang diberikan dalam implementasi
algoritma clustering.
·
Association
Rules
Association Rules merupakan metode yang digunakan untuk menemukan berbagai relasi antara banyaknya variabel yang terdapat di dalam sebuah basis data dengan jumlah yang besar.
Association Rules merupakan metode yang digunakan untuk menemukan berbagai relasi antara banyaknya variabel yang terdapat di dalam sebuah basis data dengan jumlah yang besar.
·
Visualization
WEKA memiliki fitur untuk memberikan sebuah representasi data hasil sebuah proses data mining dalam bentuk gambar atau chart yang juga dapat dilakukan pemilihan berbagai parameter yang mendukung dalam membentuk representasi data yang ada dalam aplikasi WEKA.
WEKA memiliki fitur untuk memberikan sebuah representasi data hasil sebuah proses data mining dalam bentuk gambar atau chart yang juga dapat dilakukan pemilihan berbagai parameter yang mendukung dalam membentuk representasi data yang ada dalam aplikasi WEKA.

Gambar 2. Fitur
Visualisasi WEKA
Data
PreprocessingWEKAmenyediakan fitur
dalam hal data preprocessing yaitu stemming dan stopword removal. Proses
stemming dan stopword removal yang ada di dalam perangkat lunak WEKA
berbasiskan Bahasa Inggris, sehingga untuk implementasi bahasa diluar bahasa
inggris diharuskan untuk melakukan proses processing data di luar aplikasi
WEKA. Beberapa algoritma stemming yang telah disediakan oleh WEKA adalah
Interated Lovins Stemmer, Lovins Stemmer dan Snowball Stemmer.

Gambar 3. WEKA:
Algoritma Stemming
Data yang digunakan pada Weka adalah dengan format
ekstensi .arff. Anda bisa membuka file dengan ekstensi ini dengan berbagai
macam text editor, misalnya Notepad.
Contoh
file berformat .arff adalah sebagai berikut:

Tidak ada komentar:
Posting Komentar