Bab III Objek dan Metode Penelitian 47 II. o Deposito Berjangka ...
PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO … · Susunan Panitia Penguji Jabatan Nama Lengkap...
Transcript of PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO … · Susunan Panitia Penguji Jabatan Nama Lengkap...
PENGELOMPOKAN NASABAH BERDASAR POTENSI
DEPOSITO ATAU TIDAK MENGGUNAKAN ALGORITMA
AGGLOMERATIVE HIERARCHICAL CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh :
Monica Rinda Christanto
155314045
PROGRAM STUDI INFORMATIKA
JURUSAN INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
CLUSTERING CLIENT BASED ON POTENTIAL DEPOSITO
OR NOT USING AGGLOMERATIVE HIERARCHICAL
CLUSTERING ALGORITHM
A THESIS
Presented as Partial Fulfillment of The Requirements
to Obatin Sarjana Komputer Degree
In Informatics Study Program
Written by :
Monica Rinda Christanto
155314045
INFORMATICS STUDY PROGRAM
DEPARTMENT OF INFORMATICS
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
HALAMAN PERSETUJUAN PEMBIMBING
SKRIPSI
PENGELOMPOKAN NASABAH BERDASAR POTENSI
DEPOSITO ATAU TIDAK MENGGUNAKAN ALGORITMA
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Oleh :
Monica Rinda Christanto
155314045
Telah disetujui oleh :
Pembimbing
Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc. Tanggal : ....................
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
HALAMAN PENGESAHAN
SKRIPSI
PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO
ATAU TIDAK MENGGUNAKAN ALGORITMA AGGLOMERATIVE
HIERARCHICAL CLUSTERING
Dipersiapkan dan ditulis oleh :
MONICA RINDA CHRISTANTO
NIM : 155314045
Telah dipertahankan di depan Panitia Penguji
Pada Tanggal ........................................
Dan dinyatakan memenuhi syarat
Susunan Panitia Penguji
Jabatan Nama Lengkap Tanda Tangan
Ketua : Drs. Haris Sriwindono M.Kom, Ph.D. .............................
Sekretaris : Dr. Anastasia Rita Widiarti .............................
Anggota : Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. .............................
Yogyakarta, .....................................2020
Fakultas Sains dan Teknologi
Universitas Sanata Dharma
Dekan,
Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
MOTTO
“It doesn’t matter how slowly you go as long as you don’t stop.”
Bambam GOT7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini
tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan
dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, ..............................
Penulis
Monica Rinda Christanto
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN KAMPUS
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma :
Nama : Monica Rinda Christanto
NIM : 155314045
Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan
Universitas Sanata Dharma karya ilmiah yang berjudul
PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO
ATAU TIDAK MENGGUNAKAN ALGORITMA AGGLOMERATIVE
HIERARCHICAL CLUSTERING
Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan
kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan,
mengaktikan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan
data, mendistribusikan secara terbatas dan mempublikasikan di internet atau
media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya
maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya
sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, ......................
Yang menyatakan,
Monica Rinda Christanto
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Perbankan dalam melakukan suatu kegiatan pokoknya akan menerapkan
berbagai strategi pemasaran. Salah satu strategi yang dilakukan adalah melalui
telepon untuk mendapatkan respon langsung. Melalui telepon, seorang operator
mencatat hal – hal yang diperlukan sebagai data untuk disimpan, misalnya umur,
pekerjaan, status pernikahan, pendidikan, dan lain – lain. Melalui data tersebut,
pihak bank bisa mengetahui tentang berbagai hal mengenai nasabah itu sendiri
termasuk melakukan identifikasi terhadap kondisi nasabah dengan lebih mudah.
Penelitian ini bertujuan untuk membangun sistem yang secara otomatis
membagi data menjadi kelompok – kelompok yang dapat membantu kegiatan
perbankan terlebih dalam melihat profil nasabah yang berpotensi melakukan
simpanan deposito menggunakan metode agglomerative hierarchical clustering
dengan tiga pendekatan yaitu single linkage, complete linkage, dan average
linkage.
Dari hasil pencobaan tersebut, ditemukan bahwa hasil pengklusteran dari
menggunakan tiga pendekatan tersebut memiliki akurasi yang paling tinggi
sebesar 92%. Luaran yang dihasilkan adalah berupa dendogram yang merupakan
diagram berbentuk pohon yang menunjukkan derajat persamaan diantara anggota
– anggota suatu kelompok.
Kata kunci: deposito, agglomerative hierarchical clustering, single linkage,
complete linkage, average linkage, dan dendogram.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Banking in conducting a certain activity will apply various marketing
strategies. One strategy that is done is by phone to get a direct response. By
telephone, an operator records what is required as data to be stored, such as age,
occupation, marital status, education, etc. Through the data, the bank can find out
about various things about the customer itself including identifying the condition
of the customer more easily.
This research aims to build a system that automatically divides the data
into groups that can assist banking activities in looking at the customer's profile
that could potentially deposit deposits using the method Agglomerative
hierarchical clustering with three approaches is single linkage, complete linkage,
and average linkage.
From the results of the trials, it was found that the results from using these
three approaches had the highest accuracy of 92%. The resulting outer is a
dendrogram which is a tree-shaped diagram indicating the degree of equality
between members – a group member.
Keyword: Deposits, agglomerative hierarchical clustering, single linkage,
complete linkage, average linkage, and dendrogram.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala
rahmat dan berkat yang telah diberikan sehingga penulis dapat menyelesaikan
skripsi dengan judul “Pengelompokan Nasabah Berdasar Potensi Deposito atau
Tidak Menggunakan Algoritma Agglomerative Hierarchical Clustering” sebagai
salah satu syarat memperoleh gelar sarjana pada program studi Informatika
Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
Dalam penulisan karya ilmiah ini penulis juga tidak lupa mengucapkan
terima kasih kepada pihak – pihak yang telah membantu dan juga memberi
semangat dalam pengerjaan karya ini. Ucapan terima kasih penulis sampaikan
kepada :
1. Tuhan Yesus Kristus yang selalu memberikan berkat serta karunia-Nya
yang melimpah dalam mengerjakan karya ini.
2. Dr. C. Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing yang
dengan sabar memberikan bimbingan dan pengarahan terbaik dalam
pengerjaan skripsi ini.
3. Orang tua, Antonius Sukidi dan Christina Rismi Widiastuti yang selalu
mendukung dalam setiap langkah, memberikan semangat yang sangat
membantu penulis dalam pengerjaan, doa, dan dukungan berupa
material dan non-material.
4. Kakak Renatyas Fajar Christanto dan Adik Maria Ceryza Christanto
yang selalu memberikan semangat dan dukungan.
5. Aurelia Utari, Charista Alve, Henrika Prima, Theodora Endingyana,
Saras Risky, Nur Indah, dan teman – teman lainnya yang selalu
memberikan motivasi dan semangat kepada penulis.
6. Sahabat surgawi, Elfrida Afentri Manurung, Clara Maria De Rosario
Taek, Yasintha Puteri Larasati, Ventya Fernitha, dan Andreas Kevin
Febianto yang selalu memberikan masukan, bantuan, dan dukungan
kepada penulis.
7. Adi, William, dan Tebe yang telah berbagi ilmu dan memberikan
bantuan jika menghadapi kesulitan bagi penulis.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
8. Debo, Enjang, Novri, Zenggi, Udev, dan teman – teman Teknik
Informatika 2015 lainnya yang tidak dapat disebutkan satu per satu
yang selalu memberikan semangat dan doa kepada penulis.
9. GOT7, boygroup Korea yang musiknya selalu menemani penulis
dalam mengerjakan skripsi ini.
Penulis menyadari masih terdapat kekurangan dari penulisan skripsi ini,
sehingga penulis mengharapkan kritik dan saran yang bersifat membangun untuk
penyempurnaan dikemudian hari. Akhir kata, penulis berharap semoga skripsi ini
dapat bermanfaat bagi banyak pihak.
Yogyakarta, 11 Oktober 2019
Penulis,
Monica Rinda Christanto
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
TITLE PAGE .......................................................................................................... ii
HALAMAN PERSETUJUAN PEMBIMBING .................................................... iii
HALAMAN PENGESAHAN ................................................................................ iv
MOTTO .................................................................................................................. v
PERNYATAAN KEASLIAN KARYA ................................................................ vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN KAMPUS .................................................................. vii
ABSTRAK ........................................................................................................... viii
ABSTRACT ........................................................................................................... ix
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI ......................................................................................................... xii
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ..................................................................................... 1
1.1. Latar Belakang ......................................................................................... 1
1.2. Rumusan Masalah .................................................................................... 2
1.4. Manfaat Penelitian .................................................................................... 3
1.5. Luaran ....................................................................................................... 3
1.6. Batasan Masalah ....................................................................................... 3
1.7. Sistematika Penulisan ............................................................................... 4
BAB II LANDASAN TEORI ............................................................................... 5
2.1. Deposito .................................................................................................... 5
2.2. Nasabah .................................................................................................... 5
2.3. Data Mining .............................................................................................. 5
2.3.1. Definisi .............................................................................................. 5
2.3.2. Pengelompokan Data Mining ........................................................... 8
2.4. Clustering ............................................................................................... 10
2.5. Agglomerative Hierarchical Clustering ................................................. 12
2.5.1. Single Linkage ................................................................................ 13
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.5.2. Average Linkage ............................................................................. 13
2.5.3. Complete Linkage ........................................................................... 13
2.6. Silhouette Index ...................................................................................... 20
2.7. Confusion Matrix .................................................................................... 22
BAB III METODOLOGI PENELITIAN ......................................................... 23
3.1. Sumber Data ........................................................................................... 23
3.2. Gambaran Umum Sistem ....................................................................... 24
3.3. Preprocessing ......................................................................................... 25
3.4. Perhitungan Jarak ................................................................................... 32
3.5. Agglomerative Hierarchical Clustering ................................................. 34
3.6. Perhitungan Akurasi ............................................................................... 37
3.7. Perancangan Antar Muka Sistem ........................................................... 42
3.8. Spesifikasi Alat ....................................................................................... 43
BAB IV IMPLEMENTASI DAN ANALISA HASIL ...................................... 44
4.1. Implementasi .......................................................................................... 44
4.1.1. Pengolahan Data.............................................................................. 44
4.1.2. Clustering ........................................................................................ 44
4.2. User Interface ......................................................................................... 47
4.2.1. Input Data ........................................................................................ 48
4.2.2. Preprocessing .................................................................................. 48
4.2.3. Silhouette Index ............................................................................... 49
4.2.4. Proses AHC dan Akurasi ................................................................ 49
4.3. Analisa Hasil .......................................................................................... 50
BAB V PENUTUP ............................................................................................... 53
5.1.Kesimpulan ..................................................................................................... 53
5.2.Saran ................................................................................................................ 53
DAFTAR PUSTAKA .......................................................................................... 54
LAMPIRAN ......................................................................................................... 55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR GAMBAR
Gambar 2.1 Proses penambangan data (Han&Kamber, 2006) ............................... 6
Gambar 3.1 Gambaran Umum Sistem .................................................................. 25
Gambar 3.2 Data Sampel ...................................................................................... 33
Gambar 3.3 Dendogram Single Linkage ............................................................... 35
Gambar 3.4 Dendogram Complete Linkage .......................................................... 35
Gambar 3.5 Dendogram Average Linkage ............................................................ 36
Gambar 3.6 User Interface .................................................................................... 42
Gambar 4.1 Implementasi – Dendogram Single Linkage ..................................... 46
Gambar 4.2 Implementasi – Dendogram Complete Linkage ................................ 46
Gambar 4.3 Implementasi – Dendogram Average Linkage .................................. 47
Gambar 4.4 Implementasi - Input Data ................................................................. 48
Gambar 4.5 Implementasi - Preprocessing ........................................................... 48
Gambar 4.6 Tampilan Silhouette Index ................................................................. 49
Gambar 4.7 Tampilan tombol cluster ................................................................... 49
Gambar 4.8 Implementasi - Hasil proses AHC ..................................................... 49
Gambar 4.9 Hasil rata – rata SI pada data ............................................................. 52
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Set data kecil 2 dimensi ........................................................................ 14
Tabel 2.2 Hasil perhitungan jarak Euclidean dari sampel data ............................. 16
Tabel 2.3 Matriks jarak pertama untuk single linkage .......................................... 16
Tabel 2.4 Matriks jarak kedua untuk single linkage ............................................. 17
Tabel 2.5 Matriks jarak pertama untuk average linkage ...................................... 18
Tabel 2.6 Matriks jarak kedua untuk average linkage .......................................... 18
Tabel 2.7 Matriks jarak pertama untuk complete linkage ..................................... 19
Tabel 2.8 Matriks jarak kedua untuk complete linkage ........................................ 20
Tabel 2.9 Tabel confusion matrix ......................................................................... 22
Tabel 3.1 Atribut Data Set Nasabah ...................................................................... 23
Tabel 3.2 Contoh beberapa data normalisasi menggunakan algoritma Min-Max 32
Tabel 3.3 Similitary Matriks ................................................................................. 34
Tabel 3.4 Contoh Cluster Single Linkage ............................................................. 35
Tabel 3.5 Contoh Cluster Complete Linkage ........................................................ 36
Tabel 3.6 Contoh Cluster Average Linkage .......................................................... 36
Tabel 3.7 Hasil euclidean distance untuk cluster 1 .............................................. 37
Tabel 3.8 Hasil euclidean distance untuk cluster 2 .............................................. 37
Tabel 3.9 Hasil Nilai ai untuk cluster 1 ................................................................. 39
Tabel 3.10 Hasil Nilai ai untuk cluster 2 ............................................................... 40
Tabel 3.11 Hasil Hitung Jarak dari cluster 1 ke cluster 2 ..................................... 40
Tabel 3.12 Hasil Hitung Jarak dari cluster 2 ke cluster 1 ..................................... 40
Tabel 3.13 Hasil nilai bi untuk cluster 1 ............................................................... 41
Tabel 3.14 Hasil nilai bi untuk cluster 2 ............................................................... 41
Tabel 3.15 Nilai SI cluster 1 ................................................................................. 42
Tabel 3.16 Nilai SI cluster 2 ................................................................................. 42
Tabel 4.1 Pengujian Atribut .................................................................................. 45
Tabel 4.2 Hasil Akurasi 3 Pendekatan .................................................................. 50
Tabel 4.3 Hasil confusion matrix single linkage ................................................... 50
Tabel 4.4 Hasil confusion matrix complete linkage .............................................. 51
Tabel 4.5 Hasil confusion matrix average linkage ............................................... 51
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Bank adalah badan usaha yang menghimpun dana dari masyarakat
dalam bentuk simpanan dan menyalurkannya kembali kepada masyarakat
dalam bentuk kredit dan atau bentuk – bentuk lainnya dalam rangka
meningkatkan taraf hidup rakyat banyak (Kasmir, 2014). Perbankan
memiliki usaha yang meliputi tiga kegiatan, yaitu menghimpun dana,
menyalurkan dana, dan memberikan jasa bank lainnya. Kegiatan pokok
bank adalah kegiatan menghimpun dana yang dapat berupa
mengumpulkan dana dari masyarakat dalam bentuk simpanan giro,
tabungan, dan deposito. Bank juga biasanya memberikan balas jasa yang
menarik seperti bunga dan hadiah. Kegiatan menyalurkan dana, berupa
memberikan pinjaman kepada masyarakat sedangkan jasa – jasa
perbankan lainnya diberikan untuk mendukung kelancaran kegiatan utama
tersebut.
Perbankan dalam melakukan suatu kegiatan pokoknya akan
menerapkan berbagai strategi pemasaran. Salah satu strategi pemasaran
yang dilakukan adalah pemasaran secara langsung (direct marketing).
Pemasaran langsung adalah sistem pemasaran yang memakai berbagai
media iklan untuk berinteraksi secara langsung dengan target konsumen.
(Kotler, 1996). Salah satu interaksi yang dilakukan adalah melalui telepon
untuk mendapatkan respon langsung. Seringkali, lebih dari satu kali
bagian pemasaran menghubungi pelanggan untuk menilai apakah produk
yang ditawarkan akan dilanggankan atau tidak.
Dalam melakukan pemasaran secara langsung khususnya melalui
telepon, seorang operator mencatat hal – hal yang diperlukan sebagai data
untuk disimpan, misalnya umur, pekerjaan, status pernikahan, pendidikan,
dan lain – lain. Meskipun hal ini tampaknya sepele, tapi kenyataannya data
dari pemasaran tersebut merupakan hal yang penting. Melalui data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
tersebut, pihak bank bisa mengetahui tentang berbagai hal mengenai
nasabah itu sendiri. Melalui data yang lengkap biasanya pihak bank akan
melakukan identifikasi terhadap kondisi nasabah dengan lebih mudah.
Dengan data nasabah yang lengkap, maka pastinya proses pendataan juga
akan semakin mudah.
Penelitian yang juga terkait dengan topik yang diambil oleh penulis
seperti penelitian oleh Luh Ayu Vivi Tamara (2018) yang menerapkan
algoritma rough set untuk mengklasifikasikan data nasabah bank.
Berdasarkan perhitungannya, dapat disimpulkan bahwa rough set dapat
diterapkan dan dapat menemukan aturan klasifikasi yang menarik dari data
set. Selain itu, terdapat penelitian lain yang terkait seperti penelitian oleh
Sinta Septiawanti (2018) yang menerapkan metode case-based reasoning
untuk memprediksi data nasabah yang berpotensi membuka simpanan
deposito. Berdasarkan penelitiannya, dapat disimpulkan bahwa metode
case-based reasoning dapat diterapkan untuk sistem dalam memprediksi
nasabah yang berpotensi membuka simpanan deposito.
Berdasarkan uraian di atas, peneliti tertarik untuk menerapkan
metode agglomerative hierarchical clustering untuk data nasabah bank
dengan cara membagi data menjadi kelompok – kelompok yang dapat
membantu kegiatan perbankan terlebih dalam melihat profil nasabah yang
berpotensi melakukan simpanan deposito, serta dapat digunakan sebagai
media dan acuan untuk dapat digunakan secara optimal dalam kegiatan
perbankan pada umumnya.
1.2. Rumusan Masalah
Dengan adanya permasalahan tersebut, maka yang menjadi pokok
permasalahan dalam penelitian ini adalah
1. Bagaimana menerapkan metode agglomerative hierarchical
clustering untuk mengelompokkan data nasabah ?
2. Apakah metode agglomerative hierarchical clustering dapat
dipergunakan pada data nasabah dengan memberikan validitas
yang baik ?
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.3. Tujuan Penelitian
Adapun yang menjadi tujuan penelitian ini adalah
1. Membangun sebuah sistem mengenai data nasabah dengan
menerapkan algoritma agglomerative hierarchical clustering
sehingga mampu mempermudah bank dalam mengelompokkan
data nasabah tersebut.
2. Mengetahui tingkat validiasi yang dihasilkan dengan menggunakan
algoritma agglomerative hierarchical clustering dalam
mengelompokkan data nasabah pada sebuah bank.
1.4. Manfaat Penelitian
1. Mengetahui metode yang optimal dalam mengelompokkan
nasabah menggunakan agglomerative hierarchical clustering.
2. Menjadi bahan rujukan bagi semua ilmu yang berhubungan dengan
penelitian dan menjadi referensi bagi mahasiswa yang melakukan
kajian terhadap algoritma ini.
1.5. Luaran
Luaran yang diharapkan pada penelitian ini berupa sistem
pengelompokan yang tepat.
1.6. Batasan Masalah
Dalam batasan masalah ini, penulis membatasi permasalahan yang perlu
yaitu:
1. Data set yang digunakan adalah bagian marketing sebuah bank di
Portugal. Data ini merupakan data public yang diperoleh dari UCI
Machine Learning. Data tersebut terdiri dari 41188 record, 20
atribut, dan 1 label kelas.
2. Pengelompokan menggunakan metode agglomerative hierarchical
clustering single lingkage, average linkage, dan complete linkage.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.7. Sistematika Penulisan
BAB I : PENDAHULUAN
Bab ini berisi latar belakang permasalahan, rumusan masalah, tujuan
penelitian, manfaat penelitian, luaran, batasan masalah, dan sistematika
penulisan.
BAB II : LANDASAN TEORI
Bab ini berisi pembahasan landasan teori yang didapatkan dari sumber
pustaka yang digunakan untuk penyusunan tugas akhir, antara lain yaitu
penambangan data, konsep clustering, algoritma agglomerative
hierarchical clustering, bank, deposito, serta Silhouette index.
BAB III : METODOLOGI PENELITIAN
Bab ini berisi mengenai data, tahap – tahap penelitian, dan spesifikasi alat.
BAB IV : IMPLEMENTASI DAN ANALISA HASIL
Bab ini berisi mengenai implementasi perancangan antarmuka dan analisa
dari hasil pembuatan sistem, yakni membahas tentang hasil pengujian
yang dilakukan pada sistem untuk mencari kekurangan sistem.
BAB V : KESIMPULAN
Bab ini berisi mengenai kesimpulan dan saran yang berkaitan dengan
sistem yang dibangun dari penelitian yang telah dilakukan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II
LANDASAN TEORI
2.1. Deposito
Deposito atau simpanan berjangka merupakan simpanan dana
masyarakat dimana penarikan tersebut hanya dilakukan pada waktu
tertentu sesuai dengan tanggal yang telah disepakati antara nasabah
dengan pihak bank. Apabila nasabah menarik dananya tidak sesuai
dengan waktu yang telah disepakati, nasabah akan didenda
(Sukmayani dkk., 2008)
Deposito dapat dicairkan sesuai tanggal jatuh tempo, biasanya
jatuh tempo deposito berkisar 1 bulan, 3 bulan, 6 bulan, atau 12 bulan.
Bank dapat memperpanjang simpanan deposito nasabah secara
otomatis jika nasabah tidak mengambil dana deposito pada saat jatuh
tempo.
2.2. Nasabah
Dalam peraturan Bank Indonesia No. 7/7/ PBI 2005 jo No. 10/10/
PBI 2008 tentang penyelesaian pengaduan nasabah pasal 1 angka 2
yang dimaksud dengan nasabah atau mitra adalah pihak yang
menggunakan jasa bank, termasuk pihak yang tidak memiliki rekening
namun memanfaatkan jasa bank untuk melakukan transaksi keuangan.
Di dalam UU No. 10 Tahun 1998 pasal 1 angka 17 disebutkan bahwa
pengertian nasabah adalah pihak yang menggunakan jasa bank.
2.3. Data Mining
2.3.1. Definisi
Data mining adalah suatu istilah yang digunakan
untuk menguraikan penemuan pengetahuan di dalam
database. Data mining adalah proses yang menggunakan
teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
pengetahuan yang terkait dari berbagai database besar
(Turban, dkk. 2005).
Istilah data mining dan knowledge discovery in
databases (KDD) sering kali digunakan secara bergantian
untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya
kedua istilah tersebut memiliki konsep yang berbeda, tetapi
berkaitan satu sama lain. Dan salah satu tahapan dalam
keseluruhan proses KDD adalah data mining. Pada gambar
2.1 di bawah ini mendeskripsikan tentang proses
penambangan data menurut Han dan Kamber.
Gambar 2.1 Proses penambangan data (Han&Kamber, 2006)
Proses KDD secara garis besar dapat dijelaskan sebagai
berikut (Han&Kamber, 2006).
1. Pembersihan Data (Data Cleaning)
Pada tahap ini, noise data yang tidak konsisten akan
dihapus. Pembersihan data (data cleaning) digunakan
untuk mendeteksi missing values, memperhalus noise
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
dari luar dengan mengidentifikasi outliers, dan
membenarkan ketidakkonsistenan di dalam data.
2. Integrasi Data (Data Integration)
Pada tahap ini, akan dilakukan penggabungan data
dari berbagai macam sumber data. Data ini akan
digabungkan ke dalam penyimpanan data yang
koheren. Macam – macam penyimpanan termasuk
multiple databases, data cubes, atau flat files. Hal – hal
yang perlu diperhatikan dalam integrasi data, yaitu
integrasi skema, pencocokan objek, dan redudansi data.
3. Seleksi Data (Data Selection)
Pada tahap ini, data yang relevan akan dianalisis
yang diambil dari sebuah basis data. Akan dilakukan
analisis korelasi untuk analisis fitur. Atribut – atribut
data akan dicek apakah relevan dilakukan
penambangan data. Atribut yang tidak relevan ataupun
atribut yang mengalami redudansi tidak akan
digunakan. Atribut yang diharapkan adalah atribut yang
bersifat independen, artinya antara atribut satu dengan
atribut yang lain tidak saling mempengaruhi.
4. Transformasi Data (Data Transformation)
Data ditransformasikan atau dikonsolidasi ke dalam
bentuk – bentuk yang sesuai atau tepat untuk
ditambang. Transformasi data meliputi langkah –
langkah berikut :
a. Penghalusan (smoothing), bertugas untuk
menghapus noise dari data. Teknik – teknik yang
digunakan meliputi binning, regression, dan
clustering.
b. Pengumpulan (Aggregation), kesimpulan atau
operasi – operasi pengumpulan yang diaplikasikan
pada data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
5. Penambangan Data (Data mining)
Pada tahap ini, penambangan data merupakan
sebuah proses penting, dimana metode – metode
intelejen diaplikasikan dengan tepat untuk mengekstrak
pola data.
6. Evaluasi Pola (Pattern Evaluation)
Pada tahap ini, mengidentifikasi pola yang sungguh
– sungguh menarik untuk merepresentasikan beberapa
pengetahuan pengukuran yang penting berdasarkan
(interesttingness measures).
7. Presentasi Pengetahuan (Knowledge Presentation)
Pada tahap ini, teknik visualisasi pengetahuan
dalam yang merepresentasikan dipresentasikan kepada
pengguna.
2.3.2. Pengelompokan Data Mining
Data mining dibagi menjadi beberapa kelompok
berdasarkan tugas yang dapat dilakukan, yaitu
1. Deskripsi
Terkadang peneliti dan analis secara sederhana
ingin mencoba mencari cara untuk menggambarkan
pola dan kecenderungan yang terdapat dalam data.
Deskripsi dari pola dan kecenderungan sering
memberikan kemungkinan penjelasan untuk suatu pola
atau kecenderungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali
variabel target estimasi lebih ke arah numerik daripada
ke arah kategori. Model dibangun menggunakan record
lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan
estimasi, kecuali bahwa dalam prediksi nilai dari hasil
akan ada di masa mendatang. Beberapa metode dan
teknik yang digunakan dalam klasifikasi dan estimasi
dapat pula digunakan (untuk keadaan yang tepat) untuk
prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori.
Sebagai contoh, penggolongan pendapatan dapat
dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,
pendapatan sedang, dan pendapatan rendah.
5. Pengklusteran
Pengklusteran merupakan pengelompokan record,
pengamatan, atau memperhatikan dan membentuk kelas
objek – objek yang memiliki kemiripan. Kluster adalah
kumpulan record yang memiliki kemiripan satu dengan
yang lainnya dan memiliki ketidakmiripan dengan
record – record dalam kluster lain.
Pengklusteran berbeda dengan klasifikasi yaitu
tidak adanya variabel target dalam pengklusteran.
Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari
variabel target. Akan tetapi, algoritma pengklusteran
mencoba untuk melakukan pembagian terhadap
keseluruhan data menjadi kelompok – kelompok yang
memiliki kemiripan (homogen), yang mana kemiripan
record dalam satu kelompok akan bernilai maksimal,
sedangkan kemiripan record dalam kelompok lain akan
bernilai minimal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
6. Asosiasi
Tugas asosiasi dalam data mining adalah
menemukan atribut yang muncul dalam satu waktu.
Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
7. Outlier
Outlier adalah data yang muncul memiliki
karakteristik unik yang terlihat sangat jauh berbeda dari
observasi – observasi lainnya dan muncul dalam bentuk
nilai ekstrim baik untuk sebuah variabel tunggal atau
variabel kombinasi. Sebuah sumber data atau dataset
pada umumnya mempunyai nilai – nilai pada setiap
obyek yang tidak berbeda jauh dengan obyek lain. Akan
tetapi terkadang pada data tersebut juga ditemukan
obyek – obyek yang mempunyai nilai atau sifat atau
karakteristik yang berbeda dibandingkan dengan obyek
pada umumnya. Deteksi outlier adalah suatu teknik
untuk mencari obyek dimana obyek tersebut
mempunyai perilaku yang berbeda dibandingkan obyek
– obyek pada umumnya.
2.4. Clustering
Menurut Tan, 2006 clustering adalah sebuah proses untuk
mengelompokkan data ke dalam beberapa cluster atau kelompok
sehingga data dalam satu cluster memiliki kemiripan yang minimum.
Clustering merupakan proses partisi satu set objek data ke dalam
himpunan bagian yang disebut cluster. Clustering adalah salah satu
teknik unsupervised learning dimana kita tidak perlu melatih metode
tersebut atau dengan kata lain, tidak ada fase learning. Tujuan utama
dari metode klaster adalah pengelompokan sejumlah data/obyek ke
dalam klaster (group) sehingga dalam setiap klaster akan berisi data
yang semirip mungkin. Dalam klastering diusahakan untuk
menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek
dalam satu klaster sangat mirip satu sama lain dan berbeda dengan
obyek dalam klaster – klaster yang lain. Hasil clustering yang baik
akan menghasilkan tingkat kesamaan yang tinggi dalam satu kelas dan
tingkat kesamaan yang rendah antar kelas. Kesamaan yang dimaksud
merupakan pengukuran secara numerik terhadap dua objek. Nilai
kesamaan antar kedua objek akan semakin tinggi jika kedua objek
yang dibandingkan memiliki kemiripan yang tinggi. Kualitas hasil
clustering sangat bergantung pada metode yang dipakai. Metode
clustering juga harus dapat mengukur kemampuannya sendiri dalam
usaha untuk menemukan suatu pola tersembunyi pada data yang
sedang diteliti.
Menurut Han dan Kamber, 2012, syarat yang harus dipenuhi oleh
suatu algoritma clustering adalah:
1. Skalabilitas
Suatu metode clustering harus mampu menangani data dalam
jumlah yang besar.
2. Kemampuan analisa beragam bentuk data
Algoritma klasterisasi harus mampu diimplementasikan pada
berbagai macam bentuk data seperti data nominal, ordinal,
maupun gabungannya.
3. Menemukan cluster dengan bentuk yang tidak terduga
Hasil clustering dapat berbentuk aneh dan tidak sama antar satu
dengan yang lain. Karenanya dibutuhkan kemampuan untuk
menganalisa cluster dengan bentuk apapun pada suatu
algoritma clustering.
4. Kemampuan untuk dapat menangani noise
Data tidak selalu dalam keadaan baik. Ada kalanya terdapat
data yang rusak, tidak mengerti atau hilang. Oleh karena itu,
suatu algoritma clustering dituntut mampu menangani data
yang rusak.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
5. Sensitifitas terhadap perubahan input
Perubahan atau penambahan data pada input dapat
menyebabkan terjadi perubahan pada cluster yang telah ada
bahkan bisa menyebabkan perubahan yang mencolok apabila
menggunakan algoritma clustering yang memiliki tingkat
sensitifitas rendah.
6. Mampu melakukan clustering untuk data dimensi tinggi
Suatu kelompok data dapat berisi banyak dimensi ataupun
atribut. Oleh karena itu, diperlukan algoritma clustering yang
mampu menangani data dengan dimensi yang jumlahnya tidak
sedikit.
7. Interpresasi dan kegunaan
Hasil dari clustering harus dapat diinterpretasikan dan berguna.
Clustering mempunyai dua tipe, yaitu partitional clustering dan
hierarchical clustering. Partitional clustering adalah pembagian objek
data ke dalam subhimpunan (cluster) yang tidak overlap sedemikian
hingga tiap objek data berada dalam tepat satu sub-himpunan.
Hierarchical clustering merupakan sebuah himpunan cluster
bersarang yang diatur sebagai suatu pohon hirarki. Tiap simpul
(cluster) dalam pohon (kecuali simpul daun) merupakan gabungan
dari anaknya (subcluster) dan simpul akar berisi semua objek (Astuti,
2013).
2.5. Agglomerative Hierarchical Clustering
Agglomerative Hierarchical Clustering merupakan sebuah metode
yang menggunakan strategi bottom – up (penggabungan). Ini biasanya
dimulai dengan membiarkan setiap objek membentuk cluster sendiri
dan secara iteratif menggabungkan kelompok ke dalam kelompok yang
lebih besar dan lebih besar, sampai semua objek berada dalam satu
kluster atau kondisi terminasi tertentu terpenuhi. Single cluster
menjadi akar hierarki. Untuk langkah penggabungan, ditemukan dua
kelompok yang paling dekat satu sama lain (menurut beberapa ukuran
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
kesamaan), dan menggabungkan keduanya untuk membentuk satu
kelompok. Metode agglomerative ini membutuhkan paling banyak n
iterasi dikarenakan dua kelompok digabung per iterasi, dimana setiap
cluster berisi setidaknya satu objek.
Terdapat tiga teknik kedekatan dalam hierarchical clustering,
yaitu: single linkage (jarak terdekat) atau tautan tunggal, average
linkage (jarak rata – rata) atau tautan rata – rata, dan complete linkage
(jarak terjauh) atau tautan lengkap.
2.5.1. Single Linkage
Pada metode single linkage (MIN), kedekatan diantara dua cluster
ditentukan dari jarak terdekat (terkecil) antar dua data dari dua cluster
yang berbeda.
Formulasi untuk single linkage adalah :
𝑑(𝑈, 𝑉) = min{𝑑(𝑈, 𝑉)} .......................................... (2.1)
Keterangan :
{𝑑(𝑈, 𝑉)} adalah jarak antara data U dan V dari masing – masing
cluster U dan V.
2.5.2. Average Linkage
Pada metode average linkage (AVERAGE), kedekatan diantara dua
cluster ditentukan dari jarak rata – rata antar dua data dari cluster yang
berbeda.
Formulasi untuk average linkage adalah :
𝑑(𝑈, 𝑉) = 1
𝑛𝑈 𝑥 𝑛𝑉 ∑ 𝑑(𝑈, 𝑉);.................................. (2.2)
Keterangan :
𝑛𝑈 dan 𝑛𝑉 adalah jumlah data yang berada dalam cluster U dan
V.
2.5.3. Complete Linkage
Pada metode complete linkage (MAX), kedekatan diantara dua
cluster ditentukan dari jarak terjauh (terbesar) antar dua data dari dua
cluster yang berbeda.
Formulasi untuk complete linkage adalah :
𝑑(𝑈, 𝑉) = max {𝑑(𝑈, 𝑉)}................................(2.3)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
Keterangan :
{𝑑(𝑈, 𝑉)} adalah jarak antara data U dan V dari masing – masing
cluster U dan V.
Algoritma agglomerative hierarchical clustering dapat dijabarkan
sebagai berikut (Prasetyo, 2012):
1. Hitung matriks kedekatan berdasarkan jenis jarak yang
digunakan.
2. Ulangi langkah 3 dan 4 hingga hanya satu cluster yang tersisa.
3. Gabungkan dua cluster terdekat berdasarkan parameter
kedekatan yang ditentukan.
4. Perbarui matriks kedekatan untuk merefleksi kedekatan
diantara cluster baru dan cluster asli yang sudah digabung.
Contoh penerapan dari agglomerative hierarchical clustering
adalah data sebanyak 3 dengan jumlah dimensi 2. Pengelompokan
dilakukan dengan metode agglomerative hierarchical clustering
menggunakan jarak Euclidean dan metode tautan single linkage,
average linkage, dan complete linkage.
Tabel 2.1 Set data kecil 2 dimensi
Data X Y
1 1 1
2 4 1
3 1 2
4 3 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Langkah pertama yang dilakukan adalah menghitung jarak
Euclidean setiap pasangan data.
𝑑(1,1) = √(|1 − 1|2 + |1 − 1|2) = 0
𝑑(1,2) = √(|4 − 1|2 + |1 − 1|2) = 3
𝑑(1,3) = √(|1 − 1|2 + |2 − 1|2) = 1
𝑑(1,4) = √(|3 − 1|2 + |4 − 1|2) = 3.60
𝑑(2,1) = √(|4 − 1|2 + |1 − 1|2) = 3
𝑑(2,2) = √(|4 − 4|2 + |1 − 1|2) = 0
𝑑(2,3) = √(|1 − 4|2 + |2 − 1|2) = 3.16
𝑑(2,4) = √(|3 − 4|2 + |4 − 1|2) = 3.16
𝑑(3,1) = √(|1 − 1|2 + |1 − 2|2) = 1
𝑑(3,2) = √(|4 − 1|2 + |1 − 2|2) = 3.16
𝑑(3,3) = √(|1 − 1|2 + |2 − 2|2) = 0
𝑑(3,4) = √(|3 − 1|2 + |4 − 2|2) = 2.82
𝑑(4,1) = √(|1 − 3|2 + |1 − 4|2) = 3.60
𝑑(4,2) = √(|4 − 3|2 + |1 − 4|2) = 3.16
𝑑(4,3) = √(|1 − 3|2 + |2 − 4|2) = 2.82
𝑑(4,4) = √(|3 − 3|2 + |4 − 4|2) = 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
Dengan perhitungan tersebut maka didapatkan hasil similitary
matriks:
Tabel 2.2 Hasil perhitungan jarak Euclidean dari sampel data
d 1 2 3 4
1 0 3 1 3.60
2 3 0 3.16 3.16
3 1 3.16 0 2.82
4 3.60 3.16 2.82 0
a. Menggunakan metode single linkage
Dengan memperlakukan setiap data sebagai cluster, selanjutnya
dipilih jarak dua cluster yang paling kecil.
min(𝑑𝑈𝑉) = 𝑑13 = 1
Terpilih cluster 1 dan 3, maka cluster 1 dan 3 digabung. Untuk
melanjutkan tingkat pengelompokan berikutnya maka jarak – jarak
antara cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4
dihitung kembali dengan metode single linkage. Jarak – jarak yang
didapatkan adalah :
𝑑(13)2 = min{𝑑12, 𝑑32} = min{3,3.16} = 3
𝑑(13)4 = min{𝑑14, 𝑑34} = min{3.60,2.82} = 2.82
Dengan menghapus baris – baris dan kolom – kolom matriks yang
bersesuaian dengan cluster 1 dan 3 dan menambahkan baris dan kolom
untuk cluster (13), didapatkan matriks jarak jauh yang baru :
Tabel 2.3 Matriks jarak pertama untuk single linkage
d (13) 2 4
(13) 0 3 2.82
2 3 0 3.16
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
4 2.82 3.16 0
Selanjutnya dipilih jarak dua cluster yang paling kecil.
min(𝑑𝑈𝑉) = 𝑑134 = 2.82
Selanjutnya hitung kembali jarak – jarak cluster (134) dengan
cluster yang tersisa yaitu 2.
𝑑(134)2 = min{𝑑12, 𝑑32, 𝑑42} = min{3,3.16,3.16} = 3
Dengan menghapus baris – baris dan kolom – kolom matriks d
yang bersesuaian dengan cluster 13 dan 4 dan menambahkan baris dan
kolom untuk cluster (134), didapatkan matriks jarak yang baru.
Tabel 2.4 Matriks jarak kedua untuk single linkage
d (134) 2
(134) 0 3
2 3 0
Jadi, cluster (134) dan (2) digabung membentuk cluster tunggal
dari semua 4 data (1234), ketika jarak terdekat mencapai 3.
b. Menggunakan metode average linkage
Dengan memperlakukan setiap data sebagai cluster, selanjutnya
dipilih jarak dua cluster yang paling kecil.
min(𝑑𝑈𝑉) = 𝑑13 = 1
Terpilih cluster 1 dan 3, maka cluster 1 dan 3 digabung. Untuk
melanjutkan tingkat clustering berikutnya, maka jarak – jarak antara
cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4 dihitung
kembali dengan metode average linkage. Jarak – jarak yang didapatkan
adalah:
𝑑(13)2 =𝑑12 + 𝑑32
2=
3 + 3.16
2= 3.08
𝑑(13)4 =𝑑14 + 𝑑34
2=
3.60 + 2.82
2= 3.21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Dengan menghapus baris – baris dan kolom – kolom matriks d yang
bersesuaian dengan cluster 1 dan 3 dan menambahkan baris dan kolom
untuk cluster (13), didapatkan matriks jarak yang baru :
Tabel 2.5 Matriks jarak pertama untuk average linkage
d (13) 2 4
(13) 0 3.08 3.21
2 3.08 0 3.16
4 3.21 3.16 0
Selanjutnya dipilih kembali jarak dua cluster terkecil.
min(𝑑𝑈𝑉) = 𝑑132 = 3.08
Selanjutnya hitung kembali jarak – jarak cluster (132) dengan
cluster yang tersisa yaitu 4.
𝑑(132)(4) ={𝑑14 + 𝑑34 + 𝑑24}
3=
3.60 + 2.82 + 3.16
3= 3.19
Dengan menghapus baris – baris dan kolom – kolom matriks d yang
bersesuaian dengan cluster 13 dan 2 dan menambahkan baris dan
kolom untuk cluster (132), didapatkan matriks jarak yang baru.
Tabel 2.6 Matriks jarak kedua untuk average linkage
d (132) 4
(132) 0 3.19
4 3.19 0
Jadi, cluster (132) dan (4) digabung membentuk cluster tunggal dari
semua 4 data (1234), ketika jarak terdekat mencapai 3.19.
c. Menggunakan metode complete linkage
Dengan memperlakukan setiap data sebagai cluster, selanjutnya
dipilih jarak dua cluster yang paling kecil.
min(𝑑𝑈𝑉) = 𝑑13 = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
Terpilih cluster 1 dan 3, maka cluster 1 dan 3 digabung. Untuk
melanjutkan tingkat clustering berikutnya, maka jarak – jarak antara
cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4 dihitung
kembali dengan metode complete linkage. Jarak – jarak yang
didapatkan adalah:
𝑑(13)2 = max{𝑑12, 𝑑32} = max{3,3.16} = 3.16
𝑑(13)4 = max{𝑑14, 𝑑34} = max{3.60,2.82} = 3.60
Dengan menghapus baris – baris dan kolom – kolom matriks d yang
bersesuaian dengan cluster 1 dan 3 dan menambahkan baris dan kolom
untuk cluster (13), didapatkan matriks jarak yang baru :
Tabel 2.7 Matriks jarak pertama untuk complete linkage
d (13) 2 4
(13) 0 3.16 3.60
2 3.16 0 3.16
4 3.60 3.16 0
Selanjutnya dipilih kembali jarak dua cluster terkecil.
min(𝑑𝑈𝑉) = 𝑑132 = 3.16
dan
min(𝑑𝑈𝑉) = 𝑑24 = 3.16
Dikarenakan hasilnya terdapat 2 cluster maka cluster 2 dan 4
digabungkan. Selanjutnya hitung kembali jarak – jarak cluster (24)
dengan cluster yang tersisa yaitu (13).
𝑑(24)(13) = max{𝑑21, 𝑑23, 𝑑41, 𝑑43} = max{3,3.16,3.60,2.82} = 3.60
Dengan menghapus baris – baris dan kolom – kolom matriks d yang
bersesuaian dengan cluster 13 dan 2 dan menambahkan baris dan
kolom untuk cluster (132), didapatkan matriks jarak yang baru.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
Tabel 2.8 Matriks jarak kedua untuk complete linkage
d (13) (24)
(13) 0 3.60
(24) 3.60 0
Jadi, cluster (13) dan (24) digabung membentuk cluster tunggal
dari semua 4 data (1234), ketika jarak terdekat mencapai 3.60.
2.6. Silhouette Index
Silhouette index (SI) adalah metode yang digunakan untuk
memvalidasi suatu cluster tunggal (satu cluster dari sejumlah cluster),
atau bahkan keseluruhan cluster. Untuk menghitung nilai SI dari
sebuah data ke-i, ada dua komponen yaitu ai dan bi. ai adalah rata –
rata jarak data ke-i terhadap semua data lainnya dalam satu cluster,
sedangkan bi didapatkan dengan menghitung rata – rata jarak data ke-i
terhadap semua data dari cluster yang lain tidak dalam satu cluster
dengan data ke-i, kemudian diambil nilai yang terkecil (Prasetyo,
2014).
Berikut formula untuk menghitung ai :
𝑎𝑖𝑗
=1
𝑚𝑗−1∑ 𝑑(𝑥𝑖
𝑗, 𝑥𝑟
𝑗)
𝑚𝑗
𝑟=1𝑟≠𝑖
........................(2.5)
Dimana :
𝑎𝑖𝑗 = rata – rata jarak data ke-i terhadap semua data lainnya dalam
satu cluster
𝑖 = indeks data
𝑗 = cluster
𝑥 = data
𝑑(𝑥𝑖𝑗, 𝑥𝑟
𝑗) = jarak data ke-i dengan data ke-r dalam satu cluster j
𝑚𝑗 = jumlah data dalam cluster ke-j
Berikut formula untuk menghitung bi :
𝑏𝑖𝑗
=𝑚𝑖𝑛
𝑛 = 1, … , 𝑘𝑛 ≠ 𝑗
{1
𝑚𝑛∑ 𝑑(𝑥𝑖
𝑗, 𝑥𝑟
𝑛)}𝑚𝑛𝑟=1𝑟≠𝑖
.........................(2.6)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Dimana :
𝑏𝑖𝑗 = rata – rata jarak data ke-i terhadap semua data dari cluster yang
lain tidak dalam satu cluster dengan data ke-i
𝑖 = indeks data
𝑗 = cluster j
𝑥 = data
𝑑(𝑥𝑖𝑗, 𝑥𝑟
𝑛) = jarak data ke-i dengan data ke-r dari cluster lain yang
bukan cluster j
𝑚𝑛 = banyak data dalam cluster n
Untuk menghitung SI data ke-i menggunakan persamaan berikut :
𝑆𝐼𝑖𝑗
=𝑏𝑖
𝑗−𝑎𝑖
𝑗
max {𝑎𝑖𝑗,𝑏
𝑖𝑗}.............................................(2.7)
Dimana :
𝑆𝐼𝑖𝑗 = Silhouette Index (SI) data ke-i
𝑎 = rata – rata jarak data ke-i terhadap semua data lainnya dalam satu
cluster
𝑏 = nilai minimum dari rata – rata jarak data ke-i terhadap semua data
dari cluster lain yang tidak dalam satu cluster
max {𝑎𝑖𝑗, 𝑏𝑖
𝑗} = nilai maksimum dari nilai a dan b dari satu data
Nilai 𝑎𝑖 mengukur seberapa tidak mirip sebuah data dengan cluster
yang diikutinya, nilai yang semakin kecil menandakan semakin
tepatnya data tersebut berada dalam cluster tersebut. Nilai 𝑏𝑖 yang
besar menandakan seberapa jeleknya data terhadap cluster yang lain.
Nilai SI yang didapat dalam rentang (-1,+1). Nilai SI yang mendekati
1 menandakan bahwa data tersebut semakin tepat berada dalam
cluster tersebut. Nilai SI negatif (𝑎𝑖 > 𝑏𝑖) menandakan bahwa data
tersebut tidak tepat berada dalam cluster tersebut (karena lebih dekat
ke cluster yang lain). SI bernilai 0 (atau mendekati 0) berarti data
tersebut posisinya berada di perbatasan di antara dua cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
2.7. Confusion Matrix
Berbeda dengan Silhouette Index yang menguji data cluster tanpa
membutuhkan informasi eksternal maka untuk confusion matrix
membutuhkan informasi eksternal yang dimiliki setiap data yang
dikelompokkan. Menggunakan label kelas dalam validasi cluster
berguna untuk perbandingan teknik clustering dengan kebenaran dasar
(ground truth) atau evaluasi sejauh mana proses panduan klasifikasi
dapat secara otomatis dihasilkan oleh analisis cluster (Tan te al, 2006).
Confusion Matrix dilakukan untuk mengukur tingkat kedekatan antara
label cluster dengan label kelas.
Tabel 2.9 Tabel confusion matrix Positif Negatif
Positif TP (True Positif) FN (False Negatif)
Negatif FP (False Positif) TN (True Negatif)
Confusion matrix menggunakan tabel 2.9 diatas menjelaskan jika
dataset hanya terdiri dari dua kelas. Satu kelas bernilai positif (true),
sedangkan kelas yang lain bernilai negatif (false). True positif adalah
jumlah record positif yang diklasifikasikan sebagai positif, false
positif adalah jumlah record negatif yang diklasifikasikan positif, false
negatif adalah jumlah record positif yang diklasifikasikan sebagai
negatif, dan true negatif adalah jumlah record negatif yang
diklasifikasikan sebagai negatif (Bramer, 2007).
Untuk menghitung akurasi maka digunakan persamaan (Prasetyo,
2012):
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ...........................................(2.8)
Keterangan :
TP = jumlah positif yang diklasifikasikan sebagai positif
TN = jumlah negatif yang diklasifikasikan sebagai negatif
FP = jumlah negatif yang diklasifikasikan positif
FN = jumlah positif yang diklasifikasikan sebagai negatif
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan dijelaskan hal – hal terkait data, gambaran umum sistem,
preprocessing, perancangan antarmuka sistem, dan spesifikasi alat.
3.1. Sumber Data
Data yang digunakan untuk penelitian ini adalah data public yang
diperoleh dari UCI Machine Learning. Data set yang digunakan adalah
bagian marketing pada sebuah bank di Portugal. Data tersebut berjumlah
41188 record, 20 atribut, dan 1 label kelas. Pada tabel 3.1 berikut adalah
penjelasan dari masing – masing atribut.
Tabel 3.1 Atribut Data Set Nasabah
No. Atribut Keterangan dan Nilai
1 Age Umur
2 Job
Jenis pekerjaan
(admin./ blue-collar/ entrepreneur/ housemaid/
management/ retired/ self-employed/ services/ student/
technician/ unemployed/ unknown)
3 Marital Status pernikahan (divorced/married/single/ unknown)
4 Education
Pendidikan (basic.4y/ basic.6y/ basic.9y/ high.school/
illiterate/ professional course/ university degree/
unknown)
5 Default Apakah mempunyai kredit yang macet atau gagal?
(yes/no/unknown)
6 Housing Apakah mempunyai kredit pinjaman rumah?
(yes/no/unknown)
7 Loan Apakah mempunyai pinjaman pribadi?
(yes/no/unknown)
8 Contact Jenis komunikasi yang digunakan (cellular/telephone)
9 Month Bulan terakhir menghubungi nasabah
10 Day of the Hari terakhir menghubungi nasabah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
week
11 Duration Durasi terakhir menghubungi nasabah (dalam detik)
12 Campaign Jumlah kontak yang dilakukan selama promosi ini dan
untuk nasabah ini
13 Pday Jumlah hari yang berlalu setelah nasabah terakhir
dihubungi dari promosi sebelumnya
14 Previous Jumlah kontak yang dilakukan sebelum promosi ini
dan untuk nasabah ini
15 Poutcome Hasil dari promosi pemasaran sebelumnya terhadap
nasabah tersebut (failure/nonexixtent/success)
16 Emp.var.rate Employment variation rate atau variasi tingkat
pekerjaan (indikator triwulanan)
17 Cons.price.idx Consumer price index atau indeks harga konsumen
(indikator bulanan)
18 Cons.conf.idx Consumer confidence index atau indeks kepercayaan
konsumen (indikator bulanan)
19 Euribor3m Euribor 3 month rate atau tingkat euribor 3 bulan
(indikator harian)
20 Nr.employed Number of employees atau jumlah karyawan (indikator
kuartalan)
21 Y Apakah nasabah berlangganan deposito yang
ditawarkan? (yes/no)
3.2. Gambaran Umum Sistem
Pembuatan sistem pengelompokan nasabah dengan metode
Agglomerative Hierarchical Clustering (AHC) untuk menguji apakah
metode ini baik untuk data nasabah sebuah bank di Portugal, berikut
sistem yang akan dibangun dalam bentuk diagram blok.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Gambar 3.1 Gambaran Umum Sistem
Gambar 3.1 diatas menjelaskan pengelompokan nasabah dengan
metode agglomerative hierarchical clustering. Proses pertama adalah data
dibuat dalam 1 file yang ekstensinya .xlsx dan diinputkan. Apabila data
sudah diinputkan, maka proses selanjutnya adalah preprocessing. Tahap
preprocessing dimulai dari transformasi, normalisasi, dan data selection.
Setelah melalui tahap preprocessing, data akan dihitung jarak
menggunakan metode Euclidean distance. Selanjutnya data akan masuk ke
tahap proses cluster dengan menggunakan agglomerative hierarchical
clustering yang memiliki 3 metode yaitu single linkage, complete linkage,
dan average linkage. Hasil dari masing – masing ketiga metode tersebut
nantinya akan menghasilkan output berupa dendogram dan akurasi.
3.3. Preprocessing
Tahap pre-processing dilakukan sesuai dengan aturan knowledge
discovery in databases atau dikenal dengan KDD yang sudah dijelaskan di
bab sebelumnya. Pada proses ini aturan KDD yang dilakukan untuk data
dalam penelitian ini adalah data selection dan data transformation. Berikut
adalah proses aturan KDD yang dilakukan pada data :
a. Data Selection
Pada tahap ini penulis dalam pemilihan atribut
menggunakan kombinasi acak berdasarkan atribut mana saja yang
dapat menghasilkan akurasi yang tinggi. Diperoleh 5 atribut yang
menghasilkan akurasi tinggi, yaitu atribut emp.var.rate,
cons.price.idx, cons.conf.idx, euribor3m, nr.employed.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
b. Data Transformation
Pada tahap ini penulis melakukan transformasi data pada
10/12 atribut dimana mengelompokkannya dalam beberapa
kelompok dan melakukan normalisasi Min–Max pada 5 atribut
yang memiliki rentang data yang besar. Proses transformasi yang
dilakukan dalam penelitian ini sebagai berikut.
1. Transformasi pada atribut age :
Transformasi untuk atribut age dilakukan berdasarkan 5
kelompok usia yang ditetapkan oleh WHO yaitu :
a. 0 – 17 tahun : Anak – anak di bawah umur
b. 18 – 65 tahun : Pemuda
c. 66 – 79 tahun : Setengah baya
d. 80 – 99 tahun : Orang tua
e. 100 tahun ke atas : Orang tua berusia panjang
Setelah itu, dilakukan transformasi ke dalam data numerik
sebagai berikut :
a. Anak – anak di bawah umur : 1
b. Pemuda : 2
c. Setengah baya : 3
d. Orang tua : 4
e. Orang tua berusia panjang : 5
2. Transformasi pada atribut job :
Transformasi untuk atribut job yang mempunyai 12 jenis
dilakukan sebagai berikut :
a. Admin : 1
b. Bluecollar : 2
c. Entrepreneur : 3
d. Housemaid : 4
e. Management : 5
f. Retired : 6
g. Self-employed : 7
h. Services : 8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
i. Student : 9
j. Technician : 10
k. Unemployed : 11
l. Unknown : 12
3. Transformasi pada atribut marital :
Transformasi untuk atribut marital yang mempunyai 3 jenis
dilakukan sebagai berikut :
a. Single : 1
b. Married : 2
c. Divorce : 3
4. Transformasi pada atribut education :
Transformasi untuk atribut education yang mempunyai 8
jenis dilakukan sebagai berikut :
a. Basic 4y : 1
b. Basic 6y : 2
c. Basic 9y : 3
d. High school : 4
e. Illiterate : 5
f. Professional course : 6
g. University degree : 7
h. Unknown : 8
5. Transformasi pada atribut default :
Transformasi untuk atribut default yang mempunyai 3 jenis
dilakukan sebagai berikut :
a. Yes : 1
b. No : 2
c. Unknown : 3
6. Transformasi pada atribut housing :
Transformasi untuk atribut housing yang mempunyai 3 jenis
dilakukan sebagai berikut :
a. Yes : 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
b. No : 2
c. Unknown : 3
7. Transformasi pada atribut loan :
Transformasi untuk atribut loan yang mempunyai 3 jenis
dilakukan sebagai berikut :
a. Yes : 1
b. No : 2
c. Unknown : 3
8. Transformasi pada atribut contact :
Transformasi untuk atribut contact yang mempunyai 2 jenis
dilakukan sebagai berikut :
a. Cellular : 1
b. Telephone : 2
9. Transformasi pada atribut month :
Transformasi untuk atribut month yang mempunyai 10 jenis
dilakukan sebagai berikut :
a. Mar : 1
b. Apr : 2
c. May : 3
d. Jun : 4
e. Jul : 5
f. Aug : 6
g. Oct : 7
h. Sep : 8
i. Nov : 9
j. Dec : 10
10. Transformasi pada atribut day_of_week :
Transformasi untuk atribut day_of_week yang mempunyai 5
jenis dilakukan sebagai berikut :
a. Tue : 1
b. Wed : 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
c. Thu : 3
d. Fri : 4
e. Mon : 5
11. Transformasi pada atribut duration :
Transformasi untuk atribut duration tetap dilakukan
dikarenakan penyebaran data numeriknya masih acak
sehingga dilakukan proses pendistribusian tabel frekuensi
berkelompok dengan langkah – langkah berikut :
a. Langkah pertama yaitu mencari interval dari data tersebut.
b. Langkah kedua yaitu mencari nilai minimum (Xmin) dan
nilai maksimum (Xmax).
Untuk atribut duration didapatkan :
Nilai minimum : 0
Nilai maksimum : 4918
c. Langkah ketiga yaitu menghitung nilai jangkauan dengan
rumus :
J = Xmax - Xmin
Hasil hitungan jangkauan untuk atribut duration adalah :
J = 4918 – 0
J = 4918
d. Langkah terakhir yaitu menentukan batas interval.
Batas Interval 1 : 0 sampai
303.0426 ditransformasi menjadi 1
Batas Interval 2 : 304.0426 sampai 607.0852
ditransformasi menjadi 2
Batas Interval 3 : 608.0852 sampai 911.1277
ditransformasi menjadi 3
Batas Interval 4 : 912.1277 sampai 1215.17
ditransformasi menjadi 4
Batas Interval 5 : 1216.17 sampai 1519.213
ditransformasi menjadi 5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Batas Interval 6 : 1520.213 sampai 1823.255
ditransformasi menjadi 6
Batas Interval 7 : 1824.255 sampai 2127.298
ditransformasi menjadi 7
Batas Interval 8 : 2128.298 sampai 2431.341
ditransformasi menjadi 8
Batas Interval 9 : 2432.341 sampai 2735.383
ditransformasi menjadi 9
Batas Interval 10 : 2736.383 sampai 3039.426
ditransformasi menjadi 10
Batas Interval 11 : 3040.426 sampai 3343.468
ditransformasi menjadi 11
Batas Interval 12 : 3344.468 sampai 3951.553
ditransformasi menjadi 12
Batas Interval 13 : 3648.511 sampai 3951.553
ditransformasi menjadi 13
Batas Interval 14 : 3952.553 sampai 4255.596
ditransformasi menjadi 14
Batas Interval 15 : 4256.596 sampai 4559.639
ditransformasi menjadi 15
Batas Interval 16 : 4560.639 sampai 4863.681
ditransformasi menjadi 16
Batas Interval 17 : 4864.681 sampai 5167.724
ditransformasi menjadi 17
12. Transformasi pada atribut poutcome :
Transformasi untuk atribut poutcome yang mempunyai 3
jenis dilakukan sebagai berikut :
a. Failure : 1
b. Nonexistent : 2
c. Success : 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
13. Transformasi pada label y :
Transformasi untuk label y yang mempunyai 2 label
dilakukan sebagai berikut :
a. Yes : 1
b. No : 2
Untuk melakukan normalisasi Min–Max berikut algoritma
yang digunakan (Han et al., 2012):
𝑉𝑖 = 𝑋−𝑀𝑖𝑛(𝑥)
𝑀𝑎𝑥(𝑥)−𝑀𝑖𝑛(𝑥)(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴....(3.1)
Keterangan :
X = data yang akan dinormalisasi
Min(x) = jumlah minimum data
Max(x) = jumlah maksimum data
New_minA = range minimum data
New_maxA = range maksimum data
Berikut ini contoh cara perhitungan normalisasi beberapa
atribut dari data nasabah menggunakan algoritma Min–Max :
Normalisasi data atribut pdays :
𝑉𝑖 = 999 − 0
999 − 0(1 − 0) + 0 = 1
Normalisasi data atribut cons.price.idx :
𝑉𝑖 = 93.994 − 92.201
94.767 − 92.201(1 − 0) + 0 = 0.698752923
Normalisasi data atribut cons.conf.idx :
𝑉𝑖 = (−36.4) − (−50.8)
(−26.9) − (−50.8)(1 − 0) + 0 = 0.60251046
Normalisasi data atribut euribor3m :
𝑉𝑖 = 4.857 − 0.634
5.045 − 0.634(1 − 0) + 0 = 0.957379279
Normalisasi data atribut nr.employed :
𝑉𝑖 = 5191 − 4963.6
5228.1 − 4963.6(1 − 0) + 0 = 0.85973535
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Setelah data pada 5 atribut dinormalisasi menggunakan
algortima Min-Max maka akan menghasilkan seperti pada tabel 3.2
berikut :
Tabel 3.2 Contoh beberapa data normalisasi menggunakan algoritma Min-Max
Data pdays cons.price.idx cons.conf.idx euribor3m nr.employed
1 1 0,698753 0,60251 0,957379 0,859735
2 1 0,698753 0,60251 0,957379 0,859735
3 1 0,698753 0,60251 0,957379 0,859735
4 1 0,698753 0,60251 0,957379 0,859735
5 1 0,698753 0,60251 0,957379 0,859735
6 1 0,698753 0,60251 0,957379 0,859735
7 1 0,698753 0,60251 0,957379 0,859735
8 1 0,698753 0,60251 0,957379 0,859735
9 1 0,698753 0,60251 0,957379 0,859735
10 1 0,698753 0,60251 0,957379 0,859735
3.4. Perhitungan Jarak
Setelah proses preprocessing selesai dilakukan, maka tahap
selanjutnya adalah mengukur jarak dengan menggunakan Euclidean
distance. Euclidean distance adalah metode yang digunakan untuk
mengukur jarak antar dua titik yang berbeda. Dengan menggunakan
perhitungan Euclidean distance obyek tiap data akan dihitung
similaritasnya. Berikut adalah persamaan Euclidean distance untuk
mengukur dua titik berbeda (Negoro, 2015) :
𝑑(𝐴, 𝐵) = √|𝐴1 − 𝐵2|2 + |𝐴2 − 𝐵2|2 + ⋯ + |𝐴𝑖 − 𝐵𝑖|2........(3.2)
Keterangan :
Ai – Bi : data
Perhitungan jarak akan dilakukan untuk setiap pendekatan yang
ada di metode agglomerative hierarchical clustering sesuai dengan
algoritma masing – masing pendekatan.
Berikut adalah contoh data sampel yang digunakan untuk
menghitung jarak :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
Gambar 3.2 Data Sampel
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Berikut adalah hasil perhitungan jarak dari 10 data sampel yang
dilakukan :
Tabel 3.3 Similitary Matriks 1 2 3 4 5 6 7 8 9 10
1 0 3,741
66 10,45916
8,33031
5,73141
7,78784
9,091999
8,560767
9,342737
7,230956
2 3,741
66 0
9,348905
8,330788
6,697539
7,788351
8,981337
6,426095
8,080513
5,504062
3 10,45916
9,348905
0 11,83216
10,16718
7,119659
9,310615
8,255687
5,306258
9,442265
4 8,330
31 8,330788
11,83216
0 7,960628
10,03442
11,69135
10,77759
11,40861
9,754813
5 5,731
41 6,697539
10,16718
7,960628
0 5,980768
8,3527
9,727224
10,42204
8,695913
6 7,787
84 7,788351
7,119659
10,03442
5,980768
0 4,690202
9,735772
8,293688
9,684279
7 9,091999
8,981337
9,310615
11,69135
8,3527
4,690202
0 11,25981
10,03909
11,30413
8 8,560767
6,426095
8,255687
10,77759
9,727224
9,735772
11,25981
0 5,099
02 2,645751
9 9,342737
8,080513
5,306258
11,40861
10,42204
8,293688
10,03909
5,09902
0 6,557439
10
7,230956
5,504062
9,442265
9,754813
8,695913
9,684279
11,30413
2,645751
6,557439
0
3.5.Agglomerative Hierarchical Clustering
Setelah proses penghitungan jarak dilakukan, maka tahap
selanjutnya melakukan pengolahan data dengan agglomerative
hierarchical clustering menggunakan 3 pendekatan yaitu single linkage,
complete linkage, dan average linkage. Hasil dari pengolahan data tersebut
adalah dendogram single linkage, complete linkage, dan average linkage.
Berikut adalah contoh hasil dendogram dari matriks jarak data sampel
yang dihasilkan oleh matlab dengan menggunakan 3 pendekatan dari
metode agglomerative hierarchical clustering :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Gambar 3.3 Dendogram Single Linkage
Gambar 3.3 diatas adalah dendogram dengan menggunakan
pendekatan single linkage. Pengukuran jarak menggunakan single linkage
adalah mengukur jarak minimal antar setiap elemen matriks.
Dengan gambar dendogram dari single linkage maka dapat
ditentukan cluster yang diinginkan dari perpotongan atau cut-off pada
ketinggian tertentu.
Tabel 3.4 Contoh Cluster Single Linkage
Cluster 1 8, 10, 9, 3, 1, 2, 5, 6, 7
Cluster 2 4
Gambar 3.4 Dendogram Complete Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Gambar 3.4 diatas adalah dendogram dengan menggunakan
pendekatan complete linkage. Pengukuran jarak menggunakan complete
linkage adalah mengukur jarak maksimal antar setiap elemen matriks.
Dengan gambar dendogram dari complete linkage maka dapat
ditentukan cluster yang diinginkan dari perpotongan atau cut-off pada
ketinggian tertentu.
Tabel 3.5 Contoh Cluster Complete Linkage
Cluster 1 8, 10, 3, 9, 6, 7
Cluster 2 1, 2, 5, 4
Gambar 3.5 Dendogram Average Linkage
Gambar 3.5 diatas adalah dendogram dengan menggunakan
pendekatan average linkage. Pengukuran jarak menggunakan average
linkage adalah mengukur jarak rata – rata antar setiap elemen matriks.
Dengan gambar dendogram dari average linkage maka dapat
ditentukan cluster yang diinginkan dari perpotongan atau cut-off pada
ketinggian tertentu.
Tabel 3.6 Contoh Cluster Average Linkage
Cluster 1 8, 10, 3, 9, 1, 2, 5, 6, 7
Cluster 2 4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
3.6.Perhitungan Akurasi
Perhitungan akurasi yang digunakan dalam penelitian ini yaitu
dengan menggunakan confusion matrix dan silhouette index.
a. Confusion Matrix
Penulis menggunakan confusion matrix karena data yang
digunakan dalam penelitian memiliki informasi dari luar atau
memiliki label kelas. Confusion matrix digunakan untuk
menghitung akurasi di setiap pembentukan cluster. Untuk
luarannya adalah berupa persentase, dimana semakin tinggi
persentase yang didapat maka semakin baik pula linkage
tersebut mengelompokkan data.
b. Silhouette Index
Penulis menggunakan Silhouette Index untuk menghitung
seberapa tepat suatu data berada di cluster-nya. Hasil yang
akan ditampilkan berupa angka, dimana bila nilai angkanya
semakin mendekati satu maka semakin baik pula data tersebut
berada di clusternya.
Langkah pertama :
Pertama, hitung terlebih dahulu jarak kedekatan tiap cluster
menggunakan euclidean distance. Berikut jarak kedua cluster
sesudah melakukan perhitungan jarak :
Tabel 3.7 Hasil euclidean distance untuk cluster 1
1 2 3 4 5 6 7
cluster 1
1 0 3,741 10,459 8,330 5,731 7,787 9,091
2 3,741 0 9,348 8,330 6,697 7,788 8,981
3 10,459 9,348 0 11,832 10,167 7,119 9,310
4 8,330 8,330 11,832 0 7,960 10,034 11,691
5 5,731 6,697 10,167 7,960 0 5,980 8,352
6 7,787 7,788 7,119 10,034 5,980 0 4,690
7 9,091 8,981 9,310 11,691 8,352 4,690 0
Tabel 3.8 Hasil euclidean distance untuk cluster 2
8 9 10
cluster 2
8 0 5,099 2,645
9 5,099 0 6,557
10 2,645 6,557 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Langkah kedua :
Menghitung nilai ai untuk kedua cluster menggunakan
persamaan 2.5.
Mencari nilai ai untuk tiap kolom pada cluster 1 :
𝑎11 =
1
𝑚𝑗 − 1∑(𝑑(𝑥1
1, 𝑥21) + (𝑑(𝑥1
1, 𝑥31) + (𝑑(𝑥1
1, 𝑥41) + (𝑑(𝑥1
1, 𝑥51) + (𝑑(𝑥1
1, 𝑥61)
+ (𝑑(𝑥11, 𝑥7
1)
= 1
7 − 1∑ 3,741 + 10,459 + 8,330 + 5,731 + 7,787 + 9,091
= 7,523
𝑎21 =
1
𝑚𝑗 − 1∑(𝑑(𝑥2
1, 𝑥11) + (𝑑(𝑥2
1, 𝑥31) + (𝑑(𝑥2
1, 𝑥41) + (𝑑(𝑥2
1, 𝑥51) + (𝑑(𝑥2
1, 𝑥61)
+ (𝑑(𝑥21, 𝑥7
1)
= 1
7 − 1∑ 3,741 + 9,348 + 8,330 + 6,697 + 7,788 + 8,981
= 7,481
𝑎31 =
1
𝑚𝑗 − 1∑(𝑑(𝑥3
1, 𝑥11) + (𝑑(𝑥3
1, 𝑥21) + (𝑑(𝑥3
1, 𝑥41) + (𝑑(𝑥3
1, 𝑥51) + (𝑑(𝑥3
1, 𝑥61)
+ (𝑑(𝑥31, 𝑥7
1)
= 1
7 − 1∑ 10,459 + 9,348 + 11,832 + 10,167 + 7,119 + 9,310
= 9,706
𝑎41 =
1
𝑚𝑗 − 1∑(𝑑(𝑥4
1, 𝑥11) + (𝑑(𝑥4
1, 𝑥21) + (𝑑(𝑥4
1, 𝑥31) + (𝑑(𝑥4
1, 𝑥51) + (𝑑(𝑥4
1, 𝑥61)
+ (𝑑(𝑥41, 𝑥7
1)
= 1
7 − 1∑ 8,330 + 8,330 + 11,832 + 7,960 + 10,034 + 11,691
= 9,696
𝑎51 =
1
𝑚𝑗 − 1∑(𝑑(𝑥5
1, 𝑥11) + (𝑑(𝑥5
1, 𝑥21) + (𝑑(𝑥5
1, 𝑥31) + (𝑑(𝑥5
1, 𝑥41) + (𝑑(𝑥5
1, 𝑥61)
+ (𝑑(𝑥51, 𝑥7
1)
= 1
7 − 1∑ 5,731 + 6,697 + 10,167 + 7,960 + 5,980 + 8,352
= 7,481
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
𝑎61 =
1
𝑚𝑗 − 1∑(𝑑(𝑥6
1, 𝑥11) + (𝑑(𝑥6
1, 𝑥21) + (𝑑(𝑥6
1, 𝑥31) + (𝑑(𝑥6
1, 𝑥41) + (𝑑(𝑥6
1, 𝑥51)
+ (𝑑(𝑥61, 𝑥7
1)
= 1
7 − 1∑ 7,787 + 7,788 + 7,119 + 10,034 + 5,980 + 4,690
= 7,233
𝑎71 =
1
𝑚𝑗 − 1∑(𝑑(𝑥7
1, 𝑥11) + (𝑑(𝑥7
1, 𝑥21) + (𝑑(𝑥7
1, 𝑥31) + (𝑑(𝑥7
1, 𝑥41) + (𝑑(𝑥7
1, 𝑥51)
+ (𝑑(𝑥71, 𝑥6
1)
= 1
7 − 1∑ 9,091 + 8,981 + 9,310 + 11,691 + 8,352 + 4,690
= 8,686
Hasil dari ai untuk cluster 1 :
Tabel 3.9 Hasil Nilai ai untuk cluster 1 1 2 3 4 5 6 7
cluster 1
1 0 3,741 10,459 8,330 5,731 7,787 9,091
2 3,741 0 9,348 8,330 6,697 7,788 8,981
3 10,459 9,348 0 11,832 10,167 7,119 9,310
4 8,330 8,330 11,832 0 7,960 10,034 11,691
5 5,731 6,697 10,167 7,960 0 5,980 8,352
6 7,787 7,788 7,119 10,034 5,980 0 4,690
7 9,091 8,981 9,310 11,691 8,352 4,690 0
ai 7,523 7,481 9,706 9,696 7,481 7,233 8,686
Mencari nilai ai untuk tiap kolom pada cluster 2 :
𝑎81 =
1
𝑚𝑗 − 1∑(𝑑(𝑥8
1, 𝑥91) + (𝑑(𝑥8
1, 𝑥101 ) =
1
2∑ 5,099 + 2,645
= 3,872
𝑎91 =
1
𝑚𝑗 − 1∑(𝑑(𝑥9
1, 𝑥81) + (𝑑(𝑥9
1, 𝑥101 ) =
1
2∑ 5,099 + 6,557
= 5,828
𝑎101 =
1
𝑚𝑗 − 1∑(𝑑(𝑥10
1 , 𝑥81) + (𝑑(𝑥10
1 , 𝑥91) =
1
2∑ 2,645 + 6,557
= 4,601
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Hasil dari ai untuk cluster 2 :
Tabel 3.10 Hasil Nilai ai untuk cluster 2 8 9 10
cluster 2
8 0 5,099 2,645
9 5,099 0 6,557
10 2,645 6,557 0
ai 3,872 5,828 4,601
Langkah ketiga :
Menghitung jarak pada cluster yang berbeda dengan
menggunakan euclidean distance dan menghitung rata – rata
jarak.
Hasil hitung jarak dari cluster 1 ke cluster 2 :
Tabel 3.11 Hasil Hitung Jarak dari cluster 1 ke cluster 2 1 2 3 4 5 6 7
cluster 2
8 8,560 6,426 8,255 10,777 9,727 9,735 11,259
9 9,342 8,080 5,306 11,408 10,422 8,293 10,039
10 7,230 5,504 9,442 9,754 8,695 9,684 11,304
x 8,378 6,670 7,668 10,647 9,615 9,237 10,867
Hasil hitung jarak dari cluster 2 ke cluster 1 :
Tabel 3.12 Hasil Hitung Jarak dari cluster 2 ke cluster 1 8 9 10
cluster 1
1 8,560 9,342 7,230
2 6,426 8,080 5,504
3 8,255 5,306 9,442
4 10,777 11,408 9,754
5 9,727 10,422 8,695
6 9,735 8,293 9,684
7 11,259 10,039 11,304
x 9,248 8,984 8,802
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
Langkah keempat :
Menghitung nilai bi untuk kedua cluster menggunakan
persamaan 2.6.
Menghitung nilai bi untuk cluster 1 menggunakan rumus
berikut ini :
𝑏𝑖𝑗
= min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2)
Hasil dari bi untuk cluster 1 :
Tabel 3.13 Hasil nilai bi untuk cluster 1
bi 8,378 6,670 7,668 10,647 9,615 9,237 10,867
Menghitung nilai bi untuk cluster 2 menggunakan rumus
berikut ini :
𝑏𝑖𝑗
= min(𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1)
Hasil dari bi untuk cluster 2 :
Tabel 3.14 Hasil nilai bi untuk cluster 2 bi
9,248 8,984 8,802
Langkah kelima :
Menghitung silhouette index untuk cluster 1 dan cluster 2
dengan persamaan 2.7.
Hitung nilai SI untuk cluster 1 :
𝑆𝐼11 =
𝑏11 − 𝑎1
1
𝑚𝑎𝑥{𝑏11, 𝑎1
1}=
8,378 − 7,523
𝑚𝑎𝑥{8.378,7.523}= 0,101
𝑆𝐼21 =
𝑏21 − 𝑎2
1
𝑚𝑎𝑥{𝑏21, 𝑎2
1}=
6,670 − 7,481
𝑚𝑎𝑥{6.670,7.481}= −0,108
𝑆𝐼31 =
𝑏31 − 𝑎3
1
𝑚𝑎𝑥{𝑏31, 𝑎3
1}=
7,668 − 9,706
𝑚𝑎𝑥{7.668,9.706}= −0,209
𝑆𝐼41 =
𝑏41 − 𝑎4
1
𝑚𝑎𝑥{𝑏41, 𝑎4
1}=
10,647 − 9,696
𝑚𝑎𝑥{10.647,9.696}= 0,089
𝑆𝐼51 =
𝑏51 − 𝑎5
1
𝑚𝑎𝑥{𝑏51, 𝑎5
1}=
9,615 − 7,481
𝑚𝑎𝑥{9.615,7.481}= 0,221
𝑆𝐼61 =
𝑏61 − 𝑎6
1
𝑚𝑎𝑥{𝑏61, 𝑎6
1}=
9,237 − 7,233
𝑚𝑎𝑥{9.237,7.233}= 0,216
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
𝑆𝐼71 =
𝑏71 − 𝑎7
1
𝑚𝑎𝑥{𝑏71, 𝑎7
1}=
10,867 − 8,686
𝑚𝑎𝑥{10.867,8.686}= 0,200
Hasil nilai SI yang berada di cluster 1 :
Tabel 3.15 Nilai SI cluster 1 SI 0,101 -0,108 -0,209 0,089 0,221 0,216 0,200
Hitung nilai SI untuk cluster 2 :
𝑆𝐼11 =
𝑏11 − 𝑎1
1
𝑚𝑎𝑥{𝑏11, 𝑎1
1}=
9,248 − 3,872
𝑚𝑎𝑥{9.248,3.872}= 0,581
𝑆𝐼21 =
𝑏21 − 𝑎2
1
𝑚𝑎𝑥{𝑏21, 𝑎2
1}=
8,984 − 5,828
𝑚𝑎𝑥{8.984,5.828}= 0,351
𝑆𝐼31 =
𝑏31 − 𝑎3
1
𝑚𝑎𝑥{𝑏31, 𝑎3
1}=
8,802 − 4,601
𝑚𝑎𝑥{8.802,4.601}= 0,477
Hasil nilai SI yang berada di cluster 2 :
Tabel 3.16 Nilai SI cluster 2
SI 0,581 0,351 0,477
3.7. Perancangan Antar Muka Sistem
Gambar 3.6 User Interface
Penulisan tugas akhir ini mempunyai satu tampilan. Pada gambar 3.6
di atas terdapat tombol Cari yang mempunyai fungsi untuk mencari dan
memasukkan dokumen yang akan diolah. Selanjutnya isi dari dokumen
akan tampil di bagian tabel bawah tombol Cari. Kemudian terdapat tombol
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Preprocessing yang mempunyai fungsi untuk melakukan proses
preprocessing data dimana preprocessing yang dilakukan berupa
transformasi dan normalisasi data. Hasil dari preprocessing tersebut akan
tampil di bagian tabel bawah tombol Preprocessing. Selanjutnya ada
textfield Silhouette Index yang akan menampilkan silhouette index dari
keseluruhan data. Kemudian terdapat tombol Cluster yang mempunyai
fungsi untuk menjalankan cluster dalam data. Ketika tombol Cluster
dijalankan maka hasil dari cluster single linkage, complete linkage, dan
average linkage akan muncul di panel bagian samping. Untuk hasil
dendogram juga akan muncul di bawah tabel masing – masing. Textfield
yang berada di tiap panel cluster akan menampilkan hasil dari akurasi
cluster data dari masing – masing pendekatan yang digunakan dalam
metode agglomerative hierarchical clustering.
3.8. Spesifikasi Alat
Penelitian dilakukan dengan menggunakan hardware dan software
antara lain :
1. Hardware :
a. Processor : Intel(R) Core(TM) i5-2430M CPU @ 2.40GHz
b. RAM : 4GB
2. Software :
a. Sistem Operasi : Windows 10 64-bit
b. Bahasa Pemograman : Matlab 2018a
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
BAB IV
IMPLEMENTASI DAN ANALISA HASIL
Pada bab ini akan dijelaskan implementasi dan pembahasan hasil dari
pengelompokan nasabah yang berpotensi membuka deposito dari data nasabah
bank menggunakan agglomerative hierarchical clustering.
4.1. Implementasi
Pada bab ini implementasi dijelaskan dalam dua bagian, yaitu
berkaitan dengan proses pengolahan data dan user interface atas sistem
yang telah dibuat untuk pengolahan data tersebut.
4.1.1. Pengolahan Data
Data yang digunakan untuk pengolahan data dalam
penelitian ini berjumlah 3000 data dengan 5 atribut, yaitu
emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m,
nr.employed. Data yang digunakan adalah data bank yang
berekstensi .xlsx (MS. Excel). Data dapat diolah setelah melakukan
proses perhitungan jarak menggunakan jarak Euclidean.
4.1.2. Clustering
Setelah data diproses pada tahap preprocessing dan
melakukan penghitungan jarak menggunakan Euclidean distance
maka tahap selanjutnya adalah clustering dengan metode
Agglomerative Hierarchical Clustering menggunakan 3
pendekatan. Dalam penelitian ini pengelompokan dilakukan untuk
mengetahui sejauh mana pengelompokan yang dilakukan baik atau
tidaknya maka dilakukan uji akurasi sistem dengan internal dan
external evaluation. Internal evaluation digunakan untuk
memvalidasi tepat atau tidak sebuah data berada dalam cluster-nya.
Sedangkan untuk external evaluation digunakan untuk melihat
seberapa baik akurasi sistem bila digunakan untuk data nasabah
bank tersebut. Setelah melalui proses AHC, data nasabah tersebut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
akan menjadi beberapa kelompok dan diuji menggunakan
confusion matriks.
Pengelompokan menggunakan AHC terbagi menjadi 3
pendekatan, yaitu single linkage, complete linkage, dan average
linkage. Setiap hasil perhitungan akan ditampilkan ke dalam
diagram yang disebut dendogram dan hasil dari confusion matriks.
Dalam penelitian ini, penulis mencoba menguji beberapa atribut
untuk melihat akurasi mana yang mempunyai hasil lebih baik.
Berikut adalah hasil dari pengujian atribut.
Tabel 4.1 Pengujian Atribut No. Atribut Akurasi
1.
4 Atribut
cons.price.idx, cons.conf.idx,
euribor3m, Nr.employed
Single linkage : 86.5%
Complete linkage : 86.5%
Average linkage : 86.5%
2.
5 Atribut
Duration, cons.price.idx,
cons.conf.idx, euribor3m,
Nr.employed
Single linkage : 66.7%
Complete linkage : 66.6667%
Average linkage : 66.6667%
3.
5 Atribut
Emp.var.rate, cons.price.idx,
cons.conf.idx, euribor3m,
Nr.employed
Single linkage : 92%
Complete linkage : 86.5%
Average linkage : 86.5%
Dari Tabel 4.1 diatas, dapat dilihat bahwa 5 atribut pada
baris ke 3 memiliki akurasi yang paling baik. Berikut hasil dari
proses AHC menggunakan 3 pendekatan tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
1. Single Linkage
Gambar 4.1 Implementasi – Dendogram Single Linkage
Gambar 4.1 adalah diagram dendogram yang merupakan
pembentukan kelompok dengan pendekatan single linkage.
Perhitungan akurasi yang didapat dari pendekatan single linkage
adalah sebesar 92%.
2. Complete Linkage
Gambar 4.2 Implementasi – Dendogram Complete Linkage
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Gambar 4.2 adalah diagram dendogram yang merupakan
pembentukan kelompok dengan pendekatan complete linkage.
Perhitungan akurasi yang didapat dari pendekatan complete linkage
adalah sebesar 86.5%.
3. Average Linkage
Gambar 4.3 Implementasi – Dendogram Average Linkage
Gambar 4.3 adalah diagram dendogram yang merupakan
pembentukan kelompok dengan pendekatan average linkage.
Perhitungan akurasi yang didapat dari pendekatan average linkage
adalah sebesar 86.5%.
4.2. User Interface
Dalam pembuatan sistem implementasi agglomerative hierarchical
clustering dalam mengelompokkan potensi deposito atau tidak pada data
nasabah, penulis menggunakan Matlab. Sistem dibuat untuk menampilkan
hasil dari pengelompokan dengan menampilkan 3 pendekatan dalam satu
graphical user interface (GUI).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Dalam proses pengelompokan data, terdapat langkah – langkah yang
harus dilakukan yaitu input data, preprocessing, silhouette index, dan
agglomerative hierarchical clustering.
4.2.1. Input Data
Langkah pertama yang dilakukan adalah memasukkan data
yang akan diolah. Tombol Cari digunakan untuk mencari dan
memasukkan data yang bertipe .xlx atau .xlsx. Setelah data
ditemukan dan dimasukkan, maka sistem akan menampilkan data
tersebut seperti pada gambar 4.4 di bawah ini.
Gambar 4.4 Implementasi - Input Data
4.2.2. Preprocessing
Setelah data dimasukkan maka langkah selanjutnya adalah
tahap preprocessing dengan menekan tombol Preprocessing. Data
yang dipreprocessing ini akan tampil seperti pada gambar 4.5 di
bawah ini.
Gambar 4.5 Implementasi - Preprocessing
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
4.2.3. Silhouette Index
Tampilan untuk hasil silhouette index akan muncul saat
user menekan tombol Cluster. Hal ini dikarenakan silhouette index
memvalidasi data sebelum melakukan proses AHC, selain itu juga
banyaknya atribut juga mempengaruhi nilai dari silhouette index.
Tampilan silhouette index bisa dilihat seperti gambar 4.8 di bawah
ini.
Gambar 4.6 Tampilan Silhouette Index
4.2.4. Proses AHC dan Akurasi
Dalam tampilan GUI terdapat tombol Cluster seperti pada
gambar 4.7, dimana saat user menekan tombol tersebut maka akan
muncul hasil dari ketiga pendekatan yaitu single linkage, complete
linkage, atau average linkage. Setiap pendekatan memiliki tabel
iterasi pengelompokan, hasil dendogram, dan nilai akurasi masing
– masing. Hasil dari proses AHC tersebut dapat dilihat seperti
gambar 4.8 di bawah.
Gambar 4.7 Tampilan tombol cluster
Gambar 4.8 Implementasi - Hasil proses AHC
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
4.3. Analisa Hasil
Implementasi sistem yang telah dipaparkan pada gambar 4.8 diatas
membantu analisa terhadap clustering potensi pembukaan deposito bagi
nasabah bank sesuai dengan judul penulisan. Analisa dilakukan dengan
menggunakan 3000 data dengan 5 atribut. Atribut sebanyak 5 pada 3000
data diolah dengan menggunakan metode agglomerative hierarchical
clustering dengan tiga pendekatan, yaitu single linkage, complete linkage,
dan average linkage dimana proses pengelompokan dimulai dari
mengelompokkan 1 atribut sampai 5 atribut. Setelah melakukan
pengelompokkan, perhitungan akurasi dilakukan dengan menggunakan
confusion matrix. Setelah hasil dari confusion matrix diketahui untuk 3
pendekatan tersebut maka terlihat bahwa ketiga pendekatan tersebut
memiliki akurasi yang sama. Hasil tersebut dapat dilihat pada tabel 4.1 di
bawah ini :
Tabel 4.2 Hasil Akurasi 3 Pendekatan
Metode Akurasi Dendogram Jumlah obyek per cluster
1 2
Single
Linkage 92%
Tidak
seimbang 595 2405
Complete
Linkage 86.5%
Tidak
seimbang 430 165
Average
Linkage 86.5%
Tidak
seimbang 430 165
Akurasi pendekatan single linkage sebesar 92% didapat dari
confusion matrix, berikut hasil confusion matrix menggunakan pendekatan
single linkage dengan 5 atribut :
Tabel 4.3 Hasil confusion matrix single linkage Luaran 1 2
1 760 0
2 240 2000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 760 + 2000
760 + 2000 + 240 + 0𝑥 100% = 92%
Akurasi pendekatan complete linkage sebesar 86.5% didapat dari
confusion matrix, berikut hasil confusion matrix menggunakan pendekatan
complete linkage dengan 5 atribut :
Tabel 4.4 Hasil confusion matrix complete linkage Luaran 1 2
1 595 0
2 405 2000
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 595 + 2000
595 + 2000 + 405 + 0𝑥 100% = 86.5%
Akurasi pendekatan average linkage sebesar 86.5% didapat dari
confusion matrix, berikut hasil confusion matrix menggunakan pendekatan
average linkage dengan 5 atribut :
Tabel 4.5 Hasil confusion matrix average linkage
Luaran 1 2
1 595 0
2 405 2000
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 595 + 2000
595 + 2000 + 405 + 0𝑥 100% = 86.5%
Hal ini dapat terjadi karena penyebaran data yang tidak seimbang,
banyak data di dalam cluster 2 memiliki tingkat kemiripan yang sangat
tinggi dengan cluster 1 sehingga data pada cluster 2 terbaca di cluster 1
hal ini juga berpengaruh pada akurasi tiap pendekatan. Pada data nasabah
terdapat 1000 data untuk kelas 1 dan 2000 data untuk kelas 2 yang dipakai
untuk penelitian ini tetapi saat melakukan proses confusion matrix
ditemukan bahwa data yang berada di kelas 2 memiliki kemiripan lebih
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
besar dengan kelas 1 dibandingkan dengan kelas 2 itu sendiri. Untuk
ketiga pendekatan ini terdapat 2000 data pada kelas 2 yang memiliki
tingkat kemiripan yang tinggi pada kelas 1. Ini dapat dibuktikan dengan
menggunakan silhouette index dimana silhouette index akan digunakan
untuk memvalidasi baik atau tidak sebuah data, cluster tunggal, atau
bahkan keseluruhan cluster. Dalam penelitian ini penulis menggunakan
silhouette index untuk melihat seberapa baik data tersebut berada pada
labelnya. Berikut perhitungan rata – rata silhouette index yang dilakukan
terhadap 3000 data :
Nilai rata – rata silhouette index :
Cluster 1 :
𝑆𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 1 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1
𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎
= 133,3678
1000
= 0,133368
Cluster 2 :
𝑆𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 2 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2
𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎
=1999,999
2000
= 0,99999
𝑆𝐼 𝑅𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 = 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1 + 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2
2
= 0,133368 + 0,99999
2
= 0,566684
Gambar 4.9 Hasil rata – rata SI pada data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
BAB V
PENUTUP
Bab terakhir pada penulisan ini menjelaskan mengenai kesimpulan pada
penelitian terkait dengan pengelompokan potensi pembukaan deposito bagi
nasabah dengan menggunakan metode agglomerative hierarchical clustering. Bab
ini juga menjelaskan saran yang diberikan pada sistem yang dibuat.
5.1. Kesimpulan
Pengelompokan potensi pembukaan deposito bagi nasabah dengan
menggunakan metode agglomerative hierarchical clustering berdasarkan
data nasabah.
1. Dalam penelitian ini, agglomerative hierarchical clustering kurang
baik digunakan untuk mengelompokkan potensi pembukaan deposito
pada data nasabah. Dalam penelitian ini juga clustering yang
dihasilkan kurang seimbang.
2. Penyebaran data nasabah kurang baik dalam melakukan clustering,
dapat dilihat dari hasil rata – rata silhouette index yang sangat jauh dari
angka 1.
3. Dari tiga pendekatan yang dilakukan, menghasilkan dendogram yang
cukup baik adalah single linkage.
4. Pengujian akurasi dengan menggunakan confussion matrix
menghasilkan persentase paling tinggi yaitu 92% dan terendah 86.5%.
5.2. Saran
Saran yang diperlukan untuk pengembangan sistem selanjutnya
sebagai berikut :
1. Data yang digunakan dalam clustering lebih baik jika menggunakan
penyebaran yang seimbang.
2. Uji akurasi dapat dicoba dengan menggunakan uji SSE atau sum
square error.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
DAFTAR PUSTAKA
Astuti, F.H. 2013. Data Mining. Yogyakarta : Andi
Bramer, M. 2007. Principles of Data Mining. London: Springer.
Turban, E. dan Aronson, J.E. 2005. Decision Support Systems and Intelligent
Systems. Yogyakarta: Andi
Han, J.W., Kamber, M. dan Pei, J. 2006. Data Mining: Concepts and
Techniques, 2nd ed.
Kasmir. 2014. Analisis Laporan Keuangan, Edisi Pertama, Cetakan Ketujuh.
Jakarta: Raja Grafindo Persada.
Kotler, P. 1996. Manajemen Pemasaran: Maketing Management 9e. Jakarta:
PT. Prenhallindo.
Kurniawan. A.A. 2017. Implementasi Algoritma Agglomerative Hierarchical
Clustering untuk Mengelompokkan Capaian Belajar Siswa SD.
Yogyakarta: Universitas Sanata Dharma.
Negoro, M.T. 2015. Rancangan Bangun Aplikasi Ruang Ganti Virtual
Berdasarkan Skeleton Tracking dan Depth Data Menggunakan Microsoft
Kinect. Tugas Akhir, Teknik Informatika Institut Teknologi Sepuluh
November Surabaya.
Prasetyo, E. 2012. Data Mining: Mengolah Data Menjadi Informasi
Menggunakan Matlab.Yogyakarta : Andi
Pratomo, B.Y. 2017. Pengelompokan Peran Pemain Dota 2 Dalam
Pertandingan Profesional dengan Metode Agglomerative Hierarchical
Clustering. Yogyakarta: Universitas Sanata Dharma.
Septiawanti, S. 2018. Penerapan Metode Case Based Reasoning untuk
Prediksi Data Nasabah yang Berpotensi Membuka Simpanan Deposito.
Yogyakarta: Universitas Sanata Dharma.
Sukmayani, R., Umang, T.K., dan Sedono. 2008. Ilmu Pengetahuan Sosial.
Jakarta: PT Galaxy Puspa Mega.
Tamara, L.A.V. 2018. Klasifikasi Data Nasabah Yang Berpotensi Membuka
Simpanan Deposito Menggunakan Algoritma Rough Set. Yogyakarta:
Universitas Sanata Dharma.
Tan, P., Steinbach, M., dan Kumar, V. 2006. Introduction to Data Mining.
Pearson Education, Inc.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Data 1 : 1000
Data 2 : 2000
Atribut 11,17,18,19,20
• Single Linkage (66.7%)
• Complete Linkage (66.6667%)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
• Average Linkage (66.6667%)
Data 1 : 1000
Data 2 : 2000
Atribut 16,17,18,19,20
• Single Linkage (92%)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
• Complete Linkage (86.5%)
• Average Linkage (86.5%)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Data 1 : 1000
Data 2 : 2000
Atribut 17,18,19,20
• Single Linkage (86.5%)
• Complete Linkage (86.5%)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
• Average Linkage (86.5%)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI