PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO … · Susunan Panitia Penguji Jabatan Nama Lengkap...

PENGELOMPOKAN NASABAH BERDASAR POTENSI

DEPOSITO ATAU TIDAK MENGGUNAKAN ALGORITMA

AGGLOMERATIVE HIERARCHICAL CLUSTERING

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh :

Monica Rinda Christanto

155314045

PROGRAM STUDI INFORMATIKA

JURUSAN INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLUSTERING CLIENT BASED ON POTENTIAL DEPOSITO

OR NOT USING AGGLOMERATIVE HIERARCHICAL

CLUSTERING ALGORITHM

A THESIS

Presented as Partial Fulfillment of The Requirements

to Obatin Sarjana Komputer Degree

In Informatics Study Program

Written by :


155314045

INFORMATICS STUDY PROGRAM

DEPARTMENT OF INFORMATICS

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


iii

HALAMAN PERSETUJUAN PEMBIMBING

SKRIPSI

PENGELOMPOKAN NASABAH BERDASAR POTENSI

DEPOSITO ATAU TIDAK MENGGUNAKAN ALGORITMA

AGGLOMERATIVE HIERARCHICAL CLUSTERING

Oleh :


155314045

Telah disetujui oleh :

Pembimbing

Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc. Tanggal : ....................


iv

HALAMAN PENGESAHAN

SKRIPSI

PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO

ATAU TIDAK MENGGUNAKAN ALGORITMA AGGLOMERATIVE

HIERARCHICAL CLUSTERING

Dipersiapkan dan ditulis oleh :

MONICA RINDA CHRISTANTO

NIM : 155314045

Telah dipertahankan di depan Panitia Penguji

Pada Tanggal ........................................

Dan dinyatakan memenuhi syarat

Susunan Panitia Penguji

Jabatan Nama Lengkap Tanda Tangan

Ketua : Drs. Haris Sriwindono M.Kom, Ph.D. .............................

Sekretaris : Dr. Anastasia Rita Widiarti .............................

Anggota : Dr. Cyprianus Kuntoro Adi, S.J. M.A., M.Sc. .............................

Yogyakarta, .....................................2020

Fakultas Sains dan Teknologi

Universitas Sanata Dharma

Dekan,

Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D


v

MOTTO

“It doesn’t matter how slowly you go as long as you don’t stop.”

Bambam GOT7


vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini

tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan

dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.

Yogyakarta, ..............................

Penulis



vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI

KARYA ILMIAH UNTUK KEPENTINGAN KAMPUS

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma :

Nama : Monica Rinda Christanto

NIM : 155314045

Demi pengembangan ilmu pengetahuan, saya memberikan kepada perpustakaan

Universitas Sanata Dharma karya ilmiah yang berjudul

PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO

ATAU TIDAK MENGGUNAKAN ALGORITMA AGGLOMERATIVE

HIERARCHICAL CLUSTERING

Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan,

mengaktikan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan

data, mendistribusikan secara terbatas dan mempublikasikan di internet atau

media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya

maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya

sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Yogyakarta, ......................

Yang menyatakan,



viii

ABSTRAK

Perbankan dalam melakukan suatu kegiatan pokoknya akan menerapkan

berbagai strategi pemasaran. Salah satu strategi yang dilakukan adalah melalui

telepon untuk mendapatkan respon langsung. Melalui telepon, seorang operator

mencatat hal – hal yang diperlukan sebagai data untuk disimpan, misalnya umur,

pekerjaan, status pernikahan, pendidikan, dan lain – lain. Melalui data tersebut,

pihak bank bisa mengetahui tentang berbagai hal mengenai nasabah itu sendiri

termasuk melakukan identifikasi terhadap kondisi nasabah dengan lebih mudah.

Penelitian ini bertujuan untuk membangun sistem yang secara otomatis

membagi data menjadi kelompok – kelompok yang dapat membantu kegiatan

perbankan terlebih dalam melihat profil nasabah yang berpotensi melakukan

simpanan deposito menggunakan metode agglomerative hierarchical clustering

dengan tiga pendekatan yaitu single linkage, complete linkage, dan average

linkage.

Dari hasil pencobaan tersebut, ditemukan bahwa hasil pengklusteran dari

menggunakan tiga pendekatan tersebut memiliki akurasi yang paling tinggi

sebesar 92%. Luaran yang dihasilkan adalah berupa dendogram yang merupakan

diagram berbentuk pohon yang menunjukkan derajat persamaan diantara anggota

– anggota suatu kelompok.

Kata kunci: deposito, agglomerative hierarchical clustering, single linkage,

complete linkage, average linkage, dan dendogram.


ix

ABSTRACT

Banking in conducting a certain activity will apply various marketing

strategies. One strategy that is done is by phone to get a direct response. By

telephone, an operator records what is required as data to be stored, such as age,

occupation, marital status, education, etc. Through the data, the bank can find out

about various things about the customer itself including identifying the condition

of the customer more easily.

This research aims to build a system that automatically divides the data

into groups that can assist banking activities in looking at the customer's profile

that could potentially deposit deposits using the method Agglomerative

hierarchical clustering with three approaches is single linkage, complete linkage,

and average linkage.

From the results of the trials, it was found that the results from using these

three approaches had the highest accuracy of 92%. The resulting outer is a

dendrogram which is a tree-shaped diagram indicating the degree of equality

between members – a group member.

Keyword: Deposits, agglomerative hierarchical clustering, single linkage,

complete linkage, average linkage, and dendrogram.


x

KATA PENGANTAR

Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas segala

rahmat dan berkat yang telah diberikan sehingga penulis dapat menyelesaikan

skripsi dengan judul “Pengelompokan Nasabah Berdasar Potensi Deposito atau

Tidak Menggunakan Algoritma Agglomerative Hierarchical Clustering” sebagai

salah satu syarat memperoleh gelar sarjana pada program studi Informatika

Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.

Dalam penulisan karya ilmiah ini penulis juga tidak lupa mengucapkan

terima kasih kepada pihak – pihak yang telah membantu dan juga memberi

semangat dalam pengerjaan karya ini. Ucapan terima kasih penulis sampaikan

kepada :

1. Tuhan Yesus Kristus yang selalu memberikan berkat serta karunia-Nya

yang melimpah dalam mengerjakan karya ini.

2. Dr. C. Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing yang

dengan sabar memberikan bimbingan dan pengarahan terbaik dalam

pengerjaan skripsi ini.

3. Orang tua, Antonius Sukidi dan Christina Rismi Widiastuti yang selalu

mendukung dalam setiap langkah, memberikan semangat yang sangat

membantu penulis dalam pengerjaan, doa, dan dukungan berupa

material dan non-material.

4. Kakak Renatyas Fajar Christanto dan Adik Maria Ceryza Christanto

yang selalu memberikan semangat dan dukungan.

5. Aurelia Utari, Charista Alve, Henrika Prima, Theodora Endingyana,

Saras Risky, Nur Indah, dan teman – teman lainnya yang selalu

memberikan motivasi dan semangat kepada penulis.

6. Sahabat surgawi, Elfrida Afentri Manurung, Clara Maria De Rosario

Taek, Yasintha Puteri Larasati, Ventya Fernitha, dan Andreas Kevin

Febianto yang selalu memberikan masukan, bantuan, dan dukungan

kepada penulis.

7. Adi, William, dan Tebe yang telah berbagi ilmu dan memberikan

bantuan jika menghadapi kesulitan bagi penulis.


xi

8. Debo, Enjang, Novri, Zenggi, Udev, dan teman – teman Teknik

Informatika 2015 lainnya yang tidak dapat disebutkan satu per satu

yang selalu memberikan semangat dan doa kepada penulis.

9. GOT7, boygroup Korea yang musiknya selalu menemani penulis

dalam mengerjakan skripsi ini.

Penulis menyadari masih terdapat kekurangan dari penulisan skripsi ini,

sehingga penulis mengharapkan kritik dan saran yang bersifat membangun untuk

penyempurnaan dikemudian hari. Akhir kata, penulis berharap semoga skripsi ini

dapat bermanfaat bagi banyak pihak.

Yogyakarta, 11 Oktober 2019

Penulis,



xii

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

TITLE PAGE .......................................................................................................... ii

HALAMAN PERSETUJUAN PEMBIMBING .................................................... iii

HALAMAN PENGESAHAN ................................................................................ iv

MOTTO .................................................................................................................. v

PERNYATAAN KEASLIAN KARYA ................................................................ vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN KAMPUS .................................................................. vii

ABSTRAK ........................................................................................................... viii

ABSTRACT ........................................................................................................... ix

KATA PENGANTAR ............................................................................................ x

DAFTAR ISI ......................................................................................................... xii

DAFTAR GAMBAR ........................................................................................... xiv

DAFTAR TABEL ................................................................................................. xv

BAB I PENDAHULUAN ..................................................................................... 1

1.1. Latar Belakang ......................................................................................... 1

1.2. Rumusan Masalah .................................................................................... 2

1.4. Manfaat Penelitian .................................................................................... 3

1.5. Luaran ....................................................................................................... 3

1.6. Batasan Masalah ....................................................................................... 3

1.7. Sistematika Penulisan ............................................................................... 4

BAB II LANDASAN TEORI ............................................................................... 5

2.1. Deposito .................................................................................................... 5

2.2. Nasabah .................................................................................................... 5

2.3. Data Mining .............................................................................................. 5

2.3.1. Definisi .............................................................................................. 5

2.3.2. Pengelompokan Data Mining ........................................................... 8

2.4. Clustering ............................................................................................... 10

2.5. Agglomerative Hierarchical Clustering ................................................. 12

2.5.1. Single Linkage ................................................................................ 13


xiii

2.5.2. Average Linkage ............................................................................. 13

2.5.3. Complete Linkage ........................................................................... 13

2.6. Silhouette Index ...................................................................................... 20

2.7. Confusion Matrix .................................................................................... 22

BAB III METODOLOGI PENELITIAN ......................................................... 23

3.1. Sumber Data ........................................................................................... 23

3.2. Gambaran Umum Sistem ....................................................................... 24

3.3. Preprocessing ......................................................................................... 25

3.4. Perhitungan Jarak ................................................................................... 32

3.5. Agglomerative Hierarchical Clustering ................................................. 34

3.6. Perhitungan Akurasi ............................................................................... 37

3.7. Perancangan Antar Muka Sistem ........................................................... 42

3.8. Spesifikasi Alat ....................................................................................... 43

BAB IV IMPLEMENTASI DAN ANALISA HASIL ...................................... 44

4.1. Implementasi .......................................................................................... 44

4.1.1. Pengolahan Data.............................................................................. 44

4.1.2. Clustering ........................................................................................ 44

4.2. User Interface ......................................................................................... 47

4.2.1. Input Data ........................................................................................ 48

4.2.2. Preprocessing .................................................................................. 48

4.2.3. Silhouette Index ............................................................................... 49

4.2.4. Proses AHC dan Akurasi ................................................................ 49

4.3. Analisa Hasil .......................................................................................... 50

BAB V PENUTUP ............................................................................................... 53

5.1.Kesimpulan ..................................................................................................... 53

5.2.Saran ................................................................................................................ 53

DAFTAR PUSTAKA .......................................................................................... 54

LAMPIRAN ......................................................................................................... 55


xiv

DAFTAR GAMBAR

Gambar 2.1 Proses penambangan data (Han&Kamber, 2006) ............................... 6

Gambar 3.1 Gambaran Umum Sistem .................................................................. 25

Gambar 3.2 Data Sampel ...................................................................................... 33

Gambar 3.3 Dendogram Single Linkage ............................................................... 35

Gambar 3.4 Dendogram Complete Linkage .......................................................... 35

Gambar 3.5 Dendogram Average Linkage ............................................................ 36

Gambar 3.6 User Interface .................................................................................... 42

Gambar 4.1 Implementasi – Dendogram Single Linkage ..................................... 46

Gambar 4.2 Implementasi – Dendogram Complete Linkage ................................ 46

Gambar 4.3 Implementasi – Dendogram Average Linkage .................................. 47

Gambar 4.4 Implementasi - Input Data ................................................................. 48

Gambar 4.5 Implementasi - Preprocessing ........................................................... 48

Gambar 4.6 Tampilan Silhouette Index ................................................................. 49

Gambar 4.7 Tampilan tombol cluster ................................................................... 49

Gambar 4.8 Implementasi - Hasil proses AHC ..................................................... 49

Gambar 4.9 Hasil rata – rata SI pada data ............................................................. 52


xv

DAFTAR TABEL

Tabel 2.1 Set data kecil 2 dimensi ........................................................................ 14

Tabel 2.2 Hasil perhitungan jarak Euclidean dari sampel data ............................. 16

Tabel 2.3 Matriks jarak pertama untuk single linkage .......................................... 16

Tabel 2.4 Matriks jarak kedua untuk single linkage ............................................. 17

Tabel 2.5 Matriks jarak pertama untuk average linkage ...................................... 18

Tabel 2.6 Matriks jarak kedua untuk average linkage .......................................... 18

Tabel 2.7 Matriks jarak pertama untuk complete linkage ..................................... 19

Tabel 2.8 Matriks jarak kedua untuk complete linkage ........................................ 20

Tabel 2.9 Tabel confusion matrix ......................................................................... 22

Tabel 3.1 Atribut Data Set Nasabah ...................................................................... 23

Tabel 3.2 Contoh beberapa data normalisasi menggunakan algoritma Min-Max 32

Tabel 3.3 Similitary Matriks ................................................................................. 34

Tabel 3.4 Contoh Cluster Single Linkage ............................................................. 35

Tabel 3.5 Contoh Cluster Complete Linkage ........................................................ 36

Tabel 3.6 Contoh Cluster Average Linkage .......................................................... 36

Tabel 3.7 Hasil euclidean distance untuk cluster 1 .............................................. 37

Tabel 3.8 Hasil euclidean distance untuk cluster 2 .............................................. 37

Tabel 3.9 Hasil Nilai ai untuk cluster 1 ................................................................. 39

Tabel 3.10 Hasil Nilai ai untuk cluster 2 ............................................................... 40

Tabel 3.11 Hasil Hitung Jarak dari cluster 1 ke cluster 2 ..................................... 40

Tabel 3.12 Hasil Hitung Jarak dari cluster 2 ke cluster 1 ..................................... 40

Tabel 3.13 Hasil nilai bi untuk cluster 1 ............................................................... 41

Tabel 3.14 Hasil nilai bi untuk cluster 2 ............................................................... 41

Tabel 3.15 Nilai SI cluster 1 ................................................................................. 42

Tabel 3.16 Nilai SI cluster 2 ................................................................................. 42

Tabel 4.1 Pengujian Atribut .................................................................................. 45

Tabel 4.2 Hasil Akurasi 3 Pendekatan .................................................................. 50

Tabel 4.3 Hasil confusion matrix single linkage ................................................... 50

Tabel 4.4 Hasil confusion matrix complete linkage .............................................. 51

Tabel 4.5 Hasil confusion matrix average linkage ............................................... 51


1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Bank adalah badan usaha yang menghimpun dana dari masyarakat

dalam bentuk simpanan dan menyalurkannya kembali kepada masyarakat

dalam bentuk kredit dan atau bentuk – bentuk lainnya dalam rangka

meningkatkan taraf hidup rakyat banyak (Kasmir, 2014). Perbankan

memiliki usaha yang meliputi tiga kegiatan, yaitu menghimpun dana,

menyalurkan dana, dan memberikan jasa bank lainnya. Kegiatan pokok

bank adalah kegiatan menghimpun dana yang dapat berupa

mengumpulkan dana dari masyarakat dalam bentuk simpanan giro,

tabungan, dan deposito. Bank juga biasanya memberikan balas jasa yang

menarik seperti bunga dan hadiah. Kegiatan menyalurkan dana, berupa

memberikan pinjaman kepada masyarakat sedangkan jasa – jasa

perbankan lainnya diberikan untuk mendukung kelancaran kegiatan utama

tersebut.

Perbankan dalam melakukan suatu kegiatan pokoknya akan

menerapkan berbagai strategi pemasaran. Salah satu strategi pemasaran

yang dilakukan adalah pemasaran secara langsung (direct marketing).

Pemasaran langsung adalah sistem pemasaran yang memakai berbagai

media iklan untuk berinteraksi secara langsung dengan target konsumen.

(Kotler, 1996). Salah satu interaksi yang dilakukan adalah melalui telepon

untuk mendapatkan respon langsung. Seringkali, lebih dari satu kali

bagian pemasaran menghubungi pelanggan untuk menilai apakah produk

yang ditawarkan akan dilanggankan atau tidak.

Dalam melakukan pemasaran secara langsung khususnya melalui

telepon, seorang operator mencatat hal – hal yang diperlukan sebagai data

untuk disimpan, misalnya umur, pekerjaan, status pernikahan, pendidikan,

dan lain – lain. Meskipun hal ini tampaknya sepele, tapi kenyataannya data

dari pemasaran tersebut merupakan hal yang penting. Melalui data


2

tersebut, pihak bank bisa mengetahui tentang berbagai hal mengenai

nasabah itu sendiri. Melalui data yang lengkap biasanya pihak bank akan

melakukan identifikasi terhadap kondisi nasabah dengan lebih mudah.

Dengan data nasabah yang lengkap, maka pastinya proses pendataan juga

akan semakin mudah.

Penelitian yang juga terkait dengan topik yang diambil oleh penulis

seperti penelitian oleh Luh Ayu Vivi Tamara (2018) yang menerapkan

algoritma rough set untuk mengklasifikasikan data nasabah bank.

Berdasarkan perhitungannya, dapat disimpulkan bahwa rough set dapat

diterapkan dan dapat menemukan aturan klasifikasi yang menarik dari data

set. Selain itu, terdapat penelitian lain yang terkait seperti penelitian oleh

Sinta Septiawanti (2018) yang menerapkan metode case-based reasoning

untuk memprediksi data nasabah yang berpotensi membuka simpanan

deposito. Berdasarkan penelitiannya, dapat disimpulkan bahwa metode

case-based reasoning dapat diterapkan untuk sistem dalam memprediksi

nasabah yang berpotensi membuka simpanan deposito.

Berdasarkan uraian di atas, peneliti tertarik untuk menerapkan

metode agglomerative hierarchical clustering untuk data nasabah bank

dengan cara membagi data menjadi kelompok – kelompok yang dapat

membantu kegiatan perbankan terlebih dalam melihat profil nasabah yang

berpotensi melakukan simpanan deposito, serta dapat digunakan sebagai

media dan acuan untuk dapat digunakan secara optimal dalam kegiatan

perbankan pada umumnya.

1.2. Rumusan Masalah

Dengan adanya permasalahan tersebut, maka yang menjadi pokok

permasalahan dalam penelitian ini adalah

1. Bagaimana menerapkan metode agglomerative hierarchical

clustering untuk mengelompokkan data nasabah ?

2. Apakah metode agglomerative hierarchical clustering dapat

dipergunakan pada data nasabah dengan memberikan validitas

yang baik ?


3

1.3. Tujuan Penelitian

Adapun yang menjadi tujuan penelitian ini adalah

1. Membangun sebuah sistem mengenai data nasabah dengan

menerapkan algoritma agglomerative hierarchical clustering

sehingga mampu mempermudah bank dalam mengelompokkan

data nasabah tersebut.

2. Mengetahui tingkat validiasi yang dihasilkan dengan menggunakan

algoritma agglomerative hierarchical clustering dalam

mengelompokkan data nasabah pada sebuah bank.

1.4. Manfaat Penelitian

1. Mengetahui metode yang optimal dalam mengelompokkan

nasabah menggunakan agglomerative hierarchical clustering.

2. Menjadi bahan rujukan bagi semua ilmu yang berhubungan dengan

penelitian dan menjadi referensi bagi mahasiswa yang melakukan

kajian terhadap algoritma ini.

1.5. Luaran

Luaran yang diharapkan pada penelitian ini berupa sistem

pengelompokan yang tepat.

1.6. Batasan Masalah

Dalam batasan masalah ini, penulis membatasi permasalahan yang perlu

yaitu:

1. Data set yang digunakan adalah bagian marketing sebuah bank di

Portugal. Data ini merupakan data public yang diperoleh dari UCI

Machine Learning. Data tersebut terdiri dari 41188 record, 20

atribut, dan 1 label kelas.

2. Pengelompokan menggunakan metode agglomerative hierarchical

clustering single lingkage, average linkage, dan complete linkage.


4

1.7. Sistematika Penulisan

BAB I : PENDAHULUAN

Bab ini berisi latar belakang permasalahan, rumusan masalah, tujuan

penelitian, manfaat penelitian, luaran, batasan masalah, dan sistematika

penulisan.

BAB II : LANDASAN TEORI

Bab ini berisi pembahasan landasan teori yang didapatkan dari sumber

pustaka yang digunakan untuk penyusunan tugas akhir, antara lain yaitu

penambangan data, konsep clustering, algoritma agglomerative

hierarchical clustering, bank, deposito, serta Silhouette index.

BAB III : METODOLOGI PENELITIAN

Bab ini berisi mengenai data, tahap – tahap penelitian, dan spesifikasi alat.

BAB IV : IMPLEMENTASI DAN ANALISA HASIL

Bab ini berisi mengenai implementasi perancangan antarmuka dan analisa

dari hasil pembuatan sistem, yakni membahas tentang hasil pengujian

yang dilakukan pada sistem untuk mencari kekurangan sistem.

BAB V : KESIMPULAN

Bab ini berisi mengenai kesimpulan dan saran yang berkaitan dengan

sistem yang dibangun dari penelitian yang telah dilakukan.


5

BAB II

LANDASAN TEORI

2.1. Deposito

Deposito atau simpanan berjangka merupakan simpanan dana

masyarakat dimana penarikan tersebut hanya dilakukan pada waktu

tertentu sesuai dengan tanggal yang telah disepakati antara nasabah

dengan pihak bank. Apabila nasabah menarik dananya tidak sesuai

dengan waktu yang telah disepakati, nasabah akan didenda

(Sukmayani dkk., 2008)

Deposito dapat dicairkan sesuai tanggal jatuh tempo, biasanya

jatuh tempo deposito berkisar 1 bulan, 3 bulan, 6 bulan, atau 12 bulan.

Bank dapat memperpanjang simpanan deposito nasabah secara

otomatis jika nasabah tidak mengambil dana deposito pada saat jatuh

tempo.

2.2. Nasabah

Dalam peraturan Bank Indonesia No. 7/7/ PBI 2005 jo No. 10/10/

PBI 2008 tentang penyelesaian pengaduan nasabah pasal 1 angka 2

yang dimaksud dengan nasabah atau mitra adalah pihak yang

menggunakan jasa bank, termasuk pihak yang tidak memiliki rekening

namun memanfaatkan jasa bank untuk melakukan transaksi keuangan.

Di dalam UU No. 10 Tahun 1998 pasal 1 angka 17 disebutkan bahwa

pengertian nasabah adalah pihak yang menggunakan jasa bank.

2.3. Data Mining

2.3.1. Definisi

Data mining adalah suatu istilah yang digunakan

untuk menguraikan penemuan pengetahuan di dalam

database. Data mining adalah proses yang menggunakan

teknik statistik, matematika, kecerdasan buatan, dan

machine learning untuk mengekstraksi dan

mengidentifikasi informasi yang bermanfaat dan


6

pengetahuan yang terkait dari berbagai database besar

(Turban, dkk. 2005).

Istilah data mining dan knowledge discovery in

databases (KDD) sering kali digunakan secara bergantian

untuk menjelaskan proses penggalian informasi

tersembunyi dalam suatu basis data yang besar. Sebenarnya

kedua istilah tersebut memiliki konsep yang berbeda, tetapi

berkaitan satu sama lain. Dan salah satu tahapan dalam

keseluruhan proses KDD adalah data mining. Pada gambar

2.1 di bawah ini mendeskripsikan tentang proses

penambangan data menurut Han dan Kamber.

Gambar 2.1 Proses penambangan data (Han&Kamber, 2006)

Proses KDD secara garis besar dapat dijelaskan sebagai

berikut (Han&Kamber, 2006).

1. Pembersihan Data (Data Cleaning)

Pada tahap ini, noise data yang tidak konsisten akan

dihapus. Pembersihan data (data cleaning) digunakan

untuk mendeteksi missing values, memperhalus noise


7

dari luar dengan mengidentifikasi outliers, dan

membenarkan ketidakkonsistenan di dalam data.

2. Integrasi Data (Data Integration)

Pada tahap ini, akan dilakukan penggabungan data

dari berbagai macam sumber data. Data ini akan

digabungkan ke dalam penyimpanan data yang

koheren. Macam – macam penyimpanan termasuk

multiple databases, data cubes, atau flat files. Hal – hal

yang perlu diperhatikan dalam integrasi data, yaitu

integrasi skema, pencocokan objek, dan redudansi data.

3. Seleksi Data (Data Selection)

Pada tahap ini, data yang relevan akan dianalisis

yang diambil dari sebuah basis data. Akan dilakukan

analisis korelasi untuk analisis fitur. Atribut – atribut

data akan dicek apakah relevan dilakukan

penambangan data. Atribut yang tidak relevan ataupun

atribut yang mengalami redudansi tidak akan

digunakan. Atribut yang diharapkan adalah atribut yang

bersifat independen, artinya antara atribut satu dengan

atribut yang lain tidak saling mempengaruhi.

4. Transformasi Data (Data Transformation)

Data ditransformasikan atau dikonsolidasi ke dalam

bentuk – bentuk yang sesuai atau tepat untuk

ditambang. Transformasi data meliputi langkah –

langkah berikut :

a. Penghalusan (smoothing), bertugas untuk

menghapus noise dari data. Teknik – teknik yang

digunakan meliputi binning, regression, dan

clustering.

b. Pengumpulan (Aggregation), kesimpulan atau

operasi – operasi pengumpulan yang diaplikasikan

pada data.


8

5. Penambangan Data (Data mining)

Pada tahap ini, penambangan data merupakan

sebuah proses penting, dimana metode – metode

intelejen diaplikasikan dengan tepat untuk mengekstrak

pola data.

6. Evaluasi Pola (Pattern Evaluation)

Pada tahap ini, mengidentifikasi pola yang sungguh

– sungguh menarik untuk merepresentasikan beberapa

pengetahuan pengukuran yang penting berdasarkan

(interesttingness measures).

7. Presentasi Pengetahuan (Knowledge Presentation)

Pada tahap ini, teknik visualisasi pengetahuan

dalam yang merepresentasikan dipresentasikan kepada

pengguna.

2.3.2. Pengelompokan Data Mining

Data mining dibagi menjadi beberapa kelompok

berdasarkan tugas yang dapat dilakukan, yaitu

1. Deskripsi

Terkadang peneliti dan analis secara sederhana

ingin mencoba mencari cara untuk menggambarkan

pola dan kecenderungan yang terdapat dalam data.

Deskripsi dari pola dan kecenderungan sering

memberikan kemungkinan penjelasan untuk suatu pola

atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali

variabel target estimasi lebih ke arah numerik daripada

ke arah kategori. Model dibangun menggunakan record

lengkap yang menyediakan nilai dari variabel target

sebagai nilai prediksi. Selanjutnya, pada peninjauan


9

berikutnya estimasi nilai dari variabel target dibuat

berdasarkan nilai variabel prediksi.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan

estimasi, kecuali bahwa dalam prediksi nilai dari hasil

akan ada di masa mendatang. Beberapa metode dan

teknik yang digunakan dalam klasifikasi dan estimasi

dapat pula digunakan (untuk keadaan yang tepat) untuk

prediksi.

4. Klasifikasi

Dalam klasifikasi, terdapat target variabel kategori.

Sebagai contoh, penggolongan pendapatan dapat

dipisahkan dalam tiga kategori, yaitu pendapatan tinggi,

pendapatan sedang, dan pendapatan rendah.

5. Pengklusteran

Pengklusteran merupakan pengelompokan record,

pengamatan, atau memperhatikan dan membentuk kelas

objek – objek yang memiliki kemiripan. Kluster adalah

kumpulan record yang memiliki kemiripan satu dengan

yang lainnya dan memiliki ketidakmiripan dengan

record – record dalam kluster lain.

Pengklusteran berbeda dengan klasifikasi yaitu

tidak adanya variabel target dalam pengklusteran.

Pengklusteran tidak mencoba untuk melakukan

klasifikasi, mengestimasi, atau memprediksi nilai dari

variabel target. Akan tetapi, algoritma pengklusteran

mencoba untuk melakukan pembagian terhadap

keseluruhan data menjadi kelompok – kelompok yang

memiliki kemiripan (homogen), yang mana kemiripan

record dalam satu kelompok akan bernilai maksimal,

sedangkan kemiripan record dalam kelompok lain akan

bernilai minimal.


10

6. Asosiasi

Tugas asosiasi dalam data mining adalah

menemukan atribut yang muncul dalam satu waktu.

Dalam dunia bisnis lebih umum disebut analisis

keranjang belanja.

7. Outlier

Outlier adalah data yang muncul memiliki

karakteristik unik yang terlihat sangat jauh berbeda dari

observasi – observasi lainnya dan muncul dalam bentuk

nilai ekstrim baik untuk sebuah variabel tunggal atau

variabel kombinasi. Sebuah sumber data atau dataset

pada umumnya mempunyai nilai – nilai pada setiap

obyek yang tidak berbeda jauh dengan obyek lain. Akan

tetapi terkadang pada data tersebut juga ditemukan

obyek – obyek yang mempunyai nilai atau sifat atau

karakteristik yang berbeda dibandingkan dengan obyek

pada umumnya. Deteksi outlier adalah suatu teknik

untuk mencari obyek dimana obyek tersebut

mempunyai perilaku yang berbeda dibandingkan obyek

– obyek pada umumnya.

2.4. Clustering

Menurut Tan, 2006 clustering adalah sebuah proses untuk

mengelompokkan data ke dalam beberapa cluster atau kelompok

sehingga data dalam satu cluster memiliki kemiripan yang minimum.

Clustering merupakan proses partisi satu set objek data ke dalam

himpunan bagian yang disebut cluster. Clustering adalah salah satu

teknik unsupervised learning dimana kita tidak perlu melatih metode

tersebut atau dengan kata lain, tidak ada fase learning. Tujuan utama

dari metode klaster adalah pengelompokan sejumlah data/obyek ke

dalam klaster (group) sehingga dalam setiap klaster akan berisi data

yang semirip mungkin. Dalam klastering diusahakan untuk

menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster


11

dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek

dalam satu klaster sangat mirip satu sama lain dan berbeda dengan

obyek dalam klaster – klaster yang lain. Hasil clustering yang baik

akan menghasilkan tingkat kesamaan yang tinggi dalam satu kelas dan

tingkat kesamaan yang rendah antar kelas. Kesamaan yang dimaksud

merupakan pengukuran secara numerik terhadap dua objek. Nilai

kesamaan antar kedua objek akan semakin tinggi jika kedua objek

yang dibandingkan memiliki kemiripan yang tinggi. Kualitas hasil

clustering sangat bergantung pada metode yang dipakai. Metode

clustering juga harus dapat mengukur kemampuannya sendiri dalam

usaha untuk menemukan suatu pola tersembunyi pada data yang

sedang diteliti.

Menurut Han dan Kamber, 2012, syarat yang harus dipenuhi oleh

suatu algoritma clustering adalah:

1. Skalabilitas

Suatu metode clustering harus mampu menangani data dalam

jumlah yang besar.

2. Kemampuan analisa beragam bentuk data

Algoritma klasterisasi harus mampu diimplementasikan pada

berbagai macam bentuk data seperti data nominal, ordinal,

maupun gabungannya.

3. Menemukan cluster dengan bentuk yang tidak terduga

Hasil clustering dapat berbentuk aneh dan tidak sama antar satu

dengan yang lain. Karenanya dibutuhkan kemampuan untuk

menganalisa cluster dengan bentuk apapun pada suatu

algoritma clustering.

4. Kemampuan untuk dapat menangani noise

Data tidak selalu dalam keadaan baik. Ada kalanya terdapat

data yang rusak, tidak mengerti atau hilang. Oleh karena itu,

suatu algoritma clustering dituntut mampu menangani data

yang rusak.


12

5. Sensitifitas terhadap perubahan input

Perubahan atau penambahan data pada input dapat

menyebabkan terjadi perubahan pada cluster yang telah ada

bahkan bisa menyebabkan perubahan yang mencolok apabila

menggunakan algoritma clustering yang memiliki tingkat

sensitifitas rendah.

6. Mampu melakukan clustering untuk data dimensi tinggi

Suatu kelompok data dapat berisi banyak dimensi ataupun

atribut. Oleh karena itu, diperlukan algoritma clustering yang

mampu menangani data dengan dimensi yang jumlahnya tidak

sedikit.

7. Interpresasi dan kegunaan

Hasil dari clustering harus dapat diinterpretasikan dan berguna.

Clustering mempunyai dua tipe, yaitu partitional clustering dan

hierarchical clustering. Partitional clustering adalah pembagian objek

data ke dalam subhimpunan (cluster) yang tidak overlap sedemikian

hingga tiap objek data berada dalam tepat satu sub-himpunan.

Hierarchical clustering merupakan sebuah himpunan cluster

bersarang yang diatur sebagai suatu pohon hirarki. Tiap simpul

(cluster) dalam pohon (kecuali simpul daun) merupakan gabungan

dari anaknya (subcluster) dan simpul akar berisi semua objek (Astuti,

2013).

2.5. Agglomerative Hierarchical Clustering

Agglomerative Hierarchical Clustering merupakan sebuah metode

yang menggunakan strategi bottom – up (penggabungan). Ini biasanya

dimulai dengan membiarkan setiap objek membentuk cluster sendiri

dan secara iteratif menggabungkan kelompok ke dalam kelompok yang

lebih besar dan lebih besar, sampai semua objek berada dalam satu

kluster atau kondisi terminasi tertentu terpenuhi. Single cluster

menjadi akar hierarki. Untuk langkah penggabungan, ditemukan dua

kelompok yang paling dekat satu sama lain (menurut beberapa ukuran


13

kesamaan), dan menggabungkan keduanya untuk membentuk satu

kelompok. Metode agglomerative ini membutuhkan paling banyak n

iterasi dikarenakan dua kelompok digabung per iterasi, dimana setiap

cluster berisi setidaknya satu objek.

Terdapat tiga teknik kedekatan dalam hierarchical clustering,

yaitu: single linkage (jarak terdekat) atau tautan tunggal, average

linkage (jarak rata – rata) atau tautan rata – rata, dan complete linkage

(jarak terjauh) atau tautan lengkap.

2.5.1. Single Linkage

Pada metode single linkage (MIN), kedekatan diantara dua cluster

ditentukan dari jarak terdekat (terkecil) antar dua data dari dua cluster

yang berbeda.

Formulasi untuk single linkage adalah :

𝑑(𝑈, 𝑉) = min{𝑑(𝑈, 𝑉)} .......................................... (2.1)

Keterangan :

{𝑑(𝑈, 𝑉)} adalah jarak antara data U dan V dari masing – masing

cluster U dan V.

2.5.2. Average Linkage

Pada metode average linkage (AVERAGE), kedekatan diantara dua

cluster ditentukan dari jarak rata – rata antar dua data dari cluster yang

berbeda.

Formulasi untuk average linkage adalah :

𝑑(𝑈, 𝑉) = 1

𝑛𝑈 𝑥 𝑛𝑉 ∑ 𝑑(𝑈, 𝑉);.................................. (2.2)

Keterangan :

𝑛𝑈 dan 𝑛𝑉 adalah jumlah data yang berada dalam cluster U dan

V.

2.5.3. Complete Linkage

Pada metode complete linkage (MAX), kedekatan diantara dua

cluster ditentukan dari jarak terjauh (terbesar) antar dua data dari dua

cluster yang berbeda.

Formulasi untuk complete linkage adalah :

𝑑(𝑈, 𝑉) = max {𝑑(𝑈, 𝑉)}................................(2.3)


14

Keterangan :

{𝑑(𝑈, 𝑉)} adalah jarak antara data U dan V dari masing – masing

cluster U dan V.

Algoritma agglomerative hierarchical clustering dapat dijabarkan

sebagai berikut (Prasetyo, 2012):

1. Hitung matriks kedekatan berdasarkan jenis jarak yang

digunakan.

2. Ulangi langkah 3 dan 4 hingga hanya satu cluster yang tersisa.

3. Gabungkan dua cluster terdekat berdasarkan parameter

kedekatan yang ditentukan.

4. Perbarui matriks kedekatan untuk merefleksi kedekatan

diantara cluster baru dan cluster asli yang sudah digabung.

Contoh penerapan dari agglomerative hierarchical clustering

adalah data sebanyak 3 dengan jumlah dimensi 2. Pengelompokan

dilakukan dengan metode agglomerative hierarchical clustering

menggunakan jarak Euclidean dan metode tautan single linkage,

average linkage, dan complete linkage.

Tabel 2.1 Set data kecil 2 dimensi

Data X Y

1 1 1

2 4 1

3 1 2

4 3 4


15

Langkah pertama yang dilakukan adalah menghitung jarak

Euclidean setiap pasangan data.

𝑑(1,1) = √(|1 − 1|2 + |1 − 1|2) = 0

𝑑(1,2) = √(|4 − 1|2 + |1 − 1|2) = 3

𝑑(1,3) = √(|1 − 1|2 + |2 − 1|2) = 1

𝑑(1,4) = √(|3 − 1|2 + |4 − 1|2) = 3.60

𝑑(2,1) = √(|4 − 1|2 + |1 − 1|2) = 3

𝑑(2,2) = √(|4 − 4|2 + |1 − 1|2) = 0

𝑑(2,3) = √(|1 − 4|2 + |2 − 1|2) = 3.16

𝑑(2,4) = √(|3 − 4|2 + |4 − 1|2) = 3.16

𝑑(3,1) = √(|1 − 1|2 + |1 − 2|2) = 1

𝑑(3,2) = √(|4 − 1|2 + |1 − 2|2) = 3.16

𝑑(3,3) = √(|1 − 1|2 + |2 − 2|2) = 0

𝑑(3,4) = √(|3 − 1|2 + |4 − 2|2) = 2.82

𝑑(4,1) = √(|1 − 3|2 + |1 − 4|2) = 3.60

𝑑(4,2) = √(|4 − 3|2 + |1 − 4|2) = 3.16

𝑑(4,3) = √(|1 − 3|2 + |2 − 4|2) = 2.82

𝑑(4,4) = √(|3 − 3|2 + |4 − 4|2) = 0


16

Dengan perhitungan tersebut maka didapatkan hasil similitary

matriks:

Tabel 2.2 Hasil perhitungan jarak Euclidean dari sampel data

d 1 2 3 4

1 0 3 1 3.60

2 3 0 3.16 3.16

3 1 3.16 0 2.82

4 3.60 3.16 2.82 0

a. Menggunakan metode single linkage

Dengan memperlakukan setiap data sebagai cluster, selanjutnya

dipilih jarak dua cluster yang paling kecil.

min(𝑑𝑈𝑉) = 𝑑13 = 1

Terpilih cluster 1 dan 3, maka cluster 1 dan 3 digabung. Untuk

melanjutkan tingkat pengelompokan berikutnya maka jarak – jarak

antara cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4

dihitung kembali dengan metode single linkage. Jarak – jarak yang

didapatkan adalah :

𝑑(13)2 = min{𝑑12, 𝑑32} = min{3,3.16} = 3

𝑑(13)4 = min{𝑑14, 𝑑34} = min{3.60,2.82} = 2.82

Dengan menghapus baris – baris dan kolom – kolom matriks yang

bersesuaian dengan cluster 1 dan 3 dan menambahkan baris dan kolom

untuk cluster (13), didapatkan matriks jarak jauh yang baru :

Tabel 2.3 Matriks jarak pertama untuk single linkage

d (13) 2 4

(13) 0 3 2.82

2 3 0 3.16


17

4 2.82 3.16 0

Selanjutnya dipilih jarak dua cluster yang paling kecil.

min(𝑑𝑈𝑉) = 𝑑134 = 2.82

Selanjutnya hitung kembali jarak – jarak cluster (134) dengan

cluster yang tersisa yaitu 2.

𝑑(134)2 = min{𝑑12, 𝑑32, 𝑑42} = min{3,3.16,3.16} = 3

Dengan menghapus baris – baris dan kolom – kolom matriks d

yang bersesuaian dengan cluster 13 dan 4 dan menambahkan baris dan

kolom untuk cluster (134), didapatkan matriks jarak yang baru.

Tabel 2.4 Matriks jarak kedua untuk single linkage

d (134) 2

(134) 0 3

2 3 0

Jadi, cluster (134) dan (2) digabung membentuk cluster tunggal

dari semua 4 data (1234), ketika jarak terdekat mencapai 3.

b. Menggunakan metode average linkage



min(𝑑𝑈𝑉) = 𝑑13 = 1


melanjutkan tingkat clustering berikutnya, maka jarak – jarak antara

cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4 dihitung

kembali dengan metode average linkage. Jarak – jarak yang didapatkan

adalah:

𝑑(13)2 =𝑑12 + 𝑑32

2=

3 + 3.16

2= 3.08

𝑑(13)4 =𝑑14 + 𝑑34

2=

3.60 + 2.82

2= 3.21


18

Dengan menghapus baris – baris dan kolom – kolom matriks d yang


untuk cluster (13), didapatkan matriks jarak yang baru :

Tabel 2.5 Matriks jarak pertama untuk average linkage

d (13) 2 4

(13) 0 3.08 3.21

2 3.08 0 3.16

4 3.21 3.16 0

Selanjutnya dipilih kembali jarak dua cluster terkecil.

min(𝑑𝑈𝑉) = 𝑑132 = 3.08

Selanjutnya hitung kembali jarak – jarak cluster (132) dengan

cluster yang tersisa yaitu 4.

𝑑(132)(4) ={𝑑14 + 𝑑34 + 𝑑24}

3=

3.60 + 2.82 + 3.16

3= 3.19


bersesuaian dengan cluster 13 dan 2 dan menambahkan baris dan


Tabel 2.6 Matriks jarak kedua untuk average linkage

d (132) 4

(132) 0 3.19

4 3.19 0

Jadi, cluster (132) dan (4) digabung membentuk cluster tunggal dari

semua 4 data (1234), ketika jarak terdekat mencapai 3.19.

c. Menggunakan metode complete linkage



min(𝑑𝑈𝑉) = 𝑑13 = 1


19


melanjutkan tingkat clustering berikutnya, maka jarak – jarak antara

cluster (13) dengan cluster yang lain yang tersisa yaitu 2 dan 4 dihitung

kembali dengan metode complete linkage. Jarak – jarak yang

didapatkan adalah:

𝑑(13)2 = max{𝑑12, 𝑑32} = max{3,3.16} = 3.16

𝑑(13)4 = max{𝑑14, 𝑑34} = max{3.60,2.82} = 3.60



untuk cluster (13), didapatkan matriks jarak yang baru :

Tabel 2.7 Matriks jarak pertama untuk complete linkage

d (13) 2 4

(13) 0 3.16 3.60

2 3.16 0 3.16

4 3.60 3.16 0

Selanjutnya dipilih kembali jarak dua cluster terkecil.

min(𝑑𝑈𝑉) = 𝑑132 = 3.16

dan

min(𝑑𝑈𝑉) = 𝑑24 = 3.16

Dikarenakan hasilnya terdapat 2 cluster maka cluster 2 dan 4

digabungkan. Selanjutnya hitung kembali jarak – jarak cluster (24)

dengan cluster yang tersisa yaitu (13).

𝑑(24)(13) = max{𝑑21, 𝑑23, 𝑑41, 𝑑43} = max{3,3.16,3.60,2.82} = 3.60


bersesuaian dengan cluster 13 dan 2 dan menambahkan baris dan



20

Tabel 2.8 Matriks jarak kedua untuk complete linkage

d (13) (24)

(13) 0 3.60

(24) 3.60 0

Jadi, cluster (13) dan (24) digabung membentuk cluster tunggal

dari semua 4 data (1234), ketika jarak terdekat mencapai 3.60.

2.6. Silhouette Index

Silhouette index (SI) adalah metode yang digunakan untuk

memvalidasi suatu cluster tunggal (satu cluster dari sejumlah cluster),

atau bahkan keseluruhan cluster. Untuk menghitung nilai SI dari

sebuah data ke-i, ada dua komponen yaitu ai dan bi. ai adalah rata –

rata jarak data ke-i terhadap semua data lainnya dalam satu cluster,

sedangkan bi didapatkan dengan menghitung rata – rata jarak data ke-i

terhadap semua data dari cluster yang lain tidak dalam satu cluster

dengan data ke-i, kemudian diambil nilai yang terkecil (Prasetyo,

2014).

Berikut formula untuk menghitung ai :

𝑎𝑖𝑗

=1

𝑚𝑗−1∑ 𝑑(𝑥𝑖

𝑗, 𝑥𝑟

𝑗)

𝑚𝑗

𝑟=1𝑟≠𝑖

........................(2.5)

Dimana :

𝑎𝑖𝑗 = rata – rata jarak data ke-i terhadap semua data lainnya dalam

satu cluster

𝑖 = indeks data

𝑗 = cluster

𝑥 = data

𝑑(𝑥𝑖𝑗, 𝑥𝑟

𝑗) = jarak data ke-i dengan data ke-r dalam satu cluster j

𝑚𝑗 = jumlah data dalam cluster ke-j

Berikut formula untuk menghitung bi :

𝑏𝑖𝑗

=𝑚𝑖𝑛

𝑛 = 1, … , 𝑘𝑛 ≠ 𝑗

{1

𝑚𝑛∑ 𝑑(𝑥𝑖

𝑗, 𝑥𝑟

𝑛)}𝑚𝑛𝑟=1𝑟≠𝑖

.........................(2.6)


21

Dimana :

𝑏𝑖𝑗 = rata – rata jarak data ke-i terhadap semua data dari cluster yang

lain tidak dalam satu cluster dengan data ke-i

𝑖 = indeks data

𝑗 = cluster j

𝑥 = data

𝑑(𝑥𝑖𝑗, 𝑥𝑟

𝑛) = jarak data ke-i dengan data ke-r dari cluster lain yang

bukan cluster j

𝑚𝑛 = banyak data dalam cluster n

Untuk menghitung SI data ke-i menggunakan persamaan berikut :

𝑆𝐼𝑖𝑗

=𝑏𝑖

𝑗−𝑎𝑖

𝑗

max {𝑎𝑖𝑗,𝑏

𝑖𝑗}.............................................(2.7)

Dimana :

𝑆𝐼𝑖𝑗 = Silhouette Index (SI) data ke-i

𝑎 = rata – rata jarak data ke-i terhadap semua data lainnya dalam satu

cluster

𝑏 = nilai minimum dari rata – rata jarak data ke-i terhadap semua data

dari cluster lain yang tidak dalam satu cluster

max {𝑎𝑖𝑗, 𝑏𝑖

𝑗} = nilai maksimum dari nilai a dan b dari satu data

Nilai 𝑎𝑖 mengukur seberapa tidak mirip sebuah data dengan cluster

yang diikutinya, nilai yang semakin kecil menandakan semakin

tepatnya data tersebut berada dalam cluster tersebut. Nilai 𝑏𝑖 yang

besar menandakan seberapa jeleknya data terhadap cluster yang lain.

Nilai SI yang didapat dalam rentang (-1,+1). Nilai SI yang mendekati

1 menandakan bahwa data tersebut semakin tepat berada dalam

cluster tersebut. Nilai SI negatif (𝑎𝑖 > 𝑏𝑖) menandakan bahwa data

tersebut tidak tepat berada dalam cluster tersebut (karena lebih dekat

ke cluster yang lain). SI bernilai 0 (atau mendekati 0) berarti data

tersebut posisinya berada di perbatasan di antara dua cluster.


22

2.7. Confusion Matrix

Berbeda dengan Silhouette Index yang menguji data cluster tanpa

membutuhkan informasi eksternal maka untuk confusion matrix

membutuhkan informasi eksternal yang dimiliki setiap data yang

dikelompokkan. Menggunakan label kelas dalam validasi cluster

berguna untuk perbandingan teknik clustering dengan kebenaran dasar

(ground truth) atau evaluasi sejauh mana proses panduan klasifikasi

dapat secara otomatis dihasilkan oleh analisis cluster (Tan te al, 2006).

Confusion Matrix dilakukan untuk mengukur tingkat kedekatan antara

label cluster dengan label kelas.

Tabel 2.9 Tabel confusion matrix Positif Negatif

Positif TP (True Positif) FN (False Negatif)

Negatif FP (False Positif) TN (True Negatif)

Confusion matrix menggunakan tabel 2.9 diatas menjelaskan jika

dataset hanya terdiri dari dua kelas. Satu kelas bernilai positif (true),

sedangkan kelas yang lain bernilai negatif (false). True positif adalah

jumlah record positif yang diklasifikasikan sebagai positif, false

positif adalah jumlah record negatif yang diklasifikasikan positif, false

negatif adalah jumlah record positif yang diklasifikasikan sebagai

negatif, dan true negatif adalah jumlah record negatif yang

diklasifikasikan sebagai negatif (Bramer, 2007).

Untuk menghitung akurasi maka digunakan persamaan (Prasetyo,

2012):

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁

𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 𝑥 100% ...........................................(2.8)

Keterangan :

TP = jumlah positif yang diklasifikasikan sebagai positif

TN = jumlah negatif yang diklasifikasikan sebagai negatif

FP = jumlah negatif yang diklasifikasikan positif

FN = jumlah positif yang diklasifikasikan sebagai negatif


23

BAB III

METODOLOGI PENELITIAN

Pada bab ini akan dijelaskan hal – hal terkait data, gambaran umum sistem,

preprocessing, perancangan antarmuka sistem, dan spesifikasi alat.

3.1. Sumber Data

Data yang digunakan untuk penelitian ini adalah data public yang

diperoleh dari UCI Machine Learning. Data set yang digunakan adalah

bagian marketing pada sebuah bank di Portugal. Data tersebut berjumlah

41188 record, 20 atribut, dan 1 label kelas. Pada tabel 3.1 berikut adalah

penjelasan dari masing – masing atribut.

Tabel 3.1 Atribut Data Set Nasabah

No. Atribut Keterangan dan Nilai

1 Age Umur

2 Job

Jenis pekerjaan

(admin./ blue-collar/ entrepreneur/ housemaid/

management/ retired/ self-employed/ services/ student/

technician/ unemployed/ unknown)

3 Marital Status pernikahan (divorced/married/single/ unknown)

4 Education

Pendidikan (basic.4y/ basic.6y/ basic.9y/ high.school/

illiterate/ professional course/ university degree/

unknown)

5 Default Apakah mempunyai kredit yang macet atau gagal?

(yes/no/unknown)

6 Housing Apakah mempunyai kredit pinjaman rumah?

(yes/no/unknown)

7 Loan Apakah mempunyai pinjaman pribadi?

(yes/no/unknown)

8 Contact Jenis komunikasi yang digunakan (cellular/telephone)

9 Month Bulan terakhir menghubungi nasabah

10 Day of the Hari terakhir menghubungi nasabah


24

week

11 Duration Durasi terakhir menghubungi nasabah (dalam detik)

12 Campaign Jumlah kontak yang dilakukan selama promosi ini dan

untuk nasabah ini

13 Pday Jumlah hari yang berlalu setelah nasabah terakhir

dihubungi dari promosi sebelumnya

14 Previous Jumlah kontak yang dilakukan sebelum promosi ini

dan untuk nasabah ini

15 Poutcome Hasil dari promosi pemasaran sebelumnya terhadap

nasabah tersebut (failure/nonexixtent/success)

16 Emp.var.rate Employment variation rate atau variasi tingkat

pekerjaan (indikator triwulanan)

17 Cons.price.idx Consumer price index atau indeks harga konsumen

(indikator bulanan)

18 Cons.conf.idx Consumer confidence index atau indeks kepercayaan

konsumen (indikator bulanan)

19 Euribor3m Euribor 3 month rate atau tingkat euribor 3 bulan

(indikator harian)

20 Nr.employed Number of employees atau jumlah karyawan (indikator

kuartalan)

21 Y Apakah nasabah berlangganan deposito yang

ditawarkan? (yes/no)

3.2. Gambaran Umum Sistem

Pembuatan sistem pengelompokan nasabah dengan metode

Agglomerative Hierarchical Clustering (AHC) untuk menguji apakah

metode ini baik untuk data nasabah sebuah bank di Portugal, berikut

sistem yang akan dibangun dalam bentuk diagram blok.


25

Gambar 3.1 Gambaran Umum Sistem

Gambar 3.1 diatas menjelaskan pengelompokan nasabah dengan

metode agglomerative hierarchical clustering. Proses pertama adalah data

dibuat dalam 1 file yang ekstensinya .xlsx dan diinputkan. Apabila data

sudah diinputkan, maka proses selanjutnya adalah preprocessing. Tahap

preprocessing dimulai dari transformasi, normalisasi, dan data selection.

Setelah melalui tahap preprocessing, data akan dihitung jarak

menggunakan metode Euclidean distance. Selanjutnya data akan masuk ke

tahap proses cluster dengan menggunakan agglomerative hierarchical

clustering yang memiliki 3 metode yaitu single linkage, complete linkage,

dan average linkage. Hasil dari masing – masing ketiga metode tersebut

nantinya akan menghasilkan output berupa dendogram dan akurasi.

3.3. Preprocessing

Tahap pre-processing dilakukan sesuai dengan aturan knowledge

discovery in databases atau dikenal dengan KDD yang sudah dijelaskan di

bab sebelumnya. Pada proses ini aturan KDD yang dilakukan untuk data

dalam penelitian ini adalah data selection dan data transformation. Berikut

adalah proses aturan KDD yang dilakukan pada data :

a. Data Selection

Pada tahap ini penulis dalam pemilihan atribut

menggunakan kombinasi acak berdasarkan atribut mana saja yang

dapat menghasilkan akurasi yang tinggi. Diperoleh 5 atribut yang

menghasilkan akurasi tinggi, yaitu atribut emp.var.rate,

cons.price.idx, cons.conf.idx, euribor3m, nr.employed.


26

b. Data Transformation

Pada tahap ini penulis melakukan transformasi data pada

10/12 atribut dimana mengelompokkannya dalam beberapa

kelompok dan melakukan normalisasi Min–Max pada 5 atribut

yang memiliki rentang data yang besar. Proses transformasi yang

dilakukan dalam penelitian ini sebagai berikut.

1. Transformasi pada atribut age :

Transformasi untuk atribut age dilakukan berdasarkan 5

kelompok usia yang ditetapkan oleh WHO yaitu :

a. 0 – 17 tahun : Anak – anak di bawah umur

b. 18 – 65 tahun : Pemuda

c. 66 – 79 tahun : Setengah baya

d. 80 – 99 tahun : Orang tua

e. 100 tahun ke atas : Orang tua berusia panjang

Setelah itu, dilakukan transformasi ke dalam data numerik

sebagai berikut :

a. Anak – anak di bawah umur : 1

b. Pemuda : 2

c. Setengah baya : 3

d. Orang tua : 4

e. Orang tua berusia panjang : 5

2. Transformasi pada atribut job :

Transformasi untuk atribut job yang mempunyai 12 jenis

dilakukan sebagai berikut :

a. Admin : 1

b. Bluecollar : 2

c. Entrepreneur : 3

d. Housemaid : 4

e. Management : 5

f. Retired : 6

g. Self-employed : 7

h. Services : 8


27

i. Student : 9

j. Technician : 10

k. Unemployed : 11

l. Unknown : 12

3. Transformasi pada atribut marital :

Transformasi untuk atribut marital yang mempunyai 3 jenis


a. Single : 1

b. Married : 2

c. Divorce : 3

4. Transformasi pada atribut education :

Transformasi untuk atribut education yang mempunyai 8

jenis dilakukan sebagai berikut :

a. Basic 4y : 1

b. Basic 6y : 2

c. Basic 9y : 3

d. High school : 4

e. Illiterate : 5

f. Professional course : 6

g. University degree : 7

h. Unknown : 8

5. Transformasi pada atribut default :

Transformasi untuk atribut default yang mempunyai 3 jenis


a. Yes : 1

b. No : 2

c. Unknown : 3

6. Transformasi pada atribut housing :

Transformasi untuk atribut housing yang mempunyai 3 jenis


a. Yes : 1


28

b. No : 2

c. Unknown : 3

7. Transformasi pada atribut loan :

Transformasi untuk atribut loan yang mempunyai 3 jenis


a. Yes : 1

b. No : 2

c. Unknown : 3

8. Transformasi pada atribut contact :

Transformasi untuk atribut contact yang mempunyai 2 jenis


a. Cellular : 1

b. Telephone : 2

9. Transformasi pada atribut month :

Transformasi untuk atribut month yang mempunyai 10 jenis


a. Mar : 1

b. Apr : 2

c. May : 3

d. Jun : 4

e. Jul : 5

f. Aug : 6

g. Oct : 7

h. Sep : 8

i. Nov : 9

j. Dec : 10

10. Transformasi pada atribut day_of_week :

Transformasi untuk atribut day_of_week yang mempunyai 5


a. Tue : 1

b. Wed : 2


29

c. Thu : 3

d. Fri : 4

e. Mon : 5

11. Transformasi pada atribut duration :

Transformasi untuk atribut duration tetap dilakukan

dikarenakan penyebaran data numeriknya masih acak

sehingga dilakukan proses pendistribusian tabel frekuensi

berkelompok dengan langkah – langkah berikut :

a. Langkah pertama yaitu mencari interval dari data tersebut.

b. Langkah kedua yaitu mencari nilai minimum (Xmin) dan

nilai maksimum (Xmax).

Untuk atribut duration didapatkan :

Nilai minimum : 0

Nilai maksimum : 4918

c. Langkah ketiga yaitu menghitung nilai jangkauan dengan

rumus :

J = Xmax - Xmin

Hasil hitungan jangkauan untuk atribut duration adalah :

J = 4918 – 0

J = 4918

d. Langkah terakhir yaitu menentukan batas interval.

Batas Interval 1 : 0 sampai

303.0426 ditransformasi menjadi 1

Batas Interval 2 : 304.0426 sampai 607.0852

ditransformasi menjadi 2








30

























12. Transformasi pada atribut poutcome :

Transformasi untuk atribut poutcome yang mempunyai 3


a. Failure : 1

b. Nonexistent : 2

c. Success : 3


31

13. Transformasi pada label y :

Transformasi untuk label y yang mempunyai 2 label


a. Yes : 1

b. No : 2

Untuk melakukan normalisasi Min–Max berikut algoritma

yang digunakan (Han et al., 2012):

𝑉𝑖 = 𝑋−𝑀𝑖𝑛(𝑥)

𝑀𝑎𝑥(𝑥)−𝑀𝑖𝑛(𝑥)(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴....(3.1)

Keterangan :

X = data yang akan dinormalisasi

Min(x) = jumlah minimum data

Max(x) = jumlah maksimum data

New_minA = range minimum data

New_maxA = range maksimum data

Berikut ini contoh cara perhitungan normalisasi beberapa

atribut dari data nasabah menggunakan algoritma Min–Max :

Normalisasi data atribut pdays :

𝑉𝑖 = 999 − 0

999 − 0(1 − 0) + 0 = 1

Normalisasi data atribut cons.price.idx :

𝑉𝑖 = 93.994 − 92.201

94.767 − 92.201(1 − 0) + 0 = 0.698752923

Normalisasi data atribut cons.conf.idx :

𝑉𝑖 = (−36.4) − (−50.8)

(−26.9) − (−50.8)(1 − 0) + 0 = 0.60251046

Normalisasi data atribut euribor3m :

𝑉𝑖 = 4.857 − 0.634

5.045 − 0.634(1 − 0) + 0 = 0.957379279

Normalisasi data atribut nr.employed :

𝑉𝑖 = 5191 − 4963.6

5228.1 − 4963.6(1 − 0) + 0 = 0.85973535


32

Setelah data pada 5 atribut dinormalisasi menggunakan

algortima Min-Max maka akan menghasilkan seperti pada tabel 3.2

berikut :

Tabel 3.2 Contoh beberapa data normalisasi menggunakan algoritma Min-Max

Data pdays cons.price.idx cons.conf.idx euribor3m nr.employed

1 1 0,698753 0,60251 0,957379 0,859735

2 1 0,698753 0,60251 0,957379 0,859735

3 1 0,698753 0,60251 0,957379 0,859735

4 1 0,698753 0,60251 0,957379 0,859735

5 1 0,698753 0,60251 0,957379 0,859735

6 1 0,698753 0,60251 0,957379 0,859735

7 1 0,698753 0,60251 0,957379 0,859735

8 1 0,698753 0,60251 0,957379 0,859735

9 1 0,698753 0,60251 0,957379 0,859735

10 1 0,698753 0,60251 0,957379 0,859735

3.4. Perhitungan Jarak

Setelah proses preprocessing selesai dilakukan, maka tahap

selanjutnya adalah mengukur jarak dengan menggunakan Euclidean

distance. Euclidean distance adalah metode yang digunakan untuk

mengukur jarak antar dua titik yang berbeda. Dengan menggunakan

perhitungan Euclidean distance obyek tiap data akan dihitung

similaritasnya. Berikut adalah persamaan Euclidean distance untuk

mengukur dua titik berbeda (Negoro, 2015) :

𝑑(𝐴, 𝐵) = √|𝐴1 − 𝐵2|2 + |𝐴2 − 𝐵2|2 + ⋯ + |𝐴𝑖 − 𝐵𝑖|2........(3.2)

Keterangan :

Ai – Bi : data

Perhitungan jarak akan dilakukan untuk setiap pendekatan yang

ada di metode agglomerative hierarchical clustering sesuai dengan

algoritma masing – masing pendekatan.

Berikut adalah contoh data sampel yang digunakan untuk

menghitung jarak :


33

Gambar 3.2 Data Sampel


34

Berikut adalah hasil perhitungan jarak dari 10 data sampel yang

dilakukan :

Tabel 3.3 Similitary Matriks 1 2 3 4 5 6 7 8 9 10

1 0 3,741

66 10,45916

8,33031

5,73141

7,78784

9,091999

8,560767

9,342737

7,230956

2 3,741

66 0

9,348905

8,330788

6,697539

7,788351

8,981337

6,426095

8,080513

5,504062

3 10,45916

9,348905

0 11,83216

10,16718

7,119659

9,310615

8,255687

5,306258

9,442265

4 8,330

31 8,330788

11,83216

0 7,960628

10,03442

11,69135

10,77759

11,40861

9,754813

5 5,731

41 6,697539

10,16718

7,960628

0 5,980768

8,3527

9,727224

10,42204

8,695913

6 7,787

84 7,788351

7,119659

10,03442

5,980768

0 4,690202

9,735772

8,293688

9,684279

7 9,091999

8,981337

9,310615

11,69135

8,3527

4,690202

0 11,25981

10,03909

11,30413

8 8,560767

6,426095

8,255687

10,77759

9,727224

9,735772

11,25981

0 5,099

02 2,645751

9 9,342737

8,080513

5,306258

11,40861

10,42204

8,293688

10,03909

5,09902

0 6,557439

10

7,230956

5,504062

9,442265

9,754813

8,695913

9,684279

11,30413

2,645751

6,557439

0

3.5.Agglomerative Hierarchical Clustering

Setelah proses penghitungan jarak dilakukan, maka tahap

selanjutnya melakukan pengolahan data dengan agglomerative

hierarchical clustering menggunakan 3 pendekatan yaitu single linkage,

complete linkage, dan average linkage. Hasil dari pengolahan data tersebut

adalah dendogram single linkage, complete linkage, dan average linkage.

Berikut adalah contoh hasil dendogram dari matriks jarak data sampel

yang dihasilkan oleh matlab dengan menggunakan 3 pendekatan dari

metode agglomerative hierarchical clustering :


35

Gambar 3.3 Dendogram Single Linkage

Gambar 3.3 diatas adalah dendogram dengan menggunakan

pendekatan single linkage. Pengukuran jarak menggunakan single linkage

adalah mengukur jarak minimal antar setiap elemen matriks.

Dengan gambar dendogram dari single linkage maka dapat

ditentukan cluster yang diinginkan dari perpotongan atau cut-off pada

ketinggian tertentu.

Tabel 3.4 Contoh Cluster Single Linkage

Cluster 1 8, 10, 9, 3, 1, 2, 5, 6, 7

Cluster 2 4

Gambar 3.4 Dendogram Complete Linkage


36


pendekatan complete linkage. Pengukuran jarak menggunakan complete

linkage adalah mengukur jarak maksimal antar setiap elemen matriks.

Dengan gambar dendogram dari complete linkage maka dapat



Tabel 3.5 Contoh Cluster Complete Linkage

Cluster 1 8, 10, 3, 9, 6, 7

Cluster 2 1, 2, 5, 4

Gambar 3.5 Dendogram Average Linkage


pendekatan average linkage. Pengukuran jarak menggunakan average

linkage adalah mengukur jarak rata – rata antar setiap elemen matriks.

Dengan gambar dendogram dari average linkage maka dapat



Tabel 3.6 Contoh Cluster Average Linkage

Cluster 1 8, 10, 3, 9, 1, 2, 5, 6, 7

Cluster 2 4


37

3.6.Perhitungan Akurasi

Perhitungan akurasi yang digunakan dalam penelitian ini yaitu

dengan menggunakan confusion matrix dan silhouette index.

a. Confusion Matrix

Penulis menggunakan confusion matrix karena data yang

digunakan dalam penelitian memiliki informasi dari luar atau

memiliki label kelas. Confusion matrix digunakan untuk

menghitung akurasi di setiap pembentukan cluster. Untuk

luarannya adalah berupa persentase, dimana semakin tinggi

persentase yang didapat maka semakin baik pula linkage

tersebut mengelompokkan data.

b. Silhouette Index

Penulis menggunakan Silhouette Index untuk menghitung

seberapa tepat suatu data berada di cluster-nya. Hasil yang

akan ditampilkan berupa angka, dimana bila nilai angkanya

semakin mendekati satu maka semakin baik pula data tersebut

berada di clusternya.

Langkah pertama :

Pertama, hitung terlebih dahulu jarak kedekatan tiap cluster

menggunakan euclidean distance. Berikut jarak kedua cluster

sesudah melakukan perhitungan jarak :

Tabel 3.7 Hasil euclidean distance untuk cluster 1

1 2 3 4 5 6 7

cluster 1

1 0 3,741 10,459 8,330 5,731 7,787 9,091

2 3,741 0 9,348 8,330 6,697 7,788 8,981

3 10,459 9,348 0 11,832 10,167 7,119 9,310

4 8,330 8,330 11,832 0 7,960 10,034 11,691

5 5,731 6,697 10,167 7,960 0 5,980 8,352

6 7,787 7,788 7,119 10,034 5,980 0 4,690

7 9,091 8,981 9,310 11,691 8,352 4,690 0

Tabel 3.8 Hasil euclidean distance untuk cluster 2

8 9 10

cluster 2

8 0 5,099 2,645

9 5,099 0 6,557

10 2,645 6,557 0


38

Langkah kedua :

Menghitung nilai ai untuk kedua cluster menggunakan

persamaan 2.5.

Mencari nilai ai untuk tiap kolom pada cluster 1 :

𝑎11 =

1

𝑚𝑗 − 1∑(𝑑(𝑥1

1, 𝑥21) + (𝑑(𝑥1

1, 𝑥31) + (𝑑(𝑥1

1, 𝑥41) + (𝑑(𝑥1

1, 𝑥51) + (𝑑(𝑥1

1, 𝑥61)

+ (𝑑(𝑥11, 𝑥7

1)

= 1

7 − 1∑ 3,741 + 10,459 + 8,330 + 5,731 + 7,787 + 9,091

= 7,523

𝑎21 =

1

𝑚𝑗 − 1∑(𝑑(𝑥2

1, 𝑥11) + (𝑑(𝑥2

1, 𝑥31) + (𝑑(𝑥2

1, 𝑥41) + (𝑑(𝑥2

1, 𝑥51) + (𝑑(𝑥2

1, 𝑥61)

+ (𝑑(𝑥21, 𝑥7

1)

= 1

7 − 1∑ 3,741 + 9,348 + 8,330 + 6,697 + 7,788 + 8,981

= 7,481

𝑎31 =

1

𝑚𝑗 − 1∑(𝑑(𝑥3

1, 𝑥11) + (𝑑(𝑥3

1, 𝑥21) + (𝑑(𝑥3

1, 𝑥41) + (𝑑(𝑥3

1, 𝑥51) + (𝑑(𝑥3

1, 𝑥61)

+ (𝑑(𝑥31, 𝑥7

1)

= 1

7 − 1∑ 10,459 + 9,348 + 11,832 + 10,167 + 7,119 + 9,310

= 9,706

𝑎41 =

1

𝑚𝑗 − 1∑(𝑑(𝑥4

1, 𝑥11) + (𝑑(𝑥4

1, 𝑥21) + (𝑑(𝑥4

1, 𝑥31) + (𝑑(𝑥4

1, 𝑥51) + (𝑑(𝑥4

1, 𝑥61)

+ (𝑑(𝑥41, 𝑥7

1)

= 1

7 − 1∑ 8,330 + 8,330 + 11,832 + 7,960 + 10,034 + 11,691

= 9,696

𝑎51 =

1

𝑚𝑗 − 1∑(𝑑(𝑥5

1, 𝑥11) + (𝑑(𝑥5

1, 𝑥21) + (𝑑(𝑥5

1, 𝑥31) + (𝑑(𝑥5

1, 𝑥41) + (𝑑(𝑥5

1, 𝑥61)

+ (𝑑(𝑥51, 𝑥7

1)

= 1

7 − 1∑ 5,731 + 6,697 + 10,167 + 7,960 + 5,980 + 8,352

= 7,481


39

𝑎61 =

1

𝑚𝑗 − 1∑(𝑑(𝑥6

1, 𝑥11) + (𝑑(𝑥6

1, 𝑥21) + (𝑑(𝑥6

1, 𝑥31) + (𝑑(𝑥6

1, 𝑥41) + (𝑑(𝑥6

1, 𝑥51)

+ (𝑑(𝑥61, 𝑥7

1)

= 1

7 − 1∑ 7,787 + 7,788 + 7,119 + 10,034 + 5,980 + 4,690

= 7,233

𝑎71 =

1

𝑚𝑗 − 1∑(𝑑(𝑥7

1, 𝑥11) + (𝑑(𝑥7

1, 𝑥21) + (𝑑(𝑥7

1, 𝑥31) + (𝑑(𝑥7

1, 𝑥41) + (𝑑(𝑥7

1, 𝑥51)

+ (𝑑(𝑥71, 𝑥6

1)

= 1

7 − 1∑ 9,091 + 8,981 + 9,310 + 11,691 + 8,352 + 4,690

= 8,686

Hasil dari ai untuk cluster 1 :

Tabel 3.9 Hasil Nilai ai untuk cluster 1 1 2 3 4 5 6 7

cluster 1

1 0 3,741 10,459 8,330 5,731 7,787 9,091

2 3,741 0 9,348 8,330 6,697 7,788 8,981

3 10,459 9,348 0 11,832 10,167 7,119 9,310

4 8,330 8,330 11,832 0 7,960 10,034 11,691

5 5,731 6,697 10,167 7,960 0 5,980 8,352

6 7,787 7,788 7,119 10,034 5,980 0 4,690

7 9,091 8,981 9,310 11,691 8,352 4,690 0

ai 7,523 7,481 9,706 9,696 7,481 7,233 8,686

Mencari nilai ai untuk tiap kolom pada cluster 2 :

𝑎81 =

1

𝑚𝑗 − 1∑(𝑑(𝑥8

1, 𝑥91) + (𝑑(𝑥8

1, 𝑥101 ) =

1

2∑ 5,099 + 2,645

= 3,872

𝑎91 =

1

𝑚𝑗 − 1∑(𝑑(𝑥9

1, 𝑥81) + (𝑑(𝑥9

1, 𝑥101 ) =

1

2∑ 5,099 + 6,557

= 5,828

𝑎101 =

1

𝑚𝑗 − 1∑(𝑑(𝑥10

1 , 𝑥81) + (𝑑(𝑥10

1 , 𝑥91) =

1

2∑ 2,645 + 6,557

= 4,601


40

Hasil dari ai untuk cluster 2 :

Tabel 3.10 Hasil Nilai ai untuk cluster 2 8 9 10

cluster 2

8 0 5,099 2,645

9 5,099 0 6,557

10 2,645 6,557 0

ai 3,872 5,828 4,601

Langkah ketiga :

Menghitung jarak pada cluster yang berbeda dengan

menggunakan euclidean distance dan menghitung rata – rata

jarak.

Hasil hitung jarak dari cluster 1 ke cluster 2 :

Tabel 3.11 Hasil Hitung Jarak dari cluster 1 ke cluster 2 1 2 3 4 5 6 7

cluster 2

8 8,560 6,426 8,255 10,777 9,727 9,735 11,259

9 9,342 8,080 5,306 11,408 10,422 8,293 10,039

10 7,230 5,504 9,442 9,754 8,695 9,684 11,304

x 8,378 6,670 7,668 10,647 9,615 9,237 10,867

Hasil hitung jarak dari cluster 2 ke cluster 1 :

Tabel 3.12 Hasil Hitung Jarak dari cluster 2 ke cluster 1 8 9 10

cluster 1

1 8,560 9,342 7,230

2 6,426 8,080 5,504

3 8,255 5,306 9,442

4 10,777 11,408 9,754

5 9,727 10,422 8,695

6 9,735 8,293 9,684

7 11,259 10,039 11,304

x 9,248 8,984 8,802


41

Langkah keempat :

Menghitung nilai bi untuk kedua cluster menggunakan

persamaan 2.6.

Menghitung nilai bi untuk cluster 1 menggunakan rumus

berikut ini :

𝑏𝑖𝑗

= min (𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2)

Hasil dari bi untuk cluster 1 :

Tabel 3.13 Hasil nilai bi untuk cluster 1

bi 8,378 6,670 7,668 10,647 9,615 9,237 10,867

Menghitung nilai bi untuk cluster 2 menggunakan rumus

berikut ini :

𝑏𝑖𝑗

= min(𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1)

Hasil dari bi untuk cluster 2 :

Tabel 3.14 Hasil nilai bi untuk cluster 2 bi

9,248 8,984 8,802

Langkah kelima :

Menghitung silhouette index untuk cluster 1 dan cluster 2

dengan persamaan 2.7.

Hitung nilai SI untuk cluster 1 :

𝑆𝐼11 =

𝑏11 − 𝑎1

1

𝑚𝑎𝑥{𝑏11, 𝑎1

1}=

8,378 − 7,523

𝑚𝑎𝑥{8.378,7.523}= 0,101

𝑆𝐼21 =

𝑏21 − 𝑎2

1


1}=

6,670 − 7,481

𝑚𝑎𝑥{6.670,7.481}= −0,108

𝑆𝐼31 =

𝑏31 − 𝑎3

1


1}=

7,668 − 9,706

𝑚𝑎𝑥{7.668,9.706}= −0,209

𝑆𝐼41 =

𝑏41 − 𝑎4

1


1}=

10,647 − 9,696

𝑚𝑎𝑥{10.647,9.696}= 0,089

𝑆𝐼51 =

𝑏51 − 𝑎5

1


1}=

9,615 − 7,481

𝑚𝑎𝑥{9.615,7.481}= 0,221

𝑆𝐼61 =

𝑏61 − 𝑎6

1


1}=

9,237 − 7,233

𝑚𝑎𝑥{9.237,7.233}= 0,216


42

𝑆𝐼71 =

𝑏71 − 𝑎7

1


1}=

10,867 − 8,686

𝑚𝑎𝑥{10.867,8.686}= 0,200

Hasil nilai SI yang berada di cluster 1 :

Tabel 3.15 Nilai SI cluster 1 SI 0,101 -0,108 -0,209 0,089 0,221 0,216 0,200

Hitung nilai SI untuk cluster 2 :

𝑆𝐼11 =

𝑏11 − 𝑎1

1


1}=

9,248 − 3,872

𝑚𝑎𝑥{9.248,3.872}= 0,581

𝑆𝐼21 =

𝑏21 − 𝑎2

1


1}=

8,984 − 5,828

𝑚𝑎𝑥{8.984,5.828}= 0,351

𝑆𝐼31 =

𝑏31 − 𝑎3

1


1}=

8,802 − 4,601

𝑚𝑎𝑥{8.802,4.601}= 0,477

Hasil nilai SI yang berada di cluster 2 :

Tabel 3.16 Nilai SI cluster 2

SI 0,581 0,351 0,477

3.7. Perancangan Antar Muka Sistem

Gambar 3.6 User Interface

Penulisan tugas akhir ini mempunyai satu tampilan. Pada gambar 3.6

di atas terdapat tombol Cari yang mempunyai fungsi untuk mencari dan

memasukkan dokumen yang akan diolah. Selanjutnya isi dari dokumen

akan tampil di bagian tabel bawah tombol Cari. Kemudian terdapat tombol


43

Preprocessing yang mempunyai fungsi untuk melakukan proses

preprocessing data dimana preprocessing yang dilakukan berupa

transformasi dan normalisasi data. Hasil dari preprocessing tersebut akan

tampil di bagian tabel bawah tombol Preprocessing. Selanjutnya ada

textfield Silhouette Index yang akan menampilkan silhouette index dari

keseluruhan data. Kemudian terdapat tombol Cluster yang mempunyai

fungsi untuk menjalankan cluster dalam data. Ketika tombol Cluster

dijalankan maka hasil dari cluster single linkage, complete linkage, dan

average linkage akan muncul di panel bagian samping. Untuk hasil

dendogram juga akan muncul di bawah tabel masing – masing. Textfield

yang berada di tiap panel cluster akan menampilkan hasil dari akurasi

cluster data dari masing – masing pendekatan yang digunakan dalam

metode agglomerative hierarchical clustering.

3.8. Spesifikasi Alat

Penelitian dilakukan dengan menggunakan hardware dan software

antara lain :

1. Hardware :

a. Processor : Intel(R) Core(TM) i5-2430M CPU @ 2.40GHz

b. RAM : 4GB

2. Software :

a. Sistem Operasi : Windows 10 64-bit

b. Bahasa Pemograman : Matlab 2018a


44

BAB IV

IMPLEMENTASI DAN ANALISA HASIL

Pada bab ini akan dijelaskan implementasi dan pembahasan hasil dari

pengelompokan nasabah yang berpotensi membuka deposito dari data nasabah

bank menggunakan agglomerative hierarchical clustering.

4.1. Implementasi

Pada bab ini implementasi dijelaskan dalam dua bagian, yaitu

berkaitan dengan proses pengolahan data dan user interface atas sistem

yang telah dibuat untuk pengolahan data tersebut.

4.1.1. Pengolahan Data

Data yang digunakan untuk pengolahan data dalam

penelitian ini berjumlah 3000 data dengan 5 atribut, yaitu

emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m,

nr.employed. Data yang digunakan adalah data bank yang

berekstensi .xlsx (MS. Excel). Data dapat diolah setelah melakukan

proses perhitungan jarak menggunakan jarak Euclidean.

4.1.2. Clustering

Setelah data diproses pada tahap preprocessing dan

melakukan penghitungan jarak menggunakan Euclidean distance

maka tahap selanjutnya adalah clustering dengan metode

Agglomerative Hierarchical Clustering menggunakan 3

pendekatan. Dalam penelitian ini pengelompokan dilakukan untuk

mengetahui sejauh mana pengelompokan yang dilakukan baik atau

tidaknya maka dilakukan uji akurasi sistem dengan internal dan

external evaluation. Internal evaluation digunakan untuk

memvalidasi tepat atau tidak sebuah data berada dalam cluster-nya.

Sedangkan untuk external evaluation digunakan untuk melihat

seberapa baik akurasi sistem bila digunakan untuk data nasabah

bank tersebut. Setelah melalui proses AHC, data nasabah tersebut


45

akan menjadi beberapa kelompok dan diuji menggunakan

confusion matriks.

Pengelompokan menggunakan AHC terbagi menjadi 3

pendekatan, yaitu single linkage, complete linkage, dan average

linkage. Setiap hasil perhitungan akan ditampilkan ke dalam

diagram yang disebut dendogram dan hasil dari confusion matriks.

Dalam penelitian ini, penulis mencoba menguji beberapa atribut

untuk melihat akurasi mana yang mempunyai hasil lebih baik.

Berikut adalah hasil dari pengujian atribut.

Tabel 4.1 Pengujian Atribut No. Atribut Akurasi

1.

4 Atribut

cons.price.idx, cons.conf.idx,

euribor3m, Nr.employed

Single linkage : 86.5%

Complete linkage : 86.5%

Average linkage : 86.5%

2.

5 Atribut

Duration, cons.price.idx,

cons.conf.idx, euribor3m,

Nr.employed

Single linkage : 66.7%



3.

5 Atribut

Emp.var.rate, cons.price.idx,

cons.conf.idx, euribor3m,

Nr.employed

Single linkage : 92%



Dari Tabel 4.1 diatas, dapat dilihat bahwa 5 atribut pada

baris ke 3 memiliki akurasi yang paling baik. Berikut hasil dari

proses AHC menggunakan 3 pendekatan tersebut.


46

1. Single Linkage

Gambar 4.1 Implementasi – Dendogram Single Linkage

Gambar 4.1 adalah diagram dendogram yang merupakan

pembentukan kelompok dengan pendekatan single linkage.

Perhitungan akurasi yang didapat dari pendekatan single linkage

adalah sebesar 92%.

2. Complete Linkage

Gambar 4.2 Implementasi – Dendogram Complete Linkage


47


pembentukan kelompok dengan pendekatan complete linkage.

Perhitungan akurasi yang didapat dari pendekatan complete linkage

adalah sebesar 86.5%.

3. Average Linkage

Gambar 4.3 Implementasi – Dendogram Average Linkage


pembentukan kelompok dengan pendekatan average linkage.

Perhitungan akurasi yang didapat dari pendekatan average linkage

adalah sebesar 86.5%.

4.2. User Interface

Dalam pembuatan sistem implementasi agglomerative hierarchical

clustering dalam mengelompokkan potensi deposito atau tidak pada data

nasabah, penulis menggunakan Matlab. Sistem dibuat untuk menampilkan

hasil dari pengelompokan dengan menampilkan 3 pendekatan dalam satu

graphical user interface (GUI).


48

Dalam proses pengelompokan data, terdapat langkah – langkah yang

harus dilakukan yaitu input data, preprocessing, silhouette index, dan

agglomerative hierarchical clustering.

4.2.1. Input Data

Langkah pertama yang dilakukan adalah memasukkan data

yang akan diolah. Tombol Cari digunakan untuk mencari dan

memasukkan data yang bertipe .xlx atau .xlsx. Setelah data

ditemukan dan dimasukkan, maka sistem akan menampilkan data

tersebut seperti pada gambar 4.4 di bawah ini.

Gambar 4.4 Implementasi - Input Data

4.2.2. Preprocessing

Setelah data dimasukkan maka langkah selanjutnya adalah

tahap preprocessing dengan menekan tombol Preprocessing. Data

yang dipreprocessing ini akan tampil seperti pada gambar 4.5 di

bawah ini.

Gambar 4.5 Implementasi - Preprocessing


49

4.2.3. Silhouette Index

Tampilan untuk hasil silhouette index akan muncul saat

user menekan tombol Cluster. Hal ini dikarenakan silhouette index

memvalidasi data sebelum melakukan proses AHC, selain itu juga

banyaknya atribut juga mempengaruhi nilai dari silhouette index.

Tampilan silhouette index bisa dilihat seperti gambar 4.8 di bawah

ini.

Gambar 4.6 Tampilan Silhouette Index

4.2.4. Proses AHC dan Akurasi

Dalam tampilan GUI terdapat tombol Cluster seperti pada

gambar 4.7, dimana saat user menekan tombol tersebut maka akan

muncul hasil dari ketiga pendekatan yaitu single linkage, complete

linkage, atau average linkage. Setiap pendekatan memiliki tabel

iterasi pengelompokan, hasil dendogram, dan nilai akurasi masing

– masing. Hasil dari proses AHC tersebut dapat dilihat seperti

gambar 4.8 di bawah.

Gambar 4.7 Tampilan tombol cluster

Gambar 4.8 Implementasi - Hasil proses AHC


50

4.3. Analisa Hasil

Implementasi sistem yang telah dipaparkan pada gambar 4.8 diatas

membantu analisa terhadap clustering potensi pembukaan deposito bagi

nasabah bank sesuai dengan judul penulisan. Analisa dilakukan dengan

menggunakan 3000 data dengan 5 atribut. Atribut sebanyak 5 pada 3000

data diolah dengan menggunakan metode agglomerative hierarchical

clustering dengan tiga pendekatan, yaitu single linkage, complete linkage,

dan average linkage dimana proses pengelompokan dimulai dari

mengelompokkan 1 atribut sampai 5 atribut. Setelah melakukan

pengelompokkan, perhitungan akurasi dilakukan dengan menggunakan

confusion matrix. Setelah hasil dari confusion matrix diketahui untuk 3

pendekatan tersebut maka terlihat bahwa ketiga pendekatan tersebut

memiliki akurasi yang sama. Hasil tersebut dapat dilihat pada tabel 4.1 di

bawah ini :

Tabel 4.2 Hasil Akurasi 3 Pendekatan

Metode Akurasi Dendogram Jumlah obyek per cluster

1 2

Single

Linkage 92%

Tidak

seimbang 595 2405

Complete

Linkage 86.5%

Tidak

seimbang 430 165

Average

Linkage 86.5%

Tidak

seimbang 430 165

Akurasi pendekatan single linkage sebesar 92% didapat dari

confusion matrix, berikut hasil confusion matrix menggunakan pendekatan

single linkage dengan 5 atribut :

Tabel 4.3 Hasil confusion matrix single linkage Luaran 1 2

1 760 0

2 240 2000


51

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 760 + 2000

760 + 2000 + 240 + 0𝑥 100% = 92%

Akurasi pendekatan complete linkage sebesar 86.5% didapat dari


complete linkage dengan 5 atribut :

Tabel 4.4 Hasil confusion matrix complete linkage Luaran 1 2

1 595 0

2 405 2000

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 595 + 2000

595 + 2000 + 405 + 0𝑥 100% = 86.5%

Akurasi pendekatan average linkage sebesar 86.5% didapat dari


average linkage dengan 5 atribut :

Tabel 4.5 Hasil confusion matrix average linkage

Luaran 1 2

1 595 0

2 405 2000

𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = 595 + 2000

595 + 2000 + 405 + 0𝑥 100% = 86.5%

Hal ini dapat terjadi karena penyebaran data yang tidak seimbang,

banyak data di dalam cluster 2 memiliki tingkat kemiripan yang sangat

tinggi dengan cluster 1 sehingga data pada cluster 2 terbaca di cluster 1

hal ini juga berpengaruh pada akurasi tiap pendekatan. Pada data nasabah

terdapat 1000 data untuk kelas 1 dan 2000 data untuk kelas 2 yang dipakai

untuk penelitian ini tetapi saat melakukan proses confusion matrix

ditemukan bahwa data yang berada di kelas 2 memiliki kemiripan lebih


52

besar dengan kelas 1 dibandingkan dengan kelas 2 itu sendiri. Untuk

ketiga pendekatan ini terdapat 2000 data pada kelas 2 yang memiliki

tingkat kemiripan yang tinggi pada kelas 1. Ini dapat dibuktikan dengan

menggunakan silhouette index dimana silhouette index akan digunakan

untuk memvalidasi baik atau tidak sebuah data, cluster tunggal, atau

bahkan keseluruhan cluster. Dalam penelitian ini penulis menggunakan

silhouette index untuk melihat seberapa baik data tersebut berada pada

labelnya. Berikut perhitungan rata – rata silhouette index yang dilakukan

terhadap 3000 data :

Nilai rata – rata silhouette index :

Cluster 1 :

𝑆𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 1 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1

𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎

= 133,3678

1000

= 0,133368

Cluster 2 :

𝑆𝐼 𝐶𝑙𝑢𝑠𝑡𝑒𝑟 2 = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2

𝑏𝑎𝑛𝑦𝑎𝑘 𝑑𝑎𝑡𝑎

=1999,999

2000

= 0,99999

𝑆𝐼 𝑅𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 = 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 1 + 𝑆𝐼 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 2

2

= 0,133368 + 0,99999

2

= 0,566684

Gambar 4.9 Hasil rata – rata SI pada data


53

BAB V

PENUTUP

Bab terakhir pada penulisan ini menjelaskan mengenai kesimpulan pada

penelitian terkait dengan pengelompokan potensi pembukaan deposito bagi

nasabah dengan menggunakan metode agglomerative hierarchical clustering. Bab

ini juga menjelaskan saran yang diberikan pada sistem yang dibuat.

5.1. Kesimpulan

Pengelompokan potensi pembukaan deposito bagi nasabah dengan

menggunakan metode agglomerative hierarchical clustering berdasarkan

data nasabah.

1. Dalam penelitian ini, agglomerative hierarchical clustering kurang

baik digunakan untuk mengelompokkan potensi pembukaan deposito

pada data nasabah. Dalam penelitian ini juga clustering yang

dihasilkan kurang seimbang.

2. Penyebaran data nasabah kurang baik dalam melakukan clustering,

dapat dilihat dari hasil rata – rata silhouette index yang sangat jauh dari

angka 1.

3. Dari tiga pendekatan yang dilakukan, menghasilkan dendogram yang

cukup baik adalah single linkage.

4. Pengujian akurasi dengan menggunakan confussion matrix

menghasilkan persentase paling tinggi yaitu 92% dan terendah 86.5%.

5.2. Saran

Saran yang diperlukan untuk pengembangan sistem selanjutnya

sebagai berikut :

1. Data yang digunakan dalam clustering lebih baik jika menggunakan

penyebaran yang seimbang.

2. Uji akurasi dapat dicoba dengan menggunakan uji SSE atau sum

square error.


54

DAFTAR PUSTAKA

Astuti, F.H. 2013. Data Mining. Yogyakarta : Andi

Bramer, M. 2007. Principles of Data Mining. London: Springer.

Turban, E. dan Aronson, J.E. 2005. Decision Support Systems and Intelligent

Systems. Yogyakarta: Andi

Han, J.W., Kamber, M. dan Pei, J. 2006. Data Mining: Concepts and

Techniques, 2nd ed.

Kasmir. 2014. Analisis Laporan Keuangan, Edisi Pertama, Cetakan Ketujuh.

Jakarta: Raja Grafindo Persada.

Kotler, P. 1996. Manajemen Pemasaran: Maketing Management 9e. Jakarta:

PT. Prenhallindo.

Kurniawan. A.A. 2017. Implementasi Algoritma Agglomerative Hierarchical

Clustering untuk Mengelompokkan Capaian Belajar Siswa SD.

Yogyakarta: Universitas Sanata Dharma.

Negoro, M.T. 2015. Rancangan Bangun Aplikasi Ruang Ganti Virtual

Berdasarkan Skeleton Tracking dan Depth Data Menggunakan Microsoft

Kinect. Tugas Akhir, Teknik Informatika Institut Teknologi Sepuluh

November Surabaya.

Prasetyo, E. 2012. Data Mining: Mengolah Data Menjadi Informasi

Menggunakan Matlab.Yogyakarta : Andi

Pratomo, B.Y. 2017. Pengelompokan Peran Pemain Dota 2 Dalam

Pertandingan Profesional dengan Metode Agglomerative Hierarchical

Clustering. Yogyakarta: Universitas Sanata Dharma.

Septiawanti, S. 2018. Penerapan Metode Case Based Reasoning untuk

Prediksi Data Nasabah yang Berpotensi Membuka Simpanan Deposito.

Yogyakarta: Universitas Sanata Dharma.

Sukmayani, R., Umang, T.K., dan Sedono. 2008. Ilmu Pengetahuan Sosial.

Jakarta: PT Galaxy Puspa Mega.

Tamara, L.A.V. 2018. Klasifikasi Data Nasabah Yang Berpotensi Membuka

Simpanan Deposito Menggunakan Algoritma Rough Set. Yogyakarta:

Universitas Sanata Dharma.

Tan, P., Steinbach, M., dan Kumar, V. 2006. Introduction to Data Mining.

Pearson Education, Inc.


55

LAMPIRAN


Data 1 : 1000

Data 2 : 2000

Atribut 11,17,18,19,20

• Single Linkage (66.7%)

• Complete Linkage (66.6667%)


• Average Linkage (66.6667%)

Data 1 : 1000

Data 2 : 2000

Atribut 16,17,18,19,20

• Single Linkage (92%)


Data 1 : 1000

Data 2 : 2000

Atribut 17,18,19,20

• Single Linkage (86.5%)



PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO … · Susunan Panitia Penguji Jabatan Nama Lengkap...

Documents

Transcript of PENGELOMPOKAN NASABAH BERDASAR POTENSI DEPOSITO … · Susunan Panitia Penguji Jabatan Nama Lengkap...