Pemrograman Ibm Spss Statistics Dan Pohon Keputusan
description
Transcript of Pemrograman Ibm Spss Statistics Dan Pohon Keputusan
PEMROGRAMAN IBM SPSS STATISTICS DAN POHON KEPUTUSAN
Oleh :
Abdullah M. Jaubah
Pendahuluan
Pembahasan mengenai Model Analisis TEV yang dikembangkan oleh Puguh Suharso,
telah mengungkap bahwa pohon keputusan merupakan salah satu pilar dari tiga pilar
pembentukan Model Analisis TEV.
IBM SPSS Statistics mengandung peluang untuk melakukan analisis pohon keputusan.
Data yang dipakai biasanya sangat banyak sekali agar struktur keputusan dapat
dibentuk. Data yang dipakai di sini terdiri dari 108 kasus dan dua variabel. Variabel itu
adalah variabel terikat (X1) dan variabel bebas (X2).
Buku-buku SPSS yang telah diterbitkan di Indonesia belum menjentuh pembahasan
mengenai pohon keputusan. Buku-buku statistik yang telah diterbitkan di sini juga
belum menjamah pembahaan mengenai pohon keputusan. Kesenjangan ini perlu
ditanggulangi dengan cara mempelajari dan hasil kajian ini disebarluaskan ke dalam
masyarakat ilmiah.
Pembahasan mengenai pohon keputusan dalam SPSS akan mencakup pembahasan
mengenai asumsi-asumsi dan persyaratan-persyaratan data, akibat-akibat dari tingkat
mengukuran pada model-model pohon keputusan, penentuan tingkat pengukuran
secara permanen, variabel-variabel dengan tingkat pengukuran yang tidak diketahui,
akibat-akibat dari label nilai padamodel-model pohon keputusan, pemberian nilai label
pada semua nilai,ringkasan, pemakaian pohon keputusan untuk mengevaluasi riiko
kredit, penciptaan model, pembentukan model Chaid pohon keputusan, pemilihan
kategori target, spesifikasi kriteria pertumbuhan pohon keputusan, pemilihan hasil
tambahan, penyimpanan nilai-nilai yang diprediksi, evaluasi model, tabel ringkasan
model, diagram pohon, tabel pohon, keungungan untuk simpul, keuntungan grafik,
grafik indeks, estimasi dan klasifikasi risiko, nilai-nilai yang diprediksi, perbaikan model,
pemilihan kasus dalam simpul, pengujian atas kasus-kasus yang dipilih, pemakaian
biaya-biaya pada hasil-hasil, ringkasan, pembentukan suatu model skor, pembentukan
1
model, evaluasi model, ringkasan model, diagram model pohon, estimasi risiko,
penerapan model pada arsip data lain, ringkasan, nilai-nilai kosong dalam model pohon,
nilai-nilai kosong dengan CHAID, hasil-hasil CHAID, nilai-nilai kosong dengan CRT,
hasil-hasil CRT, Surrogates, dan ringkasan. Ruang lingkup ini agak luas sehingga perlu
dibagi ke dalam beberapa bagian.
Tulisan ini disusun sebagai usaha mengisi kekosongan pembahasan statistik mengenai
pohon keputusan dan kritik dari para pakar statistik diharapkan sekali sehingga
pembahasan lebih dapat diperdalam dan dihayati.
Pohon Keputusan
Pemakaian teori tentang pohon keputusan memungkinkan suatu organisasi melakukan
kuantifikasi atas pengambilan keputusan karena cara ini bermanfaat bila akibat-akibat
dari keputusan yang diambil itu mengandung unsur ketidaktentuan atau unsur risiko.
Pohon keputusan dapat dipakai untuk menempatkan suatu nilai numerik atas akibat-
akibat yang mungkin dialami atau akibat-akibat potensial, dan memungkinkan
perbandingan atas kepurusan-keputusan berbeda dapat juga dilakukan.
Pohon keputusan mengandung keterbatasan-keterbatasan sebagai akibat dari tingkat
akurasi data yang dipakai dalam pembentukan pohon, tingkat reliabilitas atas estimasi
terhadap probabilitas, data kemungkinan bersifat historis, dan kebutuhan akan
pembobotan dalam faktor-faktor kualitatif seperti sumberdaya manusia, motivasi, reaksi,
hubungan dengan para pemasok, dan pihak-pihak lain.
Pohon keputusan merupakan perangkat perencanaan, karena pohon keputusan
menerapkan penalaran pada pengambilan keputusan dengan cara mengidentifikasi
akibat-akibat yang mungkin dialami, dan pengambilan keputusan dilakukan secara
kuantitatif.
Proses dalam pohon keputusan mencakup usaha untuk merinci alternatif-alternatif yang
tersedia, mengestimasi biaya-biaya dan manfaat-manfaat keuangan, mengidentifikasi
probabilitas dari akibat-akibat, segi-empat mewakili di mana keputusan-keputusan
harus diambil dan lingkaran mewakili akibat-akibat berbeda yang mungkin, dan nilai
2
diharap (expected value dalam pengertian akibat keuangan dari suatu keputusan, dan
berdiam diri. Pimpinan tidak mengambil keputusan dalam menghadapi suatu masalah
keputusan juga merupakan suatu pengambilan keputusan. Masalah tidak terselesaikan
dan mungkin tidak menimbulkan dampak negatif dan mungkin pula menimbulkan
dampak negatif bagi organisasi bersangkutan.
Proses perhitungan dilakukan melalui gambar serupa pohon sehingga model ini dikenal
dengan nama pohon keputusan (decision tree). Pohon itu sendiri mencerminkan suatu
struktur dari mulai akar hingga ke daun paling ujung atau tertinggi. Pengambilan
keputusan terakhir terletak pada akar.
Pohon keputusan biasa dibahas dalam teori pengambilan keputusan, riset operasi, atau
manajemen produksi (manajemen operasi), akan tetapi pembahasan dengan
memanfaatkan SPSS, terutama di Indonesia, masih sangat langka.
SPSS dan Pohon Keputusan
Dokumentasi IBM SPSS Statistics versi 21 dan versi-versi yang lalu adalah sangat
lengkap karena mencakup dkumentasi mengenai :
1. GPL Reference Guide for IBM SPSS Statistics.pdf
2. IBM SPSS Advanced Statistics.pdf
3. IBM SPSS Bootstrapping.pdf
4. IBM SPSS Categories.pdf
5. IBM SPSS Complex Samples.pdf
6. IBM SPSS Conjoint.pdf
7. IBM SPSS Custom Tables.pdf
8. IBM SPSS Data Preparation.pdf
9. IBM SPSS Decision Trees.pdf
10. IBM SPSS Direct Marketing.pdf
3
11. IBM SPSS Exact Tests.pdf
12. IBM SPSS Forecasting.pdf
13. IBM SPSS Missing Values.pdf
14. IBM SPSS Neural Network.pdf
15. IBM SPSS Regression.pdf
16. IBM SPSS Statistics Algorithms.pdf
17. IBM SPSS Statistics Base.pdf
18. IBM SPSS Statistics Brief Guide.pdf
19. IBM SPSS Statistics Command Syntax Reference.pdf
20. IBM SPSS Statistics Core System User's Guide.pdf
Keseluruhan dokumentasi ini adalah sangat tebal. Usaha mempelajari keseluruhan
dokumentasi diikuti dengan pelatihan pemakaian membutuhkan waktu cukup lama dan
keseluruhan pembahasan ini merupakan salah satu kritik atas pembahasan yang
tercakup dalam buku-buku SPSS yang telah diterbitkan di Indonesia karena banyak
pokok pembahasan yang belum terjamah termasuk pula buku-buku statistik yang telah
diterbitkan di sini.
Salah satu dokumentasi tersebut adalah dokumentasi tentang pohon keputusan.
Prosedur pohon keputusan, dalam SPSS, mengandung asumsi bahwa tingkat
pengukuran yang tepat telah dipakai pada semua variabel yang dianalisis. Variabel-
variabel dependen untuk variabel berjenis kualitatif (nominal atau ordinal), nilai label
telah didefinisikan untuk semua kategori yang akan dicakup dalam analisis, data KP.sav
dipakai di sini untuk mengilustrasikan peranan penting dari kedua persyaratan tersebut.
Prosedur pohon keputusan, dalam SPSS, dapat dipakai untuk mencipta suatu model
klasifikasi berbasis pohon. Prosedur ini mengelompokkan kasus-kasus ke dalam
kelompok-kelompok atau nilai-nilai prediksi dari suatu variabel dependen (variabel
4
target) berdasar atas nilai-nilai dari variabel-variabel independen (prediktor). Prosedur
juga mengandung perangkat validasi untuk klasifikasi analisis eksploratori dan analisis
konfirmatori.
Chi-squared Automatic Interaction Detection (CHAID) juga terkandung dalam prosedur
itu. Tiap langkah dalam penciptaan pohon keputusan, CHAID memilih variabel
independen yang mempunyai interaksi terkuat dengan variabel independen. Kategori
dari tiap prediktor digabung jika kategori-kategori itu secara signifikan tidak berbeda
dengan mempertimbangkan pada variabel dependen.
Classification and Regression Trees (CRT) akan memisah data ke dalam segmen-
segmen yang mencerminkan sehomogen mungkin dengan mempertimbangkan pada
variabel dependen. Suatu simpul terminal dalam mana semua kasus mempunyai nilai
yang sama untuk variabel dependen adalah simbul murni bersifat homogen.
Quick, Unbiased, Efficient Statitical Tree (QUEST) tersedia pula sebagai suatu metode
yang cepat dan menghindarkan bias dari metode lain dalam prediksi dengan banyak
kategori. QUEST
Informasi dari modal dapat disimpan sebagai variabel-variabel dalam arsip data kerja
dan dapat juga menyimpan model secara keseluruhan dalam bentuk suatu arsip
eksternal (XML atau PMML). Penyimpanan variabel-variabel dapat juga dilakukan.
Data
Data yang dipakai adalah data mengenai variabel dependen (X1) dan variabel
independen (X2). Contoh ini terdiri dari 2 variabel saja sebagai suatu contoh sederhana
untuk mengungkap konsep-konsep dasar yang terkandung dalam analisis pohon
keputusan. Data lain adalah data tentang analisis risiko kredit. Data yang dipakai
adalah sangat besar mencakup 2464 kasus atau observasi, satu variabel dependen,
dan beberapa variabel independen. Contoh sederhana ini terdiri dari tiga variasi
sehingga hasil-hasil yang diperoleh juga berbeda-beda. Penjelasan mengenai hasil-
hasil ini disajikan secara terbatas dalam contoh sederhana ini. Analisis secara lengkap
5
akan dikemukakan dalam analisis mengenai risiko kredit yang dihadapi dan
diprediksikan oleh suatu bank. Data yang dipakai dalam contoh kedua adalah data yang
tersedia dalam SPSS. SPSS mengandung banyak arsip data yang dapat dimanfaatkan
untuk berbagai studi kasus.
Data yang dipakai adalah sebagai berikut :
X1 X2 X1 X2 X1 X2 X1 X21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 1 3 1 3 21 3 2 1 3 1 2 31 4 2 1 3 1 1 4
Proses
6
Both variables in this data file are numeric, and both have been assigned the scale measurement
level. But (as we will see later) both variables are really categorical variables that rely on
numeric codes to stand for category values.
Kedua variabel dalam arsip data adalah numerik dan berjenis scale. Kedua variabel perlu diubah
ke dalam variabel-variabel kategori yang tergantung pada kode numerik untuk mewakili nilai-
nilai variabel kualitatif. Perubahan perlu dilakukan dari data berjenis scale menjadi data berjenis
nominal, tanpa mengubah jenis data asli.
Proses pengolahan data tercermin dalam program aplikasi pohon keputusan. Program
aplikasi ini dihasilkan dari proses pemrograman SPSS. Program ini adalah sebagai
berikut :
*************************************************************** Abdullah M. Jaubah***** Pohon Keputusan**********************************************************
GET FILE='D:\ADA\KP.sav'.
* Decision Tree.
TREE X1 [s] BY X2 [s] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /PRINT MODELSUMMARY RISK /GAIN SUMMARYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES ADJUST=BONFERRONI INTERVALS=10.
* Decision Tree.
TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.
* Decision Tree.
TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID]
7
/PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.
Tiga macam proses terkandung dalam sintaksis di atas.
Hasil Pelaksanaan Sintaksis
Pelaksanaan sintaksis di atas dilakukan dengan cara mengaktifkan menu Run>All.
Langkah ini akan menghasilkan informasi sebagai berikut :
*************************************************************** Abdullah M. Jaubah***** Pohon Keputusan**********************************************************
GET FILE='D:\ADA\KP.sav'.
* Decision Tree.
TREE X1 [s] BY X2 [s] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /PRINT MODELSUMMARY RISK /GAIN SUMMARYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES ADJUST=BONFERRONI INTERVALS=10.
Model Summary
Specifications
Growing Method CHAID
Dependent Variable X1
Independent Variables X2
Validation Cross Validation
Maximum Tree Depth 3
Minimum Cases in Parent Node 100
Minimum Cases in Child Node 50
Results
Independent Variables Included X2
Number of Nodes 3
Number of Terminal Nodes 2
Depth 1
8
Simpul 0 mencerminkan bahwa nilai rata-rata adalah 2, deviasi standar dalah 0.820,
jumlah kasus adalah 108, persentase adalah 100%, dan nilai diprediksi adalah 2.
Simpul 1 mencerminkan bawa nilai rata-rata adalah 2.643, deviasi standar adalah
0.483, jumlah kasus adalah 56, persentase adalah 51.9%, dan nilai diprediksi adalah
2.643. Simpul 2 mencerminkan bahwa nilai rata-rata adalah 1.308, deviasi standar
adalah 0.466, jumlah kasus adalah 52, persentase adalah 48.1%, dan nilai diprediksi
adalah 1.308. Pohon keputusan itu mempunyai dua simpul anak, satu untuk tiap nilai
dari variabel bebas.
Gain Summary for Nodes
Node N Percent Mean
1 56 51.9% 2.6429
2 52 48.1% 1.3077
Growing Method: CHAID
Dependent Variable: X1
Tabel Gain Summary for Nodes merupakan ringkasan dari informasi dalam simpul 1
dan simpul 2 di atas.
9
Risk
Method Estimate Std. Error
Resubstitution .222 .015
Cross-Validation .688 .047
Growing Method: CHAID
Dependent Variable: X1
Tabel Risk mencerminkan metode resubstitusi diestimasikan sebesar 0.222 dengan kesalahan
standar adalah 0.15 dan cross-validation adalah 0.688 dengan kesalahan standar 0.047.
* Decision Tree.
TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.
Warnings
Gain summary Tables are not displayed because profits are undefined.
Target category gains tables are not displayed because target categories are undefined.
Model Summary
Specifications
Growing Method CHAID
Dependent Variable X1
Independent Variables X2
Validation None
Maximum Tree Depth 3
Minimum Cases in Parent Node 100
Minimum Cases in Child Node 50
Results
Independent Variables Included X2
Number of Nodes 3
Number of Terminal Nodes 2
Depth 1
10
Risk
Estimate Std. Error
.333 .045
Growing Method: CHAID
Dependent Variable: X1
Classification
Observed Predicted
1.00 2.00 3.00 Percent Correct
1.00 36 0 0 100.0%
2.00 16 0 20 0.0%
3.00 0 0 36 100.0%
Overall Percentage 48.1% 0.0% 51.9% 66.7%
Growing Method: CHAID
Dependent Variable: X1
* Decision Tree.
TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES
11
/CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.
Warnings
Gain summary Tables are not displayed because profits are undefined.
Target category gains tables are not displayed because target categories are undefined.
Model Summary
Specifications
Growing Method CHAID
Dependent Variable X1
Independent Variables X2
Validation Cross Validation
Maximum Tree Depth 3
Minimum Cases in Parent Node 100
Minimum Cases in Child Node 50
Results
Independent Variables Included X2
Number of Nodes 3
Number of Terminal Nodes 2
Depth 1
12
Risk
Method Estimate Std. Error
Resubstitution .333 .045
Cross-Validation .926 .025
Growing Method: CHAID
Dependent Variable: X1
Classification
Observed Predicted
1.00 2.00 3.00 Percent Correct
1.00 36 0 0 100.0%
2.00 16 0 20 0.0%
3.00 0 0 36 100.0%
Overall Percentage 48.1% 0.0% 51.9% 66.7%
Growing Method: CHAID
Dependent Variable: X1
Analisis Hasil Pelaksanaan Sintaksis
Hasil-hasil telah disajikan di atas. Tiga pohon keputusan terkandung dalam penyajikan
tersebut. Dua pohon keputusan akan dibandingkan di sini. Pohon keputusan kesatu
memperlakukan variabel-variabel sebagai variabel-variabel kuantitatif (scale).
Tiap simpul (nodes) dari pohon keputusan itu menunjukkan nilai “diprediksi” yang
mencerminkan nilai rata-rata untuk variabel dependen pada simpul tersebut. Nilai rata-
rata tidak mempunyai makna statistik untuk variabel-variabel berjenis kualitatif (nominal
atau ordinal)
Model Summary
Specifications
Growing Method CHAID
Dependent Variable X1
Independent Variables X2
Validation None
Maximum Tree Depth 3
Minimum Cases in Parent Node 100
Minimum Cases in Child Node 50
13
Results
Independent Variables Included X2
Number of Nodes 3
Number of Terminal Nodes 2
Depth 1
Risk
Estimate Std. Error
.333 .046
Growing Method: CHAID
Dependent Variable: X1
Classification
Observed Predicted
1.00 2.00 3.00 Percent Correct
1.00 35 0 0 100.0%
2.00 15 0 20 0.0%
3.00 0 0 35 100.0%
Overall Percentage 47.6% 0.0% 52.4% 66.7%
Growing Method: CHAID
Dependent Variable: X1
Bagian kedua dari hasil itu adalah sebagai berikut :
14
Warnings
Gain summary Tables are not displayed because profits are undefined.
Target category gains tables are not displayed because target categories are undefined.
Model Summary
Specifications
Growing Method CHAID
Dependent Variable X1
Independent Variables X2
Validation Cross Validation
Maximum Tree Depth 3
Minimum Cases in Parent Node 100
Minimum Cases in Child Node 50
Results
Independent Variables Included X2
Number of Nodes 3
Number of Terminal Nodes 2
Depth 1
Risk
Method Estimate Std. Error
Resubstitution .333 .046
Cross-Validation .810 .038
Growing Method: CHAID
Dependent Variable: X1
15
Classification
Observed Predicted
1.00 2.00 3.00 Percent Correct
1.00 35 0 0 100.0%
2.00 15 0 20 0.0%
3.00 0 0 35 100.0%
Overall Percentage 47.6% 0.0% 52.4% 66.7%
Growing Method: CHAID
Dependent Variable: X1
Analisis Risiko Kredit
Analisis Risiko Kredit ini memakai data yang tersedia dalam SPSS dan perubahan
dilakukan. Data ini dipakai karena jumlah data adalah sangat besar yaitu 2464 kasus
sehingga data ini tidak dapat disajikan di sini akan tetapi dapat dicari dalam arsip data
bernama tree_credit.sav.
Suatu bank memelihara basis data (database) dari informasi historis atas para nasabah
yang telah mengambil atau memperoleh pinjaman dari bank tersebut, termasuk apakah
mereka itu membayar kembali atau tidak membayar kembali pinjaman bersangkutan.
Data kredit disimpan dalam tree_credit.sav. Arsip data ini kemudian diubah dan
disimpan dengan nama Kredit.sav.
Proses
Penciptaan model dilakukan berdasar atas prosedur Pohon Keputusan karena prosedur
ini menyediakan beberapa metode berbeda untuk mencipta model-model pohon
keputusan. Metode utama akan dipakai dalam contoh ini. Chi-square Automatic
Interaction Detection akan memilih pada tiap langkah variabel independen (prediktor)
yang mempunyai interaksi terkuat dengan variabel dependen. Kategori-kategori dari
tiap prediktor digabung jika penggabungan itu secara statistik mencerminkan perbedan
yang tidak signifikan dengan mempertimbangkan pada variabel dependen.
Penciptaan Model Pohoh Keputusan CHAID dilakukan dengan cara memakai perintah
Analyze>Classify>Tree.
16
Peringkat kredit (X1) dipili sebagai variabel dependen. Semua variabel lain dipilih
sebagai variabel-variabel independen. Prosedur ini akan secara otomatis mengeluarkan
variabe-variabel yang tidak memberikan kontribusi yang signifikan pada model akhir.
Prosedur, pada tahap ini, dapat dijalankan dan suatu model dasar akan dihasilkan,
akan tetapi beberapa langkah lain masih diperlukan agar dapat melengkapi hasil dan
penyesuaian-penyesuaian kecil dilakukan dengan cara memilih peluang criteria.
Peluang Criteria ini dipilih untuk mencipta model.
Pemilihan kategori-kategori target dapat dilakukan dengan cara menekan tombol
Categories dan kemudian variabel dependen dipilih. Langkah ini akan membuka kotak
dialog Categories dan variabel target dapat dipilih sesuai dengan tingkat kepentingan
dan minat. Kategori-kategori target tidak mempengaruhi model pohon keputusan itu
sendiri, akan tetapi hasil dan peluang tersedia hanya jika kategori-kategori target itu
telah dipilih. Buruk dipakai sebagai target yang dipilih. Tombol Continue ditekan dan
tombol Criteria ditekan. Paren Node diisi denan 400 dan Child Node diisi dengan 200.
Tombol Continue ditekan. Tombol Output ditekan. Kotak Tree diaktifkan. Lingkaran Top
down diaktifkan. Lingkaran Table diaktifkan. Lingkaran Automatcic (reduces scale for
large trees) diaktifkan. Kotak di depan Independent variable statistics diaktifkan, kodak
di depan Node definitions diaktifkan, dan kotak di depat Tree in table format diaktifkan.
Tombol Plot ditekan. Kotak di depan Gain diaktifkan dan kotak di depan Index
diaktifkan. Tombol Continue ditekan. Penyimpanan nilai-nilai yang diprediksi dapat
dilakukan sehingga variabel-variabel dapat disimpan. Variabel-variabel ini mengandung
informasi tentang prediksi-prediksi model. Peringkat kredit yang diprediksi itu dapat
disimpan untuk tiap kasus dan kemudian dipakai untuk membandingkan dengan
prediksi-prediksi peringat kredit aktual. Tobol Save diekan. Kotak dialog disajikan. Kotak
didepan Terminal node number diaktifkan, kotak di depan Predicted value diaktifkan,
dan tombol Continue ditekan. Langkah ini akan menghasilkan inormasi.
Uraian di atas dilakukan jika cara point and click dipakai. Cara pemrograman berdasar
atas sintaksis adalah sebagai berikut
*********************************************************** Abdullah M. Jaubah
17
***** Analisis Risiko Kredit******************************************************
GET FILE='D:\ADA\Kredit.sav'.
* Decision Tree.
TREE X1 [n] BY X2 [s] X3 [o] X4 [n] X5 [n] X6 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[.00 1.00] TARGET=[.00] /PRINT MODELSUMMARY CLASSIFICATION RISK /GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /SAVE NODEID PREDVAL /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=400 MINCHILDSIZE=200 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10 /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.
Sintaksis yang dicipta sebagaimana disajikan di atas dijalankan dengan cara memakai
menu Run>All
Cara point and click dan cara pemrograman akan menyajikan informasi yang sama.
Perbedaan terletak pada pengulangan akan dilakukan sebagaimana dijelaskan dalam
cara point and click sedangkan cara pemrograman hanya mencari arsip sintaksis,
dimuat dan dijalankan dengan memanfaatkan menu Run>All. Hal ini berarti bahwa cara
pemrograman adalah lebih cepat, lebih mudah, lebih efektif, dan lebih efisien dalam
pemakaian waktu komputer, akan tetapi sayang seribu kali sayang karena para penulis
buku SPSS dan para pengajar statistik belum memanfaatkannya.
Hasil Pelaksanaan Sintaksis
Hasil pelaksanaan sintaksis di atas adalah sebagai berikut :
Warnings
Gain summary Tables are not displayed because profits are undefined.
Model Summary
Specifications Growing Method CHAID
Dependent Variable X1
Independent Variables X2, X3, X4, X5, X6
Validation None
Maximum Tree Depth 3
Minimum Cases in Parent Node 400
18
Minimum Cases in Child Node 200
Results
Independent Variables Included X3, X4, X2
Number of Nodes 10
Number of Terminal Nodes 6
Depth 3
Contoh di atas menyajikan hasil-hasil model. Hasil-hasil ini mencakup Tabel-tabel yang
menyediakan informasi tentang model, diagram pohon, grafik yang menyediaka indikasi
dari kinerja model, dan prediksi variabel-variabel model ditambahkan dalam arsip data
yang sedang aktif.
Model summary table mengandung informasi yang sangat luas tentang spesifikasi-
spesifikasi yang dipakai untuk mencipta model dan model yang dihasilkan. Spesifikasi-
spesifikasi itu menyediakan informasi tentang lingkungan yang dipakai untuk mencipta
model pohon termasuk variabel-variabel yang dipakai dalam analisis. Hasil-hasil
menyajikan informasi tentang jumlah total dan simpul-simpul terminal, kedalaman dari
pohon dalam pengertian jumlah tingkat-tingkat di bawah simput utama da variabel-
variabel independen yang dimasukkan dalam model akhir. Lima variabel independen
dispesifikasikan akan tetapi hanya tiga variabel independen saja yang dicakup dalam
model akhir. Variabel X5 (Pendidikan) dan variabel X6 (jumlah dari pinjaman mobil
sekarang) tidak memberikan kontribusi yang signifikan pada model, sehingga kedua
variabel ini secara otomatis ditiadakan dari model akhir.
19
Diagram pokon sebagaimana disajikan di atas adalah suatu grafik yang mewakili model
pohon. Diagram pohon ini menunjukkan bahwa pemakaian metode CHAID, tingkat
pendapatan merupakan prediktor terbaik dari peringkat kredit. Tingkat pendapatan,
bagi kategori pendapatan rendah, hanya merupakan prediktor sifnifikan dari peringkat
20
kredit. Para nasabah bank dalam kategori ini adalah 82.1% merupakan nasabah yang
tidak membayar pinjaman-pinjaman mereka sebagaimana tercermin dalam simpul 1
dan simpul-simpul anak tidak terdapat dalam simpul 1 ini maka simpul ini dianggap
sebagai simpul terminal. Prediktor lebih lanjut yang terbaik untuk kategori pendapatan
menengah dan tinggi adalah prediktor jumlah kartu kredit. Para nasabah dengan
pendapatan menengah dengan 5 kartu kredit atau lebih, model mencakup satu
prediktor usia atau lebih. Para nasabah ini 80% dari 28% nasabah ini mempunyai
peringkat kredit buruk.
Gains for Nodes
Node Node Gain N Percent Response Index
N Percent N Percent
1 553 22.4% 454 44.5% 82.1% 198.3%
8 261 10.6% 211 20.7% 80.8% 195.3%
9 483 19.6% 211 20.7% 43.7% 105.5%
6 455 18.5% 80 7.8% 17.6% 42.5%
5 390 15.8% 54 5.3% 13.8% 33.4%
7 322 13.1% 10 1.0% 3.1% 7.5%
Growing Method: CHAID
Dependent Variable: X1
Gains for nodes table di atas mengandung suatu ringkasan informasi tentang simpul
terminal dalam model. Simpul terminal adalah simpul yang mencerminkan pohon itu
berhenti tumbuh disajikan dalam tabel. Simpul terminal merupakan simpul yang sangat
diperhatikan oleh para peneliti karena simbul terminal itu mewakili klasifikasi dari
prediksi-prediksi untuk model itu. Gain values menyediakan informasi tentang kategori-
kategori target sehingga tabel ini hanya tersedia jika kategori targen telah
dispesifikasikan satu spesifikasi atau lebih. Contoh hanya memakai target satu saja
yaitu peringkat kredit yang buruk sehingga hanya terdapat satu gains untuk tabel simpul
itu. Simpul N adalah jumlah kasus dalam tiap simpul terminal, dan Node Percent adalah
persentase dari jumlah kasus dalam tiap simpul. Gain N adalah jumlah kasus dalam
tiap simpul terminal dalam kategori target, dan Gain Percents adalah persentase dari
kasus dalam kategori target dengan mempertimbangkan pada jumlah kasus secara
keseluruhan dalam kategori target, dalam kasus ini adalah persentase dari kasus
21
dengan peringkat kredit buruk. Response, untuk variabel dependen kategori, adalah
persentase kasus dalam simpul dalam kategori target yang telah dispesifikasikan.
Kategori buruk dalam diagram pohon untuk variabel dependen kategori, Index adalah
hasil bagi dari persentasi tanggapan untuk kategori target dibanding dengan persentase
responden untuk keseluruhan sampel.
Index value merupakan indikasi dari berapa jauh kategori target yang diobservasi untuk
simpul itu berbeda dari persentase diharap untuk kategori target tadi.Persentase
kategori target dalam simpul utama atau simpul 1 mewakili persentase diharap sebelum
akibat-akibat dari variabel-variabel independen itu dipertimbangkan. Nilai indeks lebih
besar daripada 100% berarti bahwa lebih banyak kasus dalam kategori target daripada
persentase keseluruhan dalam kategori target. Suatu nilai indeks kurang daripada
100% berarti bahwa beberapa kasus terdapat dalam kategori target daripada
persentase secara keseluruhan.
Risk
Estimate Std. Error
.205 .008
Growing Method: CHAID
Dependent Variable: X1
Classification
Observed Predicted
.00 1.00 Percent Correct
.00 665 355 65.2%
1.00 149 1295 89.7%
Overall Percentage 33.0% 67.0% 79.5%
Growing Method: CHAID
Dependent Variable: X1
Risk and classification tables di atas menyediakan informasi untuk melakukan evaluasi
secara cepat tentang bagaimana model itu bekerja dengan baik. Estimasi risiko adalah
0.205 mengindikasikan bahwa kategori itu diprediksi oleh model (peringkat kredit baik
atau buruk) adalah salah sebesar 20.5% dari kasus sehingga risiko kesalahan
22
Rangkuman
Model Analisis TEV yang dikembangkan oleh Puguh Suharso telah memotivasi penulis
untuk mempelajari kembali teori, konsep, dan kostruk tentang pohon keputusan ditinjau
dari sudut SPSS.
Prosedur pohon keputusan tergantung pada pemakaian secara tepat atas tingkat
pengukuran untuk semua variabel yang akan dianalisis. Value labels untuk semua nilai
yang dicakup dalam analisis untuk variabel-variabel dependen katergoris (kualitatif).
Pohon keputusan sebagai suatu perangkat perencanaan dan perangkat pengambilan
keputusan mengandung proses, manfaat, dan keterbatasan.
Pohon keputusan yang terkandung dalam SPSS dapat dimanfaatkan untuk melakukan
penelitian mengenai berbagai ragam risiko termasuk risiko kredit, namun penelitian
seperti ini akan sulit ditemukan di Indonesia sebagai akibat dari para pengajar enggan
mengkaji ulang gagasan-gagasan yang mungkin bermanfaat dan buku-buku SPSS dan
buku-buku statistik yang masih belum mampu menjamah kajian ini.
Daftar Kepustakaan
IBM Corporation. 2012. IBM SPSS Decision Trees 21.
____________. 2012. IBM SPSS Advanced Statistics 21.
____________. 2012. IBM SPSS Direct Marketing 21.
____________. 2012. IBM SPSS Complex Samples 21.
____________. 2012. IBM SPSS Neural Networks 21.
____________. 2012. IBM SPSS Forecasting 21.
____________. 2012. IBM SPSS Statistics Command Syntax Reference 21.
23