Pemrograman Ibm Spss Statistics Dan Pohon Keputusan

PEMROGRAMAN IBM SPSS STATISTICS DAN POHON KEPUTUSAN

Oleh :

Abdullah M. Jaubah

Pendahuluan

Pembahasan mengenai Model Analisis TEV yang dikembangkan oleh Puguh Suharso,

telah mengungkap bahwa pohon keputusan merupakan salah satu pilar dari tiga pilar

pembentukan Model Analisis TEV.

IBM SPSS Statistics mengandung peluang untuk melakukan analisis pohon keputusan.

Data yang dipakai biasanya sangat banyak sekali agar struktur keputusan dapat

dibentuk. Data yang dipakai di sini terdiri dari 108 kasus dan dua variabel. Variabel itu

adalah variabel terikat (X1) dan variabel bebas (X2).

Buku-buku SPSS yang telah diterbitkan di Indonesia belum menjentuh pembahasan

mengenai pohon keputusan. Buku-buku statistik yang telah diterbitkan di sini juga

belum menjamah pembahaan mengenai pohon keputusan. Kesenjangan ini perlu

ditanggulangi dengan cara mempelajari dan hasil kajian ini disebarluaskan ke dalam

masyarakat ilmiah.

Pembahasan mengenai pohon keputusan dalam SPSS akan mencakup pembahasan

mengenai asumsi-asumsi dan persyaratan-persyaratan data, akibat-akibat dari tingkat

mengukuran pada model-model pohon keputusan, penentuan tingkat pengukuran

secara permanen, variabel-variabel dengan tingkat pengukuran yang tidak diketahui,

akibat-akibat dari label nilai padamodel-model pohon keputusan, pemberian nilai label

pada semua nilai,ringkasan, pemakaian pohon keputusan untuk mengevaluasi riiko

kredit, penciptaan model, pembentukan model Chaid pohon keputusan, pemilihan

kategori target, spesifikasi kriteria pertumbuhan pohon keputusan, pemilihan hasil

tambahan, penyimpanan nilai-nilai yang diprediksi, evaluasi model, tabel ringkasan

model, diagram pohon, tabel pohon, keungungan untuk simpul, keuntungan grafik,

grafik indeks, estimasi dan klasifikasi risiko, nilai-nilai yang diprediksi, perbaikan model,

pemilihan kasus dalam simpul, pengujian atas kasus-kasus yang dipilih, pemakaian

biaya-biaya pada hasil-hasil, ringkasan, pembentukan suatu model skor, pembentukan

1

model, evaluasi model, ringkasan model, diagram model pohon, estimasi risiko,

penerapan model pada arsip data lain, ringkasan, nilai-nilai kosong dalam model pohon,

nilai-nilai kosong dengan CHAID, hasil-hasil CHAID, nilai-nilai kosong dengan CRT,

hasil-hasil CRT, Surrogates, dan ringkasan. Ruang lingkup ini agak luas sehingga perlu

dibagi ke dalam beberapa bagian.

Tulisan ini disusun sebagai usaha mengisi kekosongan pembahasan statistik mengenai

pohon keputusan dan kritik dari para pakar statistik diharapkan sekali sehingga

pembahasan lebih dapat diperdalam dan dihayati.

Pohon Keputusan

Pemakaian teori tentang pohon keputusan memungkinkan suatu organisasi melakukan

kuantifikasi atas pengambilan keputusan karena cara ini bermanfaat bila akibat-akibat

dari keputusan yang diambil itu mengandung unsur ketidaktentuan atau unsur risiko.

Pohon keputusan dapat dipakai untuk menempatkan suatu nilai numerik atas akibat-

akibat yang mungkin dialami atau akibat-akibat potensial, dan memungkinkan

perbandingan atas kepurusan-keputusan berbeda dapat juga dilakukan.

Pohon keputusan mengandung keterbatasan-keterbatasan sebagai akibat dari tingkat

akurasi data yang dipakai dalam pembentukan pohon, tingkat reliabilitas atas estimasi

terhadap probabilitas, data kemungkinan bersifat historis, dan kebutuhan akan

pembobotan dalam faktor-faktor kualitatif seperti sumberdaya manusia, motivasi, reaksi,

hubungan dengan para pemasok, dan pihak-pihak lain.

Pohon keputusan merupakan perangkat perencanaan, karena pohon keputusan

menerapkan penalaran pada pengambilan keputusan dengan cara mengidentifikasi

akibat-akibat yang mungkin dialami, dan pengambilan keputusan dilakukan secara

kuantitatif.

Proses dalam pohon keputusan mencakup usaha untuk merinci alternatif-alternatif yang

tersedia, mengestimasi biaya-biaya dan manfaat-manfaat keuangan, mengidentifikasi

probabilitas dari akibat-akibat, segi-empat mewakili di mana keputusan-keputusan

harus diambil dan lingkaran mewakili akibat-akibat berbeda yang mungkin, dan nilai

2

diharap (expected value dalam pengertian akibat keuangan dari suatu keputusan, dan

berdiam diri. Pimpinan tidak mengambil keputusan dalam menghadapi suatu masalah

keputusan juga merupakan suatu pengambilan keputusan. Masalah tidak terselesaikan

dan mungkin tidak menimbulkan dampak negatif dan mungkin pula menimbulkan

dampak negatif bagi organisasi bersangkutan.

Proses perhitungan dilakukan melalui gambar serupa pohon sehingga model ini dikenal

dengan nama pohon keputusan (decision tree). Pohon itu sendiri mencerminkan suatu

struktur dari mulai akar hingga ke daun paling ujung atau tertinggi. Pengambilan

keputusan terakhir terletak pada akar.

Pohon keputusan biasa dibahas dalam teori pengambilan keputusan, riset operasi, atau

manajemen produksi (manajemen operasi), akan tetapi pembahasan dengan

memanfaatkan SPSS, terutama di Indonesia, masih sangat langka.

SPSS dan Pohon Keputusan

Dokumentasi IBM SPSS Statistics versi 21 dan versi-versi yang lalu adalah sangat

lengkap karena mencakup dkumentasi mengenai :

1. GPL Reference Guide for IBM SPSS Statistics.pdf

2. IBM SPSS Advanced Statistics.pdf

3. IBM SPSS Bootstrapping.pdf

4. IBM SPSS Categories.pdf

5. IBM SPSS Complex Samples.pdf

6. IBM SPSS Conjoint.pdf

7. IBM SPSS Custom Tables.pdf

8. IBM SPSS Data Preparation.pdf

9. IBM SPSS Decision Trees.pdf

10. IBM SPSS Direct Marketing.pdf

3

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Direct_Marketing.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Decision_Trees.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Data_Preparation.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Custom_Tables.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Conjoint.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Complex_Samples.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Categories.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Bootstrapping.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Advanced_Statistics.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/GPL_Reference_Guide_for_IBM_SPSS_Statistics.pdf

11. IBM SPSS Exact Tests.pdf

12. IBM SPSS Forecasting.pdf

13. IBM SPSS Missing Values.pdf

14. IBM SPSS Neural Network.pdf

15. IBM SPSS Regression.pdf

16. IBM SPSS Statistics Algorithms.pdf

17. IBM SPSS Statistics Base.pdf

18. IBM SPSS Statistics Brief Guide.pdf

19. IBM SPSS Statistics Command Syntax Reference.pdf

20. IBM SPSS Statistics Core System User's Guide.pdf

Keseluruhan dokumentasi ini adalah sangat tebal. Usaha mempelajari keseluruhan

dokumentasi diikuti dengan pelatihan pemakaian membutuhkan waktu cukup lama dan

keseluruhan pembahasan ini merupakan salah satu kritik atas pembahasan yang

tercakup dalam buku-buku SPSS yang telah diterbitkan di Indonesia karena banyak

pokok pembahasan yang belum terjamah termasuk pula buku-buku statistik yang telah

diterbitkan di sini.

Salah satu dokumentasi tersebut adalah dokumentasi tentang pohon keputusan.

Prosedur pohon keputusan, dalam SPSS, mengandung asumsi bahwa tingkat

pengukuran yang tepat telah dipakai pada semua variabel yang dianalisis. Variabel-

variabel dependen untuk variabel berjenis kualitatif (nominal atau ordinal), nilai label

telah didefinisikan untuk semua kategori yang akan dicakup dalam analisis, data KP.sav

dipakai di sini untuk mengilustrasikan peranan penting dari kedua persyaratan tersebut.

Prosedur pohon keputusan, dalam SPSS, dapat dipakai untuk mencipta suatu model

klasifikasi berbasis pohon. Prosedur ini mengelompokkan kasus-kasus ke dalam

kelompok-kelompok atau nilai-nilai prediksi dari suatu variabel dependen (variabel

4

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Statistics_Core_System_Users_Guide.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Statistics_Command_Syntax_Reference.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Statistics_Brief_Guide.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Statistics_Base.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Statistics_Algorithms.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Regression.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Neural_Network.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Missing_Values.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Forecasting.pdf

ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/21.0/en/client/Manuals/IBM_SPSS_Exact_Tests.pdf

target) berdasar atas nilai-nilai dari variabel-variabel independen (prediktor). Prosedur

juga mengandung perangkat validasi untuk klasifikasi analisis eksploratori dan analisis

konfirmatori.

Chi-squared Automatic Interaction Detection (CHAID) juga terkandung dalam prosedur

itu. Tiap langkah dalam penciptaan pohon keputusan, CHAID memilih variabel

independen yang mempunyai interaksi terkuat dengan variabel independen. Kategori

dari tiap prediktor digabung jika kategori-kategori itu secara signifikan tidak berbeda

dengan mempertimbangkan pada variabel dependen.

Classification and Regression Trees (CRT) akan memisah data ke dalam segmen-

segmen yang mencerminkan sehomogen mungkin dengan mempertimbangkan pada

variabel dependen. Suatu simpul terminal dalam mana semua kasus mempunyai nilai

yang sama untuk variabel dependen adalah simbul murni bersifat homogen.

Quick, Unbiased, Efficient Statitical Tree (QUEST) tersedia pula sebagai suatu metode

yang cepat dan menghindarkan bias dari metode lain dalam prediksi dengan banyak

kategori. QUEST

Informasi dari modal dapat disimpan sebagai variabel-variabel dalam arsip data kerja

dan dapat juga menyimpan model secara keseluruhan dalam bentuk suatu arsip

eksternal (XML atau PMML). Penyimpanan variabel-variabel dapat juga dilakukan.

Data

Data yang dipakai adalah data mengenai variabel dependen (X1) dan variabel

independen (X2). Contoh ini terdiri dari 2 variabel saja sebagai suatu contoh sederhana

untuk mengungkap konsep-konsep dasar yang terkandung dalam analisis pohon

keputusan. Data lain adalah data tentang analisis risiko kredit. Data yang dipakai

adalah sangat besar mencakup 2464 kasus atau observasi, satu variabel dependen,

dan beberapa variabel independen. Contoh sederhana ini terdiri dari tiga variasi

sehingga hasil-hasil yang diperoleh juga berbeda-beda. Penjelasan mengenai hasil-

hasil ini disajikan secara terbatas dalam contoh sederhana ini. Analisis secara lengkap

5

akan dikemukakan dalam analisis mengenai risiko kredit yang dihadapi dan

diprediksikan oleh suatu bank. Data yang dipakai dalam contoh kedua adalah data yang

tersedia dalam SPSS. SPSS mengandung banyak arsip data yang dapat dimanfaatkan

untuk berbagai studi kasus.

Data yang dipakai adalah sebagai berikut :

X1 X2 X1 X2 X1 X2 X1 X21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 1 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 2 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 4 3 1 3 21 3 2 1 3 1 3 21 3 2 1 3 1 2 31 4 2 1 3 1 1 4

Proses

6

Both variables in this data file are numeric, and both have been assigned the scale measurement

level. But (as we will see later) both variables are really categorical variables that rely on

numeric codes to stand for category values.

Kedua variabel dalam arsip data adalah numerik dan berjenis scale. Kedua variabel perlu diubah

ke dalam variabel-variabel kategori yang tergantung pada kode numerik untuk mewakili nilai-

nilai variabel kualitatif. Perubahan perlu dilakukan dari data berjenis scale menjadi data berjenis

nominal, tanpa mengubah jenis data asli.

Proses pengolahan data tercermin dalam program aplikasi pohon keputusan. Program

aplikasi ini dihasilkan dari proses pemrograman SPSS. Program ini adalah sebagai

berikut :

*************************************************************** Abdullah M. Jaubah***** Pohon Keputusan**********************************************************

GET FILE='D:\ADA\KP.sav'.

* Decision Tree.

TREE X1 [s] BY X2 [s] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /PRINT MODELSUMMARY RISK /GAIN SUMMARYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES ADJUST=BONFERRONI INTERVALS=10.

* Decision Tree.

TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.

* Decision Tree.

TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID]

7

/PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.

Tiga macam proses terkandung dalam sintaksis di atas.

Hasil Pelaksanaan Sintaksis

Pelaksanaan sintaksis di atas dilakukan dengan cara mengaktifkan menu Run>All.

Langkah ini akan menghasilkan informasi sebagai berikut :

*************************************************************** Abdullah M. Jaubah***** Pohon Keputusan**********************************************************

GET FILE='D:\ADA\KP.sav'.

* Decision Tree.

TREE X1 [s] BY X2 [s] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /PRINT MODELSUMMARY RISK /GAIN SUMMARYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES ADJUST=BONFERRONI INTERVALS=10.

Model Summary

Specifications

Growing Method CHAID

Dependent Variable X1

Independent Variables X2

Validation Cross Validation

Maximum Tree Depth 3

Minimum Cases in Parent Node 100

Minimum Cases in Child Node 50

Results

Independent Variables Included X2

Number of Nodes 3

Number of Terminal Nodes 2

Depth 1

8

Simpul 0 mencerminkan bahwa nilai rata-rata adalah 2, deviasi standar dalah 0.820,

jumlah kasus adalah 108, persentase adalah 100%, dan nilai diprediksi adalah 2.

Simpul 1 mencerminkan bawa nilai rata-rata adalah 2.643, deviasi standar adalah

0.483, jumlah kasus adalah 56, persentase adalah 51.9%, dan nilai diprediksi adalah

2.643. Simpul 2 mencerminkan bahwa nilai rata-rata adalah 1.308, deviasi standar

adalah 0.466, jumlah kasus adalah 52, persentase adalah 48.1%, dan nilai diprediksi

adalah 1.308. Pohon keputusan itu mempunyai dua simpul anak, satu untuk tiap nilai

dari variabel bebas.

Gain Summary for Nodes

Node N Percent Mean

1 56 51.9% 2.6429

2 52 48.1% 1.3077

Growing Method: CHAID

Dependent Variable: X1

Tabel Gain Summary for Nodes merupakan ringkasan dari informasi dalam simpul 1

dan simpul 2 di atas.

9

Risk

Method Estimate Std. Error

Resubstitution .222 .015

Cross-Validation .688 .047



Tabel Risk mencerminkan metode resubstitusi diestimasikan sebesar 0.222 dengan kesalahan

standar adalah 0.15 dan cross-validation adalah 0.688 dengan kesalahan standar 0.047.

* Decision Tree.

TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.

Warnings

Gain summary Tables are not displayed because profits are undefined.

Target category gains tables are not displayed because target categories are undefined.

Model Summary

Specifications




Validation None




Results


Number of Nodes 3


Depth 1

10

Risk

Estimate Std. Error

.333 .045



Classification

Observed Predicted

1.00 2.00 3.00 Percent Correct

1.00 36 0 0 100.0%

2.00 16 0 20 0.0%

3.00 0 0 36 100.0%

Overall Percentage 48.1% 0.0% 51.9% 66.7%



* Decision Tree.

TREE X1 [n] BY X2 [n] /TREE DISPLAY=TOPDOWN NODES=BOTH BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[VALID] /PRINT MODELSUMMARY CLASSIFICATION RISK /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=100 MINCHILDSIZE=50 /VALIDATION TYPE=CROSSVALIDATION(10) OUTPUT=BOTHSAMPLES

11

/CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=YES CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.

Warnings



Model Summary

Specifications








Results


Number of Nodes 3


Depth 1

12

Risk






Classification

Observed Predicted


1.00 36 0 0 100.0%

2.00 16 0 20 0.0%

3.00 0 0 36 100.0%




Analisis Hasil Pelaksanaan Sintaksis

Hasil-hasil telah disajikan di atas. Tiga pohon keputusan terkandung dalam penyajikan

tersebut. Dua pohon keputusan akan dibandingkan di sini. Pohon keputusan kesatu

memperlakukan variabel-variabel sebagai variabel-variabel kuantitatif (scale).

Tiap simpul (nodes) dari pohon keputusan itu menunjukkan nilai “diprediksi” yang

mencerminkan nilai rata-rata untuk variabel dependen pada simpul tersebut. Nilai rata-

rata tidak mempunyai makna statistik untuk variabel-variabel berjenis kualitatif (nominal

atau ordinal)

Model Summary

Specifications




Validation None




13

Results


Number of Nodes 3


Depth 1

Risk

Estimate Std. Error

.333 .046



Classification

Observed Predicted


1.00 35 0 0 100.0%

2.00 15 0 20 0.0%

3.00 0 0 35 100.0%




Bagian kedua dari hasil itu adalah sebagai berikut :

14

Warnings



Model Summary

Specifications








Results


Number of Nodes 3


Depth 1

Risk






15

Classification

Observed Predicted


1.00 35 0 0 100.0%

2.00 15 0 20 0.0%

3.00 0 0 35 100.0%




Analisis Risiko Kredit

Analisis Risiko Kredit ini memakai data yang tersedia dalam SPSS dan perubahan

dilakukan. Data ini dipakai karena jumlah data adalah sangat besar yaitu 2464 kasus

sehingga data ini tidak dapat disajikan di sini akan tetapi dapat dicari dalam arsip data

bernama tree_credit.sav.

Suatu bank memelihara basis data (database) dari informasi historis atas para nasabah

yang telah mengambil atau memperoleh pinjaman dari bank tersebut, termasuk apakah

mereka itu membayar kembali atau tidak membayar kembali pinjaman bersangkutan.

Data kredit disimpan dalam tree_credit.sav. Arsip data ini kemudian diubah dan

disimpan dengan nama Kredit.sav.

Proses

Penciptaan model dilakukan berdasar atas prosedur Pohon Keputusan karena prosedur

ini menyediakan beberapa metode berbeda untuk mencipta model-model pohon

keputusan. Metode utama akan dipakai dalam contoh ini. Chi-square Automatic

Interaction Detection akan memilih pada tiap langkah variabel independen (prediktor)

yang mempunyai interaksi terkuat dengan variabel dependen. Kategori-kategori dari

tiap prediktor digabung jika penggabungan itu secara statistik mencerminkan perbedan

yang tidak signifikan dengan mempertimbangkan pada variabel dependen.

Penciptaan Model Pohoh Keputusan CHAID dilakukan dengan cara memakai perintah

Analyze>Classify>Tree.

16

Peringkat kredit (X1) dipili sebagai variabel dependen. Semua variabel lain dipilih

sebagai variabel-variabel independen. Prosedur ini akan secara otomatis mengeluarkan

variabe-variabel yang tidak memberikan kontribusi yang signifikan pada model akhir.

Prosedur, pada tahap ini, dapat dijalankan dan suatu model dasar akan dihasilkan,

akan tetapi beberapa langkah lain masih diperlukan agar dapat melengkapi hasil dan

penyesuaian-penyesuaian kecil dilakukan dengan cara memilih peluang criteria.

Peluang Criteria ini dipilih untuk mencipta model.

Pemilihan kategori-kategori target dapat dilakukan dengan cara menekan tombol

Categories dan kemudian variabel dependen dipilih. Langkah ini akan membuka kotak

dialog Categories dan variabel target dapat dipilih sesuai dengan tingkat kepentingan

dan minat. Kategori-kategori target tidak mempengaruhi model pohon keputusan itu

sendiri, akan tetapi hasil dan peluang tersedia hanya jika kategori-kategori target itu

telah dipilih. Buruk dipakai sebagai target yang dipilih. Tombol Continue ditekan dan

tombol Criteria ditekan. Paren Node diisi denan 400 dan Child Node diisi dengan 200.

Tombol Continue ditekan. Tombol Output ditekan. Kotak Tree diaktifkan. Lingkaran Top

down diaktifkan. Lingkaran Table diaktifkan. Lingkaran Automatcic (reduces scale for

large trees) diaktifkan. Kotak di depan Independent variable statistics diaktifkan, kodak

di depan Node definitions diaktifkan, dan kotak di depat Tree in table format diaktifkan.

Tombol Plot ditekan. Kotak di depan Gain diaktifkan dan kotak di depan Index

diaktifkan. Tombol Continue ditekan. Penyimpanan nilai-nilai yang diprediksi dapat

dilakukan sehingga variabel-variabel dapat disimpan. Variabel-variabel ini mengandung

informasi tentang prediksi-prediksi model. Peringkat kredit yang diprediksi itu dapat

disimpan untuk tiap kasus dan kemudian dipakai untuk membandingkan dengan

prediksi-prediksi peringat kredit aktual. Tobol Save diekan. Kotak dialog disajikan. Kotak

didepan Terminal node number diaktifkan, kotak di depan Predicted value diaktifkan,

dan tombol Continue ditekan. Langkah ini akan menghasilkan inormasi.

Uraian di atas dilakukan jika cara point and click dipakai. Cara pemrograman berdasar

atas sintaksis adalah sebagai berikut

*********************************************************** Abdullah M. Jaubah

17

***** Analisis Risiko Kredit******************************************************

GET FILE='D:\ADA\Kredit.sav'.

* Decision Tree.

TREE X1 [n] BY X2 [s] X3 [o] X4 [n] X5 [n] X6 [n] /TREE DISPLAY=TOPDOWN NODES=STATISTICS BRANCHSTATISTICS=YES NODEDEFS=YES SCALE=AUTO /DEPCATEGORIES USEVALUES=[.00 1.00] TARGET=[.00] /PRINT MODELSUMMARY CLASSIFICATION RISK /GAIN CATEGORYTABLE=YES TYPE=[NODE] SORT=DESCENDING CUMULATIVE=NO /SAVE NODEID PREDVAL /METHOD TYPE=CHAID /GROWTHLIMIT MAXDEPTH=AUTO MINPARENTSIZE=400 MINCHILDSIZE=200 /VALIDATION TYPE=NONE OUTPUT=BOTHSAMPLES /CHAID ALPHASPLIT=0.05 ALPHAMERGE=0.05 SPLITMERGED=NO CHISQUARE=PEARSON CONVERGE=0.001 MAXITERATIONS=100 ADJUST=BONFERRONI INTERVALS=10 /COSTS EQUAL /MISSING NOMINALMISSING=MISSING.

Sintaksis yang dicipta sebagaimana disajikan di atas dijalankan dengan cara memakai

menu Run>All

Cara point and click dan cara pemrograman akan menyajikan informasi yang sama.

Perbedaan terletak pada pengulangan akan dilakukan sebagaimana dijelaskan dalam

cara point and click sedangkan cara pemrograman hanya mencari arsip sintaksis,

dimuat dan dijalankan dengan memanfaatkan menu Run>All. Hal ini berarti bahwa cara

pemrograman adalah lebih cepat, lebih mudah, lebih efektif, dan lebih efisien dalam

pemakaian waktu komputer, akan tetapi sayang seribu kali sayang karena para penulis

buku SPSS dan para pengajar statistik belum memanfaatkannya.

Hasil Pelaksanaan Sintaksis

Hasil pelaksanaan sintaksis di atas adalah sebagai berikut :

Warnings


Model Summary

Specifications Growing Method CHAID


Independent Variables X2, X3, X4, X5, X6

Validation None



18


Results

Independent Variables Included X3, X4, X2

Number of Nodes 10


Depth 3

Contoh di atas menyajikan hasil-hasil model. Hasil-hasil ini mencakup Tabel-tabel yang

menyediakan informasi tentang model, diagram pohon, grafik yang menyediaka indikasi

dari kinerja model, dan prediksi variabel-variabel model ditambahkan dalam arsip data

yang sedang aktif.

Model summary table mengandung informasi yang sangat luas tentang spesifikasi-

spesifikasi yang dipakai untuk mencipta model dan model yang dihasilkan. Spesifikasi-

spesifikasi itu menyediakan informasi tentang lingkungan yang dipakai untuk mencipta

model pohon termasuk variabel-variabel yang dipakai dalam analisis. Hasil-hasil

menyajikan informasi tentang jumlah total dan simpul-simpul terminal, kedalaman dari

pohon dalam pengertian jumlah tingkat-tingkat di bawah simput utama da variabel-

variabel independen yang dimasukkan dalam model akhir. Lima variabel independen

dispesifikasikan akan tetapi hanya tiga variabel independen saja yang dicakup dalam

model akhir. Variabel X5 (Pendidikan) dan variabel X6 (jumlah dari pinjaman mobil

sekarang) tidak memberikan kontribusi yang signifikan pada model, sehingga kedua

variabel ini secara otomatis ditiadakan dari model akhir.

19

Diagram pokon sebagaimana disajikan di atas adalah suatu grafik yang mewakili model

pohon. Diagram pohon ini menunjukkan bahwa pemakaian metode CHAID, tingkat

pendapatan merupakan prediktor terbaik dari peringkat kredit. Tingkat pendapatan,

bagi kategori pendapatan rendah, hanya merupakan prediktor sifnifikan dari peringkat

20

kredit. Para nasabah bank dalam kategori ini adalah 82.1% merupakan nasabah yang

tidak membayar pinjaman-pinjaman mereka sebagaimana tercermin dalam simpul 1

dan simpul-simpul anak tidak terdapat dalam simpul 1 ini maka simpul ini dianggap

sebagai simpul terminal. Prediktor lebih lanjut yang terbaik untuk kategori pendapatan

menengah dan tinggi adalah prediktor jumlah kartu kredit. Para nasabah dengan

pendapatan menengah dengan 5 kartu kredit atau lebih, model mencakup satu

prediktor usia atau lebih. Para nasabah ini 80% dari 28% nasabah ini mempunyai

peringkat kredit buruk.

Gains for Nodes

Node Node Gain N Percent Response Index

N Percent N Percent

1 553 22.4% 454 44.5% 82.1% 198.3%

8 261 10.6% 211 20.7% 80.8% 195.3%

9 483 19.6% 211 20.7% 43.7% 105.5%

6 455 18.5% 80 7.8% 17.6% 42.5%

5 390 15.8% 54 5.3% 13.8% 33.4%

7 322 13.1% 10 1.0% 3.1% 7.5%



Gains for nodes table di atas mengandung suatu ringkasan informasi tentang simpul

terminal dalam model. Simpul terminal adalah simpul yang mencerminkan pohon itu

berhenti tumbuh disajikan dalam tabel. Simpul terminal merupakan simpul yang sangat

diperhatikan oleh para peneliti karena simbul terminal itu mewakili klasifikasi dari

prediksi-prediksi untuk model itu. Gain values menyediakan informasi tentang kategori-

kategori target sehingga tabel ini hanya tersedia jika kategori targen telah

dispesifikasikan satu spesifikasi atau lebih. Contoh hanya memakai target satu saja

yaitu peringkat kredit yang buruk sehingga hanya terdapat satu gains untuk tabel simpul

itu. Simpul N adalah jumlah kasus dalam tiap simpul terminal, dan Node Percent adalah

persentase dari jumlah kasus dalam tiap simpul. Gain N adalah jumlah kasus dalam

tiap simpul terminal dalam kategori target, dan Gain Percents adalah persentase dari

kasus dalam kategori target dengan mempertimbangkan pada jumlah kasus secara

keseluruhan dalam kategori target, dalam kasus ini adalah persentase dari kasus

21

dengan peringkat kredit buruk. Response, untuk variabel dependen kategori, adalah

persentase kasus dalam simpul dalam kategori target yang telah dispesifikasikan.

Kategori buruk dalam diagram pohon untuk variabel dependen kategori, Index adalah

hasil bagi dari persentasi tanggapan untuk kategori target dibanding dengan persentase

responden untuk keseluruhan sampel.

Index value merupakan indikasi dari berapa jauh kategori target yang diobservasi untuk

simpul itu berbeda dari persentase diharap untuk kategori target tadi.Persentase

kategori target dalam simpul utama atau simpul 1 mewakili persentase diharap sebelum

akibat-akibat dari variabel-variabel independen itu dipertimbangkan. Nilai indeks lebih

besar daripada 100% berarti bahwa lebih banyak kasus dalam kategori target daripada

persentase keseluruhan dalam kategori target. Suatu nilai indeks kurang daripada

100% berarti bahwa beberapa kasus terdapat dalam kategori target daripada

persentase secara keseluruhan.

Risk

Estimate Std. Error

.205 .008



Classification

Observed Predicted

.00 1.00 Percent Correct

.00 665 355 65.2%

1.00 149 1295 89.7%

Overall Percentage 33.0% 67.0% 79.5%



Risk and classification tables di atas menyediakan informasi untuk melakukan evaluasi

secara cepat tentang bagaimana model itu bekerja dengan baik. Estimasi risiko adalah

0.205 mengindikasikan bahwa kategori itu diprediksi oleh model (peringkat kredit baik

atau buruk) adalah salah sebesar 20.5% dari kasus sehingga risiko kesalahan

22

Rangkuman

Model Analisis TEV yang dikembangkan oleh Puguh Suharso telah memotivasi penulis

untuk mempelajari kembali teori, konsep, dan kostruk tentang pohon keputusan ditinjau

dari sudut SPSS.

Prosedur pohon keputusan tergantung pada pemakaian secara tepat atas tingkat

pengukuran untuk semua variabel yang akan dianalisis. Value labels untuk semua nilai

yang dicakup dalam analisis untuk variabel-variabel dependen katergoris (kualitatif).

Pohon keputusan sebagai suatu perangkat perencanaan dan perangkat pengambilan

keputusan mengandung proses, manfaat, dan keterbatasan.

Pohon keputusan yang terkandung dalam SPSS dapat dimanfaatkan untuk melakukan

penelitian mengenai berbagai ragam risiko termasuk risiko kredit, namun penelitian

seperti ini akan sulit ditemukan di Indonesia sebagai akibat dari para pengajar enggan

mengkaji ulang gagasan-gagasan yang mungkin bermanfaat dan buku-buku SPSS dan

buku-buku statistik yang masih belum mampu menjamah kajian ini.

Daftar Kepustakaan

IBM Corporation. 2012. IBM SPSS Decision Trees 21.

____________. 2012. IBM SPSS Advanced Statistics 21.

____________. 2012. IBM SPSS Direct Marketing 21.

____________. 2012. IBM SPSS Complex Samples 21.

____________. 2012. IBM SPSS Neural Networks 21.

____________. 2012. IBM SPSS Forecasting 21.

____________. 2012. IBM SPSS Statistics Command Syntax Reference 21.

23

Pemrograman Ibm Spss Statistics Dan Pohon Keputusan

Documents

Transcript of Pemrograman Ibm Spss Statistics Dan Pohon Keputusan