Kesahan Dan Kebolehpercayaan Instrumen Kajian

download Kesahan Dan Kebolehpercayaan Instrumen Kajian

of 14

description

esahan Dan Kebolehpercayaan Instrumen Kajian

Transcript of Kesahan Dan Kebolehpercayaan Instrumen Kajian

KESAHAN DAN KEBOLEHPERCAYAAN INSTRUMEN KAJIANKamaruzaman Moidunny, PhDJabatan Pembangunan Pengurus, Pemimpin dan Eksekutif PendidikanInstitut Aminuddin Baki, Genting HighlandsPengenalanKertas penulisan ini akan membincangkan konsep kesahan dan kebolehpercayaan sebagaimana yang dialami oleh penulis dalam menyiapkan kajian dengan judulKeberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009)yang melibatkan soal selidik, ujian pencapaian, Program Sandaran dan temu bual. Definisi kesahan dan kebolehpercayaan sebagaimana yang dikemukakan oleh pakar-pakar penyelidikan diutarakan oleh penulis dengan memberikan contoh yang relevan, agar mudah difahami oleh pembaca. Adalah diharapkan dengan penulisan ini, dapat memberikan gambaran yang lebih jelas kepada pembaca tentang bagaimana usaha dijalankan untuk menentukan kesahan dan kebolehpercayaan sesuatu instrumen.Kesahan Soal SelidikKesahan sesuatu instrumen merujuk kepada sejauh manakah sesuatu instrumen mengukur apa yang sepatutnya diukur(Alias 1992; Creswell 2002, 2005, 2010; Pallant 2001; Siti Rahayah 2003; Tuckman 1999). Sesuatu instrumen tersebut dikatakan mempunyai kesahan yang tinggi jika darjah kebolehannya mengukur apa yang sepatutnya diukur adalah tinggi (Mohd Majid 1990).Soal selidik dan soalan temu bual yang dibina oleh seseorang pengkaji perlu diuji kesahan muka dan kesahan kandungannya. Sebagai contoh, seramai lima orang pensyarah kanan Institut Aminuddin Baki (IAB) dirujuk untuk mendapatkan pengesahan tentang kesahan muka dan kesahan kandungan bagi soal selidik dan temu bual. Soal selidik dan temu bual ini terdapat dalam kajian dengan judul, Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH) (Kamaruzaman, 2009).Kesahan konstruk sesuatu soal selidik pula boleh diukur dengan menggunakan nilai korelasi antara skor setiap item dengan jumlah skor berkenaan. Hal ini dapat dilakukan dengan menggunakan analisis korelasi Pearson antara skor setiap item dengan jumlah skor mengikut konstruk yang berkenaan. Kaedah ini adalah bersesuaian dengan teori yang dikemukakan oleh Abu Bakar (1987) dan Nunnally (1967).Menurut Abu Bakar (1995) pula, nilai pekali korelasi yang minimum dan boleh diterima pakai adalah 0.30. Manakala Nunally (1967, 1978) serta Nunally dan Bernstein (1994) menyatakan bahawa nilai korelasi antara item dengan jumlah skor yang melebihi 0.25 adalah dianggap tinggi.Bagi Cohen (1988), nilai pekali korelasi antara 0.10 hingga 0.29 dianggap kecil, nilai pekali korelasi antara 0.30 hingga 0.49 dianggap sederhana dannilai pekali korelasi antara 0.50 hingga 1.00dianggap sebagai tinggi. Bagi Norusis (1977) pula, kesahan sesuatu instrumen boleh dilihat pada nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) iaitu pekali korelasi Pearson antara skor setiap item dengan jumlah skor tanpa item berkenaan.Dalam konteks kajian tersebut, penulis telah menggunakan dua kaedah untuk menentukan kesahan konstruk soal selidik iaitu (1) Menggunakan nilai korelasi antara skor setiap item dengan jumlah skor,dan (2) Menggunakan nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation). Penulis juga akan merujuk kepada kurikulum Program Latihan NPQH untuk menentukan kesahan konstruk.Bagi item-item ujian pencapaian dan skima permarkahan Program Sandaran penulis menggunakan khidmat tiga orang pakar dalam bidang pengurusan dan kepimpinan.Komen dan teguran yang diterima daripada pakar-pakar ini diambil kira dan diguna pakai bagi memantapkan lagi maksud, bahasa dan kandungan soal selidik dan soalan temu bual yang akan digunakan. Di samping itu, komen dan teguran digunakan dalam menilai item-item yang digunakan dalam ujian dan skima permarkahan Program Sandaran.Kebolehpercayaan Soal SelidikKebolehpercayaan pula seringkali dirujuk untuk menggambarkan kestabilan dan ketekalan dalaman (Creswell 2002, 2005, 2010; Pallant 2001; Sekaran 1992). NilaiCronbach Alphapula seringkali dirujuk semasa pengukuran ketekalan dalaman sesuatu konstruk (Cronbach 1946; Norusis 1977). NilaiCronbach Alphayang melebihi 0.60 sering kali diguna pakai sebagai indeks kebolehpercayaan sesuatu instrumen (Mohd Majid 1990; Pallant 2001; Siti Rahayah 2003).Bagi Sekaran (1992) pula, nilai kebolehpercayaan yang kurang daripada 0.60 adalah dianggap rendah dan tidak boleh diterima, nilai Alfa antara 0.60 hingga 0.80 adalah diterima manakala nilai Alfa yang melebihi 0.80 adalah dianggap baik.Berdasarkan penerangan di atas, penulis telah menggunakan nilai CronbachAlphabagi menentukan kebolehpercayaan soal selidik.Kesahan dan Kebolehpercayaan UjianBagi kes di IAB, ujian pencapaian (Ujian Akhir Kursus UAK) yang berbentuk item berbentuk objektif seringkali digunakan. Item-item ini berbentuk aneka pilihan atau aneka penlengkap dengan empat pilihan jawapan iaitu A, B C atau D. Manakala dalam Program Sandaran, memfokuskan kepada (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Skor-skor diberikan oleh pensyarah-pensyarah apabila mereka menyemak hasil kerja peserta Program Sandaran. Kesahan item-item yang digunakan dalam ujian pencapaian dan Program Sandaran ditentukan dengan membuat analisis item. Analisis item akan dilakukan untuk membezakan item yang baik dengan item yang lemah. Dalam konteks kajian tersebut, semua item ujian pencapaian dan Program Sandaran telahpun dibina oleh IAB.Analisis item bagi setiap ujian dan Program Sandaran dilaksanakan dengan menentukan Indeks Kesukaran (Facility Index, F) dan Indeks Pembezaan (Discrimination Index, D) seperti yang disarankan oleh Macintosh dan Morrison (1969). Wood (1961) menyatakan bahawa kesukaran item merujuk kepada pecahan yang mendapat jawapan yang betul. Semakin besar indeks kesukaran, item itu semakin senang. Bagi aras kesukaran yang baik, nilai F berada di antara 40 peratus hingga 60 peratus iaitu 0.4 hingga 0.6. Nilai F yang tinggi menunjukkan item mempunyai aras kesukaran yang rendah iaitu soalan-soalan adalah senang. Nilai F yang rendah menunjukkan item mempunyai aras kesukaran yang tinggi iaitu soalan-soalan yang dikemukakan kepada peserta adalah sukar.Macintosh dan Morrisson (1969), menyatakan bahawa item dengan nilai F yang rendah boleh dibaiki. Jadual 1 di bawah ini menjelaskan aras kesukaran (F) dan indeks pembezaan (D) sebagaimana yang dikemukakan oleh Macintosh dan Morrisson (1969).Jadual 1:Aras Kesukaran dan Indeks PembezaanAras Kesukaran (F)

Indeks Pembezaan (D)Kurangdaripada40 %40 %hingga60 %Lebih daripada60 %

Lebih daripada 0.40SukarDiterimaSenang

0.30 0.39SukarPerlu dibaikiSenang

0.20 0.29SukarMarginalSenang

Kurang daripada 0.20DibuangDibuangDibuang

Sumber: Macintosh dan Morrisson (1969): 67Indeks Pembezaan, D, pula digunakan untuk membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan kumpulan peserta yang memperolehi skor rendah. Indeks Pembezaan, D, mempunyai nilai antara 1.00 hingga + 1.00. Nilai D yang negatif menunjukkan item tersebut gagal membezakan kumpulan peserta yang memperolehi skor tinggi dengan yang memperolehi skor rendah. Jika nilai D bersamaan dengan 1.00, ini menunjukkan bahawa 27 peratus daripada kumpulan yang memperolehi skor tinggi berjaya memberi jawapan betul dan 27 peratus daripada kumpulan yang memperolehi skor rendah memberi jawapan salah. Manakala jika nilai D bersamaan dengan sifar, menunjukkan kedua-dua kumpulan peserta memberi jawapan yang serupa bagi item berkenaan. Ini bermaksud bahawa item tersebut gagal membezakan antara kumpulan peserta yang memperolehi skor tinggi dengan memperolehi skor rendah. Bagi Sax dan Newton (1997), nilai D antara 0.10 hingga 1.00 menggambarkan bahawa item tersebut boleh diguna pakai. Sementara Ebel (1979) pula menyatakan bahawa nilai D yang bersamaan atau lebih besar daripada 0.20 adalah sesuai bagi item ujian.Bagi konteks kajian tersebut, penulis telah menggunakan item yang mempunyai nilai D yang bersamaan atau lebih besar daripada 0.20 seperti yang disarankan oleh Ebel (1979). Sementara bagi nilai F pula, penulis telah menggunakan semua item yang dianalisis untuk mengelakkan kekurangan item bagi setiap konstruk yang dikaji. Dengan kata lain, item yang dipilih akan melibatkan item sukar, marginal dan senang seperti yang ditunjukkan dalam Jadual 1. Dalam hal ini, penulis menghadapi kesukaran untuk memilih item yang mempunyai nilai F antara 0.40 dengan 0.60 (Nunally 1978). Ini adalah kerana nilai F tidak mampu dikawal oleh penulis kerana semua item dibina oleh pihak IAB dan telah ditadbirkan kepada peserta Program Latihan NPQH. Oleh itu penulis berpendapat, pemilihan semua item yang mempunyai nilai D bersamaan atau lebih besar daripada 0.20 merupakan langkah paling baik bagi kajian tersebut .Selepas menentukan nilai-nilai F dan D, kebolehpercayaan ujian pencapaian dan Program Sandaran dihitung dengan menggunakan rumus Kuder-Richardson 20 (K-R20). Bagi Siti Rahayah (2003) dan Yap et al. (1985), rumus Kuder-Richardson digunakan untuk mengelakkan memberi ujian sebanyak dua kali dan mengelakkan masalah membahagi ujian kepada dua bahagian. Rumus ini boleh digunakan bagi ujian yang homogen iaitu setiap item ujian mengukur faktor-faktor kebolehan am atau personaliti yang sama. Bagi Yap et al. (1985), rumus Kuder-Richardson ini bergantung kepada konsistensi prestasi individu daripada satu item ke satu item iaitu berdasarkan sisihan piawai ujian.Nilai K-R20adalah antara sifar (0) hingga 1.00, walaupun nilai negatif adalah mungkin. Nilai K-R20yang tinggi menunjukkan ujian mempunyai ketekalan dalaman. Bagi Carey (1994), nilai yang melebihi 0.90 menunjukkan kebolehpercayaan yang sangat tinggi. Nilai yang hampir dengan 0.80 adalah biasa didapati untuk ujian bilik darjah kepada peserta heterogen. Manakala nilai serendah 0.50 biasa didapati bagi kumpulan peserta-peserta homogen.Sementara bagi Ebel (1979), nilai K-R200.50 atau kurang adalah nilai yang biasa didapati bagi ujian pencapaian di sekolah rendah, menengah atau universiti.Bagi Carey (1994), nilai K-R20bergantung kepada kehomogenan kumpulan, kehomogenan kandungan, panjang ujian dan kesukaran item. Seterusnya Ebel (1979) pula menambah bahawa untuk menjadikan kebolehpercayaan ujian meningkat daripada 0.50 ke 0.90, ujian perlu lebih panjang sebanyak sembilan kali daripada panjang asal.Kesahan dan Kebolehpercayaan Soal SelidikSatu contoh hasil analisis yang telah dibuat untuk menentukan kesahan dan kebolehpercayaan soal selidik dipaparkan dalam Jadual 2 seperti yang ditunjukkan di bawah ini. Kesahan item soal selidik menggunakan nilai(1) Korelasi antara skor setiap item dengan jumlah skor,dan (2) Korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation).Manakala nilaiCronbach Alphadigunakan bagi mendapatkan indeks kebolehpercayaan setiap aspek atau konstruk berkenaan. Jadual 2 menunjukkan bahawa konstruk penyampaian pensyarah mempunyai nilai korelasi skor item dengan jumlah skor antara 0.73 hingga 0.88. Manakala nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah antara 0.65 hingga 0.85. NilaiCronbach Alphapula adalah 0.92.Jadual 2:Nilai korelasi dan Alfa bagi konstruk Penyampaian PensyarahKonstrukItemKorelasi Skor Item dengan Jumlah SkorKorelasi Item yang Diperbetulkan dengan Jumlah SkorNilai Alfa jika item digugurkanNilai Alfa Keseluruhan

Penyampaian Pensyarah28293031323334350.840.790.800.880.730.840.770.820.780.720.740.850.650.800.690.750.910.920.920.910.920.910.920.910.92

Jadual 2 menunjukkan (1)Nilai korelasi skor item dengan jumlah skor dan (2) Nilai korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation) adalah melebihi 0.30. Hal ini memberikan kesimpulan bahawa item mempunyai nilai kesahan yang tinggi sebagaimana yang disarankan oleh Abu Bakar (1987), Cohen (1988), Norusis (1977) dan Nunally (1987). Sementara itu, nilaiCronbach Alphaadalah melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik (Cresswell 2005, 2010; Pallant 2001; Sekaran 1992). NilaiCronbach Alphaini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003).Kesahan dan Kebolehpercayaan Ujian PencapaianSebanyak 450 item ditadbirkan oleh IAB kepada semua peserta program latihan NPQH daripada ambilan pertama hinggalah ambilan kesepuluh. Item ini ditadbirkan melalui empat fasa kursus yang mengandungi lima kertas ujian. Terdapat dua kertas ujian dalam Fasa Asas dan satu kertas ujian bagi tiga fasa kursus berikutnya. Dan bagi memilih item yang sesuai dalam kajian tersebut, penulis telah melaksanakan proses yang dinamakan sebagai analisis item.Analisis item telah dibuat terhadap 450 item iaitu bagi ujian Fasa Asas Kertas 1 (75 item), Fasa Asas Kertas 2 (75 item), Fasa Pertengahan (100 item), Fasa Khas (100 item) dan Fasa Berterusan (100 item). Analisis item dilaksanakan untuk menentukan Indeks Kesukaran (Facility Index, F)dan Indeks Pembezaan (Discrimination Index, D) dalam usaha menentukan kesahan konstruk setiap item. Rumus yang digunakan dalam analisis ini ditunjukkan dalam Lampiran J dan K. Sehubungan dengan itu, cuma item yang mempunyai nilai D bersamaan atau melebihi 0.20 serta item yang mempunyai nilai F bersamaan atau melebihi 40 peratus sahaja dipilih oleh penulis untuk analisis seterusnya seperti yang disarankan oleh Macintosh dan Morrisson (1969). Manakala bagi menentukan kebolehpercayaan setiap item, nilai Kuder-Richardson 20 (K-R20) bagi setiap konstruk dihitung seperti yang disarankan oleh Carey (1994).Oleh kerana semua ujian pencapaian dalam Program Latihan NPQH ini dilaksanakan secara tertutup,IAB tidak membenarkan sebarang item dipaparkan untuk tatapan umum. Oleh itu penulis telah menggunakan kod bagi setiap item yang dipilih. Sebagai contoh, Jadual 3 di bawah ini akan memaparkan hasil analisis item yang telah dilaksanakan bagi item ujian pencapaian.Jadual 3 di bawah menunjukkan konstruk Pengurusan dan Kepimpinan Organisasi yang mempunyai nilai F antara 41 peratus hingga 79 peratus, nilai D antara 0.21 hingga 0.54 dan nilai K-R20adalah 0.65.Bagi konstruk ini, terdapat 25 item yang terdiri daripada item yang dikemukakan dalamFasa Asas Kertas 1 (lapan item), Fasa Berterusan (14 item) dan Fasa Pertengahan (tiga item).Jadual 3:Nilai F, D dan K-R20bagi konstrukPengurusan dan Kepimpinan OrganisasiKonstrukBilKodArasKesukaran(F)/%Indeks Pembezaan(D)Nilai K-R20(r)

Pengurusan dan Kepimpinan1AS04760.210.65

Organisasi2AS20530.33

3AS25530.37

4AS33770.30

5AS35590.49

6AS46540.25

7AS47590.21

8AS53730.21

9BT07600.44

10BT10790.26

11BT11740.30

12BT16590.21

13BT17470.23

14BT18570.23

15BT19750.33

16BT20420.25

17BT22410.21

18BT23660.28

19BT24430.54

20BT25450.30

21BT26490.32

22BT27640.25

23PT02530.31

24PT07510.22

25PT09760.27

Jumlah item = 25

AS Fasa Asas Kertas 1BT Fasa BerterusanPT Fasa PertengahanBerdasarkan nilai yang terdapat dalamJadual 3, nilai D adalah melebihi 0.20 serta nilai F adalah bersamaan atau melebihi 40 peratus. Hal ini adalah selaras seperti dinyatakan oleh Macintosh dan Morrisson (1969). ManakalaK-R20yang dihitung mempunyai nilai di antara 0.62 hingga 0.70. Nilai K-R20melebihi 0.60 yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman (Cresswell 2005; Sekaran 1992). Nilai K-R20ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai seperti yang dinyatakan oleh Mohd Majid (1990), Pallant (2001), Sekaran (1992) dan Siti Rahayah (2003). Oleh itu, item objektif bagi ujian pencapaian yang telah dipilih oleh penulis boleh diguna pakai untuk analisis seterusnya kerana mempunyai kesahan dan kebolehpercayaan seperti yang dikehendaki.Semua item ujian pencapaian yang digunakan dalam kajian tersebuttelah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1)Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R20ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut.Kesahan dan Kebolehpercayaan Program SandaranAnalisis item juga dilaksanakan bagi empat item Program Sandaran iaitu (1) Pengenalpastian masalah, (2) Perancangan strategik, (3) Pelaksanaan dan penilaian strategik, serta (4) Kualiti peribadi. Rumus yang digunakan bagi tujuan analisis ditunjukkan dalam Lampiran A. Jadual 4 di bawah ini menunjukkan nilai yang diperoleh daripada analisis tersebut.Jadual 4:Nilai F, D dan K-R20bagi Program SandaranKonstrukAspekArasKesukaran(F)/%IndeksPembezaan(D)NilaiK-R20

Program SandaranPengenalpastian Masalah830.220.84

Perancangan Strategik820.25

Pelaksanaan dan Penilaian Strategik810.25

Kualiti Peribadi880.23

Daripada Jadual 4, didapati bahawa aspek Pengenalpastian Masalah mempunyai nilai F = 83 peratus dan D = 0.22, aspek Perancangan Strategik mempunyai nilai F = 82 peratus dan D = 0.25, aspek Pelaksanaan dan Penilaian Strategik mempunyai nilai F = 81 peratus dan D = 0.23, serta aspek Kualiti Peribadi mempunyai nilai F = 88 peratus dan D = 0.23. Nilai F yang tinggi menunjukkan peserta mampu melaksanakan tugasan yang diberikan dengan baik. Manakala nilai D yang melebihi 0.20 pula menunjukkan bahawa item mempunyai tahap kesahan yang boleh diguna pakai seperti yang disarankan oleh Macintosh dan Morrisson (1969). Seterusnya, nilai K-R20adalah 0.84 yang dianggap tinggi (Cohen 1988) dan merupakan nilai biasa yang didapati bagi Ujian Rujukan Kriteria seperti yang ditegaskan oleh Ebel (1979). Nilai K-R20yang tinggi ini dihasilkan oleh korelasi antara item yang tinggi kerana mengukur objektif atau kriteria yang sama.Bagi menentukan kebolehpercayaan antara penilai (interrater reliability) untuk Program Sandaran, penulis menghitung nilai indeks kebolehpercayaan seperti yang disarankan oleh Black (1999). Oleh kerana Program Sandaran merupakan Ujian Rujukan Kriteria maka apa yang dipentingkan adalah markah lulus yang mempunyai nilai sebanyak 40 markah. Rumus yang terdapat dalam Lampiran A digunakan oleh penulis untuk menghitung nilai indeks ini. Berdasarkan rumus ini nilai indeks kebolehpercayaan (k2) yang didapati adalah bersamaan dengan 0.85. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik berdasarkan pendapat Landis dan Kosh (1977) (dalam Zamri dan Noriah, 2003) seperti yang terdapat dalam Jadual 5. Dengan kata lain, item-item yang digunakan dalam menentukan skor bagi Program Sandaran mempunyai kebolehpercayaan yang tinggi. Ini juga menunjukkan bahawa instrumen Program Sandaran adalah sesuai digunakan untuk menilai peserta Program Latihan NPQH.Semua item ujian pencapaian Program Sandaran yang digunakan dalam kajian tersebuttelah ditentukan dengan kesahan muka dan kesahan kandungannya oleh tiga orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item ujian pencapaian Program Sandaran ini. Di samping itu, kesahan konstruk pula ditentukan dengan melaksanakan analisis item. Dalam konteks kajian tersebut, nilai (1)Indeks Kesukaran (Facility Index) dan (2) Indeks Pembezaan (Discrimination Index) digunakan untuk menentukan kesahan konstruk item ujian pencapaian. Semua nilai indeks menunjukkan item mempunyai kesahan yang boleh diguna pakai. Sementara itu, nilai K-R20pula ditentukan yang memberikan kesimpulan bahawa item mempunyai kestabilan dan ketekalan dalaman yang baik. Nilai K-R20ini merumuskan bahawa item mempunyai kebolehpercayaan yang baik dan boleh diguna pakai dalam kajian tersebut. Sehubungan dengan itu, nilai kebolehpercayaan antara penilai (interrater reliability) sebanyak 0.85 juga menunjukkan bahawa item dalam Program Sandaran boleh diguna pakai dalam kajian tersebut . Dan dapat disimpulkan di sini bahawa empat item ujian pencapaian Program Sandaran ini sesuai digunakan dalam usaha penulis menentukan pencapaian objektif kajian ketiga dan kelima.Kesahan dan Kebolehpercayaan Temu BualProtokol temu bual dibina oleh penulis menyentuh isu-isu yang terdapat dalam penilaian reaksi, penilaian pembelajaran dan penilaian tingkah laku (Kamaruzaman, 2009). Isu seperti reaksi responden terhadap Program Latihan NPQH, pengetahuan dan kemahiran yang diperoleh, pemindahan pengetahuan dan kemahiran semasa Program Sandaran, masalah yang dihadapi dan cadangan untuk meningkatkan kualiti program ini dimasukkan dalam protokol temu bual. Ini merupakan satu usaha untuk menguatkan bukti daripada data yang didapati melalui soal selidik, skor ujian pencapaian dan skor Program Sandaran. Tegasnya, temu bual ini merupakan satu triangulasi iaitu satu proses untuk menguatkan bukti daripada sumber yang berlainan.Semua item dalam protokol temu bual yang digunakan dalam kajian tersebuttelah ditentukan dengan kesahan muka dan kesahan kandungannya oleh lima orang pakar. Pendapat semua pakar telah diambil kira dalam menentukan pemilihan item temu bual ini. Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Penulis memadankan unit daripada data temu bual dengan tema yang dominan. Dalam hal ini, penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B.Bagi tujuan menentukan kebolehpercayaan temu bual, analisis Indeks Cohen Kappa digunakan bertujuan untuk menentukan darjah persetujuan unit analisis dengan tema yang dikaji (Zamri dan Noriah 2003). Hal ini dilaksanakan dengan memadankan unit daripada data temu bual dengan tema yang dominan. Penulis telah mendapatkan khidmat tiga orang pakar analisis kualitatif untuk menentukan Indeks Cohen Kappa dengan mengedarkan borang seperti yang terdapat dalam Lampiran B. Seterusnya, penulis menghitung nilai persetujuan (Indeks Cohen Kappa) daripada borang yang diterima daripada pakar-pakar tersebut. Nilai persetujuan dihitung berdasarkan rumus berikut iaitu:

fafcK=----------Nfc

Sumber: Cohen (1968) dalam Zamri dan Noriah (2003):4di manaK nilai koefisien Kappafa frekuensi persetujuanfc frekuensi bagi 50 peratus jangkaan persetujuanN bilangan unit yang diuji nilai persetujuanBagi menentukan tahap persetujuan Kappa, nilai yang disyorkan oleh Landis dan Kosh (1977) dalam Zamri dan Noriah (2003) digunakan oleh penulis, seperti yang ditunjukkan dalam Jadual 5 di bawah.Jadual 5:Nilai Kappa dan interpretasinya (tahap)Nilai KappaInterpretasinya

Kurang daripada 0Sangat lemah

0.00 0.20Lemah

0.21 0.40Sederhana lemah

0.41 0.60Sederhana

0.61 0.80Baik

0.81 1.00Sangat baik

Sumber: Landis dan Kosh (1977) dalam Zamri dan Noriah (2003):3Nilai min bagi koefisien Kappa yang dihitung adalah seperti yang ditunjukkan dalam Jadual 6 di bawah ini.Jadual 6:Nilai persetujuan bagi koefisien KappaPakar 1Pakar 2Pakar 3Min Koefisien Kappa

46 24.5K1=------------49 24.521.5=------24.5=0.88

47 24.5K2=----------49 24.522.5=------24.5=0.92

46 24.5K3=-----------49 24.521.5=------24.5=0.88

K1+K2+K3K=-------------------30.88 + 0.92 + 0.88= ----------------------3= 0.89

Berdasarkan nilai dalam Jadual 6, Indeks Cohen Kappa (K) adalah 0.89. Nilai ini merupakan satu nilai kebolehpercayaan yang sangat baik. Dengan kata lain, unit analisis yang dibuat oleh penulis adalah selari dengan tema yang dikemukakan, berdasarkan persetujuan pakar.KesimpulanPenulis telah menjelaskan bagaimana kesahan dan kebolehpercayaan setiap item yang digunakan dalam penilaian kajian ditentukan. Di samping menggunakan khidmat pakar, penulis turut menggunakan kaedah statistik dengan mengemukakan nilai seperti korelasi skor item dengan jumlah skor,korelasi item yang diperbetulkan dengan jumlah skor (Corrected Item-Total Correlation),Indek Kesukaran (F) danIndeks Diskriminasi (D) bagi menentukan kesahan item yang digunakan. Sementara nilaiCronbach Alphadan Kuder-Richarson 20 (K-R20) dikemukakan bagi menentukan kebolehpercayaan item yang diguna pakai.RujukanAbu Bakar Nordin. 1986.Asas penilaian pendidikan. Siri Maktab Perguruan. Petaling Jaya: Longman Malaysia Sdn. Bhd.

Alias Baba. 1992.Statistik untuk penyelidikan dalam pendidikan dan sains sosial. Bangi: Penerbit Universiti Kebangsaan Malaysia.

Black, T. R. 1999.Doing quantitative research in the social sciences an integrated approach to research design, measurement and statistics. London: Sage Publications.

Carey, L. M. 1994.Measuring and evaluating school learning. Ed. ke-2. Boston: Allyn and Bacon.Cohen, J. 1968. Weighted Kappa a nominal scale aggreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70: 213-220. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003.Analisis Cohen Kappa dalam penyelidikan bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.Cohen, J. W. 1988.Statistical power analysis for the behavioral sciencesEd. Second. Hillsdale, New Jersey: Lawrence Erlbaum Associates.

Creswell, J. W. 2002.Educational research - planning, conducting, and evaluating quantitative and qualitative research(2nd Ed). New Jersey: Pearson Merril Prentice Hall.

Creswell, J. W. 2005.Educational research - planning, conducting, and evaluating quantitative and qualitative research(3rd Ed.). New Jersey: Pearson Merril Prentice Hall.

Creswell, J. W. 2010.Educational research - planning, conducting, and evaluating quantitative and qualitative research(4th Ed.). New Jersey: Pearson Merril Prentice Hall.

Cronbach, L. J. 1946. Response sets and test validity.Educational and psychological measurement6:672-683.

Ebel, R. L. 1979.Essentials of Educational MeasurementEd. ke-3. New Jersey: Prentice-Hall Inc.Kamaruzaman Moidunny. 20039.Keberkesanan Program Kelayakan Profesional Kepengetuaan Kebangsaan (NPQH).Disertasi Doktor Falsafah, Universiti Kebangsaan Malaysia.

Landis, J. & Kosh, G.G. 1977. The measurement of observer agreement for categorical data. Biometrics, 33:159-174. Dlm. Zamri Mahamod & Noriah Mohd Ishak. 2003.Analisis Cohen Kappa dalam penyelidikan bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.

Macintosh, H. G., & Morrisson, R. B. 1969.Objective testing. London: University of London Press Ltd.

Mohd Majid Konting. 1990.Kaedah penyelidikan pendidikan. Kuala Lumpur: Dewan Bahasa dan Pustaka.

Norusis, M. J. 1977.SPSS professional statistic 7.5. North Michigan Avenue, Chicago.

Nunnally, J. C. 1967.Psychometric theory. New York: McGraw-Hill Book Company.

Nunnally, J. C. 1978.Psychometric theory. Ed. ke-2. New York: McGraw-Hill Book Company.

Nunnally, J. C. & Bernstein, I. R. 1994.Psychometric theory. Ed. ke-3. New York: McGraw-Hill, Inc.

Pallant, J. 2001.SPSS survival manual - a step by step guide to data analysis using SPSS for windows (version 10). Buckingham Open University Press.

Sekaran, U. 1992.Research methods for bussiness: a skill-building approach. New York: John Wiley & Sons, Inc.

Siti Rahayah Ariffin. 2003.Teori, konsep & amalan dalam pengukuran dan penilaian. Bangi: Pusat Pembangunan Akademik UKM.

Tabachnick, B. G. & Fidell, L. S. 2001.Using multivariate statistics. Ed. ke-4. London: Allyn and Bacon.

Tuckman, B. W. 1999.Conducting educational research.Ed. Ke-5. California: Wadsworth Thomson Learning.

Wood, D. A. 1961.Test construction - development and interpretation of achievement test. Ohio: Charles E. Merril Books, Inc.

Yap, Y. K., Wan, C. S. & Ismail Abu Bakar. 1985.Pengukuran dan penilaian dalam pendidikan. Edisi Baru. Petaling Jaya: Longman Malaysia Sdn. Bhd.

Zamri Mahamod & Noriah Mohd Ishak. 2003.Analisis Cohen Kappa dalam penyelidikan bahasa satu pengalaman. Kertas Kerja Seminar Penyelidikan Guru Peringkat Kebangsaan. Anjuran Bahagian Pendidikan Guru, KPM. Kuching, 19 20 Ogos.