61-115-1-SM (1) perbandingan ekstrasi suara.pdf

8
PERBANDINGAN METODE EKSTRASI CIRI SUARA MFFCC, ZCPA, DAN LPC Oleh : Eko Riyanto 1) , Sutejo 2) Teknik Informatika STMIK HIMSYA 1)2) Email : [email protected], [email protected] Abstrak Ekstraksi suara manusia merupakan salah satu ciri khusus yang dapat digunakan untuk biometrik. Adapun masalah-masalah yang muncul pada saat pengenala suara dalah ketidak akuratan dalam pengenalan, sehingga perlu dikaji lagi metode apa yang mempunyai keakuratan yang tinggi dan waktu yang yang singkat. Teradapat tida metode yang dapat digunakan untuk ekstraksi ciri suara manusia yaitu MFCC, PS-ZCPA dan LPC. Ketiga teknik ekstraksi suara tersebut dibandingan dengan beberapa sifat dasar dari ekstraksi ciri tersebut. Hasil yang didapatkan adalah ekstraksi ciri MFCC mempunyai tingkat keakuratan dan waktu ekstraksi ciri yang tercepat diantara ekstraksi ciri PS-ZCPA dan LPC. Kata kunci : perbandingan, PS-ZCPA, MFFCC, LPC, I. PENDAHULUAN Suara merupakan salah satu identitas manusia (biometrik) selain identitas wajah, sidik jari, DNA, dan iris. Setiap manusia mempunyai karakteristik suara yang berbeda- neda dikarena resonansi dalam tenggorakan juga berbeda.Teknologi yang sudah dikembangkan adalah ASR (Automatic Speech Recoginition) sehingga komputer dapat mengenali suara manusia. Identifikasi suara tersebut dapat dimanfaatkan dalam berbagai hal seperti keamanan dan identifikasi. Ada tiga ekstraksi suara yaitu MFCC (Mel-Scale Cepstral Coefficients Component), ZCPA (Zero Crossings with Peak Amplitudes), dan LPC (Linear Predictive Coding). Proses ekstraksi fitur dianggap paling penting dalam sistem pengenalan suara yang mempunyai tujuan menangkap fitur untuk membedakan suara yang stau dengan suara yang lain. Ada beberapa kendala mungkin dihadapi dalam proses ekstraksi fitur. Kendala tersebut muncul dari variabilitas suara seperti kondisi seseorang sakit, emosi, dialog asing dan lingkungan. Lingkungan melatarbelakangi kebisingan, gema, mikrofon dan saluran tranmisi.[2] II. LANDASAN TEORI Proses terjadinya suara pada manusia adalah operasi penyaringan akustik dimana laring dan paru-paru memberika masukan atau sumber perangsangan dan saluran hidung bertindak sebagai filter hal tersebut menjadi petunjuk untuk mengidentifikasi dua fitur utama dari suara manusia. Fitur utama dari manusia adalah pola dan nada dari seseorang berasal dari oita vokal dan pada tingkat dimana lapisan vokal bergetar adalah frekuensi nada. Ketika udara mengalir melalui saluran laring, udara bergetar pada nada frekuensi yang dibentuk oleh saluran laring. Kemudian udara mengalir melalui saluran supralaring yang mulai bergaung di frekuensi tertentu ditentukan oleh diamter dan panjang rongga di saluran supralaring yang disebur dengan resonansi[1]

Transcript of 61-115-1-SM (1) perbandingan ekstrasi suara.pdf

PERBANDINGAN METODE EKSTRASI CIRI SUARA MFFCC, ZCPA, DAN LPC Oleh : Eko Riyanto1), Sutejo2) Teknik Informatika STMIK HIMSYA1)2) Email : [email protected], [email protected] Abstrak Ekstraksisuaramanusiamerupakansalahsatucirikhususyangdapatdigunakanuntuk biometrik. Adapun masalah-masalah yang muncul pada saat pengenala suara dalah ketidak akuratandalampengenalan,sehinggaperludikajilagimetodeapayangmempunyai keakuratan yang tinggi dan waktu yang yang singkat. Teradapat tida metode yang dapat digunakan untuk ekstraksi ciri suara manusia yaitu MFCC, PS-ZCPA dan LPC. Ketiga teknik ekstraksi suara tersebut dibandingan dengan beberapa sifat dasar dari ekstraksi ciri tersebut. Hasil yang didapatkan adalah ekstraksi ciri MFCC mempunyai tingkat keakuratan dan waktu ekstraksi ciri yang tercepat diantara ekstraksi ciri PS-ZCPA dan LPC. Kata kunci : perbandingan, PS-ZCPA, MFFCC, LPC, I.PENDAHULUAN Suara merupakan salah satu identitas manusia (biometrik) selain identitas wajah, sidik jari, DNA, dan iris. Setiap manusia mempunyai karakteristik suara yang berbeda-nedadikarenaresonansidalamtenggorakanjugaberbeda.Teknologiyangsudah dikembangkan adalah ASR (Automatic Speech Recoginition) sehingga komputer dapat mengenalisuaramanusia.Identifikasisuaratersebutdapatdimanfaatkandalam berbagai hal seperti keamanan dan identifikasi. Ada tiga ekstraksi suara yaitu MFCC (Mel-ScaleCepstralCoefficientsComponent),ZCPA(ZeroCrossingswithPeak Amplitudes),danLPC(LinearPredictiveCoding).Prosesekstraksifiturdianggap palingpentingdalamsistempengenalansuarayangmempunyaitujuanmenangkap fituruntukmembedakansuarayangstaudengansuarayanglain.Adabeberapa kendala mungkin dihadapi dalam proses ekstraksi fitur. Kendala tersebut muncul dari variabilitas suara seperti kondisi seseorang sakit, emosi, dialog asing dan lingkungan. Lingkungan melatarbelakangi kebisingan, gema, mikrofon dan saluran tranmisi.[2] II.LANDASAN TEORI Proses terjadinya suara pada manusia adalah operasi penyaringan akustik dimana laringdanparu-parumemberikamasukanatausumberperangsangandansaluran hidung bertindak sebagai filter hal tersebut menjadi petunjuk untuk mengidentifikasi dua fitur utama dari suara manusia. Fitur utama dari manusia adalah pola dan nada dari seseorang berasal dari oita vokal dan pada tingkat dimana lapisan vokal bergetar adalah frekuensi nada. Ketika udara mengalir melalui saluran laring, udara bergetar pada nada frekuensi yang dibentuk oleh saluran laring. Kemudian udara mengalir melalui saluran supralaringyangmulaibergaungdifrekuensitertentuditentukanolehdiamterdan panjang rongga di saluran supralaring yang disebur dengan resonansi[1] Gambar 1. Sistem Pendengaran Manusia Kemampuansistempedengararanmanusiauntukmenangkapdalamkondisiyang sulitmenjaditantanganbagiparapenelitiuntukmemasukansifat-sifatsuaramanusia pengolahan ucapan yang meberikan kontribusi yang siginifikan terhadap kemampuan ASR diberbagaijeniskebisinganlingkungan.Duasifatpentingdarimanusiaadalahresolusi frekuensinonliniermembranbasilar(MB)danperilakutekananansel-selrambutbagian dalamuntukstimulusberbicara.Modelpendengarankomputasimeniruperilaku psychoacpusticdaritelingabagiandalaminiberdasarkanfitur,mengubahpeyaringan mekanis dan getaran menjadi saraf representasi. Model ini ketika digunakan sebagai fornt-end prosesor ASR pada fitur suara dari smulasi probalistik pola saraf pendengaran. Namun kinerjaASRdarimodeltersebutrusakketikadalamkondisibising.Haitersebutjuga diketahui bahwa sifat-sifat tertentu dari manusia bersifat tetap atau kurang dipengaruhi aditif dankebisnganconvolutive.Disisilainbeberapasifatpersepsiterkaitdenganhilangnya informasi seperti kasus masking dan adaptasi. [1] 2.1. Ekstraksi Ciri a.MFCCCiri-cirikhususyangakandiekstrakdarimasukansinyalsuarapembicarayang nantinya akan dikenali. Ekstraksi merupakan representasi parametric terbaik dari sinyal akustik untuk menghasilkan kinerja pengenalan yang lebih baik. Mel Frequency cepstral coefficients(MFCC)adalhsalahsatuekstraksifituryangpalingberhasildalam pengenalan Gambar 2. Blok MFCC suara, dan koefisien yang diperoleh melalui filter bank analysis. Langkah-langkah yang dilakukan dalam ekstraksi adalah pre-emphais, frame blocking, windowing, filter bank analysis,logarithmiccompressiondandiscretecosinetransformation.Secara keseluruhan proses dapat dilihat pada Gambar 2.[3] Preemphasis Frame BlockingHamming WindowingMel Scale FilterLogarithmicCompressionDCT ( Discrete Cosine Transform)Preprocessed SpeechMFCC Feature b.PS-ZCPA (pitch-synchronous zero-crossing peak-amplitude) Gambar2menunjukandiagramblokdariPS-ZCPA.Metodedengan pengurangankebisingandanprosedurpenyesuaiankebisinganadaptif.MetodePS-ZCPAdibagimenjadiduabagiana)Deteksiyangmencakupberusaradandeteksitak bersuara/framediam.b)ekstrasifiturPS-ZCPAdenganmetodepuncaksuara disingkronisasi untuk mengestrak fitur. Pada rst, sinyal suara dilewatkan melalui BPFs (passedthroughabankofband-passlters).KemudianciridasarPS-ZCPAdihitung dengan langkah sebagai berikut :(1) Mendeteksi penyebaran nol dari setiap keluaran lter (sub-sinyalpita),(2)menghitungberturut-turutkebalikandaripositifintervalzero-crossingpanjangyangberkorespondensikefrekuensidominan,(3)mengumpulkan histogram kebalikan panjang zero-crossing atas semua sinyal sub-band, (4) meningkat jumlah bin histogram dengan logaritma dari puncak terdeteksi sesuai jarak zero-crossing, interpolaso linier antara sebelumnya dan dilakukan sample positif zero-crossing. Dalam metodePS-PS-ZCPA,untukframepuncaksuaratertinggi(Ph)dalamjangkawaktu diperoleh dengan deteksi ekstraksi. Puncak yang memiliki ketingguan diatas l% dari Ph dalam satu periode yaitumemberikan kontribusi dalam hitungan histogram bin. Puncak lainya(yanglebihkecil)dalamsatuperiodetidakadakontribusiuntuktakberusara/ framediam,karenatidakadasuara,semuamemilikikontribusidalamhitungan histogrambin.Ldiplihdenganberhati-hatisehinggatidaadainformasipentingyang hilang,sertakebisinganyangmerusakpuncaktidakdihitung.Sebuahhistogram diperolehdenganmenjumlahkanseluruhsaluran.Dalahalitumenunjukanbahwa penyesuaian ambang batas manual, l, diperlukan untuk hasil yang optimal dalam sinyal suara dengan SNRs berdeda-beda. [4] Gambar 3. Blok PS-ZCPA Untuk mengatasi masalah mengubah ambang batas untuk hasil yang optimal dalam kondisi kebisingan yang berbeda, prosedur domain waktu (adaptive threshold adjustment procedure) diintegrasikankedalammetodePS-ZCPA,diATAPtingkatkebisingandiperiksadalam setiapfilterkeluaran,danambangbatasyangdisesuaikansepertipadalangkah-langkah berikut : i.Menghitungnilairata-rataPavg,puncakdirst160ms(segmendiam)untuksetiap filterkeluaran..Langkahinidilakukandiblok'Noiseintensitycalculator'seperti terilihat pada gambar di atas ii.Untuksegmenbersuara,ambangbatasdiaturmaksimalantaral%dariPh,danPavg untuk masing-masing interval. Tinggi SNR, dimana suara tingkat rendah mempunyai ambangbatassecaraotomatisdisesuaikanuntukl%dariPhdalamsetiapperiode rendahdandibawahSNR,dimanatingkatkebisingantinggi,makasecaraotomatis diatur ke Pavg. Langkah ini memastikan bahwa puncak dengan suara berat/rusak tidak dihitung ddab tidak ada informasi puncak penting akan hilang. iii.Untuktakbersuara/segmendiam,ambangbatasxedkePavg.Puncakberadaatas ambang batas yang disesuaikan dala hitungan bin histogram. c.LPC (Linear Predictive Coding) Cirisinyalucapansangatbergunapadasistempengenalansuara.Salahsatu metodeyangdigunakanuntukprosesekstraksiciriadalahLPC.Analisisprediksi linearadalahsuatucarayangdigunakanuntukmendapatkansebuahpendekatan sinyal suara. Peramalan linear secara khusus merupakan metodeyang cocok dalam pengolahansinyalsuara.Metodeinidapatjugaditerapkandalampengenalankata. Tujuan dari digunakannya metode ini adalah untuk mencari nilai koefisien LPC dari suatu sinyal. Gambar 2 menunjukkan blok diagram analisis LPC.[5] Pembagian Sinyal (frame blocking)Penjendelaan (windowing)Metode AutokorelasiSinyal Ucapan DiskritParameter Keluaran PrinsipdasardariekstraksicirisinyaldenganmenggunakanLPCadalahbahwa contohsinyalucapans(n)padawaktuke-ndapatdiperkirakansebagaikombinasi linear p sampel sinyal ucapan sebelumnya yaitu : () 1( 1) +2( 2) ++

( ) 2.2.PCA Principal Components Analysis (PCA) merupakan teknik statistik multivariate, dalam rangka eksplorasi untuk menyederhanakan data set yang kompleks (Basilevsky 1994, Everitt & Dunn 1992, Pearson 1901). Mengingat banyaknya pengamatan (sebesar p) padanvariabel,olehkarenaitutujuanPCAadalahuntukmengurangidimensidari matriksdatadenganmencarivariabelrbaru,dimanarkurangdarin.Disebut komponenutama,variabel-variabelrbaruyangterbentuksebanyakvariansdalamn variabelasli,tetapsalingberkorelasidanortogonal.Setiapkomponenutamaadalah kombinasi linear dari variabel asli, dan sehingga dapat menangkap makna komponen yang mewakili-nya. Untuk menghitung komponen utama, nilai eigen dan vektor eigen dari n variabel yang berhubungan dihitung dari matriks kovarians dengan kondisi n x n. Setiap eigenvector mendefinisikankomponenutama.Sebuahkomponendapatdilihatsebagaijumlah tertimbang dari kondisi, dimana koefisien dari vektor eigen merupakan bobot. Proyeksi gen i sepanjang sumbu didefinisikan oleh komponen jth pokok: [2]

=

=1 III.Metode Penelitian Metodeyangdigunakanuntukmencariekstraksiciriyangterbaikdengan menggunakan eksperimen dimana masing-masing teknik akan di ujicoba satu persatu daridatabasesuara,ekstraksikatasatupersatu,danreduksidimensimenggunakan PCA 3.1. Database suara Databasedigunakanuntukmenyimpansuarayangsudahdilakukandenganmengabil sample dari 20 mahasiswa UNDIP yang masing-masing mengucapkan namanya sendiri sebanyak 10 kalidan menghasilkan matrik (40x300) 3.2. Ekstraksi Ciri untuk Setiap Ucapan Suara nanti akan diekstraksi ciri dengan : a.MFCC b.PS-PS-ZCPA c.LPC 3.3. Reduksi Dengan PCA Sebagaipercobaanuntukmeingkatkankinerja,denganmenggunakanPCA(Principle ComponentAnalisysuntukmengurangidimensivektorcirisementaratetap mempertahankaninformasisebanyakmungkin.Menghitungpadatdanoptimaldari kumpulandata.Tugasnyadapatsegeradijelaskansebagaipengahapusanredudansi antara dimensi berdasarkan korelasi, dimensi berkorelasi akan terhapus, dan meninggal kan korelasi utuh. Gambar 4. Reduksi PCA IV.Pembahasan 4.1.Perbedaan Teknik Ekstraksi Ciri pada Pengenalan Suara DalampercobaanperbandinganteknikekstraksiciriakanmenggunakanCHMM (Clasification Hidden Markov Model) sebagai klasifikasi yang memberikan hasil pada tabel 1. Tabel 1. Tingkat Pengenalan Teknik Ekstraksi CiriTingkat Pengenalan MFCC85.3 PS-ZCPA38.5 LPC82.3 4.2.Pengenalan Suara Menggunakan PCA Untuk Reduksi Vektor Dengan Teknik Ekstraksi Yang Berbeda SetelahmenggunakanPCAdenganparameteryangberbedapadavektorciridapat dilihat bahwa teknik ekstraksi ciri mempengaruhi tingat pengenalan sebagai berikut Tabel 2. Parameter PCA Teknik Ekstraksi Parameter PCA 681012 MFCC92,388,287,387,3 PS-ZCPA9492,3192,3190,1 LPC9087,387,386,2

4.3.Jumlah Waktu Ekstraksi Ciri dengan Perbedaan Teknik Ekstrasi Ciri Tabel dibawah ini menggabarkan hasil bahwa ekstraksi PS-ZCPA membutuhkan waktu yang sangat lama dibandingan teknik lainnya. Tabel 3. Waktu Ekstraksi Ciri Ekstraksi CiriWaktu Ekstrasi Ciri MFCC0,092 LPC0,152 PS-ZCPA27,38

4.4.Jumlah Waktu Training dengan Ekstraksi Ciri yang Bebeda Tabel dibawah merupakan hasil dimana PS-ZCPA masih membutuhkan waktu yang sangat lama dibandikan teknik ekstraksi yang lainnya. Tabel 4. Waktu Training Ekstraksi CiriWaktu Training MFCC0,345 LPC0,213 PS-ZCPA1,811 82848688909294961 2 3 4Parameter PCAMFCC ZCPA LPC82848688909294961 2 3 4Parameter PCAMFCC ZCPA LPC4.5.Perhitungan Waktu PCA konversi dengan Ektraksi Ciri yang berbeda Tabel bawah ini menggabarkan hasil dimana PS-ZCPA menghabiskan waktu yang sangat lama dibandingkan teknik lain. Tabel 5. Waktu konversi PCA Ekstraksi CiriWaktu konversi PCA MFCC0,097 LPC0,132 PS-ZCPA0,438 4.6.Perhitungan Waktu Training menggunakan PCA dengan Ekstraksi Ciri Berbeda Tabel dibawah ini menggambarkan hasil dimana PS-ZCPA dan MFCC mempunyai waktu terpanjang Tabel 6. Waktu training setelah PCAEkstraksi Ciri Waktu Training Setelah Menggunakan PCA MFCC0,250 LPC0,144 PS-ZCPA0,315 Semuahasilsebelumnyamengatakanbahwa,ketikamenggunakanCHMMsebagai klasifikasi,MFCCmemberikanhasilyangbaikdalamwaktuyangterkecil dibandingkandenganLPCdanPS-PS-ZCPA.Apabilamenggunakanmenggunakan PCA, hasilnya menjadi lebih baik dari sebelumnya dan saat tahap pengakuan langkah turun terutama untuk PS-PS-ZCPA, tetapi waktu ekstraksi cirinya lama. V.KesimpulanSistem pengenalan suara mencoba untuk mensimulasikan sistem pendengaran manusia untukmendapatkanhasilyangoptimal.Langkahpalingpentingdalamproses pengakuan untuk mengekstraksi ciri suara, jadi ada banyak teknik ekstraksi ciri yang digunakan.BilamenggunakanCHMMsebagaiklasifikasipenelitimelihatbahwa MFCC memberikan hasil yang baik dalam waktu yang terkecil dibanding dengan LPC danPS-PS-ZCPA.OlehkarenituMFCCdapatmengikutisistempendengaran manusia,tetapiPS-PS-ZCPAmengambilwaktuyangpanjangdaripadaMFCCdan memberika hasil yang buruk, hal ini karena vektor ciri yang panjang dengan variabel yang berlebihan. PCAadalahteknikterkenalyangdigunakanuntukreduksidata,digunakandalam proses ini sebagai pecobaan untuk mendapat hasil yang lebih baik, bila digunakan hasil lebihdarisebelumnyadansaatlangkahpengenalanyangturununtukPS-PS-ZCPA, tetapi waktu ekstrkasi ciri masih lama dibandingan ketika menggunakan PS-PS-ZCPA VI.Saran Penelitianinimasihdalamkeadantenangatautanpakebisingan,untukyangakan datang agar dapat dilakukan di tempat bising DAFTAR PUSTAKA [1] Elminir, Hamdy,K, Esloud, M.Abu, dan El-Maged, 2012, Different Feature Extraction Techniques for Continuous Speech Recognition, IJST 689-695 [2] Riyanto, Eko, 2013, Sistem Pengenalan Pengucap Manusia Dengan Ekstraksi Ciri Mfcc Dan Algoritma Jaringan Saraf Tiruan Perambatan Balik Sebagai Pengenalanya, JSIB. [3] Ittichichareon, Chadawab, Suksi, S., Tingthawornsuk, T., 2012, Speech Rcogintion Using MFCC, ICGSM 135-138 [4] Ghulam, Muhammad, dkk, 2006, PS-ZCPA Based Feature Extraction With Auditory Masking, Modulation Enhacement and Noise Reduction for Rubust ASR, IECE TRANS, 1015-1023 [5] Saksono, dkk, 2007, Aplikasi Pengenalan Ucapan sebagai Pengatur Mobil dengan Pengendali Jarak Jauh