UASIMS 1304505014 I Wayan Andis Indrawan
-
Upload
andis-indrawan -
Category
Documents
-
view
30 -
download
3
description
Transcript of UASIMS 1304505014 I Wayan Andis Indrawan
-
INTEGRASI DAN MIGRASI SISTEM
Review Jurnal Effect of Thesaurus Size on Schema Matching Quality
Tugas UAS
JURUSAN TEKNOLOGI INFORMASI
FAKULTAS TEKNIK
UNIVERSITAS UDAYANA
2015
Oleh :
Nama : I Wayan Andis Indrawan
Nim : 1304505014
Kelas : A
Semester : IV (Empat)
Dosen : I Made Sukarsa, ST., MT.
-
Abstrak
Thesaurus digunakan di banyak Information Retrieval (IR) aplikasi seperti integrasi
data, data warehouse, pemrosesan query semantik dan schema matching. Schema matching
atau mapping schema adalah salah satu langkah dasar yang paling penting dalam integrasi data.
Ini adalah proses mengidentifikasi korespondensi semantik atau setara antara dua atau lebih
skema. Mengingat fakta adanya banyak the-Sauri untuk domain pengetahuan identik, kualitas
dan perubahan hasil schema matching ketika menggunakan thesaurus yang berbeda di lingkup
pengetahuan khusus yang tidak dapat diprediksi. Dalam penelitian ini, yang di bahas ialah
pengaruh (size) thesaurus pada kualitas schema matching dengan melakukan banyak
eksperimen menggunakan thesaurus yang berbeda. Metode ini didasarkan pada rasio individu
elemen bersama dengan unsur-unsur dalam senyawa set vektor. Selain itu, di bahas juga secara
rinci algoritma efisien digunakan dalam mencari basis data thesaurus. Setelah menjelaskan
percobaan, hasil yang menunjukkan peningkatan dalam rata-rata kesamaan disajikan.
Kelengkapan, efektivitas, dan langkah-langkah berarti harmonik mereka dihitung untuk
mengukur kualitas matching. Percobaan pada dua thesaurus yang berbeda menunjukkan hasil
yang positif dengan rata-rata Presisi dari 35%. Pengaruh ukuran thesaurus pada kualitas yang
cocok adalah statis tidak signifikan; Namun, faktor lain yang mempengaruhi output dan nilai
yang tepat dari perubahan masih dalam fokus penelitian masa depan kita.
-
BAB I
PENDAHULUAN
1. Latar Belakang
Selama lebih dari dua dekade, thesaurus yang dimanfaatkan dalam berbagai aplikasi
IR. Sebagai contoh, digunakan dalam klasifikasi dokumen web, peringkasan, pengindeksan,
dan dalam menghitung kesamaan semantik dokumen tertulis yang sama atau dalam bahasa
yang berbeda. Thesaurus juga digunakan untuk memecahkan masalah schema matching.
Baru-baru ini, thesaurus digunakan untuk memprediksi kesulitan query dalam domain medis.
Disimpulkan bahwa kinerja prediktor yang mempengaruhi dengan banyak faktor seperti
cakupan kualitas thesaurus atau query mapping. Penelitian sebelumnya diasumsikan bahwa
tidak ada thesaurus umum seperti yang cakupan yang cukup tersedia, sehingga penggunaan
dan dampak thesaurus tidak dipelajari secara luas. Namun, thesaurus berkualitas tinggi yang
tersedia untuk beberapa domain tertentu, juga banyak thesaurus dengan kemampuan cakupan
dan ukuran ditemukan dalam domain yang sama. Seperti setiap kosakata terkontrol lainnya,
thesaurus dapat digunakan kembali dan diganti (yaitu dapat digunakan kembali dalam aplikasi
yang berbeda dan dapat diganti dengan thesaurus lain yang kompatibel).
Thesaurus dengan domain yang spesifik lebih sering dipakai seperti WordNet dalam
penelitian ini karena sudah digunakan dalam bidang ini seperti yang ditunjukkan dalam
paragraf berikutnya, apalagi penelitian ini adalah mempelajari pengaruh ukuran domain
thesaurus khusus untuk domain tunggal. Informasi dan sistem database, skema ini berdiri
sebagai himpunan formula (kumpulan meta-data) yang dikenakan pada data dalam database.
Formula ini (juga disebut batasan integritas) diterapkan untuk memastikan kompatibilitas dan
menggambarkan organisasi dan hubungan antara bagian dan entitas database.
Pentingnya mempelajari pengaruh ukuran thesaurus berasal dari kebutuhan vital solusi
otomatis efektif dan lengkap, karena ekspansi yang cepat dari area aplikasi yang thesaurus dan
kosa kata lain tools dapat dimanfaatkan seperti pengolahan bahasa alami dan pencarian
informasi. Misalnya, schema matching yang terbentuk diawal dan langkah penting menuju
integrasi data, namun, banyaknya hal umum dan domain kosa kata serta tools pembahasaan
spesifik yang dapat digunakan, membuat sulit untuk memilih salah satunya dari sumber lain
karena fitur seperti ukuran (size) dan cakupan dari tools tersebut yang tidak ditentukan.
-
1.1. Keterkaitan Schema Matching
Schema Matching, yang merupakan proses identifikasi korespondensi semantik, atau
menemukan unsur-unsur yang setara antara dua atau lebih skema masih merupakan area
penelitian terbuka sejak lebih dari dua dekade. Ini bukan hanya karena matching skema adalah
salah satu operasi dasar dalam banyak aplikasi seperti integrasi data, data warehousing, dan
pemrosesan query semantik, tetapi juga karena itu adalah masalah yang semakin penting serta
ketidakpastian dalam hasil teknik schema matching. Banyak pendekatan dan tools yang
digunakan untuk memecahkan masalah skema yang cocok seperti Cupid, LSD, dan Corpus.
Selain itu, banyak survei dan klasifikasi diterbitkan. Beberapa fitur proses matching tidak
dalam fokus pendekatan yang diusulkan, dan aspek-aspek seperti struktur, elemen, linguistik,
dan model data yang dibahas secara luas. Berikut ini adalah ringkasan dari teknik yang
digunakan dalam pendekatan matching skema.
Banyak teknik yang digunakan untuk melaksanakan proses matching, teknik Mesin-
learning yang digunakan dalam, pendekatan berbasis pelajar berisi modul belajar dan modul
khusus untuk peserta didik langsung, yang merupakan masalah pemetaan ontologi. Sebagian
besar tools matching skema saat ini. Pendekatan ini menggunakan jaringan saraf keuntungan
untuk mengetahui kesamaan antara sumber data. Dalam karakteristik berorientasi objek yang
dimanfaatkan untuk menentukan pemetaan antara sumber data atribut. Masalah matching tidak
diselesaikan dengan menggunakan pendekatan ini juga banyak karya yang diusulkan
menggunakan metadata. Namun, itu bergeser ke masalah lain menggunakan aturan untuk
melaksanakan matching, dengan menggunakan informasi seperti nama elemen dan deskripsi,
tipe data, struktur hirarki, dan kendala. Mereka digunakan dalam menentukan kesamaan baik
di tingkat elemen atau tingkat skema. Metode matching berbasis aturan skema yang paling
efektif biasanya terdiri dari tiga tahap yang linguistik, constraint-based, dan matching
struktural.
Pada tahap linguistik, metode tergantung pada pencocokan string pada umumnya untuk
mengetahui kesamaan antara nama elemen. Skema matcher saat ini biasanya menggunakan
WordNet, database besar Inggris yang mempertimbangkan hubungan semantik antara elemen
label. Namun, biasanya yang algoritma dalam kategori penggunaan metode gabungan ini.
Maksudnya adalah untuk mendapatkan kesamaan yang tinggi, metode label normalisasi dan
juga untuk meningkatkan pencocokan skema. Cupid matcher memanfaatkan pencocokan
linguistik secara komprehensif dan efisien untuk menghasilkan kesamaan yang tinggi. Hasil
yang salah yang diperoleh dari fase pencocokan linguistik biasanya disesuaikan dalam tahap
pencocokan berbasis constraint. Jenis data constraint, metode pengukuran tipe data
-
kompatibilitas biasanya digunakan sebagai solusi awal hasil yang salah atau ambigu dari fase
pencocokan linguistik. Tahap pencocokan struktural digunakan untuk memecahkan masalah
konteks kesamaan, masalah ini umumnya muncul dalam XML pencocokan skema mana
dokumen struktur dan constraint pada node dan tepi berbeda dari skema rasional menjelaskan
masalah tersebut secara rinci.
Berdasarkan kesimpulan, jurnal ini mempelajari pengaruh ukuran thesaurus (dalam
aspek jumlah hal, jumlah timbal-segi, dan jumlah hubungan lintas) hasil schema matching
menggunakan thesaurus.
1.2. Tujuan Penelitian
Merujuk pada latar belakang diatas, adapun tujuan yang dari jurnal ini adalah sebagai
seperti yang dipaparkan dibawah ini :
1.2.1. Menyajikan sebuah studi eksperimental mengenai pengaruh ukuran (size) thesaurus
pada kualitas schema matching. Tiga ukuran agricultural thesaurus yang berbeda yang
digunakan serta dibandingkan, dan hasilnya dievaluasi melalui beberapa fungsi
objektif.
1.2.2. Sebuah metode baru untuk menghitung kesamaan antara vektor diekstrak dari
thesaurus.
1.2.3. Selain itu, jurnal ini menjelaskan secara rinci banyak aspek teknis yang harus
dipertimbangkan ketika menggunakan thesaurus.
1.2.4. Hasil percobaan menunjukkan bahwa pengaruh ukuran thesaurus dalam kualitas yang
cocok secara statistik tidak signifikan. Namun, kenaikan dalam rata-rata kesamaan
dengan nilai-nilai tertentu.
1.3. Batasan Masalah
Penelitian ini mempelajari pengaruh ukuran thesaurus pada kualitas schema matching,
dengan memanfaatkan tiga thesaurus dari domain agricultural untuk melaksanakan proses
matching pada tingkat elemen, dan hasilnya dianalisis dalam perspektif yang berbeda. Oleh
karena itu, beberapa persepsi lain seperti konstruksi thesaurus dan evaluasi, hasil (Presisi,
Ingat, dan F-measure) optimasi, dan kompleksitas metode tidak dalam lingkup penelitian ini.
Dalam jurnal ini, Bab 2 menjelaskan metodologi. Bab 3 menyajikan setup studi. Bagian 4
menunjukkan hasil serta pembahasan hasil. Akhirnya, pekerjaan ini disimpulkan dalam
Bagian 5.
-
BAB II
METODOLOGI
2. Schema Matching Berdasarkan Analisis Linguistik dengan Thesaurus
Jurnal ini mempelajari dampak dari ukuran thesaurus pada kualitas schema matching.
Metodologi yang diterapkan berdasarkan pemanfaatan thesaurus untuk melakukan proses
matching. Gambar 1 menunjukkan kerangka metodologi, dan sub-bab berikutnya
menjelaskannya secara rinci.
Metode ini terdiri dari tiga tahap utama seperti yang ditunjukkan pada Gambar 1. Pada
fase satu, dua skema (Sx and Sy) merupakan bagian dari input dari proses (Apply Thesaurus),
thesaurus adalah bagian lain dari input untuk proses ini, dan output dari (Apply Thesaurus)
proses dua set vektor dari istilah (Sx mass and Sy mass). Kedua set vektor akan membentuk
masukan dari fase dua, yang (Menghitung Kesamaan Matrix) untuk menghasilkan Matrix
Similarity (SM) antara elemen skema. Tahap ketiga (Ekstrak Mapping Akhir) yang
menggunakan SM sebagai masukan untuk menghasilkan daftar pemetaan akhir. Algoritma dan
rincian dari fase ini dijelaskan dalam sub-bab berikut.
2.1. Metodologi
Seperti yang ditunjukkan pada Gambar 1, thesaurus digunakan dalam memecahkan
masalah schema matching di tingkat elemen berdasarkan analisis tekstual dari elemen deskripsi
(definisi) dari skema input (Skema Satu dan Skema Dua). Setiap skema masukan berisi
sejumlah elemen, untuk tujuan singkatan dan algoritma menulis skema ini disebut sebagai Sx
dimana x 2 {1, 2}. Selain itu, jumlah elemen dalam skema ini disebut sebagai n dan m. Berikut
ini adalah penjelasan rinci dari tiga fase metode ini.
2.2. Fase Pertama
Fase ini meliputi banyak langkah pre-processing seperti menghapus kata stop,
menghapus nomor, dan karakter yang tidak cocok dengan bahasa thesaurus dan konten. Proses
utama dalam fase ini (Menerapkan Thesaurus). Output dari tahap ini adalah dua set vektor
istilah (massa) di mana setiap vektor merupakan salah satu element dalam skema.
Menerapkan proses thesaurus: dalam proses ini, thesaurus diterapkan pada deskripsi
elemen tekstual, satu per satu untuk kedua skema S1 dan S2. Menerapkan thesaurus berarti
mencari setiap kata dari teks (yaitu deskripsi elemen) ke dalam database thesaurus dan
-
mengambil istilah terkait dari thesaurus, untuk membangun massa istilah yang terkait dengan
kata yang sedang diproses; massal ini dilambangkan dengan massw pada Algoritma 1.
Algoritma 1. Menerapkan Thesaurus pada Algoritma Deskripsi Elemen
Masa yang berbeda massw(s) kemudian terakumulasi pada tingkat elemen menjadi satu
massa (element_mass) yang mewakili Hasil Menerapkan Thesaurus (RAT) pada elemen ei
dari skema (RATeiSx) sebseperti terlihat pada Algoritma 1. Tahap ini berisi proses pencarian
luas karena proses Menerapkan Thesaurus dilakukan untuk setiap istilah dalam setiap
deskripsi di kedua skema, atau majemuk. Algoritma pencarian diterapkan pada fase ini
dijelaskan dalam Bagian 2.5, dan fungsi (get_related_terms (w)) yang digunakan untuk
mengambil semua yang terkait dengan istilah (w) dari database dijelaskan dalam Bagian 2.6.
2.3. Fase Kedua
Pada fase ini, dua vektor hasil tahap sebelumnya digunakan sebagai input
(Menghitung Kesamaan Matrix) proses. Kesamaan antara Hasil Menerapkan Thesaurus
(RAT) dari setiap elemen dari S1 dengan semua RATs dari elemen S2 dihitung untuk
menghasilkan matriks kesamaan. Algoritma yang digunakan dalam menghitung kesamaan
matriks ditunjukkan pada Algoritma 2.
-
Algoritma 2. Menghitung Kesamaan Algoritma Matriks
Kesamaan antara dua elemen ditentukan berdasarkan persamaan berikut:
Kesamaan
Dimana RAT adalah hasil penerapan thesaurus pada elemen. Kesamaan dalam
Persamaan. (1) menganggap vektor sebagai set elemen duplikat yang tidak diperbolehkan.
Karena vektor mewakili semua hal dari thesaurus terkait dengan elemen (ei|ej) dari skema
(Sx|Sy), maka frekuensi istilah tidak dianggap karena salah satu
Istilah dari thesaurus akan muncul dalam hasil vektor karena berkaitan dengan banyak
hal dalam hubungan yang berbeda. Selain itu, kepentingan ukuran kesamaan dalam
Persamaan. (1) adalah perbedaan antara dua massa istilah diekstrak dari thesaurus untuk teks
tertentu. Tidak seperti beberapa pengukuran kesamaan lain seperti persamaan kosinus dimana
frekuensi dari istilah memperhitungkan frekuensi dari banyaknya error (elemen serasi) seperti
dalam pengukuran jarak Hamming.
Gambar 2 menunjukkan contoh menghitung kesamaan antara dua elemen. Kesamaan
dihitung antara kombinasi semua elemen yang mungkin pasangan, dan disimpan dalam
Matrix Similarity. Untuk tujuan evaluasi, Kesamaan antara deskripsi dua elemen juga
dihitung dengan menggunakan persamaan kosinus. Persamaan kosinus antara dua vektor
(eiSx, ejSy) didefinisikan sebagi berikut :
Persamaan Kosinus
Dimana eiSx, ejSy adalah hasil dari vector dengan menerapkan Thesaurus pada elemen
i dari skema Sx dan elemen j dari skema Sy masing-masing, dan w adalah kata dari vector e.
Nilai-nilai dalam matriks kesamaan yang dinormalisasi berdasarkan rumus transformasi linear
berikut:
-
Dimana Xn = nilai X baru (setelah normalisasi), X0 = nilai saat ini pada X (sebelum
normalisasi), Xmin = nilai minimal dari X pada persamaan matriks, dan Xmax = nilai maksimal
dari X pada persamaan matriks.
2.4. Fase Ketiga
Pada fase ini, persamaan matriks atau similarity matrix (SM) yang dihasilkan dari fase
dua digunakan sebagai masukan untuk (Ekstrak Mapping Akhir) proses yang menghasilkan
set mapping akhir. Pendekatan nilai maksimum dan kedua diterapkan dalam penggalian
pemetaan akhir seperti yang ditunjukkan pada Algoritma 3.
Algoritma 3. Menghitung Persamaan Matriks
Dalam algoritma ini, yang matching (mapping) antara dua elemen (satu di header baris
dan lainnya di header kolom) dianggap jika nilai kesamaan dalam cross sel adalah nilai
maksimum dalam matriks. Kemudian semua nilai dalam baris dan kolom yang diatur ke nol.
Proses ini akan diulang sampai semua nilai kesamaan dalam matriks menjadi nol atau kurang
-
dari nilai ambang batas. Masalah kriteria ini akan muncul ketika nilai maksimum tidak unik
dalam matriks kesamaan dan lebih dari satu dari maksimum nilai kejadian ditemukan pada
baris yang sama atau kolom yang sama, hal ini mengharuskan kita untuk memeriksa nilai
maksimum kedua matriks di mana nilai maksimum kedua dianggap sebagai mapping.
2.5. Mencari Database Thesaurus
Mencari Database thesaurus merupakan salah satu proses utama yang dilakukan di
semua aplikasi yang menggunakan thesaurus baik di bagian utama atau sebagai alat bantu.
Dalam thesaurus penelitian ini digunakan sebagai inti dari proses matching. Thesaurus
diaplikasikan pada semua elemen deskripsi tekstual. The get_related_terms Prosedur
(disebutkan dalam Algoritma 1) berisi proses pencarian yang luas dalam database thesaurus,
karena kebutuhan untuk mencari setiap istilah dari teks ke database thesaurus. Istilah ini
mungkin satu kata atau beberapa kata (juga disebut istilah majemuk), meskipun thesaurus
mengandung istilah satu kata dan istilah majemuk juga.
Pendekatan langsung untuk menangani kasus tersebut adalah metode brute force
dimana teks dilalui dengan mempertimbangkan jangka sebagai salah satu kata dalam putaran
pertama, dan kemudian melintasi diulang dengan mempertimbangkan jangka sebagai kata
ganda, dan sebagainya. Melintasi teks akan berhenti ketika jumlah kata dalam istilah dari teks
melebihi jumlah kata-kata dalam jangka terpanjang di database thesaurus. Algoritma brute
force adalah algoritma pencarian kurang efisien. Sebuah algoritma pencarian yang efisien
diterapkan untuk melaksanakan proses ini. Algoritma 4 menunjukkan algoritma diterapkan
digunakan untuk mengurangi waktu yang dibutuhkan untuk mencari teks ke dalam database
thesaurus. Algoritma ini dibahas secara rinci.
Algoritma 4. Mencari Text dalam Thesaurus Database
-
Ide utama dari Algoritma 4 adalah untuk mencari kata (w) ke dalam vektor indeks dari
thesaurus bukan mencari kata (w) ke dalam istilah tabel thesaurus yang pasti mengandung
banyak istilah majemuk. Indeks vektor thesaurus adalah vektor yang berisi khas pertama tanda
istilah atau istilah senyawa thesaurus. Dua manfaat yang diperoleh dari langkah ini: Pertama,
setelah
(W) ditemukan dalam indeks, maka pasti ada satu atau lebih mentah (istilah satu kata
atau istilah majemuk) di thesaurus dimulai dengan kata itu. Jika tidak, tidak ada kebutuhan
untuk melihat ke dalam thesaurus untuk setiap istilah majemuk yang dimulai dengan kata (w).
Karena pasti tidak ada istilah majemuk dimulai dengan kata tertentu. Kedua, sebagai hasil dari
menemukan (w) dalam indeks, set panjang istilah senyawa dalam thesaurus yang dimulai
dengan (w) - langkah nomor tiga dalam algoritma 3 - dapat didefinisikan, sehingga daftar istilah
kata majemuk panjang yang dibutuhkan dari teks mulai dari kata yang dipertimbangkan dapat
dibangun.
2.6. Mengambil Istilah Mass dari Thesaurus Database
Akhirnya, setelah istilah ini ditemukan dalam database thesaurus, sebagaimana
disebutkan dalam Algoritma 1, get_related_terms fungsi (w) dipanggil untuk mengambil
massa istilah dari database thesaurus dengan mengeksekusi banyak pertanyaan yang dinamis
hirarkis seperti query di bawah ini. Massa jangka istilah didefinisikan sebagai semua istilah
dalam database yang terhubung ke istilah dengan salah satu hubungan thesaurus, diantaranya
istilah Boarder terms, Narrow Terms, Related Terms, and the Preferred Terms.
Gambar 1. Kerangka Metodologi
-
Gambar 2. Contoh dari Perhitungan Persamaan diantara Dua Elemen
(1) dan (2) digunakan untuk mengambil PREFERED dan istilah terkait masing-masing dengan
menggunakan query pada umumnya yakni SELECT sebagai struktur pernyataan, namun query
(3) dan (4) merupakan hirarki (rekursif) query yang mengambil istilah terhubung dengan
Boarder and Narrow relation.
-
2.7. Evaluation dan Rangking
Mengukur (measure) kualitas presisi, recall, dan F-measure seperti yang didefinisikan
dalam digunakan untuk mengevaluasi kualitas matching skema dengan thesaurus yang
berbeda. Presisi, ingat, dan F-measure yang digunakan dalam IR domain, namun umumnya
digunakan untuk evaluasi pencocokan skema. Selain itu, dalam kasus matching umum antara
manual dan otomatis, kualitas kesamaan keseluruhan dibandingkan berdasarkan dua
pendekatan; pertama, perbandingan berdasarkan nilai maksimum, dan kedua adalah
perbandingan berdasarkan nilai rata-rata untuk menunjukkan peningkatan dalam kesamaan
keseluruhan matching umum di antara thesaurus digunakan.
Untuk menghitung presisi, recall, dan F-measure matching pengguna yang dihasilkan
menjadi ahli domain seperti di dianggap, maka untuk setiap percobaan set positif sejati (TP),
positif palsu (FP), dan negatif palsu (FN) ditentukan.
Gambar 3. Contoh Skema pada Suatu Percobaan
Berdasarkan set ini langkah-langkah kualitas dihitung sebagai berikut:
-
BAB III
STUDY SET-UP
3. Study Set-Up
3.1. Domain
Banyak penelitian sebelumnya pada schema matching seperti penggunaan skema dari
domain dari E-commerce. Namun ada banyak hambatan untuk menggunakan skema ini dalam
penelitian ini; misalnya, skema ini tidak menyertakan deskripsi tekstual dari unsur-unsurnya,
dan tidak ada thesaurus tersedia untuk E-commerce domain. Data dari domain agricultural yang
digunakan sebagai dataset.
Domain pengetahuan agricultural telah sangat berkembang selama beberapa dekade
terakhir. Informasi kurang pada ukuran yang tepat dari domain pengetahuan ini ditemukan.
Namun, informasi tion pertanian diwakili dalam banyak format yang dapat dibaca mesin oleh
organisasi global yang berbeda. National Agricultural Library Thesaurus (NALT) adalah
thesaurus yang dikembangkan oleh National Agricultural Library (NAL) dari Amerika Serikat
Departemen Agricultural. Ketika dirilis untuk pertama kalinya mengandung 42.326 deskriptor
dan 25.985 deskriptor non disusun dalam 17 kategori subjek. Saat ini berisi lebih dari 98.000
istilah dan tersedia dalam dua bahasa-bahasa (bahasa Inggris dan Spanyol). AGROVOC adalah
thesaurus multibahasa dirancang awal 1980-an oleh Organisasi Pangan dan Pertanian
Perserikatan Bangsa-Bangsa (AGROVOC Thesaurus) untuk menutupi mitology bahasa dari
semua bidang subjek di bidang pertanian, kehutanan, perikanan, makanan dan domain terkait.
Edisi terbaru dari AGROVOC berisi lebih dari 32.000 konsep. Cina Agricultural Thesaurus
(CAT) adalah thesaurus pertanian terbesar di Cina yang dikelola oleh AII dari CAAS. Ini berisi
lebih dari 63.000 konsep kebanyakan dari mereka memiliki terjemahan bahasa Inggris.
3.2. Dataset
Dataset yang digunakan dalam percobaan ini terdiri dari dua skema. Setiap skema
mewakili satu set 23 program studi yang ditawarkan oleh universitas. Kursus data
direpresentasikan sebagai file XML skema (Xsd). Gambar 3 menunjukkan bagian dari file
skema. Dalam file skema, masing-masing (
-
Set satu: Sx = (ex0, ex1, ex2, ... , ex22), dan
Set dua: Sy = (ey0, ey1, ey2, ... , ey22),
Program deskripsi di kedua set diolah dan dianalisis menggunakan thesaurus yang berbeda
dalam domain yang sama, bagian berikutnya menjelaskan lebih lanjut tentang thesaurus
digunakan.
3.3. Thesauri
Tiga agricultural thesaurus yang digunakan. Dua di antaranya adalah versi yang
berbeda dari thesaurus yang sama. Thesaurus ini The Thesaurus 2008 Edisi National
Agricultural Library (disebut NAL2008), The 2012 Edisi National Agricultural Library
(disebut NAL2012), dan thesaurus disajikan oleh Organisasi Pangan dan Pertanian
Perserikatan Bangsa-Bangsa (disebut AGROVOC). Semua thesaurus yang didownload dari
internet, dan diproses oleh alat khusus untuk memenuhi lingkungan eksperimen.
3.3.1. Thesaurus Pre-Processing
NAL thesaurus serta AGROVOC thesaurus bebas untuk men-download dari situs
resmi mereka dalam berbagai format seperti XML, RDF-skos, PDF, MARC, teks biasa untuk
NAL Thesaurus dan XML, skos, MYSQL, Protege DB, OWL dan ISO2709 untuk
AGROVOC thesaurus. Pre-processing thesaurus tergantung pada format yang digunakan
sesuai, Dalam penelitian ini format XML-skos digunakan, sampel konsep thesaurus
''Chamidae'' ditunjukkan pada Gambar 4 karena muncul dalam thesaurus download format
XML-SKOS. Thesaurus ditransformasikan ke dalam database rasional berdasarkan standar
Inggris 8723 model data dan perluasan model dalam Gambar 5 menunjukkan bagian dari
class diagram model data thesaurus seperti:
-
Gambar 4. Contoh Thesaurus pada format XML-SKOS
Gambar 5. Class Diagram dari Thesaurus data model dengan adaptasi dari standart british
Langkah-langkah umum pra-pengolahan dirangkum dalam langkah-langkah berikut:
Langkah 1: Extrak dan save terms dari identifiers.
Langkah 2: Extrak dan save terms dari relations.
Langkah 3: Interconnect terms dengan relasi yang sudah di ekstrak.
Langkah 4: Buat terms index (untuk menerapkan metode pencarian yang efisien).
3.3.2. Statistik Thesaurus
Tabel 1 menunjukkan spesifikasi utama dari thesaurus yang digunakan dalam
percobaan penelitian ini. Dari Tabel 1, terlihat bahwa NAL2012 berisi jumlah terbesar istilah,
lead-in terms, dan cross relations, sementara AGROVOC memiliki sedikitnya jumlah semua
spesifikasi. Spesifikasi thesaurus lainnya, seperti ''Jumlah Kata-kata dalam Istilah'' juga harus
dipertimbangkan dalam pengukuran kinerja thesaurus. properti ini mempengaruhi kecepatan
-
menghitung kesamaan. Gambar 6 menunjukkan persentase istilah yang berisi satu, dua, tiga,
dan empat atau lebih kata-kata istilah di setiap thesaurus digunakan dalam percobaan. Hal ini
dapat dilihat dari Gambar 6 bahwa untuk semua thesaurus digunakan, salah satu hal yang kata
kurang dari 35% sedangkan periode yang tersisa adalah istilah majemuk (yaitu hal terdiri dari
dua kata atau lebih). Seperti disebutkan sebelumnya jumlah kata dalam istilah mempengaruhi
kecepatan perhitungan kesamaan yang berarti bahwa algoritma yang efisien diperlukan untuk
melaksanakan pekerjaan ini.
Tabel 1
Spesifikasi Thesauri
Gambar 6. Persentasi dari terms oleh satu kata terms dan terms majemuk
Gambar 7. Thesauri overlapping
-
Gambar 8. GUI dari Aplikasi Schema Matching
Sedangkan versi yang berbeda dari thesaurus NAL dan thesaurus AGRO-VOC yang
digunakan dalam penelitian ini, thesaurus ini tumpang tindih dengan satu sama lain. Gambar
7 menunjukkan jumlah istilah tumpang tindih dan rasio relatif terhadap jumlah total istilah
khas di semua thesaurus.
Jumlah istilah khas di semua thesaurus adalah 117.304 istilah. Seperti yang
ditunjukkan pada Gambar 7, rasio terbesar tumpang tindih terjadi antara NAL2008 dan
NAL2012, yang versi yang berbeda dari thesaurus yang sama. Namun, istilah conjoint antara
semua thesaurus dekat dengan 10% dari total jumlah istilah. Penelitian ini mempertimbangkan
kurang memperhatikan pengaruh yang tumpang tindih.
3.4. Eksperimen Lingkungan dan Aplikasi
Untuk melaksanakan eksperimen, database Oracle dengan aplikasi Java yang
dikembangkan terutama untuk tujuan yang terpasang. Gambar 8 menunjukkan antarmuka dari
aplikasi Java. Aplikasi ini memiliki fasilitas untuk memvalidasi skema dimuat, dan untuk
mengekstrak nama elemen dan deskripsi tekstual dalam format pohon sebelum memulai proses
pencocokan. Kesamaan matriks dan pemetaan akhir dapat juga disimpan ke sistem file.
-
BAB IV
HASIL, PEMBAHASAN DAN ANALISA
4. Hasil
Dua set program yang digunakan dalam percobaan secara manual matching dengan
seorang ahli, hasil Matching manual dan otomatis percobaan ditunjukkan pada Tabel 2. Pada
Tabel 2 nilai kesamaan didasarkan pada persamaan. (1) dibahas dalam Bagian 2.3. Sub-tabel
(a) merupakan matching manual dengan domain Ahli, dan sub-tabel (b) merupakan matching
otomatis berdasarkan NAL2008 thesaurus, sedangkan sub-tabel (c) dan (d) merupakan
matching otomatis berdasarkan NAL2012 dan AGROVOC thesaurus masing-masing. Hasil
pencocokan dapat divisualisasikan seperti pada Gambar. 9. Pada Gambar. 9, angka-angka pada
sumbu x dan y-axis merupakan jumlah elemen dalam skema, sedangkan gelembung mewakili
matching antara unsur-unsur, misalnya, ada pencocokan antara elemen 5 dari skema 1 dan
elemen 16 dari skema 2 dalam manual pencocokan. Nomor dalam kurung merupakan jumlah
elemen dalam skema 1 dan skema 2 masing-masing; ukuran gelembung merupakan nilai
kesamaan antara dua elemen. Untuk matching yang umum di kalangan pengguna pencocokan
dan otomatis yang, gelembung tampaknya lebih-tindih seperti untuk pasangan (6,15) dan (1,0)
dan lain-lain. Tabel kontingensi hasil otomatis relatif terhadap matching pengguna ditunjukkan
pada Tabel 3. Tabel 3 menunjukkan jumlah distribusi matching pasang dihasilkan oleh masing-
masing thesaurus relatif terhadap pencocokan manual. Sebagai contoh, dalam percobaan
berdasarkan NAL2008, sementara 16 pasang dicocokkan otomatis tidak benar, dan 6 pasang
yang tidak benar tidak cocok. Namun, jumlah pasangan dalam sel persimpangan baris total dan
kolom jumlah mewakili kemungkinan jumlah permutasi dari matching antara skema elemen.
4.1. Pembahasan dan Analisa
Sub-bab ini membahas hasil dari berbagai sudut pandang.
4.1.1. Pembahasan dari Precision, Recall, dan Hasil F-measures
Precision, recall, and F-measure untuk setiap percobaan dihitung relatif terhadap
matching manual, menggunakan tabel kontingensi (Tabel 3) dimana set TP, FP, dan FN adalah
sebagai berikut:
Tabel 2
Persamaan Matching berdasar pada Thesaurus berbeda
-
Gambar 9. Hasil dari Matching Manual dan Otomatis
Tabel 3
Tabel kontingensi dari matching otomatis hasil relatif terhadap hasil manual.
TP: himpunan pasangan yang matching secara manual dan otomatis.
FP: himpunan pasangan yang matching secara manual tapi tidak secara otomatis.
FN: himpunan pasangan yang matching secara otomatis tetapi tidak secara manual.
Tabel 4 merangkum hasil Precision, recall, and F-measure untuk eksperimen:
Dua pernyataan utama dapat melihat dari Tabel 4. Salah satunya adalah nilai-nilai Precision,
recall, and F-measure rendah. Teknik yang diusulkan tergantung pada mencari kata-kata dari
-
deskripsi elemen dalam thesaurus. Dalam percobaan kata-kata yang tepat yang dicari dan tidak
ada teks pre-processing yang diterapkan, sehingga singkatan, salah eja kata, angka ditulis
sebagai kata-kata, tanda baca yang tidak pantas dikandung oleh teks tidak akan memberikan
kontribusi pada hasil pencarian. Misalnya, baris 4 di Gambar 3 berisi ekspresi
(horticulture.Emphasis) yang dianggap sebagai satu kata (karena tidak ada ruang antara kata-
kata), namun, akan diakui sebagai dua istilah pencarian jika pengganti tanda baca diterapkan.
Untuk mengatasi masalah ini, beberapa teknik bisa diterapkan seperti teks pre-processing,
validasi kamus, pengganti tanda baca, dan ekspansi teks berdasarkan alat kosakata.
Kedua, dapat dilihat bahwa penggunaan thesaurus kaya (di ciri-ciri), yang NAL2012,
tidak menyebabkan hasil presisi dan recall yang lebih tinggi. Namun, penggunaan AGROVOC
thesaurus yang memiliki istilah yang lebih sedikit, memimpin-dalam hal, dan lintas-hubungan
menyebabkan presisi hukum dan mengingat nilai-nilai. Gambar 10 menunjukkan Precision,
recall, and F-measure dan jumlah istilah dalam setiap thesaurus.
Tabel 4
Precision, recall, and F-measure untuk matching otomatis
Gambar 10. Precision, recall, and F-Measure Untuk Thesauri yang Berbeda
-
Tabel 5
Hasil matching umum dari NAL2008 thesaurus dan NAL2012 thesaurus.
Gambar 11. Nilai-nilai persamaan matching umum antara NAL2008 dan NAL2012
As seen from Gambar 10, the precision was the least in case of using AGROVOC
thesaurus; AGROVOC has the least number of terms among thesauri used. However, in case
of using NAL2008 the pre- cision is the highest while the number of terms in NAL2008 is not
the largest. In contrast, when using NAL2012, which has most number of terms, the
precision was not the highest. Recall and F measure behave as the same as precision, which
mean that the highest values of recall and F measure was recorded with NAL2008 and
lowest values were recorded with AGROVOC thesaurus.
4.1.2. Hasil Pembahasan dari Matching Umum
Sub-bagian ini membahas hasil matching antara thesaurus yang berbeda, diantaranya
sebagai berikut:
-
Gambar 12. Perbedaan Absolut dan Rata-Rata Matching Umum dari NAL2008 dan NAL2012
Gambar 13. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum Matching Umum dari
NAL2008 dan NAL2012
Gambar 14. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata Matching Umum dari
NAL2008 dan NAL2012
4.1.2.1. Hasil Pembahasan Matching Umum NAL2008 and NAL2012 Thesauri
Tabel 5 menampilkan matching umum antara hasil dengan menggunakan
NAL2008 Thesaurus and NAL2012 Thesaurus:
-
Dari Tabel 5, terlihat bahwa persamaan matching ketika menggunakan NAL2012
Thesaurus meningkat atau tetap konstan di 70% dari matching biasa. Matching umum antara
NAL2008 dan NAL2012 lebih dari 40% dibandingkan dengan jumlah elemen dalam Sx.
Gambar 11 menunjukkan hasil menggunakan NAL2008 dan NAL2012, sedangkan Gambar 12
menunjukkan rata-rata perbedaan absolut antara nilai-nilai persamaan.
Hal ini dapat dilihat dari Gambar 11 bahwa kesamaan saat menggunakan NAL2012
adalah sama dengan atau lebih dari kesamaan ketika menggunakan NAL2008 di 70% dari
matching biasa. Seperti yang terlihat dari Gambar 11, Kesamaan tidak meningkat untuk semua
matching yang umum ketika menggunakan thesaurus dengan istilah yang lebih, lead-in terms,
dan cross-relations. Seperti disebutkan dalam Bagian 2.6, dua pendekatan yang digunakan
untuk menentukan nilai kesamaan keseluruhan untuk masing-masing kelompok umum;
pendekatan ini adalah kesamaan rata dan nilai kemiripan maksimum. Hal ini dapat dilihat dari
Tabel 5 bahwa pendekatan Maksimum mengarah ke peningkatan dalam rata-rata kesamaan
dengan 0.059 dan 0.028 untuk percobaan menggunakan NAL2008 dan NAL2012 berturut-
turut. Gambar 13 menunjukkan pendekatan rata dibandingkan nilai pendekatan maksimum,
sedangkan Gambar 14 menunjukkan peningkatan pendekatan Maksimum atas pendekatan rata-
rata.
Gambar 15. Nilai-nilai kesamaan matching umum antara NAL2008 dan AGROVOC.
4.1.2.2 Hasil Pembahasan Matching Umum NAL2008 and AGROVOC thesauri.
Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008
thesaurus dan AGROVOC thesaurus.
-
Tabel 6
Matching umum dari hasil menggunakan NAL2008 thesaurus dan AGROVOC thesaurus.
Gambar 16. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2008 dan
AGROVOC.
Gambar 17. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara
NAL2008 dan AGROVOC.
Gambar 18. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara
NAL2008 dan AGROVOC.
4.1.2.3. Hasil Pembahasan Matching Umum NAL2008 dan AGROVOC Thesauri
Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008 dan AGROVOC.
-
Gambar 19. Nilai Persamaan dari Matching Umum Antara NAL2008 dan AGROVOC.
Dari Tabel 6 dapat dilihat bahwa kesamaan matching ketika menggunakan
AGROVOC thesaurus, yang merupakan the least in terms, lead-in terms, dan cross-relationals
meningkat atau tetap konstan di 50% dari matching biasa. Matching bersama sekitar 1%
dibandingkan dengan jumlah elemen di Set 1. Gambar 15 menunjukkan hasil menggunakan
NAL2008 dan AGROVOC, sedangkan Gambar 16 menunjukkan rata-rata perbedaan absolut
antara nilai-nilai kesamaan.
Tabel 6 menunjukkan bahwa kesamaan ini tidak menurun untuk semua matching
umum ketika menggunakan thesaurus the least in terms, lead-in terms, dan cross-relationals.
Menggunakan pendekatan Maksimum meningkatkan rata-rata kesamaan dengan 0,112 dan
0,103 untuk percobaan menggunakan NAL2008 dan AGROVOC berturut-turut seperti yang
ditunjukkan pada Tabel 6. Gambar 17 menunjukkan Pendekatan Rata-Rata dibandingkan
Nilai Pendekatan Maksimum dari Matching Antara NAL2008 dan AGROVOC,
sedangkan Gambar 18 menunjukkan Peningkatan Pendekatan Maksimum atas Pendekatan
Rata-Rata dari Matching Antara NAL2008 dan AGROVOC.
4.1.2.4. Hasil Pembahasan Matching Umum NAL2012 dan AGROVOC Thesauri.
Tabel 7 menunjukkan matching umum antara hasil menggunakan NAL2012
thesaurus dan AGROVOC thesaurus. Tabel 7 menunjukkan bahwa kesamaan matching
ketika menggunakan NAL2012 Thesaurus yang memiliki the least in terms, lead-in terms,
dan cross-relationals dari AGROVOC, meningkat atau tetap konstan di 50% dari matching
biasa, matching umum adalah sekitar 1% relatif terhadap jumlah elemen di Set 1. Gambar
19 menunjukkan hasil menggunakan NAL2012 dan AGROVOC, sedangkan Gambar 20
menunjukkan rata-rata perbedaan absolut antara nilai-nilai kesamaan:
-
Tabel 7
Matching umum dari hasil menggunakan NAL2012 thesaurus and AGROVOC thesaurus.
Gambar 20. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2012 dan
AGROVOC.
Gambar 21. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara
NAL2012 dan AGROVOC.
-
Gambar 22. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara
NAL2012 dan AGROVOC.
Tabel 8
Pasangan dua sisi hasil T-Test menggunakan matching umum.
Tabel 9
Kesamaan rata-rata matching umum antara AGROVOC dan thesaurus lainnya.
Terlihat dari Tabel 7 bahwa kesamaan ini tidak menurun untuk semua matching umum saat
menggunakan thesaurus dengan the least in terms, lead-in terms, dan cross-relationals
(AGROVOC). Menggunakan pendekatan Max meningkatkan rata-rata kesamaan dengan 0,004
dan 0,108 untuk percobaan menggunakan NAL2012 dan AGROVOC berturut-turut seperti
yang ditunjukkan pada Tabel 7. Gambar. 21 menunjukkan pendekatan rata dibandingkan nilai
pendekatan Maksimum, sementara Gambar. 22 menunjukkan peningkatan pendekatan
Maksimum lebih rata pendekatan.
-
4.1.3. Pembahasan Tes Signifikansi
Untuk mengevaluasi hipotesis bahwa ada perbedaan yang signifikan antara
kesamaan matching umum saat menggunakan thesaurus yang berbeda, pair-wise dua sisi T-
Test menggunakan matching umum di antara percobaan dilakukan. Tabel 8 menunjukkan
hasil T-Test.
Hal ini dapat dilihat dari hasil T-Test bahwa perbedaan kesamaan matching umum
adalah statistik tidak signifikan untuk setiap kombinasi digunakan thesaurus. Hasil ini
signifikan adalah karena ukuran sampel yang kecil, keterbatasan ukuran sampel berasal dari
domain percobaan. Untuk kombinasi pasangan (NAL2008-AGROVOC dan NAL2012-
AGROVOC) yangmana statistik T-Test adalah tidak berlaku karena ukuran sampel terlalu
kecil (2 sampel), namun dapat dilihat bentuk Tabel 6 dan 7 bahwa rata-rata persamaan
matching matching umum antara NAL2008 dan AGROVOC terlalu jauh lebih tinggi daripada
yang antara NAL2012 dan AGROVOC, seperti yang dirangkum dalam Tabel 9.
4.2. Perbandingan Perhitungan Metode Kesamaan
Bagian ini menyajikan perbandingan antara kesamaan perhitungan berdasarkan metode
perhitungan kesamaan yang diusulkan (yaitu Persamaan. (1) yang dijelaskan dalam Bagian 2.3)
dan pengukuran kesamaan kosinus umum. Oleh karena itu perbedaan persamaan dihitung
dengan setiap metode langsung hasil mapping akhir yang berbeda, karena penerapan
maksimum dan pendekatan nilai maksimum kedua. Di sub-bagian berikut, kesamaan matching
umum dan rata-rata kesamaan secara keseluruhan dibandingkan dan akan dibahas.
4.2.1. Perbandingan Persamaan dari Matching Umum
Untuk membandingkan kesamaan perhitungan dengan menggunakan metode yang
diusulkan dan kesamaan kosinus, matching umum untuk setiap thesaurus diekstraksi. Gambar.
23 menunjukkan perbandingan Dari Gambar. 23, terlihat bahwa nilai persamaan kosinus lebih
tinggi untuk semua matching yang umum untuk semua thesaurus. Alasan ini adalah bahwa
kesamaan kosinus mempertimbangkan kejadian jumlah kata (terms) dalam vektor, sedangkan
metode yang diusulkan berdasarkan operasi serikat yang menghilangkan efek dari kata-kata
berulang (terms) dalam vektor dan mempertimbangkan setiap kata sekali. Menggunakan
persamaan kosinus dalam pencocokan skema menggunakan thesaurus adalah mengarah ke
rasio kesamaan yang lebih tinggi, namun dalam skema otomatis matching kesamaan tinggi
antara dua elemen dapat menyebabkan matching salah karena unsur-unsur yang sangat mirip
akan dipasangkan.
-
Gambar 23. Perbedaan Persamaan dari Matching Umum
Gambar 24. Keseluruhan Perbandingan Persamaan
sebagai pencocokan pasangan, dan elemen-elemen ini tidak akan dipasangkan dengan
unsur-unsur lain. Metode pengukuran yang diusulkan kesamaan seperti yang disebutkan dalam
Bagian 2.3 tidak mempertimbangkan kejadian istilah tapi hanya keberadaan.
4.2.2. Keseluruhan Perbandingan Persamaan
Kesamaan rata-rata mspping akhir untuk setiap perbandingan thesaurus, Gambar 24
menunjukkan bahwa rata-rata kosinus memiliki kesamaan lebih tinggi dari rata-rata kesamaan
dihitung dengan metode yang diusulkan. Dari Gambar 24, dapat dilihat bahwa kesamaan
berdasarkan metode kosinus lebih tinggi dari kesamaan berdasarkan persamaan dibahas dalam
Bagian 2.3. Dalam persamaan kosinus, jumlah kejadian istilah dalam vektor meningkatkan
kesamaan. Bagaimanapun, metode yang diusulkan menghilangkan efek beberapa kejadian
istilah dalam vektor, sehingga kesamaan dihitung lebih rendah.
-
BAB V
PENUTUP
5.1. Simpulan
Dalam penelitian ini, thesaurus itu digunakan untuk menjadi inti dari proses
matching skema; banyak percobaan dilakukan untuk mempelajari pengaruh ukuran thesaurus
pada kualitas matching skema. Hasil penelitian menunjukkan bahwa mapping yang berbeda
diproduksi karena menggunakan thesaurus yang berbeda dalam domain yang sama. Matching
umum antara pemetaan juga memiliki nilai-nilai kesamaan yang berbeda. Kenaikan dalam rata-
rata kesamaan dengan nilai-nilai khas tercatat. Penggunaan thesaurus terkaya (yaitu thesaurus
dengan the least in terms, lead-in terms, dan cross-relationals) tidak menghasilkan presisi
tertinggi, recall, dan nilai-nilai ukuran F-measure, sedangkan nilai terendah presisi dan recall
dicatat ketika thesaurus dengan sedikitnya the least in terms, lead-in terms, dan cross-
relationals digunakan. Hasil pencocokan skema menggunakan thesaurus terpengaruh dengan
ukuran thesaurus (dalam aspek jumlah persyaratan dan jumlah hubungan lintas), namun
perubahan itu tidak signifikan secara statis. Persamaan kosinus juga lebih tinggi daripada
kesamaan dihitung berdasarkan persamaan yang diusulkan. Memprediksi nilai yang tepat dari
perubahan hasil matching skema menggunakan thesaurus atau aplikasi berbasis thesaurus lain
ketika menggunakan thesauri yang berbeda untuk memecahkan masalah yang sama, perlu
dipelajari secara mendalam. Namun, faktor lain yang berhubungan dengan domain mana
thesaurus digunakan juga mempengaruhi hasil. Saat ini, kami sedang mempelajari bagaimana
spesifikasi thesaurus mempengaruhi hasil aplikasi IR lain seperti pengklasifikasi dokumen.
Tujuan utamanya adalah untuk menghasilkan model matematik untuk memprediksi kualitas
output dari alat IR dan aplikasi yang menggunakan thesaurus sebagai inti dari tasknya, prediksi
ini akan tergantung pada spesifikasi thesaurus dan spesifikasi domain sebagai parameter.
5.2. Referensi
Jurnal Effect of Thesaurus Size on Schema Matching Quality Tahun 2014
Link : http://disi.unitn.it/~p2p/relatedwork/matching/00012682_111572.pdf
5.3. Lampiran