UASIMS 1304505014 I Wayan Andis Indrawan

INTEGRASI DAN MIGRASI SISTEM

Review Jurnal Effect of Thesaurus Size on Schema Matching Quality

Tugas UAS

JURUSAN TEKNOLOGI INFORMASI

FAKULTAS TEKNIK

UNIVERSITAS UDAYANA

2015

Oleh :

Nama : I Wayan Andis Indrawan

Nim : 1304505014

Kelas : A

Semester : IV (Empat)

Dosen : I Made Sukarsa, ST., MT.

Abstrak

Thesaurus digunakan di banyak Information Retrieval (IR) aplikasi seperti integrasi

data, data warehouse, pemrosesan query semantik dan schema matching. Schema matching

atau mapping schema adalah salah satu langkah dasar yang paling penting dalam integrasi data.

Ini adalah proses mengidentifikasi korespondensi semantik atau setara antara dua atau lebih

skema. Mengingat fakta adanya banyak the-Sauri untuk domain pengetahuan identik, kualitas

dan perubahan hasil schema matching ketika menggunakan thesaurus yang berbeda di lingkup

pengetahuan khusus yang tidak dapat diprediksi. Dalam penelitian ini, yang di bahas ialah

pengaruh (size) thesaurus pada kualitas schema matching dengan melakukan banyak

eksperimen menggunakan thesaurus yang berbeda. Metode ini didasarkan pada rasio individu

elemen bersama dengan unsur-unsur dalam senyawa set vektor. Selain itu, di bahas juga secara

rinci algoritma efisien digunakan dalam mencari basis data thesaurus. Setelah menjelaskan

percobaan, hasil yang menunjukkan peningkatan dalam rata-rata kesamaan disajikan.

Kelengkapan, efektivitas, dan langkah-langkah berarti harmonik mereka dihitung untuk

mengukur kualitas matching. Percobaan pada dua thesaurus yang berbeda menunjukkan hasil

yang positif dengan rata-rata Presisi dari 35%. Pengaruh ukuran thesaurus pada kualitas yang

cocok adalah statis tidak signifikan; Namun, faktor lain yang mempengaruhi output dan nilai

yang tepat dari perubahan masih dalam fokus penelitian masa depan kita.

BAB I

PENDAHULUAN

1. Latar Belakang

Selama lebih dari dua dekade, thesaurus yang dimanfaatkan dalam berbagai aplikasi

IR. Sebagai contoh, digunakan dalam klasifikasi dokumen web, peringkasan, pengindeksan,

dan dalam menghitung kesamaan semantik dokumen tertulis yang sama atau dalam bahasa

yang berbeda. Thesaurus juga digunakan untuk memecahkan masalah schema matching.

Baru-baru ini, thesaurus digunakan untuk memprediksi kesulitan query dalam domain medis.

Disimpulkan bahwa kinerja prediktor yang mempengaruhi dengan banyak faktor seperti

cakupan kualitas thesaurus atau query mapping. Penelitian sebelumnya diasumsikan bahwa

tidak ada thesaurus umum seperti yang cakupan yang cukup tersedia, sehingga penggunaan

dan dampak thesaurus tidak dipelajari secara luas. Namun, thesaurus berkualitas tinggi yang

tersedia untuk beberapa domain tertentu, juga banyak thesaurus dengan kemampuan cakupan

dan ukuran ditemukan dalam domain yang sama. Seperti setiap kosakata terkontrol lainnya,

thesaurus dapat digunakan kembali dan diganti (yaitu dapat digunakan kembali dalam aplikasi

yang berbeda dan dapat diganti dengan thesaurus lain yang kompatibel).

Thesaurus dengan domain yang spesifik lebih sering dipakai seperti WordNet dalam

penelitian ini karena sudah digunakan dalam bidang ini seperti yang ditunjukkan dalam

paragraf berikutnya, apalagi penelitian ini adalah mempelajari pengaruh ukuran domain

thesaurus khusus untuk domain tunggal. Informasi dan sistem database, skema ini berdiri

sebagai himpunan formula (kumpulan meta-data) yang dikenakan pada data dalam database.

Formula ini (juga disebut batasan integritas) diterapkan untuk memastikan kompatibilitas dan

menggambarkan organisasi dan hubungan antara bagian dan entitas database.

Pentingnya mempelajari pengaruh ukuran thesaurus berasal dari kebutuhan vital solusi

otomatis efektif dan lengkap, karena ekspansi yang cepat dari area aplikasi yang thesaurus dan

kosa kata lain tools dapat dimanfaatkan seperti pengolahan bahasa alami dan pencarian

informasi. Misalnya, schema matching yang terbentuk diawal dan langkah penting menuju

integrasi data, namun, banyaknya hal umum dan domain kosa kata serta tools pembahasaan

spesifik yang dapat digunakan, membuat sulit untuk memilih salah satunya dari sumber lain

karena fitur seperti ukuran (size) dan cakupan dari tools tersebut yang tidak ditentukan.

1.1. Keterkaitan Schema Matching

Schema Matching, yang merupakan proses identifikasi korespondensi semantik, atau

menemukan unsur-unsur yang setara antara dua atau lebih skema masih merupakan area

penelitian terbuka sejak lebih dari dua dekade. Ini bukan hanya karena matching skema adalah

salah satu operasi dasar dalam banyak aplikasi seperti integrasi data, data warehousing, dan

pemrosesan query semantik, tetapi juga karena itu adalah masalah yang semakin penting serta

ketidakpastian dalam hasil teknik schema matching. Banyak pendekatan dan tools yang

digunakan untuk memecahkan masalah skema yang cocok seperti Cupid, LSD, dan Corpus.

Selain itu, banyak survei dan klasifikasi diterbitkan. Beberapa fitur proses matching tidak

dalam fokus pendekatan yang diusulkan, dan aspek-aspek seperti struktur, elemen, linguistik,

dan model data yang dibahas secara luas. Berikut ini adalah ringkasan dari teknik yang

digunakan dalam pendekatan matching skema.

Banyak teknik yang digunakan untuk melaksanakan proses matching, teknik Mesin-

learning yang digunakan dalam, pendekatan berbasis pelajar berisi modul belajar dan modul

khusus untuk peserta didik langsung, yang merupakan masalah pemetaan ontologi. Sebagian

besar tools matching skema saat ini. Pendekatan ini menggunakan jaringan saraf keuntungan

untuk mengetahui kesamaan antara sumber data. Dalam karakteristik berorientasi objek yang

dimanfaatkan untuk menentukan pemetaan antara sumber data atribut. Masalah matching tidak

diselesaikan dengan menggunakan pendekatan ini juga banyak karya yang diusulkan

menggunakan metadata. Namun, itu bergeser ke masalah lain menggunakan aturan untuk

melaksanakan matching, dengan menggunakan informasi seperti nama elemen dan deskripsi,

tipe data, struktur hirarki, dan kendala. Mereka digunakan dalam menentukan kesamaan baik

di tingkat elemen atau tingkat skema. Metode matching berbasis aturan skema yang paling

efektif biasanya terdiri dari tiga tahap yang linguistik, constraint-based, dan matching

struktural.

Pada tahap linguistik, metode tergantung pada pencocokan string pada umumnya untuk

mengetahui kesamaan antara nama elemen. Skema matcher saat ini biasanya menggunakan

WordNet, database besar Inggris yang mempertimbangkan hubungan semantik antara elemen

label. Namun, biasanya yang algoritma dalam kategori penggunaan metode gabungan ini.

Maksudnya adalah untuk mendapatkan kesamaan yang tinggi, metode label normalisasi dan

juga untuk meningkatkan pencocokan skema. Cupid matcher memanfaatkan pencocokan

linguistik secara komprehensif dan efisien untuk menghasilkan kesamaan yang tinggi. Hasil

yang salah yang diperoleh dari fase pencocokan linguistik biasanya disesuaikan dalam tahap

pencocokan berbasis constraint. Jenis data constraint, metode pengukuran tipe data

kompatibilitas biasanya digunakan sebagai solusi awal hasil yang salah atau ambigu dari fase

pencocokan linguistik. Tahap pencocokan struktural digunakan untuk memecahkan masalah

konteks kesamaan, masalah ini umumnya muncul dalam XML pencocokan skema mana

dokumen struktur dan constraint pada node dan tepi berbeda dari skema rasional menjelaskan

masalah tersebut secara rinci.

Berdasarkan kesimpulan, jurnal ini mempelajari pengaruh ukuran thesaurus (dalam

aspek jumlah hal, jumlah timbal-segi, dan jumlah hubungan lintas) hasil schema matching

menggunakan thesaurus.

1.2. Tujuan Penelitian

Merujuk pada latar belakang diatas, adapun tujuan yang dari jurnal ini adalah sebagai

seperti yang dipaparkan dibawah ini :

1.2.1. Menyajikan sebuah studi eksperimental mengenai pengaruh ukuran (size) thesaurus

pada kualitas schema matching. Tiga ukuran agricultural thesaurus yang berbeda yang

digunakan serta dibandingkan, dan hasilnya dievaluasi melalui beberapa fungsi

objektif.

1.2.2. Sebuah metode baru untuk menghitung kesamaan antara vektor diekstrak dari

thesaurus.

1.2.3. Selain itu, jurnal ini menjelaskan secara rinci banyak aspek teknis yang harus

dipertimbangkan ketika menggunakan thesaurus.

1.2.4. Hasil percobaan menunjukkan bahwa pengaruh ukuran thesaurus dalam kualitas yang

cocok secara statistik tidak signifikan. Namun, kenaikan dalam rata-rata kesamaan

dengan nilai-nilai tertentu.

1.3. Batasan Masalah

Penelitian ini mempelajari pengaruh ukuran thesaurus pada kualitas schema matching,

dengan memanfaatkan tiga thesaurus dari domain agricultural untuk melaksanakan proses

matching pada tingkat elemen, dan hasilnya dianalisis dalam perspektif yang berbeda. Oleh

karena itu, beberapa persepsi lain seperti konstruksi thesaurus dan evaluasi, hasil (Presisi,

Ingat, dan F-measure) optimasi, dan kompleksitas metode tidak dalam lingkup penelitian ini.

Dalam jurnal ini, Bab 2 menjelaskan metodologi. Bab 3 menyajikan setup studi. Bagian 4

menunjukkan hasil serta pembahasan hasil. Akhirnya, pekerjaan ini disimpulkan dalam

Bagian 5.

BAB II

METODOLOGI

2. Schema Matching Berdasarkan Analisis Linguistik dengan Thesaurus

Jurnal ini mempelajari dampak dari ukuran thesaurus pada kualitas schema matching.

Metodologi yang diterapkan berdasarkan pemanfaatan thesaurus untuk melakukan proses

matching. Gambar 1 menunjukkan kerangka metodologi, dan sub-bab berikutnya

menjelaskannya secara rinci.

Metode ini terdiri dari tiga tahap utama seperti yang ditunjukkan pada Gambar 1. Pada

fase satu, dua skema (Sx and Sy) merupakan bagian dari input dari proses (Apply Thesaurus),

thesaurus adalah bagian lain dari input untuk proses ini, dan output dari (Apply Thesaurus)

proses dua set vektor dari istilah (Sx mass and Sy mass). Kedua set vektor akan membentuk

masukan dari fase dua, yang (Menghitung Kesamaan Matrix) untuk menghasilkan Matrix

Similarity (SM) antara elemen skema. Tahap ketiga (Ekstrak Mapping Akhir) yang

menggunakan SM sebagai masukan untuk menghasilkan daftar pemetaan akhir. Algoritma dan

rincian dari fase ini dijelaskan dalam sub-bab berikut.

2.1. Metodologi

Seperti yang ditunjukkan pada Gambar 1, thesaurus digunakan dalam memecahkan

masalah schema matching di tingkat elemen berdasarkan analisis tekstual dari elemen deskripsi

(definisi) dari skema input (Skema Satu dan Skema Dua). Setiap skema masukan berisi

sejumlah elemen, untuk tujuan singkatan dan algoritma menulis skema ini disebut sebagai Sx

dimana x 2 {1, 2}. Selain itu, jumlah elemen dalam skema ini disebut sebagai n dan m. Berikut

ini adalah penjelasan rinci dari tiga fase metode ini.

2.2. Fase Pertama

Fase ini meliputi banyak langkah pre-processing seperti menghapus kata stop,

menghapus nomor, dan karakter yang tidak cocok dengan bahasa thesaurus dan konten. Proses

utama dalam fase ini (Menerapkan Thesaurus). Output dari tahap ini adalah dua set vektor

istilah (massa) di mana setiap vektor merupakan salah satu element dalam skema.

Menerapkan proses thesaurus: dalam proses ini, thesaurus diterapkan pada deskripsi

elemen tekstual, satu per satu untuk kedua skema S1 dan S2. Menerapkan thesaurus berarti

mencari setiap kata dari teks (yaitu deskripsi elemen) ke dalam database thesaurus dan

mengambil istilah terkait dari thesaurus, untuk membangun massa istilah yang terkait dengan

kata yang sedang diproses; massal ini dilambangkan dengan massw pada Algoritma 1.

Algoritma 1. Menerapkan Thesaurus pada Algoritma Deskripsi Elemen

Masa yang berbeda massw(s) kemudian terakumulasi pada tingkat elemen menjadi satu

massa (element_mass) yang mewakili Hasil Menerapkan Thesaurus (RAT) pada elemen ei

dari skema (RATeiSx) sebseperti terlihat pada Algoritma 1. Tahap ini berisi proses pencarian

luas karena proses Menerapkan Thesaurus dilakukan untuk setiap istilah dalam setiap

deskripsi di kedua skema, atau majemuk. Algoritma pencarian diterapkan pada fase ini

dijelaskan dalam Bagian 2.5, dan fungsi (get_related_terms (w)) yang digunakan untuk

mengambil semua yang terkait dengan istilah (w) dari database dijelaskan dalam Bagian 2.6.

2.3. Fase Kedua

Pada fase ini, dua vektor hasil tahap sebelumnya digunakan sebagai input

(Menghitung Kesamaan Matrix) proses. Kesamaan antara Hasil Menerapkan Thesaurus

(RAT) dari setiap elemen dari S1 dengan semua RATs dari elemen S2 dihitung untuk

menghasilkan matriks kesamaan. Algoritma yang digunakan dalam menghitung kesamaan

matriks ditunjukkan pada Algoritma 2.

Algoritma 2. Menghitung Kesamaan Algoritma Matriks

Kesamaan antara dua elemen ditentukan berdasarkan persamaan berikut:

Kesamaan

Dimana RAT adalah hasil penerapan thesaurus pada elemen. Kesamaan dalam

Persamaan. (1) menganggap vektor sebagai set elemen duplikat yang tidak diperbolehkan.

Karena vektor mewakili semua hal dari thesaurus terkait dengan elemen (ei|ej) dari skema

(Sx|Sy), maka frekuensi istilah tidak dianggap karena salah satu

Istilah dari thesaurus akan muncul dalam hasil vektor karena berkaitan dengan banyak

hal dalam hubungan yang berbeda. Selain itu, kepentingan ukuran kesamaan dalam

Persamaan. (1) adalah perbedaan antara dua massa istilah diekstrak dari thesaurus untuk teks

tertentu. Tidak seperti beberapa pengukuran kesamaan lain seperti persamaan kosinus dimana

frekuensi dari istilah memperhitungkan frekuensi dari banyaknya error (elemen serasi) seperti

dalam pengukuran jarak Hamming.

Gambar 2 menunjukkan contoh menghitung kesamaan antara dua elemen. Kesamaan

dihitung antara kombinasi semua elemen yang mungkin pasangan, dan disimpan dalam

Matrix Similarity. Untuk tujuan evaluasi, Kesamaan antara deskripsi dua elemen juga

dihitung dengan menggunakan persamaan kosinus. Persamaan kosinus antara dua vektor

(eiSx, ejSy) didefinisikan sebagi berikut :

Persamaan Kosinus

Dimana eiSx, ejSy adalah hasil dari vector dengan menerapkan Thesaurus pada elemen

i dari skema Sx dan elemen j dari skema Sy masing-masing, dan w adalah kata dari vector e.

Nilai-nilai dalam matriks kesamaan yang dinormalisasi berdasarkan rumus transformasi linear

berikut:

Dimana Xn = nilai X baru (setelah normalisasi), X0 = nilai saat ini pada X (sebelum

normalisasi), Xmin = nilai minimal dari X pada persamaan matriks, dan Xmax = nilai maksimal

dari X pada persamaan matriks.

2.4. Fase Ketiga

Pada fase ini, persamaan matriks atau similarity matrix (SM) yang dihasilkan dari fase

dua digunakan sebagai masukan untuk (Ekstrak Mapping Akhir) proses yang menghasilkan

set mapping akhir. Pendekatan nilai maksimum dan kedua diterapkan dalam penggalian

pemetaan akhir seperti yang ditunjukkan pada Algoritma 3.

Algoritma 3. Menghitung Persamaan Matriks

Dalam algoritma ini, yang matching (mapping) antara dua elemen (satu di header baris

dan lainnya di header kolom) dianggap jika nilai kesamaan dalam cross sel adalah nilai

maksimum dalam matriks. Kemudian semua nilai dalam baris dan kolom yang diatur ke nol.

Proses ini akan diulang sampai semua nilai kesamaan dalam matriks menjadi nol atau kurang

dari nilai ambang batas. Masalah kriteria ini akan muncul ketika nilai maksimum tidak unik

dalam matriks kesamaan dan lebih dari satu dari maksimum nilai kejadian ditemukan pada

baris yang sama atau kolom yang sama, hal ini mengharuskan kita untuk memeriksa nilai

maksimum kedua matriks di mana nilai maksimum kedua dianggap sebagai mapping.

2.5. Mencari Database Thesaurus

Mencari Database thesaurus merupakan salah satu proses utama yang dilakukan di

semua aplikasi yang menggunakan thesaurus baik di bagian utama atau sebagai alat bantu.

Dalam thesaurus penelitian ini digunakan sebagai inti dari proses matching. Thesaurus

diaplikasikan pada semua elemen deskripsi tekstual. The get_related_terms Prosedur

(disebutkan dalam Algoritma 1) berisi proses pencarian yang luas dalam database thesaurus,

karena kebutuhan untuk mencari setiap istilah dari teks ke database thesaurus. Istilah ini

mungkin satu kata atau beberapa kata (juga disebut istilah majemuk), meskipun thesaurus

mengandung istilah satu kata dan istilah majemuk juga.

Pendekatan langsung untuk menangani kasus tersebut adalah metode brute force

dimana teks dilalui dengan mempertimbangkan jangka sebagai salah satu kata dalam putaran

pertama, dan kemudian melintasi diulang dengan mempertimbangkan jangka sebagai kata

ganda, dan sebagainya. Melintasi teks akan berhenti ketika jumlah kata dalam istilah dari teks

melebihi jumlah kata-kata dalam jangka terpanjang di database thesaurus. Algoritma brute

force adalah algoritma pencarian kurang efisien. Sebuah algoritma pencarian yang efisien

diterapkan untuk melaksanakan proses ini. Algoritma 4 menunjukkan algoritma diterapkan

digunakan untuk mengurangi waktu yang dibutuhkan untuk mencari teks ke dalam database

thesaurus. Algoritma ini dibahas secara rinci.

Algoritma 4. Mencari Text dalam Thesaurus Database

Ide utama dari Algoritma 4 adalah untuk mencari kata (w) ke dalam vektor indeks dari

thesaurus bukan mencari kata (w) ke dalam istilah tabel thesaurus yang pasti mengandung

banyak istilah majemuk. Indeks vektor thesaurus adalah vektor yang berisi khas pertama tanda

istilah atau istilah senyawa thesaurus. Dua manfaat yang diperoleh dari langkah ini: Pertama,

setelah

(W) ditemukan dalam indeks, maka pasti ada satu atau lebih mentah (istilah satu kata

atau istilah majemuk) di thesaurus dimulai dengan kata itu. Jika tidak, tidak ada kebutuhan

untuk melihat ke dalam thesaurus untuk setiap istilah majemuk yang dimulai dengan kata (w).

Karena pasti tidak ada istilah majemuk dimulai dengan kata tertentu. Kedua, sebagai hasil dari

menemukan (w) dalam indeks, set panjang istilah senyawa dalam thesaurus yang dimulai

dengan (w) - langkah nomor tiga dalam algoritma 3 - dapat didefinisikan, sehingga daftar istilah

kata majemuk panjang yang dibutuhkan dari teks mulai dari kata yang dipertimbangkan dapat

dibangun.

2.6. Mengambil Istilah Mass dari Thesaurus Database

Akhirnya, setelah istilah ini ditemukan dalam database thesaurus, sebagaimana

disebutkan dalam Algoritma 1, get_related_terms fungsi (w) dipanggil untuk mengambil

massa istilah dari database thesaurus dengan mengeksekusi banyak pertanyaan yang dinamis

hirarkis seperti query di bawah ini. Massa jangka istilah didefinisikan sebagai semua istilah

dalam database yang terhubung ke istilah dengan salah satu hubungan thesaurus, diantaranya

istilah Boarder terms, Narrow Terms, Related Terms, and the Preferred Terms.

Gambar 1. Kerangka Metodologi

Gambar 2. Contoh dari Perhitungan Persamaan diantara Dua Elemen

(1) dan (2) digunakan untuk mengambil PREFERED dan istilah terkait masing-masing dengan

menggunakan query pada umumnya yakni SELECT sebagai struktur pernyataan, namun query

(3) dan (4) merupakan hirarki (rekursif) query yang mengambil istilah terhubung dengan

Boarder and Narrow relation.

2.7. Evaluation dan Rangking

Mengukur (measure) kualitas presisi, recall, dan F-measure seperti yang didefinisikan

dalam digunakan untuk mengevaluasi kualitas matching skema dengan thesaurus yang

berbeda. Presisi, ingat, dan F-measure yang digunakan dalam IR domain, namun umumnya

digunakan untuk evaluasi pencocokan skema. Selain itu, dalam kasus matching umum antara

manual dan otomatis, kualitas kesamaan keseluruhan dibandingkan berdasarkan dua

pendekatan; pertama, perbandingan berdasarkan nilai maksimum, dan kedua adalah

perbandingan berdasarkan nilai rata-rata untuk menunjukkan peningkatan dalam kesamaan

keseluruhan matching umum di antara thesaurus digunakan.

Untuk menghitung presisi, recall, dan F-measure matching pengguna yang dihasilkan

menjadi ahli domain seperti di dianggap, maka untuk setiap percobaan set positif sejati (TP),

positif palsu (FP), dan negatif palsu (FN) ditentukan.

Gambar 3. Contoh Skema pada Suatu Percobaan

Berdasarkan set ini langkah-langkah kualitas dihitung sebagai berikut:

BAB III

STUDY SET-UP

3. Study Set-Up

3.1. Domain

Banyak penelitian sebelumnya pada schema matching seperti penggunaan skema dari

domain dari E-commerce. Namun ada banyak hambatan untuk menggunakan skema ini dalam

penelitian ini; misalnya, skema ini tidak menyertakan deskripsi tekstual dari unsur-unsurnya,

dan tidak ada thesaurus tersedia untuk E-commerce domain. Data dari domain agricultural yang

digunakan sebagai dataset.

Domain pengetahuan agricultural telah sangat berkembang selama beberapa dekade

terakhir. Informasi kurang pada ukuran yang tepat dari domain pengetahuan ini ditemukan.

Namun, informasi tion pertanian diwakili dalam banyak format yang dapat dibaca mesin oleh

organisasi global yang berbeda. National Agricultural Library Thesaurus (NALT) adalah

thesaurus yang dikembangkan oleh National Agricultural Library (NAL) dari Amerika Serikat

Departemen Agricultural. Ketika dirilis untuk pertama kalinya mengandung 42.326 deskriptor

dan 25.985 deskriptor non disusun dalam 17 kategori subjek. Saat ini berisi lebih dari 98.000

istilah dan tersedia dalam dua bahasa-bahasa (bahasa Inggris dan Spanyol). AGROVOC adalah

thesaurus multibahasa dirancang awal 1980-an oleh Organisasi Pangan dan Pertanian

Perserikatan Bangsa-Bangsa (AGROVOC Thesaurus) untuk menutupi mitology bahasa dari

semua bidang subjek di bidang pertanian, kehutanan, perikanan, makanan dan domain terkait.

Edisi terbaru dari AGROVOC berisi lebih dari 32.000 konsep. Cina Agricultural Thesaurus

(CAT) adalah thesaurus pertanian terbesar di Cina yang dikelola oleh AII dari CAAS. Ini berisi

lebih dari 63.000 konsep kebanyakan dari mereka memiliki terjemahan bahasa Inggris.

3.2. Dataset

Dataset yang digunakan dalam percobaan ini terdiri dari dua skema. Setiap skema

mewakili satu set 23 program studi yang ditawarkan oleh universitas. Kursus data

direpresentasikan sebagai file XML skema (Xsd). Gambar 3 menunjukkan bagian dari file

skema. Dalam file skema, masing-masing (

Set satu: Sx = (ex0, ex1, ex2, ... , ex22), dan

Set dua: Sy = (ey0, ey1, ey2, ... , ey22),

Program deskripsi di kedua set diolah dan dianalisis menggunakan thesaurus yang berbeda

dalam domain yang sama, bagian berikutnya menjelaskan lebih lanjut tentang thesaurus

digunakan.

3.3. Thesauri

Tiga agricultural thesaurus yang digunakan. Dua di antaranya adalah versi yang

berbeda dari thesaurus yang sama. Thesaurus ini The Thesaurus 2008 Edisi National

Agricultural Library (disebut NAL2008), The 2012 Edisi National Agricultural Library

(disebut NAL2012), dan thesaurus disajikan oleh Organisasi Pangan dan Pertanian

Perserikatan Bangsa-Bangsa (disebut AGROVOC). Semua thesaurus yang didownload dari

internet, dan diproses oleh alat khusus untuk memenuhi lingkungan eksperimen.

3.3.1. Thesaurus Pre-Processing

NAL thesaurus serta AGROVOC thesaurus bebas untuk men-download dari situs

resmi mereka dalam berbagai format seperti XML, RDF-skos, PDF, MARC, teks biasa untuk

NAL Thesaurus dan XML, skos, MYSQL, Protege DB, OWL dan ISO2709 untuk

AGROVOC thesaurus. Pre-processing thesaurus tergantung pada format yang digunakan

sesuai, Dalam penelitian ini format XML-skos digunakan, sampel konsep thesaurus

''Chamidae'' ditunjukkan pada Gambar 4 karena muncul dalam thesaurus download format

XML-SKOS. Thesaurus ditransformasikan ke dalam database rasional berdasarkan standar

Inggris 8723 model data dan perluasan model dalam Gambar 5 menunjukkan bagian dari

class diagram model data thesaurus seperti:

Gambar 4. Contoh Thesaurus pada format XML-SKOS

Gambar 5. Class Diagram dari Thesaurus data model dengan adaptasi dari standart british

Langkah-langkah umum pra-pengolahan dirangkum dalam langkah-langkah berikut:

Langkah 1: Extrak dan save terms dari identifiers.

Langkah 2: Extrak dan save terms dari relations.

Langkah 3: Interconnect terms dengan relasi yang sudah di ekstrak.

Langkah 4: Buat terms index (untuk menerapkan metode pencarian yang efisien).

3.3.2. Statistik Thesaurus

Tabel 1 menunjukkan spesifikasi utama dari thesaurus yang digunakan dalam

percobaan penelitian ini. Dari Tabel 1, terlihat bahwa NAL2012 berisi jumlah terbesar istilah,

lead-in terms, dan cross relations, sementara AGROVOC memiliki sedikitnya jumlah semua

spesifikasi. Spesifikasi thesaurus lainnya, seperti ''Jumlah Kata-kata dalam Istilah'' juga harus

dipertimbangkan dalam pengukuran kinerja thesaurus. properti ini mempengaruhi kecepatan

menghitung kesamaan. Gambar 6 menunjukkan persentase istilah yang berisi satu, dua, tiga,

dan empat atau lebih kata-kata istilah di setiap thesaurus digunakan dalam percobaan. Hal ini

dapat dilihat dari Gambar 6 bahwa untuk semua thesaurus digunakan, salah satu hal yang kata

kurang dari 35% sedangkan periode yang tersisa adalah istilah majemuk (yaitu hal terdiri dari

dua kata atau lebih). Seperti disebutkan sebelumnya jumlah kata dalam istilah mempengaruhi

kecepatan perhitungan kesamaan yang berarti bahwa algoritma yang efisien diperlukan untuk

melaksanakan pekerjaan ini.

Tabel 1

Spesifikasi Thesauri

Gambar 6. Persentasi dari terms oleh satu kata terms dan terms majemuk

Gambar 7. Thesauri overlapping

Gambar 8. GUI dari Aplikasi Schema Matching

Sedangkan versi yang berbeda dari thesaurus NAL dan thesaurus AGRO-VOC yang

digunakan dalam penelitian ini, thesaurus ini tumpang tindih dengan satu sama lain. Gambar

7 menunjukkan jumlah istilah tumpang tindih dan rasio relatif terhadap jumlah total istilah

khas di semua thesaurus.

Jumlah istilah khas di semua thesaurus adalah 117.304 istilah. Seperti yang

ditunjukkan pada Gambar 7, rasio terbesar tumpang tindih terjadi antara NAL2008 dan

NAL2012, yang versi yang berbeda dari thesaurus yang sama. Namun, istilah conjoint antara

semua thesaurus dekat dengan 10% dari total jumlah istilah. Penelitian ini mempertimbangkan

kurang memperhatikan pengaruh yang tumpang tindih.

3.4. Eksperimen Lingkungan dan Aplikasi

Untuk melaksanakan eksperimen, database Oracle dengan aplikasi Java yang

dikembangkan terutama untuk tujuan yang terpasang. Gambar 8 menunjukkan antarmuka dari

aplikasi Java. Aplikasi ini memiliki fasilitas untuk memvalidasi skema dimuat, dan untuk

mengekstrak nama elemen dan deskripsi tekstual dalam format pohon sebelum memulai proses

pencocokan. Kesamaan matriks dan pemetaan akhir dapat juga disimpan ke sistem file.

BAB IV

HASIL, PEMBAHASAN DAN ANALISA

4. Hasil

Dua set program yang digunakan dalam percobaan secara manual matching dengan

seorang ahli, hasil Matching manual dan otomatis percobaan ditunjukkan pada Tabel 2. Pada

Tabel 2 nilai kesamaan didasarkan pada persamaan. (1) dibahas dalam Bagian 2.3. Sub-tabel

(a) merupakan matching manual dengan domain Ahli, dan sub-tabel (b) merupakan matching

otomatis berdasarkan NAL2008 thesaurus, sedangkan sub-tabel (c) dan (d) merupakan

matching otomatis berdasarkan NAL2012 dan AGROVOC thesaurus masing-masing. Hasil

pencocokan dapat divisualisasikan seperti pada Gambar. 9. Pada Gambar. 9, angka-angka pada

sumbu x dan y-axis merupakan jumlah elemen dalam skema, sedangkan gelembung mewakili

matching antara unsur-unsur, misalnya, ada pencocokan antara elemen 5 dari skema 1 dan

elemen 16 dari skema 2 dalam manual pencocokan. Nomor dalam kurung merupakan jumlah

elemen dalam skema 1 dan skema 2 masing-masing; ukuran gelembung merupakan nilai

kesamaan antara dua elemen. Untuk matching yang umum di kalangan pengguna pencocokan

dan otomatis yang, gelembung tampaknya lebih-tindih seperti untuk pasangan (6,15) dan (1,0)

dan lain-lain. Tabel kontingensi hasil otomatis relatif terhadap matching pengguna ditunjukkan

pada Tabel 3. Tabel 3 menunjukkan jumlah distribusi matching pasang dihasilkan oleh masing-

masing thesaurus relatif terhadap pencocokan manual. Sebagai contoh, dalam percobaan

berdasarkan NAL2008, sementara 16 pasang dicocokkan otomatis tidak benar, dan 6 pasang

yang tidak benar tidak cocok. Namun, jumlah pasangan dalam sel persimpangan baris total dan

kolom jumlah mewakili kemungkinan jumlah permutasi dari matching antara skema elemen.

4.1. Pembahasan dan Analisa

Sub-bab ini membahas hasil dari berbagai sudut pandang.

4.1.1. Pembahasan dari Precision, Recall, dan Hasil F-measures

Precision, recall, and F-measure untuk setiap percobaan dihitung relatif terhadap

matching manual, menggunakan tabel kontingensi (Tabel 3) dimana set TP, FP, dan FN adalah

sebagai berikut:

Tabel 2

Persamaan Matching berdasar pada Thesaurus berbeda

Gambar 9. Hasil dari Matching Manual dan Otomatis

Tabel 3

Tabel kontingensi dari matching otomatis hasil relatif terhadap hasil manual.

TP: himpunan pasangan yang matching secara manual dan otomatis.

FP: himpunan pasangan yang matching secara manual tapi tidak secara otomatis.

FN: himpunan pasangan yang matching secara otomatis tetapi tidak secara manual.

Tabel 4 merangkum hasil Precision, recall, and F-measure untuk eksperimen:

Dua pernyataan utama dapat melihat dari Tabel 4. Salah satunya adalah nilai-nilai Precision,

recall, and F-measure rendah. Teknik yang diusulkan tergantung pada mencari kata-kata dari

deskripsi elemen dalam thesaurus. Dalam percobaan kata-kata yang tepat yang dicari dan tidak

ada teks pre-processing yang diterapkan, sehingga singkatan, salah eja kata, angka ditulis

sebagai kata-kata, tanda baca yang tidak pantas dikandung oleh teks tidak akan memberikan

kontribusi pada hasil pencarian. Misalnya, baris 4 di Gambar 3 berisi ekspresi

(horticulture.Emphasis) yang dianggap sebagai satu kata (karena tidak ada ruang antara kata-

kata), namun, akan diakui sebagai dua istilah pencarian jika pengganti tanda baca diterapkan.

Untuk mengatasi masalah ini, beberapa teknik bisa diterapkan seperti teks pre-processing,

validasi kamus, pengganti tanda baca, dan ekspansi teks berdasarkan alat kosakata.

Kedua, dapat dilihat bahwa penggunaan thesaurus kaya (di ciri-ciri), yang NAL2012,

tidak menyebabkan hasil presisi dan recall yang lebih tinggi. Namun, penggunaan AGROVOC

thesaurus yang memiliki istilah yang lebih sedikit, memimpin-dalam hal, dan lintas-hubungan

menyebabkan presisi hukum dan mengingat nilai-nilai. Gambar 10 menunjukkan Precision,

recall, and F-measure dan jumlah istilah dalam setiap thesaurus.

Tabel 4

Precision, recall, and F-measure untuk matching otomatis

Gambar 10. Precision, recall, and F-Measure Untuk Thesauri yang Berbeda

Tabel 5

Hasil matching umum dari NAL2008 thesaurus dan NAL2012 thesaurus.

Gambar 11. Nilai-nilai persamaan matching umum antara NAL2008 dan NAL2012

As seen from Gambar 10, the precision was the least in case of using AGROVOC

thesaurus; AGROVOC has the least number of terms among thesauri used. However, in case

of using NAL2008 the precision is the highest while the number of terms in NAL2008 is not

the largest. In contrast, when using NAL2012, which has most number of terms, the

precision was not the highest. Recall and F measure behave as the same as precision, which

mean that the highest values of recall and F measure was recorded with NAL2008 and

lowest values were recorded with AGROVOC thesaurus.

4.1.2. Hasil Pembahasan dari Matching Umum

Sub-bagian ini membahas hasil matching antara thesaurus yang berbeda, diantaranya

sebagai berikut:

Gambar 12. Perbedaan Absolut dan Rata-Rata Matching Umum dari NAL2008 dan NAL2012

Gambar 13. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum Matching Umum dari

NAL2008 dan NAL2012

Gambar 14. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata Matching Umum dari

NAL2008 dan NAL2012

4.1.2.1. Hasil Pembahasan Matching Umum NAL2008 and NAL2012 Thesauri

Tabel 5 menampilkan matching umum antara hasil dengan menggunakan

NAL2008 Thesaurus and NAL2012 Thesaurus:

Dari Tabel 5, terlihat bahwa persamaan matching ketika menggunakan NAL2012

Thesaurus meningkat atau tetap konstan di 70% dari matching biasa. Matching umum antara

NAL2008 dan NAL2012 lebih dari 40% dibandingkan dengan jumlah elemen dalam Sx.

Gambar 11 menunjukkan hasil menggunakan NAL2008 dan NAL2012, sedangkan Gambar 12

menunjukkan rata-rata perbedaan absolut antara nilai-nilai persamaan.

Hal ini dapat dilihat dari Gambar 11 bahwa kesamaan saat menggunakan NAL2012

adalah sama dengan atau lebih dari kesamaan ketika menggunakan NAL2008 di 70% dari

matching biasa. Seperti yang terlihat dari Gambar 11, Kesamaan tidak meningkat untuk semua

matching yang umum ketika menggunakan thesaurus dengan istilah yang lebih, lead-in terms,

dan cross-relations. Seperti disebutkan dalam Bagian 2.6, dua pendekatan yang digunakan

untuk menentukan nilai kesamaan keseluruhan untuk masing-masing kelompok umum;

pendekatan ini adalah kesamaan rata dan nilai kemiripan maksimum. Hal ini dapat dilihat dari

Tabel 5 bahwa pendekatan Maksimum mengarah ke peningkatan dalam rata-rata kesamaan

dengan 0.059 dan 0.028 untuk percobaan menggunakan NAL2008 dan NAL2012 berturut-

turut. Gambar 13 menunjukkan pendekatan rata dibandingkan nilai pendekatan maksimum,

sedangkan Gambar 14 menunjukkan peningkatan pendekatan Maksimum atas pendekatan rata-

rata.

Gambar 15. Nilai-nilai kesamaan matching umum antara NAL2008 dan AGROVOC.

4.1.2.2 Hasil Pembahasan Matching Umum NAL2008 and AGROVOC thesauri.

Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008

thesaurus dan AGROVOC thesaurus.

Tabel 6

Matching umum dari hasil menggunakan NAL2008 thesaurus dan AGROVOC thesaurus.

Gambar 16. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2008 dan

AGROVOC.

Gambar 17. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara

NAL2008 dan AGROVOC.

Gambar 18. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara


4.1.2.3. Hasil Pembahasan Matching Umum NAL2008 dan AGROVOC Thesauri

Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008 dan AGROVOC.

Gambar 19. Nilai Persamaan dari Matching Umum Antara NAL2008 dan AGROVOC.

Dari Tabel 6 dapat dilihat bahwa kesamaan matching ketika menggunakan

AGROVOC thesaurus, yang merupakan the least in terms, lead-in terms, dan cross-relationals

meningkat atau tetap konstan di 50% dari matching biasa. Matching bersama sekitar 1%

dibandingkan dengan jumlah elemen di Set 1. Gambar 15 menunjukkan hasil menggunakan

NAL2008 dan AGROVOC, sedangkan Gambar 16 menunjukkan rata-rata perbedaan absolut

antara nilai-nilai kesamaan.

Tabel 6 menunjukkan bahwa kesamaan ini tidak menurun untuk semua matching

umum ketika menggunakan thesaurus the least in terms, lead-in terms, dan cross-relationals.

Menggunakan pendekatan Maksimum meningkatkan rata-rata kesamaan dengan 0,112 dan

0,103 untuk percobaan menggunakan NAL2008 dan AGROVOC berturut-turut seperti yang

ditunjukkan pada Tabel 6. Gambar 17 menunjukkan Pendekatan Rata-Rata dibandingkan

Nilai Pendekatan Maksimum dari Matching Antara NAL2008 dan AGROVOC,

sedangkan Gambar 18 menunjukkan Peningkatan Pendekatan Maksimum atas Pendekatan

Rata-Rata dari Matching Antara NAL2008 dan AGROVOC.

4.1.2.4. Hasil Pembahasan Matching Umum NAL2012 dan AGROVOC Thesauri.

Tabel 7 menunjukkan matching umum antara hasil menggunakan NAL2012

thesaurus dan AGROVOC thesaurus. Tabel 7 menunjukkan bahwa kesamaan matching

ketika menggunakan NAL2012 Thesaurus yang memiliki the least in terms, lead-in terms,

dan cross-relationals dari AGROVOC, meningkat atau tetap konstan di 50% dari matching

biasa, matching umum adalah sekitar 1% relatif terhadap jumlah elemen di Set 1. Gambar

19 menunjukkan hasil menggunakan NAL2012 dan AGROVOC, sedangkan Gambar 20

menunjukkan rata-rata perbedaan absolut antara nilai-nilai kesamaan:

Tabel 7

Matching umum dari hasil menggunakan NAL2012 thesaurus and AGROVOC thesaurus.

Gambar 20. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2012 dan

AGROVOC.

Gambar 21. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara


Gambar 22. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara


Tabel 8

Pasangan dua sisi hasil T-Test menggunakan matching umum.

Tabel 9

Kesamaan rata-rata matching umum antara AGROVOC dan thesaurus lainnya.

Terlihat dari Tabel 7 bahwa kesamaan ini tidak menurun untuk semua matching umum saat

menggunakan thesaurus dengan the least in terms, lead-in terms, dan cross-relationals

(AGROVOC). Menggunakan pendekatan Max meningkatkan rata-rata kesamaan dengan 0,004

dan 0,108 untuk percobaan menggunakan NAL2012 dan AGROVOC berturut-turut seperti

yang ditunjukkan pada Tabel 7. Gambar. 21 menunjukkan pendekatan rata dibandingkan nilai

pendekatan Maksimum, sementara Gambar. 22 menunjukkan peningkatan pendekatan

Maksimum lebih rata pendekatan.

4.1.3. Pembahasan Tes Signifikansi

Untuk mengevaluasi hipotesis bahwa ada perbedaan yang signifikan antara

kesamaan matching umum saat menggunakan thesaurus yang berbeda, pair-wise dua sisi T-

Test menggunakan matching umum di antara percobaan dilakukan. Tabel 8 menunjukkan

hasil T-Test.

Hal ini dapat dilihat dari hasil T-Test bahwa perbedaan kesamaan matching umum

adalah statistik tidak signifikan untuk setiap kombinasi digunakan thesaurus. Hasil ini

signifikan adalah karena ukuran sampel yang kecil, keterbatasan ukuran sampel berasal dari

domain percobaan. Untuk kombinasi pasangan (NAL2008-AGROVOC dan NAL2012-

AGROVOC) yangmana statistik T-Test adalah tidak berlaku karena ukuran sampel terlalu

kecil (2 sampel), namun dapat dilihat bentuk Tabel 6 dan 7 bahwa rata-rata persamaan

matching matching umum antara NAL2008 dan AGROVOC terlalu jauh lebih tinggi daripada

yang antara NAL2012 dan AGROVOC, seperti yang dirangkum dalam Tabel 9.

4.2. Perbandingan Perhitungan Metode Kesamaan

Bagian ini menyajikan perbandingan antara kesamaan perhitungan berdasarkan metode

perhitungan kesamaan yang diusulkan (yaitu Persamaan. (1) yang dijelaskan dalam Bagian 2.3)

dan pengukuran kesamaan kosinus umum. Oleh karena itu perbedaan persamaan dihitung

dengan setiap metode langsung hasil mapping akhir yang berbeda, karena penerapan

maksimum dan pendekatan nilai maksimum kedua. Di sub-bagian berikut, kesamaan matching

umum dan rata-rata kesamaan secara keseluruhan dibandingkan dan akan dibahas.

4.2.1. Perbandingan Persamaan dari Matching Umum

Untuk membandingkan kesamaan perhitungan dengan menggunakan metode yang

diusulkan dan kesamaan kosinus, matching umum untuk setiap thesaurus diekstraksi. Gambar.

23 menunjukkan perbandingan Dari Gambar. 23, terlihat bahwa nilai persamaan kosinus lebih

tinggi untuk semua matching yang umum untuk semua thesaurus. Alasan ini adalah bahwa

kesamaan kosinus mempertimbangkan kejadian jumlah kata (terms) dalam vektor, sedangkan

metode yang diusulkan berdasarkan operasi serikat yang menghilangkan efek dari kata-kata

berulang (terms) dalam vektor dan mempertimbangkan setiap kata sekali. Menggunakan

persamaan kosinus dalam pencocokan skema menggunakan thesaurus adalah mengarah ke

rasio kesamaan yang lebih tinggi, namun dalam skema otomatis matching kesamaan tinggi

antara dua elemen dapat menyebabkan matching salah karena unsur-unsur yang sangat mirip

akan dipasangkan.

Gambar 23. Perbedaan Persamaan dari Matching Umum

Gambar 24. Keseluruhan Perbandingan Persamaan

sebagai pencocokan pasangan, dan elemen-elemen ini tidak akan dipasangkan dengan

unsur-unsur lain. Metode pengukuran yang diusulkan kesamaan seperti yang disebutkan dalam

Bagian 2.3 tidak mempertimbangkan kejadian istilah tapi hanya keberadaan.

4.2.2. Keseluruhan Perbandingan Persamaan

Kesamaan rata-rata mspping akhir untuk setiap perbandingan thesaurus, Gambar 24

menunjukkan bahwa rata-rata kosinus memiliki kesamaan lebih tinggi dari rata-rata kesamaan

dihitung dengan metode yang diusulkan. Dari Gambar 24, dapat dilihat bahwa kesamaan

berdasarkan metode kosinus lebih tinggi dari kesamaan berdasarkan persamaan dibahas dalam

Bagian 2.3. Dalam persamaan kosinus, jumlah kejadian istilah dalam vektor meningkatkan

kesamaan. Bagaimanapun, metode yang diusulkan menghilangkan efek beberapa kejadian

istilah dalam vektor, sehingga kesamaan dihitung lebih rendah.

BAB V

PENUTUP

5.1. Simpulan

Dalam penelitian ini, thesaurus itu digunakan untuk menjadi inti dari proses

matching skema; banyak percobaan dilakukan untuk mempelajari pengaruh ukuran thesaurus

pada kualitas matching skema. Hasil penelitian menunjukkan bahwa mapping yang berbeda

diproduksi karena menggunakan thesaurus yang berbeda dalam domain yang sama. Matching

umum antara pemetaan juga memiliki nilai-nilai kesamaan yang berbeda. Kenaikan dalam rata-

rata kesamaan dengan nilai-nilai khas tercatat. Penggunaan thesaurus terkaya (yaitu thesaurus

dengan the least in terms, lead-in terms, dan cross-relationals) tidak menghasilkan presisi

tertinggi, recall, dan nilai-nilai ukuran F-measure, sedangkan nilai terendah presisi dan recall

dicatat ketika thesaurus dengan sedikitnya the least in terms, lead-in terms, dan cross-

relationals digunakan. Hasil pencocokan skema menggunakan thesaurus terpengaruh dengan

ukuran thesaurus (dalam aspek jumlah persyaratan dan jumlah hubungan lintas), namun

perubahan itu tidak signifikan secara statis. Persamaan kosinus juga lebih tinggi daripada

kesamaan dihitung berdasarkan persamaan yang diusulkan. Memprediksi nilai yang tepat dari

perubahan hasil matching skema menggunakan thesaurus atau aplikasi berbasis thesaurus lain

ketika menggunakan thesauri yang berbeda untuk memecahkan masalah yang sama, perlu

dipelajari secara mendalam. Namun, faktor lain yang berhubungan dengan domain mana

thesaurus digunakan juga mempengaruhi hasil. Saat ini, kami sedang mempelajari bagaimana

spesifikasi thesaurus mempengaruhi hasil aplikasi IR lain seperti pengklasifikasi dokumen.

Tujuan utamanya adalah untuk menghasilkan model matematik untuk memprediksi kualitas

output dari alat IR dan aplikasi yang menggunakan thesaurus sebagai inti dari tasknya, prediksi

ini akan tergantung pada spesifikasi thesaurus dan spesifikasi domain sebagai parameter.

5.2. Referensi

Jurnal Effect of Thesaurus Size on Schema Matching Quality Tahun 2014

Link : http://disi.unitn.it/~p2p/relatedwork/matching/00012682_111572.pdf

5.3. Lampiran

UASIMS 1304505014 I Wayan Andis Indrawan

Documents

Transcript of UASIMS 1304505014 I Wayan Andis Indrawan