UASIMS 1304505014 I Wayan Andis Indrawan

32
INTEGRASI DAN MIGRASI SISTEM Review Jurnal Effect of Thesaurus Size on Schema Matching QualityTugas UAS JURUSAN TEKNOLOGI INFORMASI FAKULTAS TEKNIK UNIVERSITAS UDAYANA 2015 Oleh : Nama : I Wayan Andis Indrawan Nim : 1304505014 Kelas : A Semester : IV (Empat) Dosen : I Made Sukarsa, ST., MT.

description

UASIMS 1304505014 I Wayan Andis Indrawan INTEGRASI DAN MIGRASI SISTEM UNIVERSITAS UDAYANA

Transcript of UASIMS 1304505014 I Wayan Andis Indrawan

  • INTEGRASI DAN MIGRASI SISTEM

    Review Jurnal Effect of Thesaurus Size on Schema Matching Quality

    Tugas UAS

    JURUSAN TEKNOLOGI INFORMASI

    FAKULTAS TEKNIK

    UNIVERSITAS UDAYANA

    2015

    Oleh :

    Nama : I Wayan Andis Indrawan

    Nim : 1304505014

    Kelas : A

    Semester : IV (Empat)

    Dosen : I Made Sukarsa, ST., MT.

  • Abstrak

    Thesaurus digunakan di banyak Information Retrieval (IR) aplikasi seperti integrasi

    data, data warehouse, pemrosesan query semantik dan schema matching. Schema matching

    atau mapping schema adalah salah satu langkah dasar yang paling penting dalam integrasi data.

    Ini adalah proses mengidentifikasi korespondensi semantik atau setara antara dua atau lebih

    skema. Mengingat fakta adanya banyak the-Sauri untuk domain pengetahuan identik, kualitas

    dan perubahan hasil schema matching ketika menggunakan thesaurus yang berbeda di lingkup

    pengetahuan khusus yang tidak dapat diprediksi. Dalam penelitian ini, yang di bahas ialah

    pengaruh (size) thesaurus pada kualitas schema matching dengan melakukan banyak

    eksperimen menggunakan thesaurus yang berbeda. Metode ini didasarkan pada rasio individu

    elemen bersama dengan unsur-unsur dalam senyawa set vektor. Selain itu, di bahas juga secara

    rinci algoritma efisien digunakan dalam mencari basis data thesaurus. Setelah menjelaskan

    percobaan, hasil yang menunjukkan peningkatan dalam rata-rata kesamaan disajikan.

    Kelengkapan, efektivitas, dan langkah-langkah berarti harmonik mereka dihitung untuk

    mengukur kualitas matching. Percobaan pada dua thesaurus yang berbeda menunjukkan hasil

    yang positif dengan rata-rata Presisi dari 35%. Pengaruh ukuran thesaurus pada kualitas yang

    cocok adalah statis tidak signifikan; Namun, faktor lain yang mempengaruhi output dan nilai

    yang tepat dari perubahan masih dalam fokus penelitian masa depan kita.

  • BAB I

    PENDAHULUAN

    1. Latar Belakang

    Selama lebih dari dua dekade, thesaurus yang dimanfaatkan dalam berbagai aplikasi

    IR. Sebagai contoh, digunakan dalam klasifikasi dokumen web, peringkasan, pengindeksan,

    dan dalam menghitung kesamaan semantik dokumen tertulis yang sama atau dalam bahasa

    yang berbeda. Thesaurus juga digunakan untuk memecahkan masalah schema matching.

    Baru-baru ini, thesaurus digunakan untuk memprediksi kesulitan query dalam domain medis.

    Disimpulkan bahwa kinerja prediktor yang mempengaruhi dengan banyak faktor seperti

    cakupan kualitas thesaurus atau query mapping. Penelitian sebelumnya diasumsikan bahwa

    tidak ada thesaurus umum seperti yang cakupan yang cukup tersedia, sehingga penggunaan

    dan dampak thesaurus tidak dipelajari secara luas. Namun, thesaurus berkualitas tinggi yang

    tersedia untuk beberapa domain tertentu, juga banyak thesaurus dengan kemampuan cakupan

    dan ukuran ditemukan dalam domain yang sama. Seperti setiap kosakata terkontrol lainnya,

    thesaurus dapat digunakan kembali dan diganti (yaitu dapat digunakan kembali dalam aplikasi

    yang berbeda dan dapat diganti dengan thesaurus lain yang kompatibel).

    Thesaurus dengan domain yang spesifik lebih sering dipakai seperti WordNet dalam

    penelitian ini karena sudah digunakan dalam bidang ini seperti yang ditunjukkan dalam

    paragraf berikutnya, apalagi penelitian ini adalah mempelajari pengaruh ukuran domain

    thesaurus khusus untuk domain tunggal. Informasi dan sistem database, skema ini berdiri

    sebagai himpunan formula (kumpulan meta-data) yang dikenakan pada data dalam database.

    Formula ini (juga disebut batasan integritas) diterapkan untuk memastikan kompatibilitas dan

    menggambarkan organisasi dan hubungan antara bagian dan entitas database.

    Pentingnya mempelajari pengaruh ukuran thesaurus berasal dari kebutuhan vital solusi

    otomatis efektif dan lengkap, karena ekspansi yang cepat dari area aplikasi yang thesaurus dan

    kosa kata lain tools dapat dimanfaatkan seperti pengolahan bahasa alami dan pencarian

    informasi. Misalnya, schema matching yang terbentuk diawal dan langkah penting menuju

    integrasi data, namun, banyaknya hal umum dan domain kosa kata serta tools pembahasaan

    spesifik yang dapat digunakan, membuat sulit untuk memilih salah satunya dari sumber lain

    karena fitur seperti ukuran (size) dan cakupan dari tools tersebut yang tidak ditentukan.

  • 1.1. Keterkaitan Schema Matching

    Schema Matching, yang merupakan proses identifikasi korespondensi semantik, atau

    menemukan unsur-unsur yang setara antara dua atau lebih skema masih merupakan area

    penelitian terbuka sejak lebih dari dua dekade. Ini bukan hanya karena matching skema adalah

    salah satu operasi dasar dalam banyak aplikasi seperti integrasi data, data warehousing, dan

    pemrosesan query semantik, tetapi juga karena itu adalah masalah yang semakin penting serta

    ketidakpastian dalam hasil teknik schema matching. Banyak pendekatan dan tools yang

    digunakan untuk memecahkan masalah skema yang cocok seperti Cupid, LSD, dan Corpus.

    Selain itu, banyak survei dan klasifikasi diterbitkan. Beberapa fitur proses matching tidak

    dalam fokus pendekatan yang diusulkan, dan aspek-aspek seperti struktur, elemen, linguistik,

    dan model data yang dibahas secara luas. Berikut ini adalah ringkasan dari teknik yang

    digunakan dalam pendekatan matching skema.

    Banyak teknik yang digunakan untuk melaksanakan proses matching, teknik Mesin-

    learning yang digunakan dalam, pendekatan berbasis pelajar berisi modul belajar dan modul

    khusus untuk peserta didik langsung, yang merupakan masalah pemetaan ontologi. Sebagian

    besar tools matching skema saat ini. Pendekatan ini menggunakan jaringan saraf keuntungan

    untuk mengetahui kesamaan antara sumber data. Dalam karakteristik berorientasi objek yang

    dimanfaatkan untuk menentukan pemetaan antara sumber data atribut. Masalah matching tidak

    diselesaikan dengan menggunakan pendekatan ini juga banyak karya yang diusulkan

    menggunakan metadata. Namun, itu bergeser ke masalah lain menggunakan aturan untuk

    melaksanakan matching, dengan menggunakan informasi seperti nama elemen dan deskripsi,

    tipe data, struktur hirarki, dan kendala. Mereka digunakan dalam menentukan kesamaan baik

    di tingkat elemen atau tingkat skema. Metode matching berbasis aturan skema yang paling

    efektif biasanya terdiri dari tiga tahap yang linguistik, constraint-based, dan matching

    struktural.

    Pada tahap linguistik, metode tergantung pada pencocokan string pada umumnya untuk

    mengetahui kesamaan antara nama elemen. Skema matcher saat ini biasanya menggunakan

    WordNet, database besar Inggris yang mempertimbangkan hubungan semantik antara elemen

    label. Namun, biasanya yang algoritma dalam kategori penggunaan metode gabungan ini.

    Maksudnya adalah untuk mendapatkan kesamaan yang tinggi, metode label normalisasi dan

    juga untuk meningkatkan pencocokan skema. Cupid matcher memanfaatkan pencocokan

    linguistik secara komprehensif dan efisien untuk menghasilkan kesamaan yang tinggi. Hasil

    yang salah yang diperoleh dari fase pencocokan linguistik biasanya disesuaikan dalam tahap

    pencocokan berbasis constraint. Jenis data constraint, metode pengukuran tipe data

  • kompatibilitas biasanya digunakan sebagai solusi awal hasil yang salah atau ambigu dari fase

    pencocokan linguistik. Tahap pencocokan struktural digunakan untuk memecahkan masalah

    konteks kesamaan, masalah ini umumnya muncul dalam XML pencocokan skema mana

    dokumen struktur dan constraint pada node dan tepi berbeda dari skema rasional menjelaskan

    masalah tersebut secara rinci.

    Berdasarkan kesimpulan, jurnal ini mempelajari pengaruh ukuran thesaurus (dalam

    aspek jumlah hal, jumlah timbal-segi, dan jumlah hubungan lintas) hasil schema matching

    menggunakan thesaurus.

    1.2. Tujuan Penelitian

    Merujuk pada latar belakang diatas, adapun tujuan yang dari jurnal ini adalah sebagai

    seperti yang dipaparkan dibawah ini :

    1.2.1. Menyajikan sebuah studi eksperimental mengenai pengaruh ukuran (size) thesaurus

    pada kualitas schema matching. Tiga ukuran agricultural thesaurus yang berbeda yang

    digunakan serta dibandingkan, dan hasilnya dievaluasi melalui beberapa fungsi

    objektif.

    1.2.2. Sebuah metode baru untuk menghitung kesamaan antara vektor diekstrak dari

    thesaurus.

    1.2.3. Selain itu, jurnal ini menjelaskan secara rinci banyak aspek teknis yang harus

    dipertimbangkan ketika menggunakan thesaurus.

    1.2.4. Hasil percobaan menunjukkan bahwa pengaruh ukuran thesaurus dalam kualitas yang

    cocok secara statistik tidak signifikan. Namun, kenaikan dalam rata-rata kesamaan

    dengan nilai-nilai tertentu.

    1.3. Batasan Masalah

    Penelitian ini mempelajari pengaruh ukuran thesaurus pada kualitas schema matching,

    dengan memanfaatkan tiga thesaurus dari domain agricultural untuk melaksanakan proses

    matching pada tingkat elemen, dan hasilnya dianalisis dalam perspektif yang berbeda. Oleh

    karena itu, beberapa persepsi lain seperti konstruksi thesaurus dan evaluasi, hasil (Presisi,

    Ingat, dan F-measure) optimasi, dan kompleksitas metode tidak dalam lingkup penelitian ini.

    Dalam jurnal ini, Bab 2 menjelaskan metodologi. Bab 3 menyajikan setup studi. Bagian 4

    menunjukkan hasil serta pembahasan hasil. Akhirnya, pekerjaan ini disimpulkan dalam

    Bagian 5.

  • BAB II

    METODOLOGI

    2. Schema Matching Berdasarkan Analisis Linguistik dengan Thesaurus

    Jurnal ini mempelajari dampak dari ukuran thesaurus pada kualitas schema matching.

    Metodologi yang diterapkan berdasarkan pemanfaatan thesaurus untuk melakukan proses

    matching. Gambar 1 menunjukkan kerangka metodologi, dan sub-bab berikutnya

    menjelaskannya secara rinci.

    Metode ini terdiri dari tiga tahap utama seperti yang ditunjukkan pada Gambar 1. Pada

    fase satu, dua skema (Sx and Sy) merupakan bagian dari input dari proses (Apply Thesaurus),

    thesaurus adalah bagian lain dari input untuk proses ini, dan output dari (Apply Thesaurus)

    proses dua set vektor dari istilah (Sx mass and Sy mass). Kedua set vektor akan membentuk

    masukan dari fase dua, yang (Menghitung Kesamaan Matrix) untuk menghasilkan Matrix

    Similarity (SM) antara elemen skema. Tahap ketiga (Ekstrak Mapping Akhir) yang

    menggunakan SM sebagai masukan untuk menghasilkan daftar pemetaan akhir. Algoritma dan

    rincian dari fase ini dijelaskan dalam sub-bab berikut.

    2.1. Metodologi

    Seperti yang ditunjukkan pada Gambar 1, thesaurus digunakan dalam memecahkan

    masalah schema matching di tingkat elemen berdasarkan analisis tekstual dari elemen deskripsi

    (definisi) dari skema input (Skema Satu dan Skema Dua). Setiap skema masukan berisi

    sejumlah elemen, untuk tujuan singkatan dan algoritma menulis skema ini disebut sebagai Sx

    dimana x 2 {1, 2}. Selain itu, jumlah elemen dalam skema ini disebut sebagai n dan m. Berikut

    ini adalah penjelasan rinci dari tiga fase metode ini.

    2.2. Fase Pertama

    Fase ini meliputi banyak langkah pre-processing seperti menghapus kata stop,

    menghapus nomor, dan karakter yang tidak cocok dengan bahasa thesaurus dan konten. Proses

    utama dalam fase ini (Menerapkan Thesaurus). Output dari tahap ini adalah dua set vektor

    istilah (massa) di mana setiap vektor merupakan salah satu element dalam skema.

    Menerapkan proses thesaurus: dalam proses ini, thesaurus diterapkan pada deskripsi

    elemen tekstual, satu per satu untuk kedua skema S1 dan S2. Menerapkan thesaurus berarti

    mencari setiap kata dari teks (yaitu deskripsi elemen) ke dalam database thesaurus dan

  • mengambil istilah terkait dari thesaurus, untuk membangun massa istilah yang terkait dengan

    kata yang sedang diproses; massal ini dilambangkan dengan massw pada Algoritma 1.

    Algoritma 1. Menerapkan Thesaurus pada Algoritma Deskripsi Elemen

    Masa yang berbeda massw(s) kemudian terakumulasi pada tingkat elemen menjadi satu

    massa (element_mass) yang mewakili Hasil Menerapkan Thesaurus (RAT) pada elemen ei

    dari skema (RATeiSx) sebseperti terlihat pada Algoritma 1. Tahap ini berisi proses pencarian

    luas karena proses Menerapkan Thesaurus dilakukan untuk setiap istilah dalam setiap

    deskripsi di kedua skema, atau majemuk. Algoritma pencarian diterapkan pada fase ini

    dijelaskan dalam Bagian 2.5, dan fungsi (get_related_terms (w)) yang digunakan untuk

    mengambil semua yang terkait dengan istilah (w) dari database dijelaskan dalam Bagian 2.6.

    2.3. Fase Kedua

    Pada fase ini, dua vektor hasil tahap sebelumnya digunakan sebagai input

    (Menghitung Kesamaan Matrix) proses. Kesamaan antara Hasil Menerapkan Thesaurus

    (RAT) dari setiap elemen dari S1 dengan semua RATs dari elemen S2 dihitung untuk

    menghasilkan matriks kesamaan. Algoritma yang digunakan dalam menghitung kesamaan

    matriks ditunjukkan pada Algoritma 2.

  • Algoritma 2. Menghitung Kesamaan Algoritma Matriks

    Kesamaan antara dua elemen ditentukan berdasarkan persamaan berikut:

    Kesamaan

    Dimana RAT adalah hasil penerapan thesaurus pada elemen. Kesamaan dalam

    Persamaan. (1) menganggap vektor sebagai set elemen duplikat yang tidak diperbolehkan.

    Karena vektor mewakili semua hal dari thesaurus terkait dengan elemen (ei|ej) dari skema

    (Sx|Sy), maka frekuensi istilah tidak dianggap karena salah satu

    Istilah dari thesaurus akan muncul dalam hasil vektor karena berkaitan dengan banyak

    hal dalam hubungan yang berbeda. Selain itu, kepentingan ukuran kesamaan dalam

    Persamaan. (1) adalah perbedaan antara dua massa istilah diekstrak dari thesaurus untuk teks

    tertentu. Tidak seperti beberapa pengukuran kesamaan lain seperti persamaan kosinus dimana

    frekuensi dari istilah memperhitungkan frekuensi dari banyaknya error (elemen serasi) seperti

    dalam pengukuran jarak Hamming.

    Gambar 2 menunjukkan contoh menghitung kesamaan antara dua elemen. Kesamaan

    dihitung antara kombinasi semua elemen yang mungkin pasangan, dan disimpan dalam

    Matrix Similarity. Untuk tujuan evaluasi, Kesamaan antara deskripsi dua elemen juga

    dihitung dengan menggunakan persamaan kosinus. Persamaan kosinus antara dua vektor

    (eiSx, ejSy) didefinisikan sebagi berikut :

    Persamaan Kosinus

    Dimana eiSx, ejSy adalah hasil dari vector dengan menerapkan Thesaurus pada elemen

    i dari skema Sx dan elemen j dari skema Sy masing-masing, dan w adalah kata dari vector e.

    Nilai-nilai dalam matriks kesamaan yang dinormalisasi berdasarkan rumus transformasi linear

    berikut:

  • Dimana Xn = nilai X baru (setelah normalisasi), X0 = nilai saat ini pada X (sebelum

    normalisasi), Xmin = nilai minimal dari X pada persamaan matriks, dan Xmax = nilai maksimal

    dari X pada persamaan matriks.

    2.4. Fase Ketiga

    Pada fase ini, persamaan matriks atau similarity matrix (SM) yang dihasilkan dari fase

    dua digunakan sebagai masukan untuk (Ekstrak Mapping Akhir) proses yang menghasilkan

    set mapping akhir. Pendekatan nilai maksimum dan kedua diterapkan dalam penggalian

    pemetaan akhir seperti yang ditunjukkan pada Algoritma 3.

    Algoritma 3. Menghitung Persamaan Matriks

    Dalam algoritma ini, yang matching (mapping) antara dua elemen (satu di header baris

    dan lainnya di header kolom) dianggap jika nilai kesamaan dalam cross sel adalah nilai

    maksimum dalam matriks. Kemudian semua nilai dalam baris dan kolom yang diatur ke nol.

    Proses ini akan diulang sampai semua nilai kesamaan dalam matriks menjadi nol atau kurang

  • dari nilai ambang batas. Masalah kriteria ini akan muncul ketika nilai maksimum tidak unik

    dalam matriks kesamaan dan lebih dari satu dari maksimum nilai kejadian ditemukan pada

    baris yang sama atau kolom yang sama, hal ini mengharuskan kita untuk memeriksa nilai

    maksimum kedua matriks di mana nilai maksimum kedua dianggap sebagai mapping.

    2.5. Mencari Database Thesaurus

    Mencari Database thesaurus merupakan salah satu proses utama yang dilakukan di

    semua aplikasi yang menggunakan thesaurus baik di bagian utama atau sebagai alat bantu.

    Dalam thesaurus penelitian ini digunakan sebagai inti dari proses matching. Thesaurus

    diaplikasikan pada semua elemen deskripsi tekstual. The get_related_terms Prosedur

    (disebutkan dalam Algoritma 1) berisi proses pencarian yang luas dalam database thesaurus,

    karena kebutuhan untuk mencari setiap istilah dari teks ke database thesaurus. Istilah ini

    mungkin satu kata atau beberapa kata (juga disebut istilah majemuk), meskipun thesaurus

    mengandung istilah satu kata dan istilah majemuk juga.

    Pendekatan langsung untuk menangani kasus tersebut adalah metode brute force

    dimana teks dilalui dengan mempertimbangkan jangka sebagai salah satu kata dalam putaran

    pertama, dan kemudian melintasi diulang dengan mempertimbangkan jangka sebagai kata

    ganda, dan sebagainya. Melintasi teks akan berhenti ketika jumlah kata dalam istilah dari teks

    melebihi jumlah kata-kata dalam jangka terpanjang di database thesaurus. Algoritma brute

    force adalah algoritma pencarian kurang efisien. Sebuah algoritma pencarian yang efisien

    diterapkan untuk melaksanakan proses ini. Algoritma 4 menunjukkan algoritma diterapkan

    digunakan untuk mengurangi waktu yang dibutuhkan untuk mencari teks ke dalam database

    thesaurus. Algoritma ini dibahas secara rinci.

    Algoritma 4. Mencari Text dalam Thesaurus Database

  • Ide utama dari Algoritma 4 adalah untuk mencari kata (w) ke dalam vektor indeks dari

    thesaurus bukan mencari kata (w) ke dalam istilah tabel thesaurus yang pasti mengandung

    banyak istilah majemuk. Indeks vektor thesaurus adalah vektor yang berisi khas pertama tanda

    istilah atau istilah senyawa thesaurus. Dua manfaat yang diperoleh dari langkah ini: Pertama,

    setelah

    (W) ditemukan dalam indeks, maka pasti ada satu atau lebih mentah (istilah satu kata

    atau istilah majemuk) di thesaurus dimulai dengan kata itu. Jika tidak, tidak ada kebutuhan

    untuk melihat ke dalam thesaurus untuk setiap istilah majemuk yang dimulai dengan kata (w).

    Karena pasti tidak ada istilah majemuk dimulai dengan kata tertentu. Kedua, sebagai hasil dari

    menemukan (w) dalam indeks, set panjang istilah senyawa dalam thesaurus yang dimulai

    dengan (w) - langkah nomor tiga dalam algoritma 3 - dapat didefinisikan, sehingga daftar istilah

    kata majemuk panjang yang dibutuhkan dari teks mulai dari kata yang dipertimbangkan dapat

    dibangun.

    2.6. Mengambil Istilah Mass dari Thesaurus Database

    Akhirnya, setelah istilah ini ditemukan dalam database thesaurus, sebagaimana

    disebutkan dalam Algoritma 1, get_related_terms fungsi (w) dipanggil untuk mengambil

    massa istilah dari database thesaurus dengan mengeksekusi banyak pertanyaan yang dinamis

    hirarkis seperti query di bawah ini. Massa jangka istilah didefinisikan sebagai semua istilah

    dalam database yang terhubung ke istilah dengan salah satu hubungan thesaurus, diantaranya

    istilah Boarder terms, Narrow Terms, Related Terms, and the Preferred Terms.

    Gambar 1. Kerangka Metodologi

  • Gambar 2. Contoh dari Perhitungan Persamaan diantara Dua Elemen

    (1) dan (2) digunakan untuk mengambil PREFERED dan istilah terkait masing-masing dengan

    menggunakan query pada umumnya yakni SELECT sebagai struktur pernyataan, namun query

    (3) dan (4) merupakan hirarki (rekursif) query yang mengambil istilah terhubung dengan

    Boarder and Narrow relation.

  • 2.7. Evaluation dan Rangking

    Mengukur (measure) kualitas presisi, recall, dan F-measure seperti yang didefinisikan

    dalam digunakan untuk mengevaluasi kualitas matching skema dengan thesaurus yang

    berbeda. Presisi, ingat, dan F-measure yang digunakan dalam IR domain, namun umumnya

    digunakan untuk evaluasi pencocokan skema. Selain itu, dalam kasus matching umum antara

    manual dan otomatis, kualitas kesamaan keseluruhan dibandingkan berdasarkan dua

    pendekatan; pertama, perbandingan berdasarkan nilai maksimum, dan kedua adalah

    perbandingan berdasarkan nilai rata-rata untuk menunjukkan peningkatan dalam kesamaan

    keseluruhan matching umum di antara thesaurus digunakan.

    Untuk menghitung presisi, recall, dan F-measure matching pengguna yang dihasilkan

    menjadi ahli domain seperti di dianggap, maka untuk setiap percobaan set positif sejati (TP),

    positif palsu (FP), dan negatif palsu (FN) ditentukan.

    Gambar 3. Contoh Skema pada Suatu Percobaan

    Berdasarkan set ini langkah-langkah kualitas dihitung sebagai berikut:

  • BAB III

    STUDY SET-UP

    3. Study Set-Up

    3.1. Domain

    Banyak penelitian sebelumnya pada schema matching seperti penggunaan skema dari

    domain dari E-commerce. Namun ada banyak hambatan untuk menggunakan skema ini dalam

    penelitian ini; misalnya, skema ini tidak menyertakan deskripsi tekstual dari unsur-unsurnya,

    dan tidak ada thesaurus tersedia untuk E-commerce domain. Data dari domain agricultural yang

    digunakan sebagai dataset.

    Domain pengetahuan agricultural telah sangat berkembang selama beberapa dekade

    terakhir. Informasi kurang pada ukuran yang tepat dari domain pengetahuan ini ditemukan.

    Namun, informasi tion pertanian diwakili dalam banyak format yang dapat dibaca mesin oleh

    organisasi global yang berbeda. National Agricultural Library Thesaurus (NALT) adalah

    thesaurus yang dikembangkan oleh National Agricultural Library (NAL) dari Amerika Serikat

    Departemen Agricultural. Ketika dirilis untuk pertama kalinya mengandung 42.326 deskriptor

    dan 25.985 deskriptor non disusun dalam 17 kategori subjek. Saat ini berisi lebih dari 98.000

    istilah dan tersedia dalam dua bahasa-bahasa (bahasa Inggris dan Spanyol). AGROVOC adalah

    thesaurus multibahasa dirancang awal 1980-an oleh Organisasi Pangan dan Pertanian

    Perserikatan Bangsa-Bangsa (AGROVOC Thesaurus) untuk menutupi mitology bahasa dari

    semua bidang subjek di bidang pertanian, kehutanan, perikanan, makanan dan domain terkait.

    Edisi terbaru dari AGROVOC berisi lebih dari 32.000 konsep. Cina Agricultural Thesaurus

    (CAT) adalah thesaurus pertanian terbesar di Cina yang dikelola oleh AII dari CAAS. Ini berisi

    lebih dari 63.000 konsep kebanyakan dari mereka memiliki terjemahan bahasa Inggris.

    3.2. Dataset

    Dataset yang digunakan dalam percobaan ini terdiri dari dua skema. Setiap skema

    mewakili satu set 23 program studi yang ditawarkan oleh universitas. Kursus data

    direpresentasikan sebagai file XML skema (Xsd). Gambar 3 menunjukkan bagian dari file

    skema. Dalam file skema, masing-masing (

  • Set satu: Sx = (ex0, ex1, ex2, ... , ex22), dan

    Set dua: Sy = (ey0, ey1, ey2, ... , ey22),

    Program deskripsi di kedua set diolah dan dianalisis menggunakan thesaurus yang berbeda

    dalam domain yang sama, bagian berikutnya menjelaskan lebih lanjut tentang thesaurus

    digunakan.

    3.3. Thesauri

    Tiga agricultural thesaurus yang digunakan. Dua di antaranya adalah versi yang

    berbeda dari thesaurus yang sama. Thesaurus ini The Thesaurus 2008 Edisi National

    Agricultural Library (disebut NAL2008), The 2012 Edisi National Agricultural Library

    (disebut NAL2012), dan thesaurus disajikan oleh Organisasi Pangan dan Pertanian

    Perserikatan Bangsa-Bangsa (disebut AGROVOC). Semua thesaurus yang didownload dari

    internet, dan diproses oleh alat khusus untuk memenuhi lingkungan eksperimen.

    3.3.1. Thesaurus Pre-Processing

    NAL thesaurus serta AGROVOC thesaurus bebas untuk men-download dari situs

    resmi mereka dalam berbagai format seperti XML, RDF-skos, PDF, MARC, teks biasa untuk

    NAL Thesaurus dan XML, skos, MYSQL, Protege DB, OWL dan ISO2709 untuk

    AGROVOC thesaurus. Pre-processing thesaurus tergantung pada format yang digunakan

    sesuai, Dalam penelitian ini format XML-skos digunakan, sampel konsep thesaurus

    ''Chamidae'' ditunjukkan pada Gambar 4 karena muncul dalam thesaurus download format

    XML-SKOS. Thesaurus ditransformasikan ke dalam database rasional berdasarkan standar

    Inggris 8723 model data dan perluasan model dalam Gambar 5 menunjukkan bagian dari

    class diagram model data thesaurus seperti:

  • Gambar 4. Contoh Thesaurus pada format XML-SKOS

    Gambar 5. Class Diagram dari Thesaurus data model dengan adaptasi dari standart british

    Langkah-langkah umum pra-pengolahan dirangkum dalam langkah-langkah berikut:

    Langkah 1: Extrak dan save terms dari identifiers.

    Langkah 2: Extrak dan save terms dari relations.

    Langkah 3: Interconnect terms dengan relasi yang sudah di ekstrak.

    Langkah 4: Buat terms index (untuk menerapkan metode pencarian yang efisien).

    3.3.2. Statistik Thesaurus

    Tabel 1 menunjukkan spesifikasi utama dari thesaurus yang digunakan dalam

    percobaan penelitian ini. Dari Tabel 1, terlihat bahwa NAL2012 berisi jumlah terbesar istilah,

    lead-in terms, dan cross relations, sementara AGROVOC memiliki sedikitnya jumlah semua

    spesifikasi. Spesifikasi thesaurus lainnya, seperti ''Jumlah Kata-kata dalam Istilah'' juga harus

    dipertimbangkan dalam pengukuran kinerja thesaurus. properti ini mempengaruhi kecepatan

  • menghitung kesamaan. Gambar 6 menunjukkan persentase istilah yang berisi satu, dua, tiga,

    dan empat atau lebih kata-kata istilah di setiap thesaurus digunakan dalam percobaan. Hal ini

    dapat dilihat dari Gambar 6 bahwa untuk semua thesaurus digunakan, salah satu hal yang kata

    kurang dari 35% sedangkan periode yang tersisa adalah istilah majemuk (yaitu hal terdiri dari

    dua kata atau lebih). Seperti disebutkan sebelumnya jumlah kata dalam istilah mempengaruhi

    kecepatan perhitungan kesamaan yang berarti bahwa algoritma yang efisien diperlukan untuk

    melaksanakan pekerjaan ini.

    Tabel 1

    Spesifikasi Thesauri

    Gambar 6. Persentasi dari terms oleh satu kata terms dan terms majemuk

    Gambar 7. Thesauri overlapping

  • Gambar 8. GUI dari Aplikasi Schema Matching

    Sedangkan versi yang berbeda dari thesaurus NAL dan thesaurus AGRO-VOC yang

    digunakan dalam penelitian ini, thesaurus ini tumpang tindih dengan satu sama lain. Gambar

    7 menunjukkan jumlah istilah tumpang tindih dan rasio relatif terhadap jumlah total istilah

    khas di semua thesaurus.

    Jumlah istilah khas di semua thesaurus adalah 117.304 istilah. Seperti yang

    ditunjukkan pada Gambar 7, rasio terbesar tumpang tindih terjadi antara NAL2008 dan

    NAL2012, yang versi yang berbeda dari thesaurus yang sama. Namun, istilah conjoint antara

    semua thesaurus dekat dengan 10% dari total jumlah istilah. Penelitian ini mempertimbangkan

    kurang memperhatikan pengaruh yang tumpang tindih.

    3.4. Eksperimen Lingkungan dan Aplikasi

    Untuk melaksanakan eksperimen, database Oracle dengan aplikasi Java yang

    dikembangkan terutama untuk tujuan yang terpasang. Gambar 8 menunjukkan antarmuka dari

    aplikasi Java. Aplikasi ini memiliki fasilitas untuk memvalidasi skema dimuat, dan untuk

    mengekstrak nama elemen dan deskripsi tekstual dalam format pohon sebelum memulai proses

    pencocokan. Kesamaan matriks dan pemetaan akhir dapat juga disimpan ke sistem file.

  • BAB IV

    HASIL, PEMBAHASAN DAN ANALISA

    4. Hasil

    Dua set program yang digunakan dalam percobaan secara manual matching dengan

    seorang ahli, hasil Matching manual dan otomatis percobaan ditunjukkan pada Tabel 2. Pada

    Tabel 2 nilai kesamaan didasarkan pada persamaan. (1) dibahas dalam Bagian 2.3. Sub-tabel

    (a) merupakan matching manual dengan domain Ahli, dan sub-tabel (b) merupakan matching

    otomatis berdasarkan NAL2008 thesaurus, sedangkan sub-tabel (c) dan (d) merupakan

    matching otomatis berdasarkan NAL2012 dan AGROVOC thesaurus masing-masing. Hasil

    pencocokan dapat divisualisasikan seperti pada Gambar. 9. Pada Gambar. 9, angka-angka pada

    sumbu x dan y-axis merupakan jumlah elemen dalam skema, sedangkan gelembung mewakili

    matching antara unsur-unsur, misalnya, ada pencocokan antara elemen 5 dari skema 1 dan

    elemen 16 dari skema 2 dalam manual pencocokan. Nomor dalam kurung merupakan jumlah

    elemen dalam skema 1 dan skema 2 masing-masing; ukuran gelembung merupakan nilai

    kesamaan antara dua elemen. Untuk matching yang umum di kalangan pengguna pencocokan

    dan otomatis yang, gelembung tampaknya lebih-tindih seperti untuk pasangan (6,15) dan (1,0)

    dan lain-lain. Tabel kontingensi hasil otomatis relatif terhadap matching pengguna ditunjukkan

    pada Tabel 3. Tabel 3 menunjukkan jumlah distribusi matching pasang dihasilkan oleh masing-

    masing thesaurus relatif terhadap pencocokan manual. Sebagai contoh, dalam percobaan

    berdasarkan NAL2008, sementara 16 pasang dicocokkan otomatis tidak benar, dan 6 pasang

    yang tidak benar tidak cocok. Namun, jumlah pasangan dalam sel persimpangan baris total dan

    kolom jumlah mewakili kemungkinan jumlah permutasi dari matching antara skema elemen.

    4.1. Pembahasan dan Analisa

    Sub-bab ini membahas hasil dari berbagai sudut pandang.

    4.1.1. Pembahasan dari Precision, Recall, dan Hasil F-measures

    Precision, recall, and F-measure untuk setiap percobaan dihitung relatif terhadap

    matching manual, menggunakan tabel kontingensi (Tabel 3) dimana set TP, FP, dan FN adalah

    sebagai berikut:

    Tabel 2

    Persamaan Matching berdasar pada Thesaurus berbeda

  • Gambar 9. Hasil dari Matching Manual dan Otomatis

    Tabel 3

    Tabel kontingensi dari matching otomatis hasil relatif terhadap hasil manual.

    TP: himpunan pasangan yang matching secara manual dan otomatis.

    FP: himpunan pasangan yang matching secara manual tapi tidak secara otomatis.

    FN: himpunan pasangan yang matching secara otomatis tetapi tidak secara manual.

    Tabel 4 merangkum hasil Precision, recall, and F-measure untuk eksperimen:

    Dua pernyataan utama dapat melihat dari Tabel 4. Salah satunya adalah nilai-nilai Precision,

    recall, and F-measure rendah. Teknik yang diusulkan tergantung pada mencari kata-kata dari

  • deskripsi elemen dalam thesaurus. Dalam percobaan kata-kata yang tepat yang dicari dan tidak

    ada teks pre-processing yang diterapkan, sehingga singkatan, salah eja kata, angka ditulis

    sebagai kata-kata, tanda baca yang tidak pantas dikandung oleh teks tidak akan memberikan

    kontribusi pada hasil pencarian. Misalnya, baris 4 di Gambar 3 berisi ekspresi

    (horticulture.Emphasis) yang dianggap sebagai satu kata (karena tidak ada ruang antara kata-

    kata), namun, akan diakui sebagai dua istilah pencarian jika pengganti tanda baca diterapkan.

    Untuk mengatasi masalah ini, beberapa teknik bisa diterapkan seperti teks pre-processing,

    validasi kamus, pengganti tanda baca, dan ekspansi teks berdasarkan alat kosakata.

    Kedua, dapat dilihat bahwa penggunaan thesaurus kaya (di ciri-ciri), yang NAL2012,

    tidak menyebabkan hasil presisi dan recall yang lebih tinggi. Namun, penggunaan AGROVOC

    thesaurus yang memiliki istilah yang lebih sedikit, memimpin-dalam hal, dan lintas-hubungan

    menyebabkan presisi hukum dan mengingat nilai-nilai. Gambar 10 menunjukkan Precision,

    recall, and F-measure dan jumlah istilah dalam setiap thesaurus.

    Tabel 4

    Precision, recall, and F-measure untuk matching otomatis

    Gambar 10. Precision, recall, and F-Measure Untuk Thesauri yang Berbeda

  • Tabel 5

    Hasil matching umum dari NAL2008 thesaurus dan NAL2012 thesaurus.

    Gambar 11. Nilai-nilai persamaan matching umum antara NAL2008 dan NAL2012

    As seen from Gambar 10, the precision was the least in case of using AGROVOC

    thesaurus; AGROVOC has the least number of terms among thesauri used. However, in case

    of using NAL2008 the pre- cision is the highest while the number of terms in NAL2008 is not

    the largest. In contrast, when using NAL2012, which has most number of terms, the

    precision was not the highest. Recall and F measure behave as the same as precision, which

    mean that the highest values of recall and F measure was recorded with NAL2008 and

    lowest values were recorded with AGROVOC thesaurus.

    4.1.2. Hasil Pembahasan dari Matching Umum

    Sub-bagian ini membahas hasil matching antara thesaurus yang berbeda, diantaranya

    sebagai berikut:

  • Gambar 12. Perbedaan Absolut dan Rata-Rata Matching Umum dari NAL2008 dan NAL2012

    Gambar 13. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum Matching Umum dari

    NAL2008 dan NAL2012

    Gambar 14. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata Matching Umum dari

    NAL2008 dan NAL2012

    4.1.2.1. Hasil Pembahasan Matching Umum NAL2008 and NAL2012 Thesauri

    Tabel 5 menampilkan matching umum antara hasil dengan menggunakan

    NAL2008 Thesaurus and NAL2012 Thesaurus:

  • Dari Tabel 5, terlihat bahwa persamaan matching ketika menggunakan NAL2012

    Thesaurus meningkat atau tetap konstan di 70% dari matching biasa. Matching umum antara

    NAL2008 dan NAL2012 lebih dari 40% dibandingkan dengan jumlah elemen dalam Sx.

    Gambar 11 menunjukkan hasil menggunakan NAL2008 dan NAL2012, sedangkan Gambar 12

    menunjukkan rata-rata perbedaan absolut antara nilai-nilai persamaan.

    Hal ini dapat dilihat dari Gambar 11 bahwa kesamaan saat menggunakan NAL2012

    adalah sama dengan atau lebih dari kesamaan ketika menggunakan NAL2008 di 70% dari

    matching biasa. Seperti yang terlihat dari Gambar 11, Kesamaan tidak meningkat untuk semua

    matching yang umum ketika menggunakan thesaurus dengan istilah yang lebih, lead-in terms,

    dan cross-relations. Seperti disebutkan dalam Bagian 2.6, dua pendekatan yang digunakan

    untuk menentukan nilai kesamaan keseluruhan untuk masing-masing kelompok umum;

    pendekatan ini adalah kesamaan rata dan nilai kemiripan maksimum. Hal ini dapat dilihat dari

    Tabel 5 bahwa pendekatan Maksimum mengarah ke peningkatan dalam rata-rata kesamaan

    dengan 0.059 dan 0.028 untuk percobaan menggunakan NAL2008 dan NAL2012 berturut-

    turut. Gambar 13 menunjukkan pendekatan rata dibandingkan nilai pendekatan maksimum,

    sedangkan Gambar 14 menunjukkan peningkatan pendekatan Maksimum atas pendekatan rata-

    rata.

    Gambar 15. Nilai-nilai kesamaan matching umum antara NAL2008 dan AGROVOC.

    4.1.2.2 Hasil Pembahasan Matching Umum NAL2008 and AGROVOC thesauri.

    Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008

    thesaurus dan AGROVOC thesaurus.

  • Tabel 6

    Matching umum dari hasil menggunakan NAL2008 thesaurus dan AGROVOC thesaurus.

    Gambar 16. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2008 dan

    AGROVOC.

    Gambar 17. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara

    NAL2008 dan AGROVOC.

    Gambar 18. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara

    NAL2008 dan AGROVOC.

    4.1.2.3. Hasil Pembahasan Matching Umum NAL2008 dan AGROVOC Thesauri

    Tabel 6 menunjukkan matching umum antara hasil menggunakan NAL2008 dan AGROVOC.

  • Gambar 19. Nilai Persamaan dari Matching Umum Antara NAL2008 dan AGROVOC.

    Dari Tabel 6 dapat dilihat bahwa kesamaan matching ketika menggunakan

    AGROVOC thesaurus, yang merupakan the least in terms, lead-in terms, dan cross-relationals

    meningkat atau tetap konstan di 50% dari matching biasa. Matching bersama sekitar 1%

    dibandingkan dengan jumlah elemen di Set 1. Gambar 15 menunjukkan hasil menggunakan

    NAL2008 dan AGROVOC, sedangkan Gambar 16 menunjukkan rata-rata perbedaan absolut

    antara nilai-nilai kesamaan.

    Tabel 6 menunjukkan bahwa kesamaan ini tidak menurun untuk semua matching

    umum ketika menggunakan thesaurus the least in terms, lead-in terms, dan cross-relationals.

    Menggunakan pendekatan Maksimum meningkatkan rata-rata kesamaan dengan 0,112 dan

    0,103 untuk percobaan menggunakan NAL2008 dan AGROVOC berturut-turut seperti yang

    ditunjukkan pada Tabel 6. Gambar 17 menunjukkan Pendekatan Rata-Rata dibandingkan

    Nilai Pendekatan Maksimum dari Matching Antara NAL2008 dan AGROVOC,

    sedangkan Gambar 18 menunjukkan Peningkatan Pendekatan Maksimum atas Pendekatan

    Rata-Rata dari Matching Antara NAL2008 dan AGROVOC.

    4.1.2.4. Hasil Pembahasan Matching Umum NAL2012 dan AGROVOC Thesauri.

    Tabel 7 menunjukkan matching umum antara hasil menggunakan NAL2012

    thesaurus dan AGROVOC thesaurus. Tabel 7 menunjukkan bahwa kesamaan matching

    ketika menggunakan NAL2012 Thesaurus yang memiliki the least in terms, lead-in terms,

    dan cross-relationals dari AGROVOC, meningkat atau tetap konstan di 50% dari matching

    biasa, matching umum adalah sekitar 1% relatif terhadap jumlah elemen di Set 1. Gambar

    19 menunjukkan hasil menggunakan NAL2012 dan AGROVOC, sedangkan Gambar 20

    menunjukkan rata-rata perbedaan absolut antara nilai-nilai kesamaan:

  • Tabel 7

    Matching umum dari hasil menggunakan NAL2012 thesaurus and AGROVOC thesaurus.

    Gambar 20. Perbedaan dan Rata-Rata Perbedaan Absolut untuk Matching Antara NAL2012 dan

    AGROVOC.

    Gambar 21. Pendekatan Rata-Rata dibandingkan Nilai Pendekatan Maksimum dari Matching Antara

    NAL2012 dan AGROVOC.

  • Gambar 22. Peningkatan Pendekatan Maksimum atas Pendekatan Rata-Rata dari Matching Antara

    NAL2012 dan AGROVOC.

    Tabel 8

    Pasangan dua sisi hasil T-Test menggunakan matching umum.

    Tabel 9

    Kesamaan rata-rata matching umum antara AGROVOC dan thesaurus lainnya.

    Terlihat dari Tabel 7 bahwa kesamaan ini tidak menurun untuk semua matching umum saat

    menggunakan thesaurus dengan the least in terms, lead-in terms, dan cross-relationals

    (AGROVOC). Menggunakan pendekatan Max meningkatkan rata-rata kesamaan dengan 0,004

    dan 0,108 untuk percobaan menggunakan NAL2012 dan AGROVOC berturut-turut seperti

    yang ditunjukkan pada Tabel 7. Gambar. 21 menunjukkan pendekatan rata dibandingkan nilai

    pendekatan Maksimum, sementara Gambar. 22 menunjukkan peningkatan pendekatan

    Maksimum lebih rata pendekatan.

  • 4.1.3. Pembahasan Tes Signifikansi

    Untuk mengevaluasi hipotesis bahwa ada perbedaan yang signifikan antara

    kesamaan matching umum saat menggunakan thesaurus yang berbeda, pair-wise dua sisi T-

    Test menggunakan matching umum di antara percobaan dilakukan. Tabel 8 menunjukkan

    hasil T-Test.

    Hal ini dapat dilihat dari hasil T-Test bahwa perbedaan kesamaan matching umum

    adalah statistik tidak signifikan untuk setiap kombinasi digunakan thesaurus. Hasil ini

    signifikan adalah karena ukuran sampel yang kecil, keterbatasan ukuran sampel berasal dari

    domain percobaan. Untuk kombinasi pasangan (NAL2008-AGROVOC dan NAL2012-

    AGROVOC) yangmana statistik T-Test adalah tidak berlaku karena ukuran sampel terlalu

    kecil (2 sampel), namun dapat dilihat bentuk Tabel 6 dan 7 bahwa rata-rata persamaan

    matching matching umum antara NAL2008 dan AGROVOC terlalu jauh lebih tinggi daripada

    yang antara NAL2012 dan AGROVOC, seperti yang dirangkum dalam Tabel 9.

    4.2. Perbandingan Perhitungan Metode Kesamaan

    Bagian ini menyajikan perbandingan antara kesamaan perhitungan berdasarkan metode

    perhitungan kesamaan yang diusulkan (yaitu Persamaan. (1) yang dijelaskan dalam Bagian 2.3)

    dan pengukuran kesamaan kosinus umum. Oleh karena itu perbedaan persamaan dihitung

    dengan setiap metode langsung hasil mapping akhir yang berbeda, karena penerapan

    maksimum dan pendekatan nilai maksimum kedua. Di sub-bagian berikut, kesamaan matching

    umum dan rata-rata kesamaan secara keseluruhan dibandingkan dan akan dibahas.

    4.2.1. Perbandingan Persamaan dari Matching Umum

    Untuk membandingkan kesamaan perhitungan dengan menggunakan metode yang

    diusulkan dan kesamaan kosinus, matching umum untuk setiap thesaurus diekstraksi. Gambar.

    23 menunjukkan perbandingan Dari Gambar. 23, terlihat bahwa nilai persamaan kosinus lebih

    tinggi untuk semua matching yang umum untuk semua thesaurus. Alasan ini adalah bahwa

    kesamaan kosinus mempertimbangkan kejadian jumlah kata (terms) dalam vektor, sedangkan

    metode yang diusulkan berdasarkan operasi serikat yang menghilangkan efek dari kata-kata

    berulang (terms) dalam vektor dan mempertimbangkan setiap kata sekali. Menggunakan

    persamaan kosinus dalam pencocokan skema menggunakan thesaurus adalah mengarah ke

    rasio kesamaan yang lebih tinggi, namun dalam skema otomatis matching kesamaan tinggi

    antara dua elemen dapat menyebabkan matching salah karena unsur-unsur yang sangat mirip

    akan dipasangkan.

  • Gambar 23. Perbedaan Persamaan dari Matching Umum

    Gambar 24. Keseluruhan Perbandingan Persamaan

    sebagai pencocokan pasangan, dan elemen-elemen ini tidak akan dipasangkan dengan

    unsur-unsur lain. Metode pengukuran yang diusulkan kesamaan seperti yang disebutkan dalam

    Bagian 2.3 tidak mempertimbangkan kejadian istilah tapi hanya keberadaan.

    4.2.2. Keseluruhan Perbandingan Persamaan

    Kesamaan rata-rata mspping akhir untuk setiap perbandingan thesaurus, Gambar 24

    menunjukkan bahwa rata-rata kosinus memiliki kesamaan lebih tinggi dari rata-rata kesamaan

    dihitung dengan metode yang diusulkan. Dari Gambar 24, dapat dilihat bahwa kesamaan

    berdasarkan metode kosinus lebih tinggi dari kesamaan berdasarkan persamaan dibahas dalam

    Bagian 2.3. Dalam persamaan kosinus, jumlah kejadian istilah dalam vektor meningkatkan

    kesamaan. Bagaimanapun, metode yang diusulkan menghilangkan efek beberapa kejadian

    istilah dalam vektor, sehingga kesamaan dihitung lebih rendah.

  • BAB V

    PENUTUP

    5.1. Simpulan

    Dalam penelitian ini, thesaurus itu digunakan untuk menjadi inti dari proses

    matching skema; banyak percobaan dilakukan untuk mempelajari pengaruh ukuran thesaurus

    pada kualitas matching skema. Hasil penelitian menunjukkan bahwa mapping yang berbeda

    diproduksi karena menggunakan thesaurus yang berbeda dalam domain yang sama. Matching

    umum antara pemetaan juga memiliki nilai-nilai kesamaan yang berbeda. Kenaikan dalam rata-

    rata kesamaan dengan nilai-nilai khas tercatat. Penggunaan thesaurus terkaya (yaitu thesaurus

    dengan the least in terms, lead-in terms, dan cross-relationals) tidak menghasilkan presisi

    tertinggi, recall, dan nilai-nilai ukuran F-measure, sedangkan nilai terendah presisi dan recall

    dicatat ketika thesaurus dengan sedikitnya the least in terms, lead-in terms, dan cross-

    relationals digunakan. Hasil pencocokan skema menggunakan thesaurus terpengaruh dengan

    ukuran thesaurus (dalam aspek jumlah persyaratan dan jumlah hubungan lintas), namun

    perubahan itu tidak signifikan secara statis. Persamaan kosinus juga lebih tinggi daripada

    kesamaan dihitung berdasarkan persamaan yang diusulkan. Memprediksi nilai yang tepat dari

    perubahan hasil matching skema menggunakan thesaurus atau aplikasi berbasis thesaurus lain

    ketika menggunakan thesauri yang berbeda untuk memecahkan masalah yang sama, perlu

    dipelajari secara mendalam. Namun, faktor lain yang berhubungan dengan domain mana

    thesaurus digunakan juga mempengaruhi hasil. Saat ini, kami sedang mempelajari bagaimana

    spesifikasi thesaurus mempengaruhi hasil aplikasi IR lain seperti pengklasifikasi dokumen.

    Tujuan utamanya adalah untuk menghasilkan model matematik untuk memprediksi kualitas

    output dari alat IR dan aplikasi yang menggunakan thesaurus sebagai inti dari tasknya, prediksi

    ini akan tergantung pada spesifikasi thesaurus dan spesifikasi domain sebagai parameter.

    5.2. Referensi

    Jurnal Effect of Thesaurus Size on Schema Matching Quality Tahun 2014

    Link : http://disi.unitn.it/~p2p/relatedwork/matching/00012682_111572.pdf

    5.3. Lampiran