Post on 11-Jan-2020
Bab 3 Pengenalan Capaian Maklumat
1.0 Pengenalan.
Peningkatan jumlah bilangan pernerbitan, CD-ROM dan kepopularan internet menyebabkan
banyak maklumat yang boleh dicapai. Jelas bahawa pencapaian maklumat dari internet ini
atau perpustakaan digital adalah lebih sukar berbanding yang lain. Implikasi daripada ini,
keperluan terhadap teknik-teknik yang terbaik bagi mencapai maklumat telah dikaji dalam
bidang capaian maklumat.
Bidang capaian maklumat semakin berkembang maju dari hari ke hari. Micheal Lesk
membahagikan era teknologi maklumat kepada tujuh era iaitu :
Childhood (1945-1955)
The SchoolBoy (1960s)
AdultHood(1970s)
Maturity (1980s)
MidLife Crisis (1990s)
Fulfillment (2000s)
Retirement (2010)
Maklumat lanjut rujuk kertas kerja yang bertajuk : The Seven Ages Of Information Retrieval
Capaian maklumat bukanlah bidang yang baru tetapi ia merupakan suatu bidang yang
semakin penting dan mencabar pada masa kini terutamanya dalam mencari penyelesaian yang
sesuai dalam menangani masalahnya. Masalah capaian maklumat mungkin disebabkan oleh
maklumat yang salah tafsir disebabkan oleh pelbagai makna bahasa asli atau keperluan
maklumat yang diperlukan oleh pengguna tidak dinyatakan dengan jelas.
Istilah capaian maklumat mempunyai definasi yang besar dan sukar untuk
didefinasikan secara kukuh. Dalam konteks ini maklumat, dalam maksud teknikal yang
diberikan dalam teori komunikasi Shannon ialah tidak sedia terukur (Shannon dan Weaver
(1964)). Dalam kebanyakan kes, seseorang boleh mendefinasikan jenis capaian dengan hanya
menukarkan ‘maklumat’ dengan ‘dokumen’.
1
Bab 3 Pengenalan Capaian Maklumat
Menurut Tengku(1989), capaian maklumat adalah satu pengajian cara korpus suatu
simpanan maklumat ditentukan dan dicapai bersarkan kehendak tertentu. Capaian makluamt
adalah berkenaan perwakilan , penstoran , perorganisasian dan perolehan maklumat mengikut
pertanyaan atau kueri dan keperluan pengguna. Ianya satu landasan yang menyediakan
kemudahan kepada pengguna bagi maklumat yang dikehendaki. Dengan kata lain, sistem
capaian maklumat adalah suatu sistem yang memproses pertanyaan pengguna bagi mendapat
maklumat yang relevan dari pangkalan data.
Sistem capaian maklumat adalah memangkat dokumen terhadap sesuatu pertanyaan.
Sesuatu dokumen dikatakan relevan jika ianya bersamaan dengan kehendak pengguna
terhadap sesuatu topik. Contoh sistem capaian maklumat, adalah seperti enjin carian
maklumat Internet (Yahoo, Goggle, WebCrawler) MEDLINE dan lain-lain lagi.
Sistem capaian maklumat dapat diillustrasi seperti rajah dibawah (van Rijsbergen,
1979). Ia terdiri daripada tiga bahagian iaitu input, pemproses dan output.
Rajah 1: Asas Sistem Capaian Dokumen
Bermula dari bahagian input, ia terdiri daripada kueri dan dokumen. Masalah di
bahagian ini ialah dalam mendapatkan perwakilan bagi setiap dokumen dan pertanyaan yang
sesuai untuk kegunaan komputer. Maklumbalas merupakan perubahan pertanyaaan oleh
pengguna semasa satu sesi pencarian di dalam sistem capaian maklumat atas talian. Langkah
ini bertujuan untuk meningkatkan capaian maklumat yang sebelum ini.
2
MAKLUMBALAS
KUERI INPUT OUTPUT
DOKUMEN
PEMPROSES
Bab 3 Pengenalan Capaian Maklumat
Bahagian kedua iaitu pemproses adalah bahagian yang berkenaan dengan proses
capaian. Proses ini boleh terdiri daripada mengkelasifikasi maklumat dan melaksanakan
strategi pencarian maklumbalas dari kueri.Bahagian yang terakhir iaitu output adalah
merupakan bahagian yang akan memaparkan satu set senarai dokumen.
Bagi Agusti (2000), beliau menyatakan fasa utama bagi pemprosesan capaian maklumat
secara umumnya, sama ada capaian secara automatik keseluruhannya atau sebahagian sahaja
dengan sokongan peralatan perisian ialah
Pengumpulan Dokumen
Pengindeksan
Pencarian
Pengurusan dokumen dan kueri
Ini digambarkan melalui gambarajah berikut :
Maklumat lanjut boleh rujuk kertas kerja “Information Retrieval on The Web”
3
Bab 3 Pengenalan Capaian Maklumat
2.0 Perbezaan di antara Capaian Data, Capaian Maklumat dan Sistem Maklumat
Lain.
Capaian maklumat dan capaian data adalah berbeza melalui beberapa kriteria. Perbezaan ini
walaupun kabur, tetapi ianya penting bagi dalam menggambarkan darjah kemkompeksan
yang berhubung dengan kedua-dua jenis capaian tersebut.
Perbezaan di antara capaian maklumat dan capaian data boleh dilihat daripada jadual
di bawah :
Deskripsi Capaian Data Capaian Maklumat
Padanan Padanan Tepat Padanan Separa
Inference Deduksi Induksi
Model Berketentuan
(Deterministic)
Kebarangkalian
(Probabilistic)
Klasifikasi Monotetik Politetik
Bahasa Pertanyaan Olahan / Buatan Tabii
Spesifikasi Pertanyaan Lengkap Tidak lengkap
Item yang Dikehendaki Berpadanan Relevan
Ralat maklumbalas Sensitif Tidak Sensitif
Jadual 1: Rajah Perbandingan Capaian Data dan Capaian Maklumat
Pada kebiasaannya, dalam capaian data pengguna akan melihat kepada padanan tepat
iaitu kita memastikan sama ada item wujud atau tidak di dalam fail. Bagi capaian maklumat,
perkara tersebut mungkin di ambil berat tetapi secara umumnya, pengguna ingin mencari item
yang berpadanan separa dengan permintaan dan kemudian, memilih daripada senarai padanan
yang diberikan.
4
Bab 3 Pengenalan Capaian Maklumat
Inference yang digunakan dalam capaian data adalah deduktif mudah di mana aRb dan
bRc dan aRc. Bagi capaian maklumat, inference induktif digunakan; hubungan hanya
dinyatakan dengan darjah ketentuan atau tidak ketentuan dan dengan ini keyakinan pada
inference adalah berubah-ubah. Perbezaan ini menyebabkan capaian data dikatakan
berketentuan manakala capaian maklumat adalah berkebarangkalian.
Capaian data lebih kepada klasifikasi monotetik (monothetic) iaitu kelas yang
dinyatakan oleh objek yang mewarisi atribut, kedua-duanya mestilah mempunyai kelas.
Klasifikasi sedemikian tidak begitu berguna dalam capaian maklumat, akan tetapi klasifikasi
politetik (polythetic) lebih digunakan. Dalam klasifikasi tersebut, sesuatu individu dalam
kelas hanya mewarisi sebahagian daripada kesemua atribut yang diwarisi oleh keseluruhan
ahli di dalam kelas. Dengan yang demikian tiada atribut yang dimestikan bagi keahlian
sesuatu kelas.
Bahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan
sistaks dan tatabahasa yang terhad, manakala capaian maklumat menggunakan bahasa tabii
walaupun terdapat beberapa pengecualian.
Dalam capaian data, pertanyaan secara umumnya adalah spesifikasi yang lengkap
mengenai apa yang dikehendaki oleh pengguna berbanding dengan capaian maklumat yang
pelbagai dan tidak lengkap. Ini adalah kerana dalam capaian maklumat, kita mencari
dokumen yang relevan dan ini berbeza dengan capaian data yang memerlukan padanan hasil
yang tepat. Dengan ini, sistem capaian data lebih sensitif kepada ralat di mana ralat dalam
padanan tidak akan mencapai item yang dikehendaki yang membawa kepada kegagalan
keseluruhan sistem. Bagi capaian maklumat, ralat yang kecil dalam padanan tidak memberi
kesan kepada prestasi sistem.
5
Bab 3 Pengenalan Capaian Maklumat
Perbezaan sistem capaian maklumat (IR) dan sistem maklumat yang lain
Data Operasi Saiz Pangkalan Data
IR Dokumen / Halaman Web
Capaian (berkebarangkalian)
Kecil hingga besar
DBMS (hubungan)
Jadual Capaian (berketentuan) Kecil hingga besar
Sistem Cerdas (AI)
Logik inferens Kecil
Perbezaannya
Jumlah struktur data yang boleh dapat digunakan.
Capaian dalam sistem IR adalah bersifat berkeberangkalian iaitu tidak dapat ditentukan
bahawa dokumen yang dicapai dapat memenuhi kehendak pengguna.
Persamaan antara IR dan DBMS
Pangkalan data yang besar.
Kemeruapan (volatility) iaitu applikasi boleh berubah apabila berlaku panambahan,
penukaran dan penghapusan dokumen dalam pangkalan data.
3.0 Penilaian Sistem Capaian Maklumat
Penilaian terhadap sistem capaian terbukti bahawa ia merupakan satu tugasa yang sukar. Di
dalam kertas kerja Senko, beliau telah menyatakan bahawa ‘tanpa ragu-ragu sistem penilaian
adalah bahagian yang paling sukar di dalam sistem capaian storan maklumat…’. Terdapat
banyak kaedah yang telah dikemukakan untuk menilai kebolehan sistem capain maklumat.
Namun demikian, sistem capaian maklumat sering dinilai berdasarkan dapatan semula dan
ketepatan yang dikemukakan oleh Lesk dan Salton.
Sistem capaian maklumat memberikan nilai kesamaan koefisyen atau pangkat sebagai
penganggaran kerelevanan kepada sesuatu dokumen. Ini membenarkan pengguna
mengimbangi antara nilai ketepatan dan dapatan semula.
6
Bab 3 Pengenalan Capaian Maklumat
Dapatan semula = Dokumen relevan dicapai
Jumlah dokumen relevan
Ketepatan = Dokumen relevan dicapai
Jumlah dokumen dicapai
Secara ideanya, pengguna mahukan 100% ketepatan dan 100% dapatan semula tetapi
ini sukar dicapai secara realiti. Sistem yang baik mungkin mencapai sama ada :
1) 80% ketepatan dan 20% dapatan semula – mencapai hanya sebilangan kecil
dokumen relevan
2) 20% ketepatan dan 80% dapatan semula – mencapai banyak dokumen yang tidak
relevan.
Rajah 2: Perbezaan di antara ketepatan dan dapatan semula
Rajah di atas menunjukkan kebolehan tiga sistem hipotetikal (hypothetical) capaian
maklumat. Dari sini, dapat dilihat dengan meningkatkan jumlah ketepatan, jumlah dokumen
yang banyak dapat di capai.
7
100%
100%
Top 1000
Top 100
Top 10
Dapatan semula
Ketepatan
Bab 3 Pengenalan Capaian Maklumat
4.0 Isu Keefisyenan
Isu keefisyenan lebih menekan kepada alkhwarizmi yang mana yang kurang mengguna ruang
ingatan dan masa. Di antara kaedah yang selalu digunakan adalah fail songsang atau indeks
songsang, pemprosesan pertanyaan dan signature files.
Penggunaan indeks adalah untuk meningkatkan kelajuan dan keefisyenan di dalam
pencarian dokumen. Indeks songsang mempunyai dua komponen iaitu satu senarai perkataan
yang dirujuk sebagai perkataan dan satu senarai yang dirujuk sebagai posting list. Posting
list adalah senarai terpaut yang mempunyai hubungan bagi setiap perkataan.
Teknik yang selalu digunakan untuk mencari indeks songsang ialah senarai yang
tersusun (sorted list) atau jadual cincang (hash table). Setip perkataan mempunyai Zipf
Distribution. Zipf Distribution adalah satu peninjauan frekuensi kewujudan sesuatu perkara
sebagai suatu fungsi pemangkatan di mana pemangkatan ini ditentukan oleh frekunsi
kewujudan di atas.
Pemprosesan pertanyaan adalah satu kaedah menyusun pertanyaan dengan
mengurangkan idf (inverse document frequency). Manakala signature file mewakilkan
dokumen sebagai vektor bit yang mempunyai panjang yang tetap.
5.0 Strategi dan Utiliti
Beberapa taxanomi model konsep sistem maklumat telah dikemukakan. Dia antaranya, seperti
Falaoutsos (1985) menyatakan sistam capaian maklumat kepada tiga asas pendekatan iaitu
pencarian corak teks (text pattern search), pencarian fail songsang dan signature search.
Manakala Belkin dan Croft (1987) membahagikan teknik capaian kepada padanan tepat dan
padanan separa (padanan yang terbaik).
8
Bab 3 Pengenalan Capaian Maklumat
Rajah 3: Pengkelasan Teknik Capaian
Kesemua taxanomi yang dinyatakan bukanlah eksklusif dan satu sistem capaian
maklumat mungkin mengandungi lebih daripada satu aspek yang dinyatakan.
Namun di dalam laporan ini, sistem capaian maklumat cuba dilihat dari segi strategi
dan utiliti. Kedua-dua perkara ini adalah berkait rapat. Strategi capaian adalah teknik–teknik
yang akan mengganggar kerelevanan dokumen dan juga dokumen relevan ini mempunyai
perkataan yang berpadanan dengan pertanyaan. Strategi capaian dapat dibahagikan kepada
tiga pendekatan iaitu
i) manual
Teknik-teknik capaian maklumat yang tergolong dalam pendekatan secara manual
adalah capaian Boolean, set Fuzzy dan inference network. Pendekatan secara manual
memerlukan pengguna menentukan perkataan yang menjadikan sesuatu dokumen tersebut
relevan. Kadang kala, pengguna juga perlu mengumpukkan pemberat kepada perkataan bagi
mendapatkan susunan berbentuk peringkat (ranking).
ii) automatik
Pendekatan secara automatik akan meletakkan skor kerelevanan terhadap dokumen
yang dicapai berdasarkan frekuensi perkataan (term frequency) dan frekunsi fail songsangan
(inverse document frequency). Sesebuah dokumen dianggap relevan sekiranya ia mempunyai
9
Teknik Capaian
Padanan Tepat Padanan Separa
Corak Teks Pencarian Boolean Kebarangkalian Ruang Clustering ….. Vektor
Bab 3 Pengenalan Capaian Maklumat
perkataan yang sama di dalam pertanyaan. Frekunsi perkataan dapat dianggar dengan mengira
perkataan yang terdapat di dalam pangkalan data. Teknik yang popular dalam pendekatan ini
adalah capaian ruang vektor ( vector space model ).
iii) adaptif.
Sistem capaian maklumat yang menggunakan pendekatan secara adaptif berfungsi
dengan mempelajari alkhwarizmi berasaskan satu set contoh latihan. Teknik-teknik capaian
maklumat yang tergolong dalam pendekatan secara penyesuaian adalah seperti
kebarangkalian, rangkaian neural dan alkhwarizmi genetik.
Utiliti capaian adalah teknik yang dapat mengecam makna perkataan di dalam
dokumen dan pertanyaan seperti yang dikehendaki oleh pengguna. Utiliti capaian dapat
dibahagikan kepada beberapa pendekatan iaitu
i) perkataan yang berbeza bentuk
Di antara teknik yang tergolong di dalam pendekatan ini adalah teknik pengakar dan
teknik n-gram. Teknik pengakar merupakan satu teknik yang mengasingkan imbuhan
berdasarkan satu set peraturan agar memperolehi kata akar bagi ssesuatu perkataan. Set
peraturan yang dimaksudkan adalah bergantung kepada bahasa.
Teknik n-gram adalah satu teknik perkiraan yang dilakukan pada pasangan perkataan
berdasarkan sub-perkataan ynag unik. Dua perkataan yang hendak dipadan akan dipecahkan
kepada turutan unit perkataan yang lebih kecil. Kadar keserupaan dua perkataan yang cuba
dipadankan ditentukan dengan mendapatkan bilangan unit yang wujud pada kedua-dua
perkataan tersebut.
10
Bab 3 Pengenalan Capaian Maklumat
ii) Sinonim
Pendekatan secara sinonim merupakan satu teknik yang dapat memadankan dua
perkataan yang berlainan tetapi mempunyai maksud yang sama. Pendekatan secara sinonim
ini boleh dibahagikan kepada dua iaitu sinonim secara manual dan sinonim secara automatik.
Teknik yang tergolong dalam sinonim secara manual adalah tesaurus dan rangkaian
semantik. Tesaurus adalah satu set hubungan sesuatu perkataan. Manakala rangkaian
semantik menerangkan hubungan di antara sesuatu perkataan. Pembinaan tesaurus dan
rangkaian semantik secara manual adalah mahal dan kemungkinan tertinggal beberapa
perkataan.
Teknik yang tergolong dalam sinonim secara automatik adalah maklumbalas berkaitan
(relevance feedback), clustering dan latent semantic indexing. Teknik Teknik maklumbalas
berkaitan adalah teknik yang menjanakan pertanyaan baru berdasarkan perkataan yang
diperolehi daripada dokumen teratas dalam susunan berperingkat. Teknik clustering pula
mengumpul dokumen-dokumen yang relevan berdasarkan kesamaan. Bagi teknik latent
semantic indexing terlalu mahal untuk kegunaan pratikal.
iii) pendekatan perkataan (term proximity)
Teknik-teknik yang tergolong dalam pendekatan perkataan adalah capaian
berdasarkan perenggan (passage-based retrieval), frasa(phrases) dan parsing. Dokumen di
dalam teknik capaian berdasarkan perenggan akan dibahagikan kepada seksyen dan disusun
secara berperingkat satu demi satu.
Teknik frasa akan mengganggap pasangan perkataan sebagai satu terminologi.
Manakala teknik parsing akan mengenalpasti bahagian ucapan dan dianggap sebagai satu
terminologi.
Teknik–teknik yang terdapat dalam utiliti capaian ini boleh digabung dengan mana strategi
capaian bagi menjadikan sistem capaian maklumat lebih berkesan.
11
Bab 3 Pengenalan Capaian Maklumat
6.0 Integrasi Struktur Data dan Teks Dalam Sistem Pengurusan Hubungan
Pangkalan Data
Pelbagai teknologi baru dalam rangkaian dan pangkalan data telah dibangunkan secara
berasingan. Bagi rangkaian contohnya adalah Internet manakala pangkalan data adalah sistem
pengurusan hubungan pangkalan data.
Storan data bagi Internet adalah berbentuk fail rata (flat file) dan dari segi pengurusan
fail data ia terdapat beberapa kelemahan di antaranya halaman HTML sukar di pertingkatkan
dan sistem fail hanya menyediakan fungsi primitif seperti operasi buka/tutup , baca/tulis ke
atas data mentah.
Sistem pangkalan data menyediakan perisian sistem yang dibangunkan untuk
menyimpan, memanipulasi dan mengurus data secara efisyen dan boleh dipercayai. Dengan
mengintegrasikan sistem pengurusan hubungan pangkalan data dengan internet, pelayan Web
dapat ditingkatkan di antaranya enjin pemprosesan dinamik dan perwakilan dan organisasi
konsep entiti data hubungan dapat menghampiri alam nyata.
7.0 Pemprosesan Selari dan Tertabur
Pemprosesan selari dan tertabur dianggap sebagai dua teknik yang dapat mengurangkan masa.
Pemprosesan selari merupakan pembahagian tugas atau pangkalan data kepada beberapa
pemproses. Pendekatan ini lebih kepada penggunaan mesin.
Kajian pemprosesan tertabur kurang dilakukan. Pemprosesan tertabur dianggap
pangkalan data berada secara bertaburan iaitu Web. Robot atau spider iaitu satu program
yang ditugaskan mencari URL di dalam Web.
12
Bab 3 Pengenalan Capaian Maklumat
8.0 TREC
Pada tahun 1992, TREC telah dibangunkan sebagai sebahagian daripada program TIPSTER
Text yang dibiayai oleh National Institute of Standard and Technology (NIST) dan Defense
Advanced Research Projects Agency (DARPA). TREC adalah singkatan bagi Text Retrieval
Conference, dilihat sebagai satu komuniti program yang terdiri daripada perwakilan
kerajaan , industri dan pihak akademik.
Tujuan TREC dibina adalah untuk menyokong kajian di dalam komuniti capaian
maklumat dengan menyediakan infrastruktur yang diperlukan bagi penilaian skala besar
metodologi capaian teks. Kebiasaanya, matlamat bengkel kerja TREC adalah
menggalakkan kajian capaian maklumat menggunakan koleksi ujian yang besar
meningkatkan komunikasi di antara industri, pihak akademik dan kerajaan dengan
mewujudkan forum terbuka bagi penukaran idea-idea kajian
bagi mempercepatkan penukaran teknologi dari kajian makmal kepada produk komersil
yang mendemonstrasi kemajuan dalam metodologi capaian masalah alam nyata
bagi meningkatkan kebolehan teknik penilaian dan pembangunan teknik penilaian yang
baru yang sesuai yang boleh digunakan oleh industri dan pihak akademik
Bagi setiap TREC, NIST akan menyediakan satu set ujian dokumen dan soalan.
Peserta akan melarikan data yang dipeolehi pada setiap capaian dan kembali kepada NIST
dengan satu senarai capaian pemangkatan dokumen yang teratas. NIST akan mengumpul
keputusan individu, menilai dokumen yang dicapai untuk pembetulan dan menilai keputusan.
Kitaran TREC berakhir dengan satu bengkel kerja iaitu forum bagi peserta berkongsi
pengalaman mereka. Dengan kata laian, TREC adalah penilaian tahunan sistem capaian
maklumat menggunakan satu set dokumen yang piawai, kueri dan penilaian relevan.
13
Bab 3 Pengenalan Capaian Maklumat
9.0 KESIMPULAN
Setalah diperhatikan sistem capaian maklumat merupakan suatu bidang yang penting dan
mencabar pada masa kini. Kelakuan dan kemahuan pengguna yang selalu berubah
menyebabkan pelbagai teknik capaian telah dikaji dna dinilai. Namun laporan ini tidak dapat
mengupas segalanya, hanyalah sekadar penerangan asas. Kupasan yang lebih terperinci akan
dilihat dalam laporan yang akan datang.
RUJUKAN
Kulothukan a/l Palasundram (1998). Kajian Teknik-teknik Padanan Perkataan dan
Pembangunan Perisian Penterjemahan Istilah Inggeris-Melayu. Universiti Kebangsaan
Malaysia
http: //www.ida.liu.se/labs//iislab/courses/IRIF/IRIF_introduktion.html
http://www. ir.iit.edu/`ophir/slides/
http://trec.nist.gov/faq.html
http://www.npac.syr.edu/users/gcheng/homepage/thesis/node35.html
Tengku Mohd T.S. 1989. Logical–linguistics model and experiments in document retrieval.
Tesis Doktor Falsafah. Universiti of Glasgow
Van Rijsbergen, Information Retrieval, University of Glasgow.
14