TEMU KEMBALI INFORMASI - Lelah...
Transcript of TEMU KEMBALI INFORMASI - Lelah...
Pendahuluan
TEMU KEMBALI INFORMASI
JULIO ADISANTOSODepartemen Ilmu Komputer IPB
Pertemuan 1
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Identitas Mata Kuliah
Nama Mata Kuliah : Temu Kembali Informasi (TKI)Information Retrieval (IR)
Kode Mata Kuliah : KOM431Koordinator : Julio Adisantoso (JAS)Semester : Pendek Ganjil 2015/2016
Pengajar : JAS, YHY
Jadwal Kuliah : Kamis (07:00-09:30)
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Learning Outcome
KNOWLEDGE: Mahasiswa mempelajari dan memahamiprinsip, teknik, dan metode IRSKILLS: Mahasiswa mampu mengaplikasikan prinsip, teknik,dan metode IR secara umum seperti pengindeksan, mesinpencari, klasifikasi, peringkasan dokumen, web search, danberbagai aplikasi IR lainnya.COMPETENCE: Mahasiswa dapat mengimplementasikanteknik IR dari berbagai bentuk dokumen teks, baik desktopmaupun web.VALUE ADDED: Mahasiswa mendapat topik riset (skripsi),berlatih menelaah jurnal, dan presentasi
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Course Content
Prinsip dan teknik pemrosesan teks.IndexingModel-model IREvaluasi IRMetode-metode lanjut di bidang IR, seperti Relevance Feedbackand Query Expansion, Text Classification and Clustering, TextSummarization, Question Answering System, CLIR, XMLRetrieval, Web Search, Semantic Web
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Penentuan Nilai Akhir
UTS dan UAS dilakukan melalui ujian tertulis dengan bobotmasing-masing 35%.TP (Tugas Perorangan) adalah rata-rata dari semua tugas yangdiberikan, dan diberi bobot 10%Nilai PA (Proyek Akhir) terdiri dari nilai produk proyek(program komputer, laporan) dan presentasi. Bobot nilai PAadalah 20%.Catatan: Tidak ada ujian perbaikan
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Perangkat Perkuliahan
Peserta: Mahasiswa Mayor ILKOMSite Material Elektronik (resources) http://julio.staff.ipb.ac.idReferensi Utama:
Christopher D. Manning, Prabhakar Raghavan, and HinrichSchutze . 2008. Introduction to Information Retrieval. CambridgeUniversity Press.C. J. van Rijsbergen. Information Retrieval. InformationRetrieval Group, University of Glasgow.Richardo Baeza-Yates and Berthier Rieiro-Neto. ModernInformation RetrievalSegaran, T., Evans, C., amd Taylor. 2009. Programming TheSemantic Web. O’Reilly.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Tata Tertib
Kehadiran Paling lambat 15 menit setelah dosen masuk kelas/labBerpakaian sesuai ketentuan TaTib IPBMinimum kehadiran 80% masing-masing untuk kuliah danpraktikum (syarat untuk UAS)No sound handphone, no BBM/FB/WA/SMS/Line/Path etc saatkuliahTidak mengoperasikan laptop, gadget, dan sejenisnya.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Kejujuran Akademik
Setiap KECURANGAN akan diberikan imbalan nilai 0 padamata kuliah ini
Menyontek ataupun bekerja sama pada saat ujianMenyalin tugas hasil pekerjaan pihak lainTitip tanda tangan kehadiran
Imbalan (sanksi) akan diberikan untuk si pelaku maupun yangmemberikan kesempatan
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Tips Belajar KOM431
Sehat jasmani dan rohani, serta tidak loyo/ngantukKuliah dengan sungguh-sungguh dan fokus. Bawa alat tulis danbuku catatan.Aktif dan banyak berdiskusi dengan pihak manapun.High curiousity, yakni rasa penasaran yang tinggi.Mau belajar dan aktif mencari sumber belajar lain
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Intermezo
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
What Google does?
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
What is this course about?
ProcessingIndexingRetrieving... textual data
Fits in four lines, but much more complex and interesting thanthat
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Beberapa Definisi IR
Manning et al (2007): Information retrieval (IR) is finding material(usually documents) of an unstructured nature (usually text) that satisfyan information need from within large collections (usually stored oncomputers).
Salton (1989): Information-retrieval systems process files of recordsand requests for information, and identify and retrieve from the filescertain records in response to the information requests. The retrieval ofparticular records depends on the similarity between the records andthe queries, which in turn is measured by comparing the values ofcertain attributes to records and information requests.
Beeza-Yates & Ribeiro-Neto: Information retrieval system adalahsistem untuk merepresentasikan, menyimpan, mengorganisasikan, danmemproses informasi.JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
IR Bukan Hanya SE
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
IR vs Data Retrieval
IRberkaitan dengan natural language text ... unstructured andsemantically ambigousspesifikasi set of words untuk menentukan semantics dariinformation needed
Data Retrievalberkaitan dengan data ... well defined structure and semanticspesifikasi query expression untuk menentukan constrain yangharus dipenuhi untuk obyek yang akan menjadi himpunanjawaban
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
IR vs Database
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Typical IR Task
Given:A corpus of textual natural-language documents.A user query in the form of a textual string
Find:A ranked set of documents that are relevant to the query
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Korpus
Korpus adalah kumpulan dokumen berisi teks alami yang dipilihdengan cara tertentu, yang dapat dibaca oleh mesin.Media: teks, audio, video (multimedia)Pemrosesan korpus/teks: mengenali dan mendapatkan penciri(fitur) dari suatu dokumenIsu pada korpus: (1) Tokenisasi pada korpus, (2) Anotasi padakorpus
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Pemrosesan Dokumen/Teks
Mengenali dan mendapatkan penciri (fitur) dari suatu dokumen— ekstraksi informasi (text mining)Bertujuan untuk mengetahui ”isi” dari dokumen.Text mining: proses ekstraksi pola yang berupa informasi danpengetahuan dari sejumlah besar sumber data teks.Tujuan dari text mining adalah untuk mendapatkan informasiyang berguna dari sekumpulan dokumenText mining merupakan penerapan konsep dan teknik datamining untuk mencari pola dalam teks, yaitu proses mengolahteks guna meng-ekstrak informasi yang bermanfaat untuk tujuantertentu
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Text Mining Process
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Ruang Lingkup
Empiris: Teks tidak hanya sekumpulan kata, sehinggapemrosesan teks melakukan analisis data dan pengujian hipotesisTeknik: Mengenali karakteristik dari sampel teksMetode: model dan metode statistik seperti peluang, nilaistatistik, pembelajaran mesin, teori informasi, dsb
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI
PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks
Statistik Teks
Jumlah Kata: Seberapa besar korpus yang ada (N)Jenis kata:
Berapa jumlah kata yang unik?Berapa besar perbendaharaan kata pada korpus?
Token (dapat berupa kata, kalimat, paragraf, atau bagian tekslainnya)
Berapa jumlah token pada korpus?Berapa frekuensi dari setiap jenis token?Token apa yang paling sering muncul pada korpus?Bagaimana hubungan antar token?
Isu: Bagaimana melakukannya (Metode dan Algoritme, ProgramKomputer)? ... see you next week ;)
JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI