TEMU KEMBALI INFORMASI - Lelah...

22
Pendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Transcript of TEMU KEMBALI INFORMASI - Lelah...

Page 1: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

Pendahuluan

TEMU KEMBALI INFORMASI

JULIO ADISANTOSODepartemen Ilmu Komputer IPB

Pertemuan 1

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 2: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Identitas Mata Kuliah

Nama Mata Kuliah : Temu Kembali Informasi (TKI)Information Retrieval (IR)

Kode Mata Kuliah : KOM431Koordinator : Julio Adisantoso (JAS)Semester : Pendek Ganjil 2015/2016

Pengajar : JAS, YHY

Jadwal Kuliah : Kamis (07:00-09:30)

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 3: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Learning Outcome

KNOWLEDGE: Mahasiswa mempelajari dan memahamiprinsip, teknik, dan metode IRSKILLS: Mahasiswa mampu mengaplikasikan prinsip, teknik,dan metode IR secara umum seperti pengindeksan, mesinpencari, klasifikasi, peringkasan dokumen, web search, danberbagai aplikasi IR lainnya.COMPETENCE: Mahasiswa dapat mengimplementasikanteknik IR dari berbagai bentuk dokumen teks, baik desktopmaupun web.VALUE ADDED: Mahasiswa mendapat topik riset (skripsi),berlatih menelaah jurnal, dan presentasi

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 4: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Course Content

Prinsip dan teknik pemrosesan teks.IndexingModel-model IREvaluasi IRMetode-metode lanjut di bidang IR, seperti Relevance Feedbackand Query Expansion, Text Classification and Clustering, TextSummarization, Question Answering System, CLIR, XMLRetrieval, Web Search, Semantic Web

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 5: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Penentuan Nilai Akhir

UTS dan UAS dilakukan melalui ujian tertulis dengan bobotmasing-masing 35%.TP (Tugas Perorangan) adalah rata-rata dari semua tugas yangdiberikan, dan diberi bobot 10%Nilai PA (Proyek Akhir) terdiri dari nilai produk proyek(program komputer, laporan) dan presentasi. Bobot nilai PAadalah 20%.Catatan: Tidak ada ujian perbaikan

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 6: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Perangkat Perkuliahan

Peserta: Mahasiswa Mayor ILKOMSite Material Elektronik (resources) http://julio.staff.ipb.ac.idReferensi Utama:

Christopher D. Manning, Prabhakar Raghavan, and HinrichSchutze . 2008. Introduction to Information Retrieval. CambridgeUniversity Press.C. J. van Rijsbergen. Information Retrieval. InformationRetrieval Group, University of Glasgow.Richardo Baeza-Yates and Berthier Rieiro-Neto. ModernInformation RetrievalSegaran, T., Evans, C., amd Taylor. 2009. Programming TheSemantic Web. O’Reilly.

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 7: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Tata Tertib

Kehadiran Paling lambat 15 menit setelah dosen masuk kelas/labBerpakaian sesuai ketentuan TaTib IPBMinimum kehadiran 80% masing-masing untuk kuliah danpraktikum (syarat untuk UAS)No sound handphone, no BBM/FB/WA/SMS/Line/Path etc saatkuliahTidak mengoperasikan laptop, gadget, dan sejenisnya.

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 8: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Kejujuran Akademik

Setiap KECURANGAN akan diberikan imbalan nilai 0 padamata kuliah ini

Menyontek ataupun bekerja sama pada saat ujianMenyalin tugas hasil pekerjaan pihak lainTitip tanda tangan kehadiran

Imbalan (sanksi) akan diberikan untuk si pelaku maupun yangmemberikan kesempatan

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 9: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Tips Belajar KOM431

Sehat jasmani dan rohani, serta tidak loyo/ngantukKuliah dengan sungguh-sungguh dan fokus. Bawa alat tulis danbuku catatan.Aktif dan banyak berdiskusi dengan pihak manapun.High curiousity, yakni rasa penasaran yang tinggi.Mau belajar dan aktif mencari sumber belajar lain

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 10: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Intermezo

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 11: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

What Google does?

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 12: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

What is this course about?

ProcessingIndexingRetrieving... textual data

Fits in four lines, but much more complex and interesting thanthat

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 13: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Beberapa Definisi IR

Manning et al (2007): Information retrieval (IR) is finding material(usually documents) of an unstructured nature (usually text) that satisfyan information need from within large collections (usually stored oncomputers).

Salton (1989): Information-retrieval systems process files of recordsand requests for information, and identify and retrieve from the filescertain records in response to the information requests. The retrieval ofparticular records depends on the similarity between the records andthe queries, which in turn is measured by comparing the values ofcertain attributes to records and information requests.

Beeza-Yates & Ribeiro-Neto: Information retrieval system adalahsistem untuk merepresentasikan, menyimpan, mengorganisasikan, danmemproses informasi.JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 14: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

IR Bukan Hanya SE

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 15: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

IR vs Data Retrieval

IRberkaitan dengan natural language text ... unstructured andsemantically ambigousspesifikasi set of words untuk menentukan semantics dariinformation needed

Data Retrievalberkaitan dengan data ... well defined structure and semanticspesifikasi query expression untuk menentukan constrain yangharus dipenuhi untuk obyek yang akan menjadi himpunanjawaban

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 16: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

IR vs Database

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 17: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Typical IR Task

Given:A corpus of textual natural-language documents.A user query in the form of a textual string

Find:A ranked set of documents that are relevant to the query

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 18: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Korpus

Korpus adalah kumpulan dokumen berisi teks alami yang dipilihdengan cara tertentu, yang dapat dibaca oleh mesin.Media: teks, audio, video (multimedia)Pemrosesan korpus/teks: mengenali dan mendapatkan penciri(fitur) dari suatu dokumenIsu pada korpus: (1) Tokenisasi pada korpus, (2) Anotasi padakorpus

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 19: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Pemrosesan Dokumen/Teks

Mengenali dan mendapatkan penciri (fitur) dari suatu dokumen— ekstraksi informasi (text mining)Bertujuan untuk mengetahui ”isi” dari dokumen.Text mining: proses ekstraksi pola yang berupa informasi danpengetahuan dari sejumlah besar sumber data teks.Tujuan dari text mining adalah untuk mendapatkan informasiyang berguna dari sekumpulan dokumenText mining merupakan penerapan konsep dan teknik datamining untuk mencari pola dalam teks, yaitu proses mengolahteks guna meng-ekstrak informasi yang bermanfaat untuk tujuantertentu

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 20: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Text Mining Process

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 21: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Ruang Lingkup

Empiris: Teks tidak hanya sekumpulan kata, sehinggapemrosesan teks melakukan analisis data dan pengujian hipotesisTeknik: Mengenali karakteristik dari sampel teksMetode: model dan metode statistik seperti peluang, nilaistatistik, pembelajaran mesin, teori informasi, dsb

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI

Page 22: TEMU KEMBALI INFORMASI - Lelah Terbiasajulio.staff.ipb.ac.id/files/2015/09/01_IR_Pendahuluan.pdfPendahuluan TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan

PendahuluanKontrak PerkuliahanPengertian IRPemrosesan Teks

Statistik Teks

Jumlah Kata: Seberapa besar korpus yang ada (N)Jenis kata:

Berapa jumlah kata yang unik?Berapa besar perbendaharaan kata pada korpus?

Token (dapat berupa kata, kalimat, paragraf, atau bagian tekslainnya)

Berapa jumlah token pada korpus?Berapa frekuensi dari setiap jenis token?Token apa yang paling sering muncul pada korpus?Bagaimana hubungan antar token?

Isu: Bagaimana melakukannya (Metode dan Algoritme, ProgramKomputer)? ... see you next week ;)

JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI