Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat...

44
Temu-Kembali Informasi 2019 04A: Model Boolean & Ruang Vektor Husni Husni.trunojoyo.ac.id Pekan 07

Transcript of Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat...

Page 1: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Temu-Kembali Informasi 201904A: Model Boolean & Ruang Vektor

Husni

Husni.trunojoyo.ac.id

Pekan 07

Page 2: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Rekap: Uji interleave

• Prinsip desain dari analisis sensorik

– Tidak meminta peringkat absolut tetapi perbandingan relatifantara alternatif

• Contoh: apakah A lebih bagus daripada B?

– Eksperimen acak

• Interleave results dari (kedua) A dan B

• Memberikan interleaved results ke populasi yang sama dan menanyakanpreferensi mereke

• Uji hipotesis terhadap suara preferensi

2

Page 3: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Rekap: Korelasi Metriks IR dan interleaving

3

Page 4: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Rekap: Selain DCG: Perilaku User Sebagai Predictor Pencarian Sukses [Ahmed et al. WSDM’10]

• Memodelkan perilaku pencarian sekuensial pengguna denganmodel Markov

– Model untuk pola pencarian yang sukses

– Model untuk pola pencarian yang tak berhasil

ML untuk estimasi parameter pada data set beranotasi

4

Page 5: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Temu-Kembali Informasi 201904A: Model Boolean

Husni

Husni.trunojoyo.ac.id

Pekan 07

Page 6: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Abstraksi Arsitektur Search Engine

User

RankerIndexer

Doc Analyzer

Index results

Crawler

Doc Representation Query Rep

(Query)

EvaluationFeedback

Indexed corpus

Ranking procedure

6

Page 7: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pencarian dengan Query Boolean

• Query boolean– Contoh: “obama” AND “healthcare” NOT “news”

• Prosedur– Cari term query di dalam kamus (dictionary)

– Ambil (retrieve) daftar postingan (posting lists)

– Operasi• AND: interseksi (irisan) daftar postingan

• OR: gabungan (union) daftar postingan

• NOT: bukan daftar postingan

7

Page 8: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pencarian dengan Query Boolean

• Contoh: operasi AND

128

34

2 4 8 16 32 64

1 2 3 5 8 13 21

Term1

Term2

Memindai postings

Kompleksitas waktu: 𝑂( 𝐿1 +|𝐿2|)

Trik mempercepat: ketika mengerjakan multi-way join, mulai dari term berfrekuensi paling rendahmenuju yang berfrekuensi tertinggi.

8

Page 9: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Kekurangan Model Boolean

• Querynya tidak tepat– Query yang “over-constrained” (term terlalu spesifik): tidak dapat

diperoleh dokumen yang relevan– Query “under-constrained” (term terlalu umum): kebanyakan hasil (over

delivery)– Sulit menemukan posisi yang tepat di antara kedua ekstrem ini (sulit

bagi pengguna untuk menentukan batasan)

• Bahkan jika itu akurat– Tidak semua pengguna ingin menggunakan query seperti itu– Semua dokumen yang relevan tidak sama pentingnya

• Tidak ada yang akan menjelajah (memeriksa) semua hasil yang cocok

• Relevansi adalah masalah derajat!

9

Page 10: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pemilihan vs. Pemeringkatan Dokumen

+

++ +

---

----

----

-

--+--

Pemeringkatan

Dokumen

rel(d,q)=?

0.98 d1 +

0.95 d2 +

0.83 d3 -

0.80 d4 +

0.76 d5 -

0.56 d6 -

0.34 d7 -

0.21 d8 +

0.21 d9 -

Rel’(q)

Pemilihan

Dokumen

f(d,q)=?

+

+++

--+

-

+--

---

---

1

0

Rel’(q)

True Rel(q)

10

Page 11: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pemeringkatan sering lebih disukai

• Relevansi adalah masalah derajat

– Lebih mudah bagi pengguna untuk menemukan Query yang sesuai

• Pengguna dapat berhenti menjelajah di mana saja, sehingga batasnya dikendalikan oleh pengguna

– Pengguna yang lebih suka cakupan akan melihat lebih banyak item

– Pengguna yang lebih suka presisi akan melihat hanya sedikit

• Pembenaran Teoritis: Prinsip Peringkat Probabilitas

11

Page 12: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Prosedur Retrieval dalam IR Modern

• Model boolean menyediakan semua kandidat rankingnya

– Temukan dokumen yang memenuhi persyaratan Boolean

• Misal “obama healthcare” -> “obama” OR “healthcare”

• Lakukan perankingan kandidat berdasarkan relevansi

– Penting: notasi relevansi

• Pertimbangkan efisiensi

– Temu-kembali Top-k (Google)

12

Page 13: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Notasi Relevansi

Relevance

(Rep(q), Rep(d))

Similarity

P(r=1|q,d) r {0,1}Probability of Relevance

P(d →q) or P(q →d)

Probabilistic inference

Different

rep & similarity

Vector space

model

(Salton et al., 75)

Prob. distr.

model

(Wong & Yao, 89)

Generative ModelRegression

Model

(Fox 83)

Classical

prob. Model

(Robertson &

Sparck Jones, 76)

Doc

generation

Query

generation

LM

approach

(Ponte & Croft, 98)

(Lafferty & Zhai, 01a)

Prob. concept

space model

(Wong & Yao, 95)

Different inference system

Inference

network

model

(Turtle & Croft, 91)

Kuliah hari ini13

Page 14: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pemahaman Intuitif dari Relevansi

• Mengisi angka ajaib untuk menggambarkan hubungan antara dokumen dan kata-kata

information retrieval retrieved is helpful for you everyone

Doc1 1 1 0 1 1 1 0 1

Doc2 1 0 1 1 1 1 1 0

Query 1 1 0 0 0 0 0 0

Misal 0/1 untuk model Boolean, probabilitas untuk model probabilitas

14

Page 15: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Beberapa Notasi

• Vocabulary V={w1, w2, …, wN} dari Bahasa (language)

• Query q = t1,…,tm, dimana ti V

• Dokumen di = ti1,…,tin, dimana tij V

• Koleksi atau Corpus C= {d1, …, dk}

• Rel(q,d): relevansi dari dokumen d dengan query q

• Rep(d): representasi dari dokumen d

• Rep(q): representasi dari query q

15

Page 16: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Temu-Kembali Informasi 201904A: Model Ruang Vektor

Husni

Husni.trunojoyo.ac.id

Pekan 07

Page 17: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Relevansi = Kemiripan(Relevance = Similarity)

• Asumsi

– Query dan dokumen direpresentasikan dalam bentuk yang sama

• Query dapat dianggap sebagai "dokumen"

– Relevance(d,q) similarity(d,q)

• R(q) = {dC|rel(d,q)>𝜃}, rel(q,d)=(Rep(q), Rep(d))

• Persoalan kunci

– Bagaimana merepresentasikan query/dokumen?

– Bagaimana mendefinisikan ukuran kemiripan (𝑥,𝑦)?

17

Page 18: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Model Ruang Vektor

• Mennampilkan dokumen dan query dengan konsep vektor

– Setiap konsep mendefinisikan satu dimensi

– K konsep mendefinisikan suatu ruang berdimensi tinggi

– Elemen dari vektor bersesuaian dengan bobot konsep

• Misal d=(x1,…,xk), xi adalah “kepentingan” dari konsep i

• Mengukur relevansi

– Jarak antara vektor query dan vektor dokumen dalam ruang konsepini

18

Page 19: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Model VS: Ilustrasi

• Dokumen mana yang lebih dekat ke query?

Olahraga

Pendidikan

Keuangan

D4

D2

D1D5

D3

Query

19

Page 20: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Model VS tidak mengatakan...

• Bagaimana mendefinisikan/memilih “konsep dasar”

– Konsep diasumsikan ortogonal

• Bagaimana menentukan bobot (weights)

– Bobot dalam query menunjukkan pentingnya konsep itu

– Bobot dalam dokumen mengindikasikan seberapa bagus konsepmencirikan dokumen tersebut

• Bagaimana mendefinisikan ukuran kemiripan/jarak.

20

Page 21: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Apa itu "konsep dasar" yang bagus?

• Orthogonal

– Vektor-vektor basis independent secara linier

• Maknanya “Non-overlapping” (tidak tumpang-tindih)

• Tidak ambigu

• Bobot dapat ditentukan secara otomatis dan akurat

• Solusi yang ada

– Terms atau N-grams, missal bag-of-words

– Topik, yaitu model topik

21

Page 22: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Bagaimana Menentukan Bobot?

• PENTING!

• Mengapa?– Sisi query: tidal seua term mempunyai kepentingan sama

– Sisi dokumen: beberapa term membawa lebih banyak informasitentang konten

• Bagaimana?

– Dua heuristik dasar

• TF (Term Frequency) = Within-doc-frequency

• IDF (Inverse Document Frequency)

22

Page 23: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pembobotan TF

• Gagasan: suatu term lebih penting jika ia muncul lebih seringdi dalam suatu dokumen

• Rumus TF– Jika 𝑓(𝑡, 𝑑) adalah jumlah frekuensi dari term 𝑡 di dalam dok 𝑑

– TF mentah: 𝑡𝑓(𝑡, 𝑑) = 𝑓(𝑡, 𝑑)

23

Page 24: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Normalisasi TF

• Query: iphone 6s

– D1: iPhone 6s receives pre-orders on September 12.

– D2: iPhone 6 has three color options.

– D3: iPhone 6 has three color options. iPhone 6 has three color options. iPhone 6 has three color options.

24

Page 25: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Normalisasi TF

• Dua pandangan mengenai panjang dokumen– Dokumen panjang karena itu bertele-tele– Dokumen panjang karena memiliki lebih banyak konten

• TF mentahan tidak akurat– Variasi Panjang dokumen– “kemunculan berulang" kurang informatif dibandingkan " kemunculan

pertama"– Relevansi tidak meningkat secara proporsional dengan jumlah

kemunculan term

• Umumnya menghukum dokumen panjang, tetapi menghindarihukuman yang berlebihan– Normalisasi panjang berpivot

25

Page 26: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Normalisasi TF

• Penskalaan TF Sub linier

– 𝑡𝑓 𝑡, 𝑑 = ቊ1 + log 𝑓 𝑡, 𝑑 , 𝑗𝑖𝑘𝑎 𝑓 𝑡, 𝑑 > 0

0 , 𝑗𝑖𝑘𝑎 𝑡𝑖𝑑𝑎𝑘

TFNormal

TF Mentah

26

Page 27: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Normalisasi TF

• Penskalaan FT Maksimum

– 𝑡𝑓 𝑡, 𝑑 = 𝛼 + (1 − 𝛼)𝑓(𝑡,𝑑)

max𝑡

𝑓(𝑡,𝑑)

– Normalkan dengan kata berfrekuensi paling besar dalam dokumen

TFNormal

TF Mentah

𝛼

1

27

Page 28: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Frekuensi Dokumen: df

• Gagasan: suatu term lebih diskriminatif (pembeda) jika iamuncul hanya dalam sedikit dokumen

28

Page 29: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pembobotan IDF

• Solusi

– Berikan bobot lebih tinggi untuk term-term yang jarang

– Formula

• 𝐼𝐷𝐹 𝑡 = 1 + log(𝑁

𝑑𝑓(𝑡))

– Properti yang spesifik corpus

• Independen dari suatu dokumen tunggal

Jumlah total dokumen dalam koleksi

Jumlah dokumen mengandung term 𝑡

Penskalaan Tidak Linier

29

Page 30: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Mengapa Frekuensi Dokumen

• Bagaimana dengan frekuensi term total?

– 𝑡𝑡𝑓 𝑡 = σ𝑑 𝑓(𝑡, 𝑑)

– Tidak dapat mengenali kata-kata yang sering muncul dalamkumpulan dokumen

Word ttf df

try 10422 8760

insurance 10440 3997

Contoh total frekuensi term v.s. frekuensidokumen dalam koleksi Reuters-RCV1.

30

Page 31: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Rekap: Pemilihan & Pemeringkatan Dokumen

+

++ +

---

----

----

-

--+--

Perankingan

Dokumen

rel(d,q)=?

0.98 d1 +

0.95 d2 +

0.83 d3 -

0.80 d4 +

0.76 d5 -

0.56 d6 -

0.34 d7 -

0.21 d8 +

0.21 d9 -

Rel’(q)

Pemilihan

Dokumen

f(d,q)=?

+

+++

--+

-

+--

---

---

1

0

Rel’(q)

True Rel(q)

31

Page 32: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Rekap: Prosedur Retrieval dalam IR Modern

• Model Boolean menyediakan semua kandidat ranking

– Temukan dokumen-dokumen yang memenuhi kondisi Boolean

• Misal “obama healthcare” -> “obama” OR “healthcare”

• Tentukan ranking kandidat berdasarkan relevansinya

– Penting: notasi relevansi

• Pertimbangkan efisiensi

– Temu-kembali Top-k (Google)

32

Page 33: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Pembobotan TF-IDF

• Mengkombinasikan TF dan IDF

– Sering di dalam dok→ tf tinggi→ bobot tinggi

– Jarang dalam koleksi→ idf tinggi→ bobot tinggi

– 𝑤 𝑡, 𝑑 = 𝑇𝐹 𝑡, 𝑑 × 𝐼𝐷𝐹(𝑡)

• Skema representasi dokumen paling terkenal di IR! (G Salton et al. 1983)

“Salton mungkin adalahilmuwan komputer terkemukayang bekerja di bidangpencarian informasi selamahidupnya.” - wikipedia

Gerard Salton Award– penghargaan prestasi tertinggi di IR

33

Page 34: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Mendefinisikan Ukuran Kemiripan yang Bagus

• Jarak Euclidean?

Olahraga

Pendidikan

Keuangan

D4

D2

D1D5

D3

Query

TF-IDF space

34

Page 35: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Mendifinisikan Ukuran Kemiripan yang Bagus

• Jarak Euclidean

– 𝑑𝑖𝑠𝑡 𝑞, 𝑑 = σ𝑡∈𝑉[𝑡𝑓 𝑡, 𝑞 𝑖𝑑𝑓 𝑡 − 𝑡𝑓 𝑡, 𝑑 𝑖𝑑𝑓 𝑡 ]2

– Dokumen yang lebih panjang akan dihukum oleh kata-kata tambahan

– Kita lebih peduli tentang bagaimana kedua vektor ini tumpang tindih

35

Page 36: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Dari Jarak ke Sudut

• Sudut: bagaimana vektor mengalami overlap

– Kemiripan kosinus (cosine similarity) – proyeksi sari satu vektorterhadap lainnya

Olahraga

Keuangan

D1

D2

Query

Ruang TF-IDF

Pilihan sudutPilihan jarakEuclidean

36

Page 37: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Kemiripan Cosinus

• Sudut antara dua vektor

– 𝑐𝑜𝑠𝑖𝑛𝑒 𝑉𝑞 , 𝑉𝑑 =𝑉𝑞×𝑉𝑑

𝑉𝑞 2× 𝑉𝑑 2

=𝑉𝑞

𝑉𝑞 2

×𝑉𝑑

𝑉𝑑 2

– Panjang dokumen dinormalisasiVektor Unit

Vektor TF-IDF

Olahraga

Keuangan

D1

D2

Query

Ruang TF-IDF

37

Page 38: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Komputasi Cepat Cosinus dalam Retrieval

• 𝑐𝑜𝑠𝑖𝑛𝑒 𝑉𝑞 , 𝑉𝑑 = 𝑉𝑞 ×𝑉𝑑

𝑉𝑑 2

– 𝑉𝑞 2akan sama untuk semua dokumen kandidat

– Normalisasi dari 𝑉𝑑 dapat dikerjakan pada waktu indexing

– Hanya melibatkan 𝑡 ∈ 𝑞 ∩ 𝑑

– Score accumulator untuk setiap term query saat menginterseksi(irisan) postingan dari inverted index

38

Page 39: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Komputasi Cepat Cosinus dalam Retrieval

• Menjaga score accumulator untuk setiap doc ketikamemindai daftar postingan

Query = “info security”S(d,q)=g(t1)+…+g(tn) [jumlah TF term-term yang cocok]Info: (d1, 3), (d2, 4), (d3, 1), (d4, 5)Security: (d2, 3), (d4, 1), (d5, 3)

Accumulators: d1 d2 d3 d4 d5(d1,3) => 3 0 0 0 0(d2,4) => 3 4 0 0 0(d3,1) => 3 4 1 0 0(d4,5) => 3 4 1 5 0(d2,3) => 3 7 1 5 0(d4,1) => 3 7 1 6 0(d5,3) => 3 7 1 6 3

info

security

Dapat dengan mudahditerapkan kepembobotan TF-IDF!

Pegang hanyaakumulator paling menjanjikan untukretrieval top K

39

Page 40: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Kelebihan Model Ruang Vektor

• Efektif secara empiris! (kinerja TREC teratas)

• Intuitif

• Mudah diimplementasikan

• Tekah dikaji dengan baik/paling banyak dievaluasi

• The Smart system– Dikembangkan di Cornell: 1960-1999

– Masih digunakan secara luas

• Peringatan: Banyak varian TF-IDF!

40

Page 41: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Kekurangan dari Model Ruang Vektor

• Asumsi independensi term (yaitu BoW)

• Asumsi query dan dokumen sama

• Kurangnya “kecukupan prediktif”

– Pembobotan term sembarang

– Ukuran kemiripan sembarang

• Banyak penyetelan parameter!

41

Page 42: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Yang harus diketahui

• Perankingan dan Pemilihan dokumen

• Gagasan dasar dari model ruang vektor

• Dua heuristic penting dalam model VS

– TF

– IDF

• Ukuran kemiripan untuk model VS

– Euclidean distance v.s. cosine similarity

42

Page 43: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

Bacaan Hari Ini

• Chapter 1: Boolean retrieval

– 1.3 Processing Boolean queries

– 1.4 The extended Boolean model versus ranked retrieval

• Chapter 6: Scoring, term weighting and the vector space model

– 6.2 Term frequency and weighting

– 6.3 The vector space model for scoring

– 6.4 Variant tf-idf functions

43

Page 44: Temu-Kembali Informasi 2019...Pemeringkatan sering lebih disukai •Relevansi adalah masalah derajat –Lebih mudah bagi pengguna untuk menemukan Query yang sesuai •Pengguna dapat

PERTANYAAN?

Terimakasih!

44