Jawaban UTS dan UAS Mata Kuliah Information Retrieval

Soal UTS:

1. Apakah yang dimaksud dgn IR ?

2. Bagaimana cara kerja IR ? Jelaskan dengan detil.

3. Bagaimana masa depan IR? lakukan analisa / research yang mendalam.

Soal UAS :
1. Metode / Algoritma apa saja yang digunakan untuk melakukan IR?
2. Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya.
3. Jelaskan Algoritma Web-Crawler yang sederhana, berikan contohnya.

Jawaban UTS :

Information Retieval (IR) adalah studi teknik untuk mengatur dan mengambil informasi dari teks yang tersimpan dalam komputer. Teks kategorisasi, rute teks dan sistem teks penyaringan semua prihatin dengan panjang kebutuhan informasi istilah. Kategorisasi teks label teks secara otomatis berdasarkan seperangkat kategori standar. Misalnya, komputer abstrak ilmu mungkin diklasifikasikan berdasarkan bidang studi, seperti-Sistem Operasi, Struktur Data, dll Cerdas Buatan Jelas, banyak orang tertarik pada topik tertentu dari ilmu komputer akan menemukan klasifikasi ini berguna. Teks sistem routing menerima satu set profil, atau kategori kepentingan, dan teks rute otomatis yang memenuhi profil, untuk pengguna yang sesuai. Teks sistem penyaringan hanya mengizinkan teks-teks tertentu untuk melewati filter. Filter menentukan topik yang menarik pengguna dan hanya topik-topik seperti yang dikirimkan ke pengguna. Dalam makalah ini penulis menyajikan tantangan IR untuk representasi teks dan pengambilan dan mengusulkan arah baru untuk lebih pendekatan pengambilan realistis.
Cara kerja IR yaitu Query berbasis sistem IR harus dapat menerima permintaan tentang topik apapun dan menemukan teks yang berisi informasi yang ditentukan dari permintaan. Banyak teks (juga disebut teks database atau tekscorpora) yang sangat besar, dan beberapa kali IR sistem yang diperlukan untuk beroperasi secara real-time, yang menuntut sistem IR untuk menjadi cepat dan efisien. Juga, pencarian dilakukan pada teks bahasa alami, yang inheren memiliki semua ambiguitas dan ketidaktepatan. Bagian berikut membahas beberapa tantangan, sistem IR harus menghadapi.
a. Sinonim terjadi ketika kata-kata yang berbeda dari frase berarti dasarnya hal yang sama. Sebagai contoh, pengguna yang mencari artikel dari investasi perusahaan. Salah satu strategi yang sederhana adalah untuk mencari kata "berinvestasi". Tapi, strategi ini akan gagal untuk mengambil banyak teks yang menyangkut investasi perusahaan, karena ada banyak cara yang berbeda untuk merujuk pada investasi. Kata-kata "keuangan", "dana", "dukungan", "memanfaatkan" dll juga mengacu pada investasi, dan teks tentang tidak dapat diambil oleh query di atas. Bahasa alami diisi dengan banyak kata dan frase yang memiliki arti yang sama, dan sering tidak mungkin bagi pengguna untuk menyediakan semua kata-kata yang mungkin relevan dengan query. Untuk mengatasi masalah ini, beberapa sistem IR memperluas permintaan untuk memasukkan semua kata sinonim untuk kata yang diberikan dengan bantuan tesaurus.
b. Polisemi terjadi ketika satu kata memiliki lebih dari satu arti. Misalnya, kata "ditembak" dapat merujuk pada arti sebagai berikut:Penembakan A, - Dia ditembak di harimau.Upaya, di - aku mengambil tembakan di bermain lotere.Sebuah foto, di - Dia mengambil tembakan bagus Red Fort.Memang, itu adalah latihan yang menarik untuk setiap pencarian kata umum dalam kamus, salah satunya adalah hampir selalu terkejut menemukan makna lebih dari yang diharapkan. Teknik pengertian kata disambiguasi telah inves-tigated untuk mengatasi masalah polisemi, meskipun hanya beberapa sistem IR saat memanfaatkannya.
c. Frase Ekspresi yang terdiri dari beberapa kata sering memiliki arti yang secara substansial berbeda dari arti kata-kata individu. Misalnya kalimat "Artificial Intelligence" berbeda secara individual "Buatan" dan "Intelligence", dan "Opera-ting Sistem" berbeda dari "Operasi" kata individu dan "Sistem". Komponen-situs ekspresi yang lazim dalam bahasa alami, dan frase berbasis teknik pengindeksan telah dikembangkan untuk berurusan dengan merek.

Masa depan IR dilihat dari perkembangan web, dari web 1.0 hanya menyuguhkan informasi tanpa adanya timbal balik dari pengguna, kemudian web 2.0 adanya aktivitas bertukar informasi (sharing) dan saling berkomunikasi antar pengguna. Pada web 3.0 kecerdasan buatan (artificial intelligence) sudah diterapkan. dari pekembangan web tersebut maka masa depan IR terus berevolusi dari hanya mencari teks kemudian dari hasil pencarian teks tersebut akan menghasilkan/menampilkan query / informasi tidak hanya teks (blog/home page) memungkinkan juga menampilkan foto dan video dari hasil link teks tersebut bahkan akan terhubung ke website e-government yang pernah merekam history / kegiatan seseorang, apabila kita mencari nama seseorang.

Jawaban UAS :

Metode / Algoritma untuk melakukan IR

Algoritma brute force merupakan algoritma pencocokan string yang ditulis tanpa memikirkan peningkatan performa. Algoritma ini sangat jarang dipakai dalam praktik, namun berguna dalam studi pembanding dan studi-studi lainnya. Cara kerja :
Secara sistematis, langkah-langkah yang dilakukan algoritma brute force pada saat mencocokkan string adalah:
a.Algoritma brute force mulai mencocokkan pattern pada awal teks.
b.Dari kiri ke kanan, algoritma ini akan mencocokkan karakter per karakter pattern dengan karakter di teks yang bersesuaian, sampai salah satu kondisi berikut dipenuhi: Karakter di pattern dan di teks yang dibandingkan tidak cocok (mismatch). Semua karakter di pattern cocok. Kemudian algoritma akan memberitahukan penemuan di posisi ini.
c.Algoritma kemudian terus menggeser pattern sebesar satu ke kanan, dan mengulangi langkah ke-2 sampai pattern berada di ujung teks.
Algoritma Knuth-Morris-Pratt adalah salah satu algoritma pencarian string, dikembangkan secara terpisah oleh Donald E. Knuth pada tahun 1967 dan James H. Morris bersama Vaughan R. Pratt pada tahun 1966, namun keduanya mempublikasikannya secara bersamaan pada tahun 1977. Cara kerja :
Perhitungan penggeseran pada algoritma ini adalah sebagai berikut, bila terjadi ketidakcocokkan pada saat pattern sejajar dengan , kita bisa menganggap ketidakcocokan pertama terjadi di antara dan , dengan . Berarti, dan tidak sama dengan . Ketika kita menggeser, sangat beralasan bila ada sebuah awalan dari pattern akan sama dengan sebagian akhiran dari sebagian teks. Sehingga kita bisa menggeser pattern agar awalan tersebut sejajar dengan akhiran dari .
Dengan kata lain, pencocokkan string akan berjalan secara efisien bila kita mempunyai tabel yang menentukan berapa panjang kita seharusnya menggeser seandainya terdeteksi ketidakcocokkan di karakter ke- dari pattern. Tabel itu harus memuat yang merupakan posisi karakter setelah digeser, sehingga kita bisa menggeser pattern sebesar relatif terhadap teks.
Secara sistematis, langkah-langkah yang dilakukan algoritma Knuth-Morris-Pratt pada saat mencocokkan string: Algoritma Knuth-Morris-Pratt mulai mencocokkan pattern pada awal teks. Dari kiri ke kanan, algoritma ini akan mencocokkan karakter per karakter pattern dengan karakter di teks yang bersesuaian, sampai salah satu kondisi berikut dipenuhi: Karakter di pattern dan di teks yang dibandingkan tidak cocok (mismatch). Semua karakter di pattern cocok. Kemudian algoritma akan memberitahukan penemuan di posisi ini. Algoritma kemudian menggeser pattern berdasarkan tabel next, lalu mengulangi langkah 2 sampai pattern berada di ujung teks.

Perbedaan cara kerja Precision versus Recall

Precision (ketepatan).

Jumlah dokumen yang relevan dengan query dan terambil.

Recall (kelengkapan).

Jumlah dokumen yang relevan dengan query dan terambil sistem.

Algoritma Web-Crawler adalah sebuah bot internet yang secara sistematis menelusuri World Wide Web, biasanya untuk tujuan pengindeksan Web. Pengindeksan web yang di ambil berdasarkan meta content.