Comprehensive Study on Information Retrieval: Arabic Document Indexing. Research J. Science and Tech. 6(2): April- June, 2014, 79-86

Dokumen yang berada di internet saat ini tersedia dalam jumlah banyak dengan berbagai jenis dokumen seperti artikel, majalah, e-book, research paper, dan lain-lain. Koleksi tersebut disimpan dalam teks database dari berbagai sumber dalam format teks yang tidak terstruktur yang tidak bisa begitu saja digunakan untuk diproses oleh komputer karena adalah untuk mengekstrak informasi yang berguna tidak bisa hanya mengekstrak kata kunci yang dapat digunakan oleh pengguna web untuk menemukan apa yang ingin dicari.

Untuk mencari dokumen yang mengandung huruf alphabet lebih mudah daripada untuk huruf Arabic, untuk mempermudah melakukan hal tersebut dilakukan proses text indexing. Metode yang dilakukan untuk melakukan indexing untuk huruf Arabic yaitu sebagai berikut :

  1. Metode pembelajaran untuk mengekstrak kata kunci yaitu Metode pembobotan (weighting) dan jarak, Pengetahuan Linguistik dengan mengektrasi fitur leksikal dokumen dari corpus Arab, Algoritma yang digunakan decision tree classifier dan GenEx (genitor and extractor), Tahapan yang dilakukan : Linguistic pre-processing, menentukan frase candidate key, menentukan frase final key
  2. Metode untuk menciptakan index otomatis untuk buku Arab yaitu Fase pertama dengan melakukan pre-processing : menghilangkan stop words, tanda seru, non-letters, diacritics, kata dalam Bahasa Inggris, Menghitung jumlah frekuensi yang ada dalam dokumen dan menyimpan dari urutan terbesar, Menambahkan index yang digenerate di setiap akhir dokumen, Fase berikutnya mengecek apakah dokumen yang dicek sudah ada di dalam database atau belum, jika belum ada di dalam database maka akan melakukan fase pertama, Evaluasi yang digunakan Precision dan Recall.

Penulis membuat perbandingan dari penelitian sebelumnya berdasarkan metodologi yang diusulkan dengan membandingkan tipe index, model, statistical/ un-statistical, metodologi yang diusulkan, komputasi statistik. Terlihat bahwa tipe index yang digunakan diantara phrase terms, word term, noun phrase, sementara untuk model yang digunakan paling banyak menggunakan vector model, dan untuk komputasi statistik yang digunakan paling banyak adalah TF-IDF.

Penulis juga membuat perbandingan antara data set yang digunakan, ukuran yang digunakan untuk mengevaluasi metodologi yang diusulkan, dan hasil dari penelitiannya. Terlihat bahwa metode evaluasi yang paling sering digunakan yaitu Recall dan Precision, selain itu ada juga yang menggunakan avg recall, avg precision, under stemming, over stemming, stemming weight.

Disimpulkan bahwa untuk melakukan indexing Arabic teks khususnya untuk Arabic dokumen hingga saat ini tidak ada solusi optimal yang disarankan untuk digunakan sebagai standar dalam melakukan proses indexing. Tujuan pembuatan paper tersebut lebih untuk menjadikan sebagai survei paper untuk mempermudah setiap orang yang tertarik untuk melakukan penelitian di area ini.

Lyrics-Based Genre Classification Using Variant TF-IDF Weighting Schemes. Journal of Applied Science 15(2) : 289-294, 2015

Dokumen musik sering diklasifikasikan berdasarkan genre dan mood. Dalam beberapa tahun terakhir teks lirik digunakan untuk mengklasifikasikan dokumen musik yang ada. Untuk mengatur koleksi dokumen musik digital dibutuhkan teknik Music Information Retrieval yang efektif agar dapat menampilkan dokumen yang relevan dengan yang dicari oleh user. Genre musik serpeti pop, country, soul adalah label yang diciptakan oleh manusia untuk menjelaskan musik, dan dokumen musik diklasifikasikan berdasarkan mood seperti senang, sedih, dan marah. User biasanya mencari musik berdasarkan genre atau mood tersebut.

Usulan baru untuk mengklasifikasikan musical genre tidak hanya berdasarkan korelasi antara genre dengan mood saja, tetapi juga menggukan lirik teks sebagai dasar pengklasifikasian. Yang and Lee tahun 2004 pernah melakukan penelitian terhadap pengklasifikasian mood dengan mengkombinasikan antara lirik teks dan fitur audio dengan menggunakan 145 lagu dengan lirik, Laurier tahun 2008, 2010 mengkonfirmasi relevansi lirik atau mood yang diekspresikan mellaui musik dan data akustik berkolerasi dan penelitiannya menunjukkan kombinasi antara audio dan lirik dapat meningkatkan performance dari klasifikasi musik dokumen. Van Zaanen dan Kanters tahun 2010 melakukan penelitian berdasarkan lirik dan hasilnya menunjukkan bahwa lirik teks menjadi sumber informasi yang berguna untuk secara otomatis melakukan pengklasifikasian mood musik dengan menggunakan metode Term Frequency (tf) Times Inverse Document Frequency (idf) (TF-IDF).

TF-IDF terdiri dari 2 komponen yaitu dalam penelitian ini term t yang muncul dalam dokumen contohnya genre, dan perulangan term yang dicari dalam dokumen, dibagi dengan jumlah perulangan yang ada di dalam semua dokumen. TF mengukur frekuensi munculnya term dalam sebuah dokumen tertentu, dan genre yang dicari, jika term memiliki frekuensi yang tinggi di dalam lirik sebuah genre musik maka akan memiliki nilai tf yang tinggi berdasarkan genre yang dicari. IDF mengukur seberapa penting sebuah dokumen, jumlah dokumen, jenis genre musik yang ada, dalam penelitian ini jika term yang dicari ditemukan dalam lirik teks dalam satu atau beberapa genre maka nilai idf akan tinggi.

Uji coba dilakukan menggunakan 1000 musik English yang dipilih secara acak, data preprocessing yang digunakan yaitu lirik teks yang sudah dibersihkan secara manual yaitu menghapus kata “chorus” dan “fade out” dan digantikan dengan lirik yang seharusnya untuk mendapatkan lirik teks yang lengkap. Genre musik yang digunakan ada 10 yaitu pop, blue, country, folk, R and B, reggae, grunge, punk rock, soul and metal, untuk setiap lagu dalam koleksi yang digunakan dalam uji coba telah diberikan tag label genre berdasarkan informasi yang tersedia dari website, sementara untuk mood yang digunakan yaitu senang, sedih, marah, relaks, tenang, gloomy, romantis, percaya diri, disgusted (jijik), dan agresif, dalam uji coba ini mood diklasifikasikan dengan beberapa cara pelabelan dan diberikan tag pada setiap lagu. Algoritma yang digunakan yaitu k-Nearest-Neighbour (kNN), Naïve Bayes, dan Support Vector Machines. Hasil dari penelitian ini menyatakan pendekatan baru dalam klasifikasi genre musik berdasarkan korelasi antara genre dan mood menggunakan lirik teks. Tujuan dari penelitian ini untuk meningkatkan performa dari klasifikasi genre musik berdasarkan lirik teks.

Study on Image Retrieval Technology Based on Digital Watermark. Journal of Applied Sciences 14 (9): 892-900, 2014.

Dengan perkembangan multimedia dan teknologi jaringan, gambar merupakan hal yang penting dalam mengambil informasi. Dalam rangka meningkatkan cara untuk mengambil informasi gambar secara efektif, sistem image retrieval telah diperkenalkan baik teks atau konten based. Teknologi digital watermarking digunakan untuk mengamankan informasi dan perlindungan terhadap copyright.

Berdasarkan Zhang (2008) image retrieval adalah teknik untuk mengekstrak dan mencari gambar dan koleksi gambar dari database image yang ada. Secara umum metode hingga saat ini yang digunakan untuk mencari gambar terbagi menjadi dua yaitu text-based information retrieval (TBIR) dan content-based information retrieval (CBIR).

TBIR dapat menciptakan index berdasarkan deskripsi dari karakteristik gambar, alternatif lainnya beberapa tambahan informasi dideskripsikan sehingga dapat menciptakan index dari file gambar. Untuk mendapatkan gambar dengan cara TBIR dengan menggunakan keyword yang akan dicocokkan dengan deskripsi gambar, apakah sama persis atau kemungkinan mirip dengan deskripsi dari gambar yang ada di dalam database. Keterbatasan dengan metode TBIR yaitu kesulitan untuk menyampaikan dengan lengkap dalam dekripsi gambar yang ada, perbedaan pengertian setiap orang dari gambar yang ada, kesulitan melakukan indexing dengan perbedaan bahasa, dan kurang cocok untuk informasi yang umum.

CBIR dapat secara otomatis menganalisis gambar dengan mengekstrak informasi karakteristik dari gambar termasuk warna, bentuk, tekstur, dan kombinasinya. Selama proses image retrieval akan menganalisis gambar untuk mendapatkan informasi image feature vector, menghitung kesamaan vector antara gambar yang dicari dengan gambar yang ada dalam library dengan menggunakan similarity matching algorithm, kemudian hasilnya akan menampilkan gambar berdasarkan similarity degree. Metode CBIR banyak digunakan untuk mendapatkan gambar yang menggunakan visual features, dan digunakan dalam matching teknologi seperti computer vision, image processing, image understanding dan database.

Fungsi dasar dari digital watermark adalah untuk embed watermark ke dalam digital media dan harus tidak mengurangi kualitas, tidak mengubah data awal, tidak mengubah persepsi dari dokumen yang diberikan watermark. Dari sisi keamanan dengan adanya watermark tidak mengijinkan orang yang tidak memiliki hak akses untuk mengubah dokumen yang telah diberikan watermark.

Watermark detecting adalah metode untuk menentukan apakah suatu dokumen mengandung watermark atau tidak. Proses untuk mendapatkan gambar berdasarkan digital watermark yaitu user mencari gambar berdasarkan keyword tertentu, kemudian mengecek gambar yang tersedia dan mengekstrak watermark, kemudian melakukan proses pencocokan gambar, jika sesuai maka akan menampilkan hasil dari pencarian jika tidak maka akan kembali mengecek gambar yang ada dalam database sampai menemukan gambar yang dicari atau menampilkan hasil tidak ada gambar yang dicari.

Image retrieval pada penelitian ini didasarkan pada DCT transform (image akan dibagi menjadi 8×8 bagian akan akan diberikan koefisien dari DCT, watermark akan diperoleh dari hasil ekstrak koefisien tersebut. Hasil dari beberapa bagian akan digabungkan menjadi satu watermark yang utuh). Hasil yang diperoleh menunjukkan bahwa metode ini dapat meningkatkan kualitas keamanan dari digital image transmission. Dalam mengekstrak digital watermark meskipun image diproses atau diserang, maka kualitas image akan tetap terjaga. Penelitian berdasarkan watermark ini akan menyelesaikan 2 permasalahn sekaligus yaitu masalah hak cipta dan retrieval sekaligus.

Intelligent Query Refine and Expansion Model for the retrieval of e-learning process

Journal of Applied Science 2013.

E-learning merupakan suatu sistem yang menyajikan pengetahuan dimana untuk mengumpulkan data dan menyajikan data yang relevan menjadi sangat crucial. Masalah yang terjadi saat ini adlaah bagaimana menemukan informasi yang relevan. Kebutuhan saat ini adalah bagaimana mendapatkan suatu informasi yang relevan secara intelligent berdasarkan query dari user.Information Retrieval (IR) digunakan untuk memberi rangking untuk dokumen yang relevan. Dalam penelitian ini statistical language model yang dapat beradaptasi untuk fungsi training dan learning. Pendekatan yang digunakan adalah joint probability distribution P(D,Q) dimana D adalah document  dan Q adalah Query.

Arsitektur

User akan mengirimkan query melalui learner interface yang akan menginisasi distribusi dari mobile agent yang akan dikirimkan ke retrieval agents di jaringan. IR Agent akan mengumpulkan informasi di jaringan dan mengembalikan hasil dengan format yang relevan. Retrieval agent akan mengautentikasi request dan asal agent.

Setelah diautentikasi oleh system IR, maka hasil pencarian akan diproses. Dokumen yang dikirimkan ke system IR akan diberi ranking dan dibandingkan dengan feedback yang diberikan oleh experts. Jika hasil yang dikrimkan tidak sesuai dengan minimal 50% maka sistem akan mengirimkan query kembali dan akan diformulasikan kembali untuk mengembalikan dokumen atau data yang lebih akurat. Hasil yang sudah mencapai minimal 80% akan dikirimkan sebagai hasil akhir. Hasil yang disampaikan kepada user adalah dokumen yang relevan beserta saran query untuk pencarian yang lebih akurat.

Proses rangking dokumen akan dilakukan Learning Objects Repository (LOR). Semua dokumen baik yang relevan maupun tidak akan disimpan sementara dalam LOR. Cara kerja Language Model yang digunakan adalah dengan mendefenisikan probability distribution pada vocabulary tertentu. Unigram Language Model (ULM) akan memprediksi kemiripan kemunculan dari setiap kata yang satu dengan yang lain. Mesin rangking akan menampilkan hasil berdasarkan kategori dan rangking dokumen secara menurun. Model distribusi dalam ULM adalah bimonial/multi Bernoulli probability distribution. Model ini akan mengestimasi parameter yang menandakan probability dari query berdasarkan kemunculannya. Pendekatan lain yang digunakan adalah dengan menggunakan model poisson untuk menghitung kemunculan dari query.

Hasil dari penelitian ini adalah dengan membandingkan probabilitas dengan menggunakan expansion query dan teknik probabilitas statistik, diperoleh bahwa dengan menggunakan pendekatan model poisson menyajikan hasil yang lebih akurat dibandingkan dengan teknik lain.

Study of Query Expansion Techniques and Their Application in the Biomedical Information Retrieval. The Scientific World Journal 2014

Penelitian ini membandingkan beberapa teknik yang digunakan dalam information retrieval (IR) dalam implementasi di bidang biomedical public scientific database . Metode yang sering digunakan adalah query expansion (EQ) tetapi terbatas pada hal mengembalikan hasil yang sesuai dengan keywords yang di-query dimana kelemahannya adalah tidak dapat mengembalikan hasil yang relevan dengan kata lain dari keywords yang memiliki makna yang sama. Proses dari IR sendiri yaitu :

  1. Indexing

Proses ini akan menghasilkan keywords yang digunakan dalam query pada preprocessing dokumen. Analisa yang dilakukan adalah dampak dari algoritma stemming (Porter and Krovetz) dan stopwords list (NLM & SMART). Dari hasil penelitian, diketahui bahwa dengan menggunakan stopwords list (SMART) lebih banyak akan menghasilkan hasil yang lebih baik .

  1. Matching

Matching adalah proses komputasi dari kesamaan beberapa dokumen dan query dengan pemberian bobot. Teknik yang digunakan dalam penelitian ini adalah BM25 dan TF-IDF. Untuk menghasilkan parameter yang optimal maka akan digunakan pendekatan optimasi. Pendekatan dengan BM25 menghasilkan pendekatan yang lebih baik dibandingkan dengan TF-IDF.

Penelitian ini mengkhusukan pencarian artikel biomedical dari dokumen CORPUS. Test yang dilakukan adalah menguji keuntungan dari menggunakan stemming dan stopwords dalam preprocessing dokumen beserta pembobotan dari algoritma BM25 dan TF-IDF pada LEMUR tool. Hasil yang diperoleh adalah pembobotan melalui pendekatan BM25 menghasilkan hasil yang lebih baik. Untuk menghasilkan relevan dokumen yang lebih efektif disarankan untuk mengambil informasi berdasarkan abstrak, MeSH dan title fields dari dokumen biomedical. Penggunaan dari relevance feedback juga memberikan peningkatan pencarian dalam scientific dokumen.