TEMU KEMBALI INFORMASI BERBASIS KLUSTER UNTUK SISTEM TEMU KEMBALI INFORMASI TEKS BAHASA INDONESIA
Keywords:
Perolehan informasi, clustering, cluster-based retrievaAbstract
Volume informasi teks yang berkembang eksponensial menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada model perolehan informasi linear berbasis word matching yang umumnya tidak efektif. Faktor sinonim dari kata menjadi penyebab munculnya dokumen tidak relevan dalam perolehan, sebaliknya faktor polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil. Penerapan clustering dokumen dipercaya dapat meningkatkan kinerja berdasar satu hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada dalam kluster yang sama.
Penelitian ini melakukan kajian penerapan clustering dokumen untuk meningkatkan perolehan informasi dengan cara melakukan retrieval berbasis kluster (cluster-based retrieval) dengan model ruang vektor. Koleksi dokumen mula-mula dikluster dan representasi kluster digunakan vektor pusat kluster. Dokumen-dokuman dalam kluster yang pusat klusternya memiliki similaritas tertinggi terhadap query dipilih sebagai perolehan.
Metode clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting K-Mean dan Buckshot, dan metode hierarchical agglomerative dengan algoritma perhitungan similaritas kluster UPGMA dan Complete Link. Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari Precision dan Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita yang telah diketahui struktur klusternya dan 3000 dokumen berita dengan struktur kluster belum diketahui.
Hasil penelitian menunjukkan bahwa pada koleksi yang dicobakan terjadi peningkatan kinerja perolehan informasi berbasis kluster sebesar berturut-turut 12.3% dan 9.5% dibandingkan dengan perolehan linear berbasis word –matching.
Downloads
References
Can,F., I.S. Altingode, E.Damir,2004, Efficiency and Effectiveness of Query Processing in Cluster-Based Retrieval, Information System, 29(2004),697-719.
Chisholm, E. and T. G. Kolda, New Term Weighting Formula for the Vector Space Method in Information Retrieval, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN 3781-6367, March 1999.
Cutting, D. R., D. R. Karger, J. O. Pederson, and J. W. Tukey,1992, Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collection, Procedding 15th Annual Int 7ACM SIGIR Conference on R&D in IR, 1992.
Frakes,W.B. and Baeza-Yates,R.,1992, Information Retrieval,Data Structure and Algorithm, Prentice Hall, Englewood Clifs, New Jersey.
Jain, A.K. and R. C. Dubes, Algorithms for Clustering Data, Prentice-Hall, 1988
Hamzah, A., F. Soesianto, A.Susanto, J.E.,Istyanto : Seleksi Feature Kata Berdasarkan Variansi Kemunculan Kata Dalam Peningkatan Unjuk Kerja Document Clustering Untuk Dokumen Berbahasa Indonesia, Pakar, Jurnal Teknologi Informasi dan Bisnis , Vol.7,No.3. , pp. 181-190, 2006.
Luhn, H.P., The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2:159-165 , 1958
Nazief, B., Development of Computational Linguistic Research: a Challenge for Indonesia”, Computer Science Center, University of Indonesia ,2000
Osinki, S. , 2004, Dimensionality Reduction Techniques for Search Engine Results Clustering, Master Thesis, University of Sheffield, UK.
Rijsbergen, C. J., Information Retrieval, Information Retrieval Group, University of Glasgow , UK ,1979
Steinbach, M., Karypis, G., Kumar, V., A Comparison of Document Clustering Techniques, University of Minnesota, Technical Report #00-034, at http://www.cs.umn. edu/tech_reports, 2000
Tala, F. Z., 2004, A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia, Master Thesis, Universiteit van Amsterdam, The Netherlands
Tombros, A., 2002, The Effectiveness of Query-Based Hierarchic Clustering of Documents for Information Retrieval, PhD Thesis, Univerity of Glasgow
Vega, V. B. , 2001, Information Retrieval for the Indonesian Language, Master's thesis, National University of Singapore.
Voorhees,E.M., 1986, Implementing Agglomerative Hierarchic Clustering Algorithms for Use in Document Retrieval. Information Processing & Management, 22:465-76.
Widyantoro,D.H.,2007,Toward the Development of The Next Generation Search Engine, Proceeding of The International Conference on Electrical Engineering and Informatics, ICEEI2007, Bandung 17-19 Juni 2007.
www.google.com
Zamir, O.E., Clustering Web Document : A Phrase-Based Method for Grouping Search Engine Result, PhD. Dissertation, University of Washington,1999
Downloads
Published
How to Cite
Issue
Section
License
Jurnal Teknologi provides immediate open access to its content in order of making research freely available to the public to support a global exchange of knowledge. All articles published in this journal are free for everyone to read and download, under licence CC BY SA.
Benefits of open access for the author, include:
- Free access for all users worldwide.
- Authors retain copyright to their work.
- Increased visibility and readership.
- No spatial constraints.