TEXT DOCUMENT INFORMATION RETRIEVAL BASED ON CONCEPTS
Keywords:
temu kembali informasi, basis konsep, basis kata, presisiAbstract
Melimpahnya informasi digital yang dikoleksi secara otomatis oleh internet telah menimbulkan problem dalam temu kembali informasi. Menemukan informasi yang tepat dalam koleksi dokumen yang besar adalah sangat sulit. Kesulitan ini disebabkan karena pada kebanyakan mesin pencari berbasis pada pencocokan string sehingga akan otomatis memberikan dokumen sebagai jawaban jika terdapat string yang cocok. Untuk menangani hal ini dan dengan mengingat bahwa dokumen bukan saja merupakan koleksi kata tetapi juga merupakan koleksi konsep, penulis mengusulkan teknik baru temu kembali informasi yang berbasis pada konsep.
Teknik ini berbeda dengan temu kembali berbasis kata pada tahap indexing dan tahap temu kembali. Pada tahap indexing teknik ini mengklasifikasi dokumen berdasarkan konsep menggunakan teknik clustering untuk menyususn index konsep disamping index kata. Pada tahap temu kembali, teknik ini merangking dokumen berdasarkan kombinasi similaritas kata dan konsep, dalam suatu formula doc-score = b * conceptScore + (1-b)*TermScore dimana b adalah bobot skor konsep. Algoritma clustering dipilih dari model partisi dengan kompleksitas linear, yaitu model Bisecting K-Means.
Percobaan dilakukan pada 2 jenis koleksi, yaitu dokumen teks berita (1000 dan 3000 dokumen) dan dokumen akademik (1000 dokumen abstrak bidang IT). Evaluasi kenerja temu kembali diukur dengan rata-rata presisi temu kembali dan R-presisi.
Hasil penelitian menunjukkan bahwa dengan men-set b =0.5 to b =0.9 menunjukkan peningkatan precisi berbasis konsep terhadap basis kata (b =0). Peningkatan precisi adalah sebesar 5,2%sampai 8,3% untuk rata-rata precisi dan 16.9% sampai 31.5% untuk parameter R-precision.
Downloads
References
Egozi, O., 2010,Concept-Based Information Retrieval Using Explicit Semantic Analysis, Master Thesis,Technion Israel Institute of Technology, Heshvan 5770, Haifa.
Egozi,O. , Markovitch, S., and Gabrilovich,E., 2011, Concept-Based Information Retrieval Using Explicit Semantic Analysis, Journal ACM Transactions on Information Systems (TOIS), TOIS Homepage archive Volume 29 Issue 2, April 2011
Goyal, P.; Behera, L.; McGinnity, T.M, 2009, An Information Retrieval Model Based on Automatically Learnt Concept Hierarchies, IEEE International Conference, ICSC '09, 14-16 Sept. 2009.
Gruber, T., “Toward Principles for Design of Ontologies Used for Knowledge Sharing”, International Journal of Human and Computer Studies, 43 (5/6):907-928, 1995.
Guarino, N., “Formal Ontologi and Information System”, in N.Guarino (ed), Formal Ontology in Information System, Proc Of the 1st International Conference, Trento, Italy June 1998, IOS Press Amsterdam, pp.3-15., 1998.
Haav, Hele-Mai and Lubi, Tanel-Lauri, 2005, “A Survey of Concept-based Information Retrieval Tools on the Web”, Institute of Cybernetics at Tallinn Technical University, Academia Taee 21, 12618 Tallinn.
Jalali V. and Borujerdi, M.R.M. , 2010, Information retrieval with concept-based pseudo-relevance feedback in MEDLINE, Knowledge and Information Systems DOI: 10.1007/s10115-010-0327-7
Karypis, G. and Han Eui-Hong, “Concept Indexing A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval and Categorization”, Technical Report TR-00-0016, University of Minnesota. www.cs.umn.edu/karypis, 2000.
Rad ,M.P., Hassanpour,H., and Poursaikh, R., 2010, Concept-Based Information Retrieval with Ontology Approach for Cross-Language Search, World Applied Science Journal (8): 965-971, 2010, ISSN:1818-4952
Ravindran,D. and S. Gauch,”Exploiting Hierachical Relationships in Conceptual Search”, citeseer.ist.psu.edu/ 711765. html, 2004.
Snoek,C.G.M and Worring, M., 2009, Concept-Based Video Retrieval, Foundations and Trends in Information Retrieval (2-4)
Steinbach, M., G. Karypis, and V. Kumar , “A Comparison of Document Clustering Techniques”, KDD Workshop on Text Mining, 2000.
Van Heijst, G., Shcreiber, A.T., and Wielinga, B.J., “Using Explicit Ontologies in KBS Development”, International Journal of Human and Computer Studies, 1997.
Widyantoro,D.H.,2007, Toward the Development of The Next Generation Search Engine, Proceeding of The International Conference on Electrical Engineering and Informatics, ICEEI2007, Bandung 17-19 Juni 2007.
Woods,W.A., “Conceptual Indexing : a better way to organize knowledge,” Technical Report SMLI TR-97-61, Sun Microsystems Laboratories, Mountain View, CA, April 1997.
Zeng, J. and Yang, Y., “Information Retrieval Based on Conceptual Network”, Internet Research & Development Center, Institute of Automation, Chinese Academy of Sciences, Beijing 100080, China, 2003.
http://www.google.com, 2011
Downloads
Published
How to Cite
Issue
Section
License
Jurnal Teknologi provides immediate open access to its content in order of making research freely available to the public to support a global exchange of knowledge. All articles published in this journal are free for everyone to read and download, under licence CC BY SA.
Benefits of open access for the author, include:
- Free access for all users worldwide.
- Authors retain copyright to their work.
- Increased visibility and readership.
- No spatial constraints.