Upload
others
View
5
Download
0
Embed Size (px)
1
Firdaus Solihin (unijoyo) 2008
KNOWLEDGE IN TEXT
(IR-2)
FIRDAUS SOLIHIN
UNIVERSITAS TRUNOJOYO
Firdaus Solihin (unijoyo) 2008
Teknologi for Knowledge
Management
� Document Collection (Mengumpulkan
Document/Informasi)
� Document Retrieval (Mengakses
Document/Informasi)
� Text Mining (analisa berdasarkan ligusitic)
� Ontologies (pemodelan untuk
merepresentasikan object dalam type,
properties, dan relasinya)
2
Firdaus Solihin (unijoyo) 2008
DOCUMENT
COLLECTION
Firdaus Solihin (unijoyo) 2008
DOCUMENT COLLECTION
3
Firdaus Solihin (unijoyo) 2008
DOCUMEN COLLECTION (1)
� Domain (dependent or independent)
� Ketergantungan dgn dokumen lain
� Structured or Non Structured Texts
� Memiliki struktur khusus or tidak, ex HTML
� Formated or Non Formated Documents
� Memiliki format khusus or tidak, ex Doc vs Txt
� Textual or Multimedia Documents
� Berupa text atau multimedia
Firdaus Solihin (unijoyo) 2008
DOCUMEN COLLECTION (2)
� Monolingual or Multilingual Documents
� Berupa satu bahasa or banyak bahasa
� Centralized or Non Centralized Document Management
� Lokasi dokumen satu tempat or banyak tempat
� Controlled or Free Additional of Doc
� Pengaksesannya butuh login or tidak
� Stable or Non Stable Collections
� Ketersediaannya tetap or tidak tetap.
4
Firdaus Solihin (unijoyo) 2008
Permasalahan dlm Documents
Collection
� Inconsistent Document
� Incomplete descriptions
� Duplicates or Worse
� Different terminologies/ languange/
perspective/ abriviation
Firdaus Solihin (unijoyo) 2008
DOCUMENT
RETRIEVAL
5
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
� QUERY INTERPRETATION (MenggunakanQuery)
� DOCUMENTS INDEXING (MenggunakanIndex)
� RANGKING OF RETRIEVED DOCUMENTS(mengurutkan sesuai rangkingn tertentu)
� LINGUISTIC AND STATISTICAL
Contoh : Search Engine
6
Firdaus Solihin (unijoyo) 2008
Search Engine
Firdaus Solihin (unijoyo) 2008
www.alltheweb.com
� AllTheWeb from Fast Search & Transfer (2002)
� Index: 2,1 GB documents
� Languages supported: 52
� Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata
� 30 mill. queries per hari
7
Firdaus Solihin (unijoyo) 2008
Document Retrieval’s
problems
� VOLUME DATA
� Sangat besar dan berkembang dinamis
� Tersebar dibanyak tempat dan beda platform
� MULTITUDE OF LANGUAGES
� Multilingual web
� 40-50 languages used on the web
� Many text encoding standart
Firdaus Solihin (unijoyo) 2008
# Website
8
Firdaus Solihin (unijoyo) 2008
# % Multilingual web
Firdaus Solihin (unijoyo) 2008
Document Retrieval’s
problems
� DOCUMENT QUALITY
� Missplelings (Salah eja)
� Spam and offensive content (isi sampah)
� Little text (isi tidak menggmbarkan
� All topics
� USER BEHAVIOUR
� Misspellings (Salah eja)
� Query length and query session (panjang dan seberapa
sering)
� Document yang dilihat umumnya yang diatas
9
Firdaus Solihin (unijoyo) 2008
TEXT MINING
Firdaus Solihin (unijoyo) 2008
TEXT MINING
� LINGUISTIC ANALYSIS
� Merubah bentuk Document or menambahkaninformation (memilah dalam S,O,P,Pre dls)
� Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dariberbagai perubahan bentuk)
� KNOWLEDGE DISCOVERING IN TEXT
� Menemukan Bentuk
� Memisahkan Dan Menemukan Kesalahan
� Statistical and linguistic aproach
10
Firdaus Solihin (unijoyo) 2008
Lemmatization
� walk, walked, walks, walking � walk
� run, runs, ran, running � run
� go, goes, going, went, gone � go
Firdaus Solihin (unijoyo) 2008
Knowledge Discovering
Technique
� Concept extraction
� Ontology construction
� TOC construction
� Clustering
� Text categorization
� Subtechniques:
� information extraction, text analysis
11
Firdaus Solihin (unijoyo) 2008
ONTOLOGIES
HUBUNGAN ANTAR BAGIAN DALAM
SUATU OBJECT YANG DIGAMBARKAN
� Conceptual modelling
� Document Analysis & Text Mining
� Standarization Work
Firdaus Solihin (unijoyo) 2008
Membagun Ontologi model
12
Firdaus Solihin (unijoyo) 2008
Contoh Ontology
Firdaus Solihin (unijoyo) 2008
THE END