60
Sogang University: Dept of Computer Science Information Retrieval Information Retrieval (Chapter 2: Modeling) (Chapter 2: Modeling) 서서서서서 서서서서서 Office: Office: 서서서 서서서 816 816 Tel: 705-8488 Tel: 705-8488 Email: Email: [email protected] [email protected]

Information Retrieval (Chapter 2: Modeling)

Embed Size (px)

DESCRIPTION

서정연교수 Office: 공학관 816 Tel: 705-8488 Email: [email protected]. Information Retrieval (Chapter 2: Modeling). 2.1 소개 - 용어 정리. 컬렉션 (Collection) : 문서의 모임 문서 (Document) : 자연어 문장의 나열 색인어 (index term) 집합 ( 정보검색 ) 색인어 : 의미 (meaning) 를 가지는 키워드 혹은 키워드 무리 문서 내용의 요약 대부분은 명사 - PowerPoint PPT Presentation

Citation preview

Page 1: Information Retrieval (Chapter 2: Modeling)

Sogang University: Dept of Computer Science

Information RetrievalInformation Retrieval

(Chapter 2: Modeling)(Chapter 2: Modeling)

서정연교수서정연교수Office: Office: 공학관 공학관 816816

Tel: 705-8488Tel: 705-8488

Email: Email: [email protected]@sogang.ac.kr

Page 2: Information Retrieval (Chapter 2: Modeling)

Page 2Information Retrieval

Chapter 2: Modeling

2.12.1 소개 소개 - - 용어 정리용어 정리2.12.1 소개 소개 - - 용어 정리용어 정리 컬렉션 (Collection) : 문서의 모임 문서 (Document) : 자연어 문장의 나열

색인어 (index term) 집합 ( 정보검색 ) 색인어 : 의미 (meaning) 를 가지는 키워드 혹은 키워드 무리

문서 내용의 요약 대부분은 명사 색인어 집합은 사용자의 정보요구나 문서의 의미적인 표현으로 간주함 .

문제점 1: – 과잉단순화 (oversimplification problem) : 정보요구나 문서의

일부를 잃어버린다 .– 부정확한 정합 : 사용자 요구에 대한 문서를 정확하게 찾을 수 없다 .

단어 문서 컬렉션 질의 (Query) : 문서를 찾기 위한 사용자의 요구

Page 3: Information Retrieval (Chapter 2: Modeling)

Page 3Information Retrieval

Chapter 2: Modeling

소개 소개 - - 용어 정리용어 정리 (cont.)(cont.)소개 소개 - - 용어 정리용어 정리 (cont.)(cont.)

정보검색의 문제 검색모델

: 색인어 공간의 한 점으로 표현된 문서와 질의가 어떻게 관련이 있는지를 결정하는가 ?

순위 결정 (Ranking) 알고리즘 : 검색된 문서가 질의에 가장 적합한지를 어떻게 결정할

것인가 ? 검색된 문서들을 적절한 순서로 재정렬한다 . 가능하면 사용자의 요구 ( 질의어 ) 에 가장 적합한

순으로 정렬한다 .

Page 4: Information Retrieval (Chapter 2: Modeling)

Page 4Information Retrieval

Chapter 2: Modeling

2.2 IR 2.2 IR 모델의 분류체계모델의 분류체계2.2 IR 2.2 IR 모델의 분류체계모델의 분류체계

집합론적 모델

퍼지집합모델확장 불리안모델

대수론적 모델

일반 벡터 모델잠재의미 색인모델신경망 모델

확률론적 모델

추론망 모델신념망 모델

사용자

작업

검색 :

축적 (Adhoc)

여과 (filtering)

브라우징

전통모델불리안 모델벡터 모델확률 모델

구조적 모델

비중첩 리스트 모델근접노드 모델

브라우징평면 (flat)

구조기반하이퍼텍스트

Page 5: Information Retrieval (Chapter 2: Modeling)

Page 5Information Retrieval

Chapter 2: Modeling

검색 모델 분류검색 모델 분류검색 모델 분류검색 모델 분류

색인어 전문 전문 + 구조

검색

전통(classic)

집합론대수론확률론

전통 (classic)

집합론대수론확률론

구조

브라우징 평면 (flat)평면 (flat)

하이퍼텍스트구조 기반

하이퍼텍스트

문헌의 논리상

Page 6: Information Retrieval (Chapter 2: Modeling)

Page 6Information Retrieval

Chapter 2: Modeling

2.3 2.3 검색의 종류 검색의 종류 2.3 2.3 검색의 종류 검색의 종류 축적 검색 (Ad hoc retrieval)

: 컬렉션 내의 문서는 변하지 않고 사용자가 그때 그때 원하는 질의를 하는 검색방법 .

일반적인 정보검색에서 많이 나타나는 검색 유형

여과 검색 (Filtering): 새로운 문서가 검색시스템에 계속 들어오고 질의요구는 항상

고정되어 있는 검색 방법 사용자 프로파일 (user profile)

각 사용자가 원하는 정보를 기술해 놓은 것 여과검색에서는 단순히 관련이 있다고 판단되는 문서를 전달 라우팅 (Routing)

여과된 문헌의 순위를 계산해서 제공하는 여과 검색

Page 7: Information Retrieval (Chapter 2: Modeling)

Page 7Information Retrieval

Chapter 2: Modeling

사용자 프로파일 사용자 프로파일 (user profile)(user profile)사용자 프로파일 사용자 프로파일 (user profile)(user profile)

Static user profile 사용자가 자신이 원하는 정보에 해당하는 키워드를 결정하여

입력함으로써 자신의 profile 을 제작 Dynamic user profile

처음에 몇 개의 키워드 입력 Filter 에서 제공하는 결과 문서에 대해 feedback 을 주면 시스템이

그 결과를 자동 분석하여 프로파일의 키워드를 변경 이러한 relevance feedback cycle 의 계속

Page 8: Information Retrieval (Chapter 2: Modeling)

Page 8Information Retrieval

Chapter 2: Modeling

2.4 IR 2.4 IR 모델의 형식 특성모델의 형식 특성 (formal characterization)(formal characterization)2.4 IR 2.4 IR 모델의 형식 특성모델의 형식 특성 (formal characterization)(formal characterization)

IR 모델 [D, Q, F, R(qi, dj)]

함수 순위결정 결정하는 연관도를 를문헌 와 질의 구성 정리로 베이즈 ,연산 확률 표준 ,집합 -모델 확률

구성 연산으로 선형대수 표준 ,공간 벡터 t차원의 -모델 벡터

구성 연산으로 집합 표준 ,집합 문헌 -모델 불리안

)(framework 골격 모델링하기위한 관계를 이들의 질의와 ,표현 문헌질의 집합인 )표현 의 (상 또는 논리 정보요구의 사용된

집합 표현의 또는 view) (logical상 논리 대한 문헌을 소장된

jiji dqdqR

F

Q

D

: ),(

:

:

:

Page 9: Information Retrieval (Chapter 2: Modeling)

Page 9Information Retrieval

Chapter 2: Modeling

2.5 2.5 전통적인 정보검색 모델전통적인 정보검색 모델2.5 2.5 전통적인 정보검색 모델전통적인 정보검색 모델 불리안 (Boolean) 모델

집합 (Set) 모델 문헌과 질의가 색인어의 집합으로 표현 집합과 표준적인 집합 연산자로 구성

벡터 (Vector) 모델 대수 (Algebra) 모델 문헌과 질의가 t 차원 공간의 벡터로 표시 벡터 계산을 위한 표준 선형 대수 연산자로 구성

확률 (Probabilistic) 모델 문헌과 질의 표현이 확률론에 근거 집합 , 확률 연산과 베이즈 정리 (Bayes’ theorem) 로 구성

Page 10: Information Retrieval (Chapter 2: Modeling)

Page 10Information Retrieval

Chapter 2: Modeling

기본 개념기본 개념기본 개념기본 개념 색인어 (index term)

문헌의 주제를 나타내는 의미를 지닌 단어 주로 명사

명사는 자신만의 의미를 지님 가중치 (Weight)

문헌을 기술하는 유용성의 차이를 나타냄 정의 (Definition)

)) ,즉(

함수 반환하는 가중치를 의 색인어 에서 벡터 차원- t:

가중치 의 색인어 에서 문헌:

),...,( : 문헌

},...,{: 집합 색인어

21

1

ijji

ii

ijij

tjjjj

t

wd(g

kg

kdw

wwwdj

kkK

Page 11: Information Retrieval (Chapter 2: Modeling)

Page 11Information Retrieval

Chapter 2: Modeling

기본 개념기본 개념기본 개념기본 개념 색인어 상호 독립성 가정

(ki, dj) 의 가중치 wij 는 (ki+1, dj) 의 가중치 w(i+1)j 와 무관하다고 가정

색인어 가중치 계산을 단순화 빠른 순위 계산 가능

색인어 상호 연관성 실제 문헌 내에서의 색인어 출현은 서로 연관 예 )

컴퓨터 네트워크 분야 : ‘ 컴퓨터’와 ‘네트워크’ 두 단어는 상호 연관되어 가중치에 영향

실제 상황에서 색인어 연관성을 이용하여 순위화에 크게 도움이 되는 좋은 결과를 낸 적이 없음

따라서 , 연관성이 확실히 도움이 되는 모델이 만들어지기 까지는 독립성 가정이 유효함

Page 12: Information Retrieval (Chapter 2: Modeling)

Page 12Information Retrieval

Chapter 2: Modeling

불리안 모델 불리안 모델 불리안 모델 불리안 모델 집합론과 불리안 대수학에 기반하는 간단한 모델 색인어 가중치 wi,j {0, 1}

연관된 문서인지 아닌지만 예측 문서를 순위화할 수 없다 . 질의

사용자가 자신의 요구를 Boolean expression 으로 정확하게 표현하는 것은 그리 쉬운 일이 아니다

그럼에도 불구하고 , 불리안 모델은 가장 오랫동안 사용되어 온 대표적인 초창기 검색모델이다 .

연산자 : not, or, and

정의 ( 교과서 참조 )

Page 13: Information Retrieval (Chapter 2: Modeling)

Page 13Information Retrieval

Chapter 2: Modeling

불리안 모델불리안 모델불리안 모델불리안 모델 예제 1)

색인어 ( 역파일이라고 함 ) curve:{12, 25, 36, 89, 125, 128, 215} fitting:{11, 12, 17, 36, 78, 136, 215} interpolation: {11, 18, 36, 125, 132}

질의 : ((curve and fitting) or interpolation)

1. (curve and fitting) = {12, 36, 215}

2. ((curve and fitting) or interpolation)

= {12, 36, 215} or {11, 18, 36, 125, 132}

= {11, 12, 18, 36, 125, 132, 215}

Page 14: Information Retrieval (Chapter 2: Modeling)

Page 14Information Retrieval

Chapter 2: Modeling

불리안 모델 불리안 모델 (( 계속계속 ))불리안 모델 불리안 모델 (( 계속계속 ))

예제 )

)0,0,1()0,1,1()1,1,1(

)(

dnf

cba

q

kkkq

ka kb

kc

Page 15: Information Retrieval (Chapter 2: Modeling)

Page 15Information Retrieval

Chapter 2: Modeling

불리안 모델 불리안 모델 (( 계속계속 ))불리안 모델 불리안 모델 (( 계속계속 ))

)1,0,1()0,1,1()1,1,1(

)(

dnfq

q

시스템프로그램병렬병렬 프로그램

시스템문서

색인어유사도

병렬 프로그램 시스템 …

001 1 0 1 … 1

002 0 0 1 … 0

003 0 1 1 … 0

004 1 1 0 … 1

Page 16: Information Retrieval (Chapter 2: Modeling)

Page 16Information Retrieval

Chapter 2: Modeling

불리안 모델 불리안 모델 (( 계속계속 ))불리안 모델 불리안 모델 (( 계속계속 )) 장점

직관적이고 이해하기 쉽다 . 사용자 요구인 질의의 의미가 명확하다 .

단점 순위화를 적용하기에 곤란하다 . 사용자 요구를 불리안 표현으로 정확하게 표현하기 쉽지 않다 . 부분정합 (partial matching) 이 불가능 . (All or nothing systems)

사용자 요구가 (A and B and C and D) 라면 (A, B, and C but not D) 를 검색되지 않는다 .

사용자 요구에 표현된 모든 단어 (term) 의 중요도는 과연 동등한가 ?

검색 결과의 크기를 통제할 수 없다 (Too much or too little)

Page 17: Information Retrieval (Chapter 2: Modeling)

Page 17Information Retrieval

Chapter 2: Modeling

벡터모델벡터모델벡터모델벡터모델 동기

이진 가중치 {0, 1} 은 너무 제한적이다 . 가중치로 실수 (float-point) 를 사용하자 .

부분 정합이 가능하도록 하자 . 검색된 문서의 연관 유무뿐 아니라

– 질의와의 유사도에 따라 검색된 문헌을 순위화한다 . Cosine 유사도 예

Page 18: Information Retrieval (Chapter 2: Modeling)

Page 18Information Retrieval

Chapter 2: Modeling

벡터모델벡터모델 (( 계속계속 ))벡터모델벡터모델 (( 계속계속 ))

예 2)D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

T3

T1

T2

D1 = 2T1+ 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

7

32

5

• D1 혹은 D2 중 어느 것이 Q 에 더 유사한가 ?

• 어떻게 유사도 ( 거리 , 각도 등 ) 를 측정할 것인가 ?

Page 19: Information Retrieval (Chapter 2: Modeling)

Page 19Information Retrieval

Chapter 2: Modeling

벡터모델벡터모델 (( 계속계속 ))벡터모델벡터모델 (( 계속계속 ))

질의와 문헌을 t- 차원으로 표현한다 . 문헌 dj = (w1,j, w1,j, ..., wt,j)

질의 q = (w1,q, w1,q, ..., wt,q)

가중치 0 wi,j 1 : 색인어의 중요도 질의 / 문헌의 유사도 sim(dj, q) 에 따라 검색된 문헌을

순위화한다 . 유사도 sim(dj, q) = (dj q) / (|dj| |q|) =

질의가 부분적으로 정합될 경우도 검색할 수 있다 . (sim(dj, q) > )

t

i qi

t

i ji

t

i qiji

ww

ww

1

2,1

2,

1 ,,

Page 20: Information Retrieval (Chapter 2: Modeling)

Page 20Information Retrieval

Chapter 2: Modeling

벡터모델 벡터모델 - - 유사도유사도벡터모델 벡터모델 - - 유사도유사도

t

1=i

t

1=i

22

t

1=i

2

|Y|+|X|

|YX| 2

ii

ii

yx

yx

Dice Coefficient

t

1=i

|YX| ii yxInner Product

t

1=i 1

22

t

1=i1/21/2

|Y||X|

|YX|

t

iii

ii

xy

yx

Cosine Coefficient

Jaccard Coefficient

t

1=i

t

1=i

t

1=i

22

t

1=i

|YX|-|Y|+|X|

|YX|

iiii

ii

yxyx

yx

Page 21: Information Retrieval (Chapter 2: Modeling)

Page 21Information Retrieval

Chapter 2: Modeling

ki 1 2 … 17 … 456 … 693 … 5072d1 0 0.3 0 0.5 0 0d2 0.2 0.6 0.3 0 0.8 0.3...dn 0 0.2 0 0 0.6 0 q 0.3 0.7 0 0 0.7 0

벡터모델벡터모델 (( 계속계속 ))벡터모델벡터모델 (( 계속계속 ))

유사도가 내적 (inner product) 일 경우 :

sim(d1, q) = 0.3*0 + 0.7*0.3 + 0.7*0 = 0.21

sim(d2, q) = 0.3*0.2 + 0.7*0.6 + 0.7*0.8 = 1.04

sim(dn, q) = 0.3*0 + 0.7*0.2 + 0.7*0.6 = 0.56

검색 결과 (if = 0.5)

d2, dn

용어 - 문헌 행렬 (Term-Document Matrix)

Page 22: Information Retrieval (Chapter 2: Modeling)

Page 22Information Retrieval

Chapter 2: Modeling

벡터모델벡터모델 - - 용어가중치용어가중치벡터모델벡터모델 - - 용어가중치용어가중치

클러스터링 문제 클러스터내 유사도 (intra-clustering similarity)

어떤 객체를 잘 설명하는 특성이 무엇이냐 ? 클러스터간 비유사도 (inter-cluster dissimilarity)

어떤 객체를 다른 객체와 구분하는 특성이 무엇이냐 ?

정보검색 문제 클러스터내 유사도 (intra-clustering similarity)

용어빈도수 (term frequency): tf, freqi,j

문헌 dj 에서 용어 ki 의 순수 빈도수 클러스터간 비유사도 (inter-cluster dissimilarity)

역문헌빈도수 (inverse document frequency): idf 문헌 컬렉션에서 용어 ki 의 빈도수의 역수

Page 23: Information Retrieval (Chapter 2: Modeling)

Page 23Information Retrieval

Chapter 2: Modeling

벡터모델 벡터모델 (( 계속계속 ))벡터모델 벡터모델 (( 계속계속 ))

가중치 기법 용어 빈도수 (tf)

문헌내 용어 빈도수가 높을 수록 연관이 큼

역문헌 빈도수 (idf) 많은 문헌에 출현한 용어는 연관 / 비연관 문헌을 구분하기 어려움

)document in the termoffrequency Raw : ( max jiij

ljl

ijij dkfreq

freq

freqf

documents ofnumber Total :

appears index term hein which t documents ofNumber :

log

N

kn

n

Nidf

ii

ii

Page 24: Information Retrieval (Chapter 2: Modeling)

Page 24Information Retrieval

Chapter 2: Modeling

벡터모델 벡터모델 (( 계속계속 ))벡터모델 벡터모델 (( 계속계속 ))

잘 알려진 색인어 가중치 기법 tf 와 idf 의 균형 (tf-idf 기법 )

질의에서 용어 가중치 기법

iij

iijij

idff

n

Nfw

log

iiq

ilql

iqiq

idff

n

N

freq

freqw

)5.05.0(

logmax

5.05.0

Page 25: Information Retrieval (Chapter 2: Modeling)

Page 25Information Retrieval

Chapter 2: Modeling

벡터모델 벡터모델 (( 계속계속 ))벡터모델 벡터모델 (( 계속계속 ))

truck"ain arrived gold ofShipment " :

ck"silver tru ain arrivedsilver ofDelivery " :

fire" ain damaged gold ofShipment " :

3

2

1

D

D

D

ii n

Nidf log

ck"silver tru gold" :Q

Term a arrived damaged delivery fire gold in of silver shipment truck

idf 0 .176 .477 .477 .477 .176 0 0 .477 .176 .176

iijij idffw iiqiq idffw

Page 26: Information Retrieval (Chapter 2: Modeling)

Page 26Information Retrieval

Chapter 2: Modeling

벡터모델 벡터모델 (( 계속계속 ))벡터모델 벡터모델 (( 계속계속 ))

t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 t11

D1 0 0 .477 0 .477 .176 0 0 0 .176 0

D2 0 .176 0 .477 0 0 0 0 .954 0 .176

D3 0 .176 0 0 0 .176 0 0 0 .176 .176

Q 0 0 0 0 0 .176 0 0 .477 0 .176

ij

t

iiqj wwDQSC

1

),(

031.0)176.0(

)0)(176.0()176.0)(0()0)(477.0()0)(0()0)(0()176.0)(176.0(

)477.0)(0()0)(0()477.0)(0()0)(0()0)(0(),(

2

1

DQSC

486.0)176.0()477.0)(954.0(),( 22 DQSC

062.0)176.0()176.0(),( 223 DQSC

Hence, the ranking would be D2, D3, D1

Document vectors

Not normalized

Page 27: Information Retrieval (Chapter 2: Modeling)

Page 27Information Retrieval

Chapter 2: Modeling

벡터 모델 벡터 모델 (( 계속계속 ))벡터 모델 벡터 모델 (( 계속계속 ))

장점 용어 가중치는 검색성능을 향상시킨다 . 부분정합이 가능하다 . 검색된 문헌을 순위화할 수 있다 .

단점 색인 용어들간의 연관성을 고려하지 않았다 .

용어간 상호독립 가정의 모순이다 . 용어들 사이의 의존성을 고려하지 않았다 .

연관 피드백의 질의 확장 없이 성능 개선이 어렵다 .

Page 28: Information Retrieval (Chapter 2: Modeling)

Page 28Information Retrieval

Chapter 2: Modeling

확률모델확률모델 - - 기본기본확률모델확률모델 - - 기본기본

경주마 백두산은 통산 100 번의 경주를 뛰었다 . 그 중 20 번의 경주에서 우승했다 .

P( 백두산 =Win) = 20/100 = .2 그 중 30 번은 비가 왔고 나머지는 맑았다 .

P(Weather=Rain) = 30/100 = .3 그 중 백두산은 15 번을 이겼다 .

– 조건 확률 P( 백두산 =Win|Weather=Rain) = 15/30 = .5– P(Win|Rain)= P(Win, Rain)/P(Rain) – = 0.15/0.3 = .5

P(Rain|Win) =? Bayes’ theorem

75.02.0

3.05.0

P(W)

P(R)P(W|R) P(R|W)

P(B)

P(A)P(B|A)P(A|B)

Page 29: Information Retrieval (Chapter 2: Modeling)

Page 29Information Retrieval

Chapter 2: Modeling

확률 모델확률 모델확률 모델확률 모델 동기

IR 문제를 확률적으로 해석한다 . 1976 년에 Robertson 과 Sparck Jones[677] 가 제안했다 .

가정 ( 확률 원칙 ) 연관 확률 (Probability of relevance) 은 문헌과 질의 표현에만 종속된다 .

질의 q 의 이상적인 정답 집합 (R) 가정하자 . 집합 R 의 문헌만 질의 q 에 연관 (relevant) 되고 다른 문헌은

연관되지 않는다 .

Page 30: Information Retrieval (Chapter 2: Modeling)

Page 30Information Retrieval

Chapter 2: Modeling

확률 모델확률 모델확률 모델확률 모델 정의

t

i i

i

i

iijiqj

dg idg i

dg idg i

j

jj

j

j

j

j

j

jj

iqij

RkP

RkP

RkP

RkPwwqsim(d

RkPRkP

RkPRkPqdsim

qddRP

R

R

RdP

RdP

RPRdP

RPRdP

dRP

dRPqdsim

ww

jiji

jiji

1

0)(1)(

0)(1)(

)|(

)|(1log

)|(1

)|(log~),

)|()|(

)|()|(~),(

query theorelevant t is document y that theProbabilit :)|(

relevant-non be known to documents ofSet :

relevant be known to documents ofSet :

)|(

)|(~

)()|(

)()|(

)|(

)|(),(

binary all are riables weight vaindex term : }1,0{},1,0{

Bayes’ rule 동일 문헌에 모든 은 )(),( RPRP

색인어 독립성 가정

Log 를 취하고 ,

상수 무시1)|()|( RkPRkP ii

Page 31: Information Retrieval (Chapter 2: Modeling)

Page 31Information Retrieval

Chapter 2: Modeling

확률 모델확률 모델확률 모델확률 모델 초기 확률

확률의 개선

iii

i

i

knN

nRkP

RkP

index term econtain th which documents ofnumber : )|(

5.0)|(

ii

iii

iiiii

ii

iii

kVV

VVN

N

nVn

VN

Vn

VN

VnRkP

VN

nV

V

V

V

VRkP

index term econtain th which ofsubset :

retrievedinitially documents ofsubset :11

5.0)|(

1

1

5.0 )|(

너무 작은 V 와 Vi

의 경우 ,

조정 요소를 더함

Page 32: Information Retrieval (Chapter 2: Modeling)

Page 32Information Retrieval

Chapter 2: Modeling

확률 모델 확률 모델 (( 계속계속 ))확률 모델 확률 모델 (( 계속계속 ))

Advantage 연관 확률에 따라 문헌 순위화가 가능하다 .

Disadvantage 초기 문헌이 연관 / 비연관으로 분리되었다는 가정이 필요하다 . 색인어의 문헌내 빈도수를 고려하지 않는다 . 색인어들 간의 독립성을 가정하고 있다 .

그러나 , 독립성 가정이 문제가 되는 것인지는 아직 모름 !!

Page 33: Information Retrieval (Chapter 2: Modeling)

Page 33Information Retrieval

Chapter 2: Modeling

전통 모델의 비교전통 모델의 비교전통 모델의 비교전통 모델의 비교 불리안 모델

가장 단순한 모델 부분 정합 인식 불가 -> 낮은 성능

벡터 모델 널리 사용되는 검색 모델

벡터 모델과 확률 모델 Croft

확률 모델이 더 좋은 검색 성능을 제공 Salton, Buckley

일반 컬렉션에서 벡터 모델이 더 좋은 성능을 보임

Page 34: Information Retrieval (Chapter 2: Modeling)

Page 34Information Retrieval

Chapter 2: Modeling

퍼지 정보검색 모델퍼지 정보검색 모델퍼지 정보검색 모델퍼지 정보검색 모델

동기 일반적으로 문헌과 질의는 키워드 집합으로 표현한다 . 문헌과 질의의 실제적인 의미의 부분적인 표현이다 . 문헌과 질의의 정합 (matching) 은 근접 , 또는 모호한 정합이 된다

각 용어는 퍼지 집합 (fuzzy set) 으로 정의한다 . 각 문헌은 각 용어의 퍼지 집합에서 소속 정도 (degree of

membership) 를 가진다 .

Page 35: Information Retrieval (Chapter 2: Modeling)

Page 35Information Retrieval

Chapter 2: Modeling

퍼지 집합의 소개퍼지 집합의 소개 퍼지 집합 A 에 x 의 소속 정도 A(x) :

A(x) : X [0,1] X : 전체 집합 (universal set) [0,1] : 0 과 1 사이의 실수

예 ) 전체 집합 U = {4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8}

퍼지 집합 TALL={0/4.5, 0.2/5, .5/5.5, .7/6, 1/6.5, 1/7, 1/7.5, 1/8} 소속함수 (membership function)

4.5 5.5 6 6.5

0.5

1.0

0 0 Height in feet

LL0.7

Page 36: Information Retrieval (Chapter 2: Modeling)

Page 36Information Retrieval

Chapter 2: Modeling

퍼지 집합의 연산 퍼지 집합의 연산 퍼지 집합 연산의 매우 다양한 방법으로 정의되며 여기서 한

예를 보인다 .

교집합 A B 의 소속함수 : AB(x)= min{(x), (x)} or (x)= (x)(x) for all xX

합집합 A B 의 소속함수 : (x)= max{A(x), (x)} or (x)= (x)+(x)- (x)(x)

여집합 A’ 의 소속함수 : A’(x)= 1-(x)

Page 37: Information Retrieval (Chapter 2: Modeling)

Page 37Information Retrieval

Chapter 2: Modeling

퍼지 정보검색 모델 퍼지 정보검색 모델 문헌 D 의 표현 : 가중치 벡터 (w1,…,wt),

wi = Ti(D)

용어 Ti 의 퍼지 집합에서 문헌 D 에 소속 정도 예 :

POLITICS={politics(D1)/ D1 , politics(D2)/ D2 ,…, politics(DN)/ DN}

질의에 대한 연관 정도 :

문헌 D 의 소속 정보에 대해 (Ti AND Tj): min(wi, wj) 로 계산

(Ti OR Tj) : max(wi, wj) 로 계산

(NOT Ti) : 1-wi 로 계산

Page 38: Information Retrieval (Chapter 2: Modeling)

Page 38Information Retrieval

Chapter 2: Modeling

퍼지 정보검색 모델 퍼지 정보검색 모델 -- 예제예제 예 1) - AND

D1: elephant/1 + Asia/0.2 + ... D2: elephant/0.2 + Asia/0.2 + ... Q2= elephants AND Asia D1 : min(1, 0.2) = 0.2. D2 : min(0.2,0.2) = 0.2 D1 better

예 2) - OR D1:elephant/0.8 + hunting/0.1 + ... D2: elephant/0.7 + hunting/0.7

+ ... Q3= elephants OR hunting D1 : max(0.8, 0.1)=0.8 D2 : with max(0.7, 0.7)=0.7 D2 better

예 3) - NOT D1: mammals/0.5+Asia/0.2+... D2:

mammals/0.51+Asia/0.49+... Q4 = (mammals AND NOT

Asia)

D1 : min(0.5, 1-0.2) = 0.5 D2 : min(0.51, 1-0.49) = 0.51

Page 39: Information Retrieval (Chapter 2: Modeling)

Page 39Information Retrieval

Chapter 2: Modeling

퍼지 정보검색 모델퍼지 정보검색 모델퍼지 정보검색 모델퍼지 정보검색 모델 소속함수를 어떻게 계산할까 ?

용어 - 용어 연관 행렬 사용한다 .

용어 - 용어 연관 행렬 (Term-term correlation matrix) CNM

두 용어 ki 와 kl 의 연관도 cij :

liil

ii

illi

ilil

kkn

kn

nnn

nc

and termecontain th which documents ofNumber :

termecontain th which documents ofNumber :

k1 k2 …

K1 C11 C12

K2 C12 C22

소속 함수 (Degree of membership) 문헌 dj 가 용어 ki 에 관련된 소속정보

jl dk

ilij c )1(1

Page 40: Information Retrieval (Chapter 2: Modeling)

Page 40Information Retrieval

Chapter 2: Modeling

확장 불리안 모델확장 불리안 모델확장 불리안 모델확장 불리안 모델 동기

불리안 모델 간단하다 . 용어 가중치를 사용할 수 없다 . 검색된 문헌를 순위화할 수 없다 . 검색된 문헌의 수가 너무 크거나 너무 작다 .

벡터 모델 간단하고 빠르다 . 검색 성능이 좋다 .

불리안 모델의 질의 형식을 벡터 모델에 적용하여 부분 정합이나 용어 가중치를 이용하자 .

확장 불리안 모델

Page 41: Information Retrieval (Chapter 2: Modeling)

Page 41Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 ))

불리안 논리의 가정에 대한 문제 질의 용어의 불리안 합 : q = kx ky

용어 kx 혹은 ky 를 포함하는 문헌은 두 용어 kx 와 ky 가 포함되지 않은 다른 문헌만큼 질의 q 에 연관되지 않을 수 있다 .

질의 용어의 불리안 곱 : q = kx ky

용어 kx 와 ky 를 포함하는 문헌은 두 용어 kx 혹은 ky 가 포함된 문헌보다 질의 q 에 연관되지 않을 수 있다 .

Page 42: Information Retrieval (Chapter 2: Modeling)

Page 42Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 )) 예 )

두 용어 kx 과 ky 에 대해서 생각해보자 .

가중치 (normalized tf-idf factor)

2 차원 공간에서 질의와 문헌의 유사도

)10( max

)10( max

yjii

yyjyj

xjii

xxjxj

widf

idffw

widf

idffw

(1,1)

kx

ky

(1,0)

(0,1)

(0,0)

가장 원치 않음 d

x y(1,1)

kx

ky

(1,0)

(0,1)

(0,0)

가장 원함 .d

x y

Page 43: Information Retrieval (Chapter 2: Modeling)

Page 43Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 )) 논리합 질의 :

유사도 : 좌표 (0,0) 으로부터의 Normalized 된 거리이다 .

논리곱 질의 :

유사도 : 좌표 (1, 1) 로부터의 거리의 역수

yxor kkq

yxand kkq

2),(

22 yxdqsim or

2

)1()1(1),(

22 yxdqsim and

Page 44: Information Retrieval (Chapter 2: Modeling)

Page 44Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 )) P-norm 모델

거리 개념 일반화 : 유클리디안 거리뿐 아니라 p- 거리의 개념으로 일반화한

모델이다 . p 값은 질의 시 준다 . 일반화된 논리합 질의 (Generalized disjunctive query)

일반화된 논리곱 질의 ( Generalized conjunctive query)

mppp

or kkkq ...21

mppp

and kkkq ...21

Page 45: Information Retrieval (Chapter 2: Modeling)

Page 45Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 )) P-norm 모델에서 질의 - 문헌의 유사도 (query-document

similarity)

예 )

ppm

pp

jand

ppm

pp

jor

m

xxxdqsim

m

xxxdqsim

1

21

1

21

)1(...)1()1(1),(

...),(

321 )( kkkq pp

p

p

p

ppp

j

xxx

dqsim

1

3

1

21

2

2)1()1(

1

),(

Page 46: Information Retrieval (Chapter 2: Modeling)

Page 46Information Retrieval

Chapter 2: Modeling

확장 불리안 모델 확장 불리안 모델 ((계속계속 ))확장 불리안 모델 확장 불리안 모델 ((계속계속 )) P-norm 모델의 특성

p = 1 유사도 기반한 벡터 모델

p = 유사도 기반 퍼지 집합 모델

1< p < 로 p값을 변화시키면 벡터모델과 퍼지집합모델의 중간 성질을 가진 검색모델이 되는 유연성이 장점이다

확장 불리안 모델은 1983 년에 소개된 개념이지만 실제 많이 사용되지 않고 있다 . 그러나 여러가지 이론적인 장점을 많이 가지고 있어서 미래의 검색모델로 사용될 가능성이 많다

m

xxdqsimdqsim m

jandjor

...),(),( 1

)(min),(

)(max),(

iijand

iijor

xdqsim

xdqsim

Page 47: Information Retrieval (Chapter 2: Modeling)

Page 47Information Retrieval

Chapter 2: Modeling

일반화된 벡터 모델 – 용어들 간의 의존성 고려일반화된 벡터 모델 – 용어들 간의 의존성 고려일반화된 벡터 모델 – 용어들 간의 의존성 고려일반화된 벡터 모델 – 용어들 간의 의존성 고려 Ti : 색인어 i 를 표현하는 벡터

dri : 문헌 Dr 에서 색인어 i 의 가중치

qsi : 질의 Qs 에서 색인어 i 의 가중치 질의와 문헌의 유사도 내적을 사용할 경우

t

jjrjs

t

iirir TqQTdD

11

t1

sr

and So

T,...,T vectors theofn combinatiolinear a are

Qquery andDDocument

jji

isjri

t

jjsj

t

iiris TTqdTqTdQ

,11r ))((D

:get product weinner Using

Page 48: Information Retrieval (Chapter 2: Modeling)

Page 48Information Retrieval

Chapter 2: Modeling

일반화된 벡터 모델 일반화된 벡터 모델 - - 예제 예제

D1=2T1+3T2+5T3

D2=3T1+7T2+1T3

Q =0T1+0T2+2T3

sim(D1, Q) = (2T1+ 3T2 + 5T3) * (0T1 + 0T2 + 2T3)

= 4T1T3 + 6T2T3 + 10T3T3

= 4*0-6*0.2+10*1= 8.8

sim(D2, Q) = (3T1+ 7T2 + 1T3) * (0T1 + 0T2 + 2T3)

= 6T1T3 + 14T2T3 + 2T3T3

= 6*0-14*0.2+2*1= -.8

검색결과 (if = 0.5): D1

T1 T2 T3

T1 1 .5 0

T2 .5 1 -.2

T3 0 -.2 1

Page 49: Information Retrieval (Chapter 2: Modeling)

Page 49Information Retrieval

Chapter 2: Modeling

일반화된 벡터 모델 – 일반화된 벡터 모델 – 용어용어 -- 용어 행렬용어 행렬 (term-term matrix)(term-term matrix)일반화된 벡터 모델 – 일반화된 벡터 모델 – 용어용어 -- 용어 행렬용어 행렬 (term-term matrix)(term-term matrix)

용어 -문헌 행렬 : MNM

N: 문헌 수 , M: 용어 (색인어 ) 수 용어 -용어 행렬 : TNN

T = M M-t

예 ) (실제 계산에서는 정규화된 가중치를 사용한다 .)

용어간 상관성이 검색성능을 향상시킨다는 증거는 아직 없고 , 계산량이 많아서 일반화된 벡터모델이 전통벡터모델보다 선호되지 못함 이론적인 관점에서 확장된 아이디어를 제공하는 기반이 됨

262213t

225827t

132713t

ttt

173

532

ttt

15t

73t

32t

dd

T

3

2

1

321

2

1

321

2

2

1

21

d

d

Page 50: Information Retrieval (Chapter 2: Modeling)

Page 50Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (Latent Semantic Indexing Model)(Latent Semantic Indexing Model)잠재의미색인 모델잠재의미색인 모델 (Latent Semantic Indexing Model)(Latent Semantic Indexing Model)

동기 어휘적 정합의 문제점

개념 (concept) 을 표현하는 방법은 다양하다 .(synonymy)– 색인되지 않았으나 연관 문헌은 검색되지 않는다 .

대부분의 단어는 여러 가지 의미를 지닌다 .(polysemy)– 비연관 문헌이 검색 결과에 포함된다 .

기본 개념 질의와 문헌의 정합 과정에 색인어 정합 대신에 개념 정합 (con

cept matching) 을 사용한다 . 문헌 벡터와 질의 벡터의 차원을 개념 벡터로 대응시킨다 . 일반적으로 개념 벡터의 차원은 색인어 벡터의 차원보다 작다 .

왜냐하면 하나의 개념은 여러 개의 색인어 ( 용어 ) 를 포함한다 .

Page 51: Information Retrieval (Chapter 2: Modeling)

Page 51Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))잠재의미색인 모델잠재의미색인 모델 (( 계속계속 )) 용어 - 문헌 행렬 (term-document matrix) MtN =(Mij)

Mij = wi,j : 문헌 dj 와 용어 ki 의 관련도

단일 값 분해 (singular value decomposition, SVD) 를 사용해서 M 을 KSD 으로 분해한다 . K : 용어 - 용어 상관 행렬 (term-to-term correlation matrix) MMt 로 구할 수

있는 고유벡터 행렬 (matrix of eigenvectors) Dt : 문헌 - 문헌 행렬 (document-document matrix) MtM 를 전치하여 (transpose)

구할 수 있는 고유벡터 행렬 S : 단일값 (singular values) 의 대각행렬 (diagonal matrix) r r,

여기서 r = min(t, N) 은 M 의 차수 (rank). 원래 행렬 M 에 가장 가까운 Ms 를 구한다 .

Ms 의 차수 s < r Ms = KsSsDs

Page 52: Information Retrieval (Chapter 2: Modeling)

Page 52Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))

단일값분해 (Singular Value Decomposition)

0

aluesingular v : ),,(

ectorsingular vright :

ectorsingular vleft :

orthogonal :

121

1

nrr

n

nTT

T

diag

V

U

IVVUU

VUA

A U VT=

m x n m x n n x n n x n

Page 53: Information Retrieval (Chapter 2: Modeling)

Page 53Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))

잠재의미색인

용어 - 문헌 행렬tf-idf 가중치 방법을적용

Page 54: Information Retrieval (Chapter 2: Modeling)

Page 54Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))잠재의미색인 모델잠재의미색인 모델 (( 계속계속 ))

잠재의미색인 k: 줄여진 개념 공간의 차원

용어와 문헌 사이의 상관관계를 충분히 찾을 수 있을 정도로 커야 한다 .

단어 사용에서 여러 가지 변형에 의한 잡음을 제거할 수 있을 정도로 작아야 한다 .

검색 질의 유사도 : 코사인 유사도

문서의 순위화 질의를 첫번째 문서 D0 로 모델링한다 . Ms

tMs 에서 첫번째 줄은 질의에 대한 모든 문서의 순위를 제공한다 .

1ˆ kkTUqq

Page 55: Information Retrieval (Chapter 2: Modeling)

Page 55Information Retrieval

Chapter 2: Modeling

잠재의미색인 모델잠재의미색인 모델 (( 계속계속 )) 장점

효율적이고 개념적인 색인 모델이다 . 색인어의 잡음과 색인어 벡터의 차원을 줄일 수 있다 .

색인어의 정합이 없을 경우에도 검색될 수 있다 . 다의어 문제를 부분적으로 해결할 수 있다 .

한 단어가 여러 가지의 의미를 가지고 있다면 – 그 단어는 여러 의미의 평균 가중치로 표현한다 .

단점 검색 속도가 늦다 .

역색인 파일이 없다 . 질의 벡터와 각 문헌 벡터를 곱해야 한다 .

SVD 계산은 늦고 많은 메모리를 요구한다 . 다의어 때문에 한 단어는 여러 개의 벡터로 표현될 수도 있다 .

Page 56: Information Retrieval (Chapter 2: Modeling)

Page 56Information Retrieval

Chapter 2: Modeling

신경망 모델신경망 모델신경망 모델신경망 모델 동기

정보검색 시스템 문헌 벡터와 질의벡터의 유사도를 계산하여 순위화하는 것이다 . 문헌과 질의에 포함된 색인은 정합되어야 하고 적절한

가중치를 가지고 있어야 순위화를 할 수 있다 .

신경망이 이와 같은 일을 잘 수행할 수 있는 패턴 정합기이다 .

신경망 모델 3층으로 구성

질의 용어 , 문헌 용어 , 문헌

Page 57: Information Retrieval (Chapter 2: Modeling)

Page 57Information Retrieval

Chapter 2: Modeling

신경망 모델신경망 모델 (( 계속계속 ))신경망 모델신경망 모델 (( 계속계속 )) 자료표현 :

국부표현 (local representation) 입력층 : 색인어 당 하나의 노드 출력층 : 문서 당 하나의 노드

학습 : 모든 가중치가 학습 알고리즘에

의해서 결정된다 . 학습 데이터 : term vector

dj [k1, k2, ..., kt] 1 [1, 0, ..., 1]

실행 : 입력 : query vector 출력 : query vector 에 대한

출력층의 각 노드에 활성화된 값에 따라서 문서의 순위가 결정된다 .

입력층 출력층

Page 58: Information Retrieval (Chapter 2: Modeling)

Page 58Information Retrieval

Chapter 2: Modeling

신경망 모델신경망 모델 (( 계속계속 ))신경망 모델신경망 모델 (( 계속계속 )) 예제 )

D1 Cats and dogs eat.

D2 The dog has a mouse

D3 Mice eat anything

D4 Cats play with mice and rats

D5 Cats play with rats

질의 Do cats play with mice?

Page 59: Information Retrieval (Chapter 2: Modeling)

Page 59Information Retrieval

Chapter 2: Modeling

신경망 모델신경망 모델 (( 계속계속 ))신경망 모델신경망 모델 (( 계속계속 ))

질의 용어 (query term) 노드 질의 용어 (query term) 노드의 가중치 : 1.0 아래와 같은 연결 가중치 (connection weight) 를 통해서 문헌용어

(document term) 노드에 신호를 보낸다 .

문헌 용어 (document term) 노드 아래와 같은 연결 가중치 (connection weight) 를 통해서 문헌 노드에

신호를 보낸다

t

i iq

iqiq

w

ww

1

2

t

i ij

ijij

w

ww

1

2i

ijij n

Nfw log

ilql

iqiq n

N

freq

freqw log

max

5.05.0

Page 60: Information Retrieval (Chapter 2: Modeling)

Page 60Information Retrieval

Chapter 2: Modeling

신경망 모델신경망 모델 (( 계속계속 ))신경망 모델신경망 모델 (( 계속계속 ))

문헌 노드 아래와 같은 방법으로 입력 신호들을 합한다 .

t

i ij

t

i iq

t

i ijiqij

t

iiq

ww

wwww

1

2

1

2

1

1

Cosine measure