Upload
-
View
115
Download
5
Embed Size (px)
Citation preview
Daum검색 50분 동안 살펴보기
숭실대학교 컴퓨터학부 세미나
민병국
검색SU 검색서비스개발팀ltmaxmindaumcorpcomgt
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 2 gt
내용
Daum 소개
Daum검색 둘러보기 (vs Naver검색)
검색기술 튜토리얼
정보검색
검색랭킹 키워드 연관성 스팸점수 클릭점수
형태소 분석 철자교정 검색어추천 띄어쓰기
자동태깅 오피니언마이닝
스마트앤써 Content Service Mapper 카테고리 분류기
검색트렌드 관련검색어 디렉토리검색
이미지 검색
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt
Daum 소개
About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo
Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html
제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html
DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm
Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide
Daum검색 공식블로그 httpblogdaumnetdaumsearch
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt
Daum검색 둘러보기 (1)
이미지검색 양파 lt중의어피드백gt
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4
앰씨몽 lt동의어사전gt
Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9
부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8
lg개포자이 아파트 Daum
httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt
Daum검색 둘러보기 (2)
지식검색
핸드폰이 물에 빠졌을때 어떻게 해요
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr
니콜 키드맨
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 2 gt
내용
Daum 소개
Daum검색 둘러보기 (vs Naver검색)
검색기술 튜토리얼
정보검색
검색랭킹 키워드 연관성 스팸점수 클릭점수
형태소 분석 철자교정 검색어추천 띄어쓰기
자동태깅 오피니언마이닝
스마트앤써 Content Service Mapper 카테고리 분류기
검색트렌드 관련검색어 디렉토리검색
이미지 검색
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt
Daum 소개
About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo
Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html
제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html
DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm
Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide
Daum검색 공식블로그 httpblogdaumnetdaumsearch
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt
Daum검색 둘러보기 (1)
이미지검색 양파 lt중의어피드백gt
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4
앰씨몽 lt동의어사전gt
Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9
부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8
lg개포자이 아파트 Daum
httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt
Daum검색 둘러보기 (2)
지식검색
핸드폰이 물에 빠졌을때 어떻게 해요
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr
니콜 키드맨
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 3 gt
Daum 소개
About Daum httpinfodaumnetDaumindexhtml httpinfodaumnetDauminfocompanySituationdo
Daum 기업문화 httprecruitdaumnetDaumRecruitcampaignculcul01html
제주GMC 혜택 httprecruitdaumnetDaumRecruitcampaignwellwell01html
DaumampLycos 개발자컨퍼런스 httpdevcondaumnetconference2007html httpblogdaumnetdaumcomm
Daum 사회공헌 httphyphendaumnet httphyphendaumnetcampaign httphyphendaumnetdivide
Daum검색 공식블로그 httpblogdaumnetdaumsearch
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt
Daum검색 둘러보기 (1)
이미지검색 양파 lt중의어피드백gt
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4
앰씨몽 lt동의어사전gt
Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9
부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8
lg개포자이 아파트 Daum
httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt
Daum검색 둘러보기 (2)
지식검색
핸드폰이 물에 빠졌을때 어떻게 해요
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr
니콜 키드맨
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 4 gt
Daum검색 둘러보기 (1)
이미지검색 양파 lt중의어피드백gt
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=ampq=BEE7C6C4
앰씨몽 lt동의어사전gt
Naver httpimagesearchnavercomsearchnaversm=tab_htyampwhere=imageampquery=BEDABEBEB8F9ampx=0ampy=0
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=imgampm=amplpp=16ampq=BEDABEBEB8F9
부동산검색 도곡동삼성래미안 (or 도곡동삼성레미안)
Daum httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B5B5B0EEB5BFBBEFBCBAB7A1B9CCBEC8
lg개포자이 아파트 Daum
httpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=lgB0B3C6F7C0DAC0CC+BEC6C6C4C6AE
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt
Daum검색 둘러보기 (2)
지식검색
핸드폰이 물에 빠졌을때 어떻게 해요
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr
니콜 키드맨
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 5 gt
Daum검색 둘러보기 (2)
지식검색
핸드폰이 물에 빠졌을때 어떻게 해요
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=ampq=C7DAB5E5C6F9C0CC+B9B0BFA1+BAFCC1B3C0BBB6A7+BEEEB6BBB0D4+C7D8BFE4
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=C7DAB5E5C6F9C0CC20B9B0BFA120BAFCC1B3C0BBB6A720BEEEB6BBB0D420C7D8BFE4ampsm=tab_nmr
니콜 키드맨
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=knowledgeampm=amplpp=10ampq=B4CFC4DD+C5B0B5E5B8C7
Naverhttpkinsearchnavercomsearchnaverwhere=kinampquery=B4CFC4DD20C5B0B5E5B8C7ampsm=tab_nmr
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 6 gt
Daum검색 둘러보기 (3)
인물검색
공지영
Daumhttpsearchdaumnetsearchnil_suggest=btnampnil_ch=amprtupcoll=ampw=totampm=amplpp=ampq=B0F8C1F6BFB5
Naverhttpsearchnavercomsearchnaverwhere=nexearchampquery=B0F8C1F6BFB5ampx=0ampy=0ampsm=top_htyampfrm=t1
스팸처리
오션파라다이스
Daumhttpsearchdaumnetsearchw=totampq=BFC0BCC7C6C4B6F3B4D9C0CCBDBA
Naverhttpsearchnavercomsearchnaverwhere=nexearchampsm=tab_jumampquery=uC624uC158uD30CuB77CuB2E4uC774uC2A4
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
검색기술 튜토리얼
정보검색키워드연관성스팸분류클릭정제형태소분석키워드추천스마트앤써연관검색어 등hellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 8 gt
통합검색과 컬렉션검색
사용자
통합검색
서비스섹션
볼륨
컬렉션
Inlink
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 9 gt
정보검색 ndash (예) 카페 검색
색인 대상
조건검색 대상
카페 데이터
600만개
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 10 gt
정보검색과 데이터마이닝
사용자
Scoring(Ranking)
QueryProcessor
FilteringIndexFile
검색 엔진
원본문서
WebLog
Spam점수카테고리
TFIDF자동태깅
Click점수인기도
유사동의어문서확장
외부문서외부지표
외부 사이트 DB
NLP QE
데이터 변환통합
데이터 추출
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 11 gt
이효리 카페를 찾아요~hearts
나 이효리나도이효리
나돈데누가 맞을까 ㅋㅋ
넌 누구
내가 진짜이효리
이효리 카페를 찾고 있어
요~난 옷가게
인데
성형수술상담해요
강호동카페 관심없
수
스펙(^^) Filtering 카페명 or 카페키워드 Scoring 카페랭킹 + 클릭점수 - 스팸점수
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 12 gt
DataMining
카페내 키워드간 연관성 상호정보량(MI)
이효리
핑사모(핑클을 사랑하는 사람들의 모임)
옷파는 남정네~hearts
이효리
핑클 이진
옥주현 핑키
이효리
지마켓 코디
공동구매 보세의류
07665
02271
연관성 평균
기준단어 이웃단어 연관도(MI)
이효리 핑클 10000
이효리 성유리 09957
이효리 옥주현 09159
이효리 이진 08835
이효리 효리 08395
이효리 핑키 06120
hellip이효리 코디 03796
이효리 지마켓 02944
이효리 보세의류 00747
이효리 공동구매 00495
연관성 평균
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 13 gt
상호정보량(MI)의 개념
문서셋
전체문서수 |D| = 10 단어셋
초록 A df(A) = 9 빨강 B df(B) = 6 파랑 C df(C) = 5
단어페어셋
A cap B df(AB) = 5 A cap C df(AC) = 4 B cap C df(BC) = 1단어간 동시출현분포
단어간 연관성
A
CB5
4
1
고양이
개쥐
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 14 gt
어뷰징 키워드의 Negative 가중치
어뷰징 키워드
검색 상위에 노출시키기 위해 카페와 관련성도 없으면서 의도적으로 입력된 키워드로 대부분 쿼리 빈도가 높은 인기 키워드
Negative 가중치의 필요성
어뷰징 용도로 흔히 쓰이는 키워드의 경우잘못된 또는 불분명한 연관성이 추출됨
성인 키워드 또는 도박 등 불건전 키워드인경우 강제적인 랭킹 하향 조치
소녀시대 팬카페
어뷰징 키워드에쿼리 매칭
최대값 꼭지점
최저값 꼭지점
소녀시대
서현 유리
제시카
티파니 윤아
스타크래프트
단어연관그래프(Word Relation Graph)
써니
소녀
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 15 gt
키워드 연관성 적용전
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
순위 카페명키워드 CK연관도 키워드
1
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자다이어트핑클스타일베스
트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
2
효리투게더-------------------이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버
횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스애니콜투싼사랑한다면이들
처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현성유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
5
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
순위 카페명키워드 CK연관도 키워드
6
맘대루 씨~부리자^^ -------------------
꽃미녀누드풍경장나라이효리전지현누성맘대루맘대
로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
7
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사
진만땅드라마송혜교동영상레이싱걸미인미남얼짱몸짱사
진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
8
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리아이
비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
9
HJJY + 핑클 999파-------------------이효리옥주현이진성유
리999핑클핑클짱만외치는구구쩜구핑클짱효리주현진
유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
10
CAR BOX-------------------
박스카카박스비비cubecarboxboxcar이효
리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 16 gt
키워드 연관성 적용후순위 카페명키워드 CK연관도 키워드
1
핑사모(핑클을사랑하는 사람들의 모임)-------------------
핑사모핑클이효리옥주현유리이진펄레드핑키
팬카페국내가수
07740 펄레드07717 핑클07666 이효리07523 옥주현07507 핑키07264 이진07223 성유리06827 핑사모06475 팬카페05701 국내가수
2
효리만큼 예뻐지자-------------------
패션코디화장헤어스타일이효리효리만큼이뻐지자
다이어트핑클스타일베스트드레서
08142 코디08004 패션07761 스타일07131 헤어스타일06921 베스트드레서06851 화장06681 다이어트06019 이효리04442 효리만큼이뻐지자03937 핑클
3
효리사랑-------------------
이효리효리핑클비달사순블랙빈테라티이자녹스
애니콜투싼사랑한다면이들처럼
06409 사랑한다면이들처럼05477 효리05301 이효리04866 핑클04793 애니콜04375 이자녹스03005 비달사순02917 투싼
4
HJJY + 핑클 999파-------------------
이효리옥주현이진성유리999핑클핑클짱만외치는
구구쩜구핑클짱효리주현진유리
04964 이효리04892 옥주현04808 핑클04786 성유리04778 이진04098 핑클짱
5
뮤비앤라이브-------------------
뮤직비디오뮤비가요라이브동영상원더걸스이효리
아이비비정지훈
06259 뮤직비디오06036 뮤비05690 가요05673 동영상04738 이효리04641 라이브04016 원더걸스03748 정지훈03627 아이비
순위 카페명키워드 CK연관도 키워드
6
효리투게더-------------------
이효리효리사랑한다면이들처럼톡톡톡잔소리캘빈클라인애니콜세잎클로버횰투효리투게더
05015 사랑한다면이들처럼04614 잔소리04500 이효리04470 효리04253 애니콜03365 톡톡톡03130 캘빈클라인02757 세잎클로버
7
가슴미인 -------------------
가슴여자피부속옷결혼성형다이어트요가이효리
몸짱
06961 가슴06855 다이어트06428 피부06376 성형06174 몸짱05493 여자05426 요가05187 결혼04575 속옷04412 이효리
8
맘대루 씨~부리자^^ -------------------꽃미녀누드풍경장나라
이효리전지현누성맘대루맘대로
04708 맘대루03838 이효리03795 전지현03730 장나라03515 맘대로03348 꽃미녀
9
- 미스김 홈페이지--------------------
비키니소녀영상이효리한채영최신영화진짜디카미인사진만땅드라마송혜교동영상레이싱걸
미인미남얼짱몸짱사진
05050 드라마04751 동영상03734 레이싱걸03729 이효리03634 최신영화03607 송혜교03095 한채영
10
CAR BOX-------------------박스카카박스비비cube
carboxboxcar이효리수입차일본차bb
04236 비비04009 수입차03947 박스카03801 bb03787 일본차03085 cube02916 이효리
본 데이터는 200841 실험결과이며 기존 검색의 첫페이지를 키워드연관도 기준만으로 재정렬한것입니다 (카페랭킹클릭점수 등 고려되지 않았음)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 17 gt
카페 Spam점수
불건전성 키워드 관련 데이터 블라인드 카페 키워드
야동 하두리 키워드
드라마 키워드
판촉 키워드
=gt 스팸후보 제시 가중치 자동 부여
성인 키워드 통합검색의 성인인증 필요 키워드
=gt 매뉴얼 가중치로 입력
카페키워드 블라인드 카페수 정상 카페수머니상 142 321 다시보기 153 1230 한게임머니 118 286 포커머니 118 326 신화머니 119 372 드라마다시보기 115 453
hellip hellip hellip
불건전성 카페 분류의 문제=gt 나이브 베이지안 분류
정상카페수 3846552 블라인드카페수 3081
총 카페수 3849633
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
gt threshold______SPAM
SPAM
True
False
sum
Spam점수
log2 P(spam|rsquo머니상rsquo)+
log2 P(spam|rsquo다시보기rsquo)+
log2 P(spam|rsquo한게임머니rsquo)+
log2 P(spam|rsquo하두리rsquo)+
log2 P(spam|rsquo연예인노출rsquo)+
log2 P(spam|rsquo화상캠rsquo)+hellip
Binomial Model 스팸카페내 출현확률 정상카페내 출현확률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 18 gt
카페 Click점수
Click데이터 정제 Click점수의 급격한 등락
폭 줄이기
일시적 어뷰징 제거
추세를 이용한 평균 필요 지수이동평균
9일 지수이동평균 적용 (c = 02 )EMA(지수이동평균) = 전일지수이동평균
+ c times ( 금일클릭수 ndash 전일지수이동평균 ) c = 2 (n+1) n은 이동평균 기간 일수
고의적인 클릭 or데이터 이상 의심
지수이동평균적용
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (13)
사전 탐색 방향( 우측 )
다음커뮤니케이션에서
STEP 1 다음커뮤니케이션 gtgt에서 (조사 사전)
STEP 2 ------------- gtgt다음커뮤니케이션 (명사 사전)
STEP 3 다음커뮤니케이션+에서
어절단위 분석 ndash 가능한 모든 분석 결과
나는 학교에 간다
나는
(N 나) + (j 는ldquo)
(V 나) + (e 는ldquo)
(V 날) + (e 는)
학교에
(N 학교) + (j 에)
간다
(V 가) + (e ㄴ다ldquo)
(V 갈) + (e ㄴ다ldquo)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (23)
나는 학교에 간다
하늘을 나는 새
POS tagging
나대명사 는조사하늘일반명사 을조사 새명사
새동사
시작 끝
나동사 는어미
는어미날동사
나동사 는어미
학교일반명사 에조사 가동사
갈동사
ㄴ다동사
ㄴ다어미
시작 끝
날동사 는어미
는조사나대명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
형태소분석 (33)
다 음 커 뮤 니 케 이 션 에 서다 음 커 뮤 니 케 이 션 에 서
명사 조사어절시작 어절끝
문법검사 문법검사 문법검사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (13)
기반 기술 Trie이 활용 기술
장점 Trie검색 한번으로 원하는 오류 범위의 단어를 빠른 속도로 검색
단점 오류 범위가 넓어질수록 검색 속도가 느려지고 불필요한 중복 검색이 발생
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (23)
Trie를 이용한 Fault Counting과 오용어 사전 오용 패턴 이용한 spell check
오용어 사전 자주 틀리는 단어
Exgt aple apple
오용패턴 사전 단어의 일부분 중 자주 틀리는 부분
Exgt tino tion
Exgt goverment =gt government영어 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
철자교정(Speller) (33)
Trie를 이용한 Fault counting과 오류 패턴의 분석을 통한 spell check 분석 내용
Keyboard상의 거리
발음 규칙을 활용한 오류 검출 경끼 =gt 경기( 격음화 )
발음 규칙을 역으로 활용한 오류 검출
사람들이 자주 틀리는 패턴을 이용한 오류 검출 가게부 =gt 가계부
사이월드 =gt 싸이월드한글 speller
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (14)
기능
기본 기능 Prefix | Suffix search 다음
영한 변환 후 (prefix | suffix search ) ekdma-gt다음
한영 변환 후(prefix | suffix search ) 해ㅐ히-gtgoogl
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (24)
일본어 SUGGEST
로마자 입력 한글입력 일본어 입력
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (34)
중국어 SUGGEST 도서검색 SUGGEST
로마자로 입력
한글발음으로입력
도서검색의 중간 매칭 방식 suggest
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
검색어 추천(Suggest) (44)
관련 기술 자소분해 Maxsort Apache module
programminghellip 주요이슈
자소분해 초성과 종성에 동일 코드부여
두 가지 정렬 기준 (자소단위 클릭수) 백단 데이터 구축 시에는 자소단위로
정열
자소단위로 정열 된 데이터를 조건에맞게 가져와 클릭수 단위로 재정렬
실시간 정렬
Max sort algorithm (suggest의 경우는quick sort 보다 빠르다 )
lsquoㄷrsquo으로 시작하는 모든 결과를 가져와서 Click Ratio가 높은 것 중 상위 10개를 보여준다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (13)
사전 Trie 모듈 사용 좌기준 최장 일치 우선 DHA에서 사용하는 사전은 단순화 시켜 10개 내외의 사전으로 만듦 Replacedic predic backdic과 같은 사전 추가
기본 규칙 규칙1 동사(용언류)의 앞을 띄어쓴다
빵을[SPACE]만드는
규칙2 조사나 어미의 뒤를 띄어 쓴다 공부를[SPACE]하는
규칙3 명사와 명사 사이를 띄우지 않는다 [프로그래밍][언어][이야기]
기본 품사 n 명사류 ( noun ) j 조사류 ( josa ) v 용언류 ( verb ) e 어미류 ( eomi ) p 어절의 앞에 공백 ( pre ) b 어절의 뒤에 공백 ( back ) t 어절의 앞뒤에 공백 ( pre and back ) r 부분 기분석 사전( replace )
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing) (23)
Exgt 조폭이사랑한여자
조 폭(n) Push이(j) 사(n) Push
랑 한(x) Fail이(j) 사(n) Pop이(j)
사 랑(h) 한(v) Push여 자(n) push
animation
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기 예제
조 폭 랑이 사
Fail
한 여 자
명사 조사 동사 명사
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
띄어쓰기(Word Spacing)(33)
확률 Corpus에서 추출한 bi-gram tri-gram 사용
Bi-gram 냅가 0 0 0 0 0 1 0 0 - ( 8 ) Tri-gram 가가급 23 41 2870 5 - ( 4 )
확률을 이용한 띄어쓰기 입력 먹는데이가아파요
먹 는 데 이 가 아 파 요
helliphelliphelliphelliphelliphelliphelliphelliphellip 먹는데이가아파요
2n개중 최대 확률 선택
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
자동태깅(Auto Tagging)
활용 자원
패턴사전(고빈도 다어절 쿼리)
형태소 분석 후 복합명사합성(word position)
TFIDF 사용
적용
사용자가 질문을 입력할 때해당 질문이 어느 카테고리에해당되는지를 추천하기 위해질문에서 주요 키워드(또는Phrase)를 추출한다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Opinion Mining 이란- 어떤 topic에대한 평가가 담겨있는문서를분석해서긍정부정 context를검출- 검출된 context를기반으로긍정부정 분류
필요한 리소스- topic 를 포함하고있는 문서 검색 시스템 검색 엔진- 검색된 문서가 topic에대한 평가 등을 담고 있는지판단하는시스템 정보성 필터- 상위 n건의 관련문서들에 대한 Opinion Analysis 시스템
형태소분석기 DHAHPS20 Partial parser tuple 추출
(topic feature predicate modifier conjunction) 의미분석기 추출된 tuple에대해 의미 점수를산정 의미사전 partial parser의미분석기에필요한 의미 사전ndash도메인별로다름
- 분석 결과와검색 엔진의 연동시스템
긍정부정(Opinion Mining) (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
긍정부정(Opinion Mining) (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써 (12)
목적 다음검색에서 사용하고 있는 많은 DB정보의 효과적인 활용
기술 자연언어 처리 기술과 DB자원의 효과적인 매칭
NLIDB( Natural Language Interface for Database )
Exgtrdquo 박지성이 태어난날은rdquo 박지성 = featurename 태어난 날= table birthday SQL Select birthday from table where name = lsquo박지성rsquo 정답 국내축구선수 박지성의 생일은 1981년 2월 25일 입니다
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
스마트앤써(적용) (22)
영화
음악
TV
전체사전
인물 프로필
영어 사전
시청률
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
Contents Service Mapper
Whatrsquos CSM(Contents Service Mapper) Contents와 서비스를 키워드 기반으로 연결하는 시스템 2008년 4월 News Contents(미디어다음금융웹 뉴스)를 대상으로 개발하여 현재 금융영화
로컬에서 사용하고 있고 연내 카페와 블로그 Contents를 포함하도록 개발 중
Example 금융 개편 시 뉴스 Contents를 사용하고 싶어요
bull CSM 사용하지 않을 경우1 미디어다음웹 뉴스금융뉴스 담당자를 contact 한다2 각각의 뉴스를 수집한다3 수집된 데이터를 분류한다4 뉴스 Contents를 서비스한다
bull CSM 사용할 경우1 서비스에 필요한 CSM의 API를 요청한다2 서비스 특성에 맞는 키워드를 등록하여 분류한다3 뉴스 Contents를 서비스한다
Benefit Contents를 서비스 하기 위해 서비스 별로 Contents를 수집하고 분류하는 절차와 프로세스
가 생략됨(시간인력시스템 Resource 감소) Contents가 많아지고 요구사항이 복잡해질수록 더욱 효과적인 시스템으로 발전가능
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
카테고리 분류기 (Classifier)
쇼핑 하우데이터에자동 분류 진행중
자질 사전
모델 학습
자질 추출
자동 분류
분류 모델
형태소 분석기
불용어 사전
전처리
모델명 사전
기분류 데이터
미분류 데이터
C1 C2 C3 C4 Cnhelliphellip
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
1 검색순위 노출-검색 횟수 순D-1일 쿼리를 기반으로 각 카테고리별로인기 있는 키워드를 집계
-순위상승과거 데이터의 평균과 D-1일 데이터간의순위 변동의 Gap을 노출
2 검색추이-해당 키워드에 대해 과거 6개월 동안의검색 빈도를 집계
3 관련 기사-해당 키워드와 관련된 기사가 존재할 경우 해당 시점에 태그 및 제목을 노출함으로써 관련 기사로 링크
bull 검색트렌드란bull 검색트렌드는 전날 쿼리를 기반으로 100여개의 카테고리 대해서검색 순위 및 급등 순위를 산정하여 보여주는 서비스
검색트렌드 (12)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
4 성별세대별지역별 추이-해당 키워드의 성별세대별지역별선호 정도를 파악 후 노출
5 실시간 검색어-해당 카테고리에서 실시간 인기 검색어를 산정하여 노출
6 성별 검색어-해당 카테고리에서 성별 인기 키워드를 집계하여 노출
검색트렌드 (22)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
bull관련검색어란bull 사용자가 입력한 전날에 대한 모든 키워드를 시간적 나열을 통해 사용자가 입력한 키워드간의 연관도를 파악하여 고객이 검색하는 키워드와 관련된 키워드( by assocation rule)를 가이드 하는 서비스
관련검색어
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
가나다순 다음 랭킹
디렉토리 검색 (14)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
사이트지표
디렉토리 검색 (24)
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex동방신기 다음 까페
ex유튜브 한국사이트
성별 고객분석 연령대별 고객분석
유입 웹사이트 분석 유출 웹사이트 분석
디렉토리 검색 (34) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
ex 네이트닷컴wwwnatecom의 하위사이트 natecom등의 지표 제공
ex KB국민은행
하위 사이트
검색엔진별 유입검색어
디렉토리 검색 (44) - 상세보기
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (12)
47
SIAM (동영상 이미지의 동시 처리) 대용량 이미지 전처리 시스템 (썸
네일 성인 중복) 규모 확장이 용이함
하루 트랜젝션 처리량 천만개
LICH (undead) 집단지성 정보를 활용한 이미지 랭
킹 시스템
서비스 적용 후 CTR 16 증가
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼
이미지 검색 (22)
유사 이미지 검색 이미지의 유사성을 활용한 검색 기술
Thumbnail image Animated gif에서 상품이미지만 검출 기술
Face detection 이미지 내 얼굴 인식 기술
OCR 이미지 내 글자를 인식 색인에 반영하는 기술
대표색깔 인식 상품의 대표색깔 인식을 통한 색깔 검색 가능하게 하는 기술
성인 이미지 검출 성인 이미지 검출 기술
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA
숭실대컴퓨터학부세미나 ndash Daum검색 튜토리얼 lt 49 gt
끝
감사합니다
감사합니다 ^^
QampA