36
2 2세부 기초 분석 도구 및 서비스 개발 박혁로 교수 | 전남대 김재훈 교수 | 해양대 이공주 교수 | 충남대 옥철영 교수 | 울산대

기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

2

2세부

기초 분석 도구 및서비스 개발

박혁로 교수 | 전남대

김재훈 교수 | 해양대

이공주 교수 | 충남대

옥철영 교수 | 울산대

Page 2: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

한국어 처리를 위한기초 분석 도구 및 서비스 개발

한국어 정보처리 원천 기술 연구 개발 사업2세부 과제

박혁로

전남대학교

2세부과제 개요

최종 목표 한국어 처리를 위한 기초 분석 도구 및 서비스를 개발하여 공개

세부 목표 • 98.0% 이상의 성능을 갖는 형태소 및 의미 분별 시스템 개발• 95% 이상의 정확도를 갖는 기저 명사구 인식 시스템 개발• 최고 성능의 전이 기반 한국어 의존 구조 분석기 개발• 90% 이상의 성능을 갖는 개체명 인식기 개발

2차년도목표

• 한국어 어휘/의미 분석 시스템 성능 개선• 전이 기반 한국어 구분 분석기 개발• 개체명/기저명사구 인식기 개발

연구진 구성 전남대(박혁로), 울산대학교(옥철영), 충남대(이공주), 해양대(김재훈)

성과 지표 SCI 2편, 국내학술지 4편, 특허출원 1편, 특허등록 1편, 기술이전 2건

2

Page 3: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

성과 현황(’19. 2월)

논문 • SCI … 2건• 국내 학술지 3편• 국내 학술대회 7건

지적 재산권 • 특허 출원… 1건• 특허 등록… 1건• 프로그램 등록 2건

수상 • 학술대회 우수 논문상 3건

기술이전 • 유상 4건, 무상 7건

3

전남대 연구 현황

• 딥러닝을 이용한 한국어 분석 도구 개발• 형태소 분석• 개체명 인식

4

Page 4: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

딥러닝을 이용한 형태소 분석

• 모델• 카카오가 공개한 형태소 분석기

• https://github.com/kakao/khaiii

• CNN과 세종 말뭉치를 이용

5

음절 기반 모델

• 기본 아이디어• 각 입력 음절에 대해 하나의 출력

태그를 출력하는 분류 문제

• 음절과 형태소 정렬• 하나의 음절이 여러 형태소로 구

성될 수 있음1

• 복합 태그(I-VX:I-EP 등) 사용• 같은 품사의 형태소가 인접하여

나올 수 있음• B-태그 도입

• 원형 복원 문제• 복원 사전 구축하여 사용

음절(입력) 결과 품사

심 심/I-NNG I-NNG

사 사/I-NNG I-NNG

숙 숙/B-NNG B-NNG

고 고/I-NNG I-NNG

했 하/I-VX,였/I-EP I-VX:I-EP:0

겠 겠/B-EP B-EP

지 지/I-EC I-EC

만 만/I-EC I-EC

1. 음절 단위의 한국어 품사 태깅에서 원형 복원, 심광섭. 2013. 6

Page 5: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

분석기 구조

그림 출처: https://github.com/kakao/khaiii/wiki/CNN-%EB%AA%A8%EB%8D%B8 7

기본 모델

• 모델 파라메터• 윈도우 크기: 3• 음절 임베딩 크기: 30• 필터 출력 차원: 30• 2, 3, 4 등 4 종류의 커널 사용• 은닉층 크기: 310

• 성능 평가• 최고 F-Score: win=3, embed=150, 97.11• 속도: base 모델의 경우 1만 문장 분석 시간은 78.8초

8

Page 6: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

구현의 애로 사항

• 학습 말뭉치• 세종 말뭉치의 오류를 수정하고, 자체 구축 자료 추가• 85만 문장, 1천3만 어절

• 학습 말뭉치 정렬

한다 하/VV +ㄴ다/EF 한/I-VV:I-EF 다/I-EF

새로운 새롭/AJ + 은/EM 새/I-AJ 로/I-AJ 은/I-EM

했다는 하/VV + 았/EP + 다는/ETM 했/I-VV:I-EP 다/I-ETM 는/I-ETM

9

심층학습을 이용한 개체명 인식

• Exo-Brain 자료를 이용한 개발• 172,888 형태소

• 네이버, 창원대가 함께하는 NLP Challenge• 개체명 인식• http://air.changwon.ac.kr/?page_id=10

• 14개의 개체명 범주

PERSON(PER) FIELD(FLD) ARTIFACT_WORKS(AFW) ORGANIZATION(ORG)

LOCATION(LOC) CIVILIZATION(CVL) DATE(DAT) TIME(TIM)

NUMBER(NUM) EVENT(EVT) ANIMAL(ANM) PLANT(PLT)

MATERIAL(MAT) TERM(TRM)

10

Page 7: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

학습자료

• 자료 배포• https://github.com/naver/nlp-challenge/blob/master/missions/ner/data/train/train_data

• 샘플 자료

11

Challenge 결과

• 네이버의 Baseline 시스템• Bidirectional RNN + CRF• 어절, 음절 RNN을 결합하여 사용함• https://github.com/naver/nlp-challenge/tree/master/missions/ner• F1-척도: 88

• Challenge 우승팀• 광주과기원 팀• Bidirectioanl RNN + CRF 모델 기반, 3개의 다른 모델 Ensemble• F1-척도: 90.42

12

Page 8: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

Bi-directional RNN + CRF 개체명 인식

|

hidden layer

RNN

embedding

|

13

입력 층

그림 출처: 네이버 NLP Challenge 후기, 이신의, 박장원, 박종성, 연세대학교 데이터공학 연구실. 2018 14

Page 9: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

NER 개발 계획

• 프로그램 구현 중• 다른 모델 참고하여 독자적으로 개발

• Hyper Parameter 튜닝• 어절, 음절 embedding size• Learning rate• Dropout• RNN 혹은 LSTM hidden dimension• Optimizer(Adam, MomentumOptimizer, RMSPropOptimizer, …)

• 테스트를 위한 Web 혹은 GUI 프로그램 개발

15

NER 개선• 다른 embedding 방법

• ELMO

• 언어 모델 추가• Ensemble 모델

16

Page 10: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

질의/코멘트…

감사합니다

17

Page 11: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

- 2 세부 -한국어 정보추출 시스템

- 2 세부 -한국어 정보추출 시스템

기저구 인식 및 한국어 개체명 인식

책임자: 김 재 훈

차 세 대 정 보 컴 퓨 팅 기 술 개 발 사 업

2019. 02. 19.

연구 목표 목표 및 개요

연구 계획 전체 일정 2 차년도 세부 계획

연구 내용 연구 재단 성과물 목록 (2018~ 2019.05)

목 차

2

Page 12: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

구문분석기의 복잡도 개선 및 사용자 친화적 API 제공

연구 목표

[ 기저구 인식 ]

중심어가 명사이고 재귀적인구조를 가진 명사구를 찾아내는 과정

활용방안- 구문분석의 복잡도 감소- 정보검색, 정보추출의 기본 단위

제공- 의미분석, 기계번역 등의 시스템

복잡도 개선

[ 개체명 인식 ]

인명, 기관명, 지명 등의 고유명사구를 찾아내는 과정

활용방안- 구문분석의 복잡도 개선- 정보검색, 질의응답시스템의

성능 개선

3

Ⅱ 연구 계획

2차년도(2018년)

3차년도(2019년)

4차년도(2020년)

1차년도(2017년)

기계학습 기반개체명 인식기 및

기저구 인식기 구현

심층학습 기반개체명 인식 및

기저구 인식

개체명 인식 및기저구 인식

성능개선

• NLTK 분석 API 설계

• 개체명 인식기 및기저구 인식기 설계

• CRF 및 SVM기반한국어 개체명 인식기및 기저구인식시스템 구현

• Tensorflow에 기반한개체명 인식 및기저구 인식시스템 개발

• 개체명 인식→F1 90% 이상

• 기저구 인식→ F1 95% 이상

개체명 인식 및기저구 인식 설계

전체 일정

4

Page 13: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

세부 계획 :: 2차년도

기계학습 기반 한국어 개체명 및 기저구 인식 시스템 구현

- 한국어 개체명 및 기저구 말뭉치 변환 도구 개발

- CRF 및 SVM을 이용한 개체명 및 기저구 인식 개발

- 개체명 및 기저구 인식에 적합한 자질 추출에 관한 연구

연구 계획

5

성과물 목록

연구 내용

성 과 물 공 개 장 소NERTagger Konlp Github

ChunkTagger Konlp Github

SentenceTokenizer Konlp Github

WordSegment Konlp Github

NER 말뭉치 공개 예정 (19. 05)

Chunk 말뭉치 공개 예정 (19. 05)

6

Page 14: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

성과물 :: 1) NERTagger (1) 뉴스기사 말뭉치를 이용하여 개체명 인식기 구현

- CRF(Conditional Random Field)를 이용• 자질

• Unigram Ex) , , , ,

• 음절이 포함된 주변음절과의 조합 Ex) 2음절 : , , , , 3음절 : , , , , ,

연구 내용

7

성과물 :: 1) NERTagger (2) 엑소브레인 개체명 말뭉치를 이용하여 개체명 인식기 구현

- Bi-GRU-CRFs with Attention를 이용• Word2Vec으로 pre-trained 된 Embedding Vector 사용• Attention 기법 중 Luong Attention 기법 사용 *

연구 내용

* Luong, M.-T., Pham, H., and Manning, C. D. Effective approaches to attention-based neural machine translation. In Conference on Empirical Methods in Natural Language Processing (2015). 8

Page 15: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

성과물 :: 2) Chunk Tagger (1) 현재 ETRI tag set 및 dependency parsing corpus를 이용하여 간단한 기저구 인식기 구현

- Bi-LSTM-CRFs 이용• 순차적 labeling에 우수• pre-trained된 embedding vector 사용

연구 내용

9

성과물 :: 2) Chunk Tagger (2) 현재 ETRI tag set 및 dependency parsing corpus를 이용하여 간단한 기저구 인식기 구현

- Bi-LSTM-CRFs 이용• data set

train: 약 8만 문장valid: 약 1만 문장test : 약 1만 문장

tag 개수: 60개

- 향후 Chunk 정의에 입각한 tag set 및chunked corpus로 대치 예정

연구 내용

10

Page 16: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

성과물 :: 3) SentenceTokenizer 음절과 주변음절정보를 이용한 문장인식기 구현

성과물 :: 4) WordSegment 음절과 주변음절정보를 이용한 띄어쓰기 모델 구현

연구 내용

11

성과물 :: 5) NER 말뭉치 Annotation Tool을 이용하여 구축 중 (2만 문장)

연구 내용

12

Page 17: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

성과물 :: 6) Chunk 말뭉치 Annotation Tool을 이용하여 구축 중 (4만 문장)

연구 내용

13

논문

Min-Ah Cheon, Chan-Hyun Kim, Ho-Min Park, and Jae-Hoon KimEvaluating and Applying Deep Learning-Based Multilingual Named Entity RecognitionJournal of the Korean Society of Marine Engineering, vol. 42, no. 2, pp. 106-113, 2018. 02.

노경목, 김창현, 최민석, 윤호, 김재훈LiAS: 점진적 사전 확장과 기계학습을 활용한 선형구조의 언어정보 부착 시스템한국마린엔지니어링학회지, vol. 21. no. 7, pp. 580-586, 2018년 9월.

윤호, 김창현, 천민아, 박호민, 남궁영, 최민석, 김재훈CRFs와 Bi-LSTM/CRFs의 비교 분석: 자동 띄어쓰기 관점에서제30회 한글 및 한국어 정보처리 학술대회 발표논문집, pp. 189-192, 2018년 10월.

연구 내용

14

Page 18: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

감 사 합 니 다.감 사 합 니 다.

차 세 대 정 보 컴 퓨 팅 기 술 개 발 사 업

2019. 02. 19.

Page 19: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

한국어 구문 분석CNU

2919-02-19

한국어 의존 구문 분석 (1)• 스택-포인터 네트워크 기반의 의존 구문 분석기

2

Page 20: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

한국어 의존 구문 분석 (2)• 한국어 어절 표현

3

한국어 의존 구문 분석 (3)• 의존 구문 분석 factorization order

4

Page 21: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

한국어 의존 구문 분석 (4)• 학습 코퍼스

• 세종 구문 코퍼스 CoNLL-U 형식으로 변환

• 변환 방식- Rigid Head-Final (Set A)

- Non-Rigid Head-Final (Set B)

• 학습데이터 55,686 문장

• 검증과 평가 데이터 각각 1,000 문장

5

한국어 의존 구문 분석 (5)• 실험 결과

• Factorization order에 따른 성능 비교

6

Page 22: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

한국어 의존 구문 분석 트리 뷰어• 한국어 구문 분석 웹페이지 개설 : 3월말 완료• 의존 구문 트리 뷰어

• 문장의 의미를 쉽게 파악할 수 있는 트리 뷰어

• 예제:옷을 만드느라 늘 대하는 천을 실내용품을 위해 다시 디자인하는 것은 '상상력을

마음껏 펼치는 즐거운 놀이'라고 말하는 그는 다른 디자이너들처럼 찻잔, 접시등

식기 디자인까지 활동 폭을 넓혀갈 계획이다.

• 구문 분석기 출력: CoNLL-U

7

1 옷을 옷 을 NOUN NNG+JKO _ 2 obj _ _2 만드느라 만들 느라 VERB VV+EC _ 4 advcl _ _3 늘 늘 ADV MAG _ 4 advmod _ _4 대하는 대하 는 VERB VV+ETM _ 5 acl _ _5 천을 천 을 NOUN NNG+JKO _ 9 obj _ _6 실내용품을 실내 용품 을 NOUN NNG+NNG+JKO _ 7 obj _ _7 위해 위하 아 VERB VV+EC _ 9 advcl _ _8 다시 다시 ADV MAG _ 9 advmod _ _9 디자인하는 디자인 하 는 VERB NNG+XSV+ETM _ 10 acl _ _10 것은 것 은 NOUN NNB+JX _ 16 nsubj _ _11 ' ' PUNCT SS _ 16 punct _ SpaceAfter=No12 상상력을 상상력 을 NOUN NNG+JKO _ 14 obj _ _13 마음껏 마음껏 ADV MAG _ 14 advmod _ _14 펼치는 펼치 는 VERB VV+ETM _ 16 acl _ _15 즐거운 즐겁 ㄴ ADJ VA+ETM _ 16 acl _ _16 놀이 놀이 NOUN NNG _ 19 ccomp _ SpaceAfter=No17 ' ' PUNCT SS _ 16 punct _ SpaceAfter=No18 라고 라고 ADP JKQ _ 16 case _ _19 말하는 말 하 는 VERB NNG+XSV+ETM _ 20 acl _ _20 그는 그 는 PRON NP+JX _ 29 nsubj _ _21 다른 다른 ADJ MM _ 22 amod _ _22 디자이너들처럼 디자이너 들 처럼 NOUN NNG+XSN+JKB _ 29 obl _ _23 찻잔, 찻잔 , NOUN NNG+SP _ 24 conj _ _24 접시등 접시 등 NOUN NNG+NNB _ 25 nmod _ _25 식기 식기 NOUN NNG _ 26 nmod _ _26 디자인까지 디자인 까지 NOUN NNG+JX _ 29 obl _ _27 활동 활동 NOUN NNG _ 28 nmod _ _28 폭을 폭 을 NOUN NNG+JKO _ 29 obj _ _29 넓혀갈 넓히 어 가 ㄹ VERB VV+EC+VX+ETM _ 30 acl _ _30 계획이다. 계획 이 다 . ADJ NNG+VCP+EF+SF _ 0 root _ _ 30 노드

• 구문 분석기 출력: CoNLL-U

Page 23: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

옷을 만드느라 늘 대하는 천을 실내용품을 위해 다시 디자인하는 것은 '상상력을마음껏 펼치는 즐거운 놀이'라고 말하는 그는 다른 디자이너들처럼 찻잔, 접시등식기 디자인까지 활동 폭을 넓혀갈 계획이다.

폭을

계획이다

넓혀갈

obj

식기

접시등

찻잔

디자인까지디자이너들처럼

다른

만드느라

옷을

nsubj

말하는

그는

놀이

디자인하는

다시위해천을

대하는

obj

것은

실내용품을

즐거운펼치는

마음껏상상력을obj

‘ ‘ 라고

활동

obj

obj

의존 트리

한국어 의존 구문 분석 트리 뷰어• 의존 구문 트리 뷰어

• 문장의 의미를 쉽게 파악할 수 있는 트리 뷰어

• 트리 노드 병합 트리 노드 개수를 줄인다• 불필요한 의존관계 병합

• 트리 depth에 따른 단계별 출력• 문장의 상위 의미부터 파악 용이

• 필수격 강조 색깔• 문장의 핵심 의미 파악 용이

10

Page 24: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

7 2 1 2 옷을_만드느라 4:advcl _:_5 3 3 늘 4:advmod _:_4 4 4 대하는 5:acl _:_6 5 5 천을 9:obj _:_

6 6 6 7 실내용품을_위해 9:advcl _:위해6 8 8 다시 9:advmod _:_5 9 9 10 디자인하는_것은 16:nsubj _:것은6 12 12 상상력을 14:obj _:_6 13 13 마음껏 14:advmod _:_5 14 14 펼치는 16:acl _:_5 15 15 즐거운 16:acl _:_4 16 11 16 17 18 '_놀이_'_라고 19:ccomp QUOT:라고3 19 19 말하는 20:acl _:_2 20 20 그는 30:nsubj _:_

3 22 21 22 다른_디자이너들처럼 29:obl _:_3 26 23 24 25 26 찻잔,_접시등_식기_디자인까지 29:obl _:_3 28 27 28 활동_폭을 29:obj COMPOUND:_2 29 29 넓혀갈 30:acl _:_1 30 30 계획이다. 0:root _:_

• 트리 노드 병합

• CHUNKING 수행

• 모호성이 없는 Linear 구조 병합

30 노드 19 노드

옷을 만드느라 늘 대하는 천을 실내용품을 위해 다시 디자인하는 것은 '상상력을 마음껏 펼치는 즐거운 놀이'라고 말하는 그는 다른디자이너들처럼 찻잔, 접시등 식기 디자인까지 활동 폭을 넓혀갈 계획이다.

30 계획이다

28 활동 폭을26 찻잔, 접시등 식기 디자인까지22 다른 디자이너들처럼

29 넓혀갈

objnsubj

19 말하는 …

20 그는

1 ‘놀이’라고

15 즐거운14 펼치는9 디자인하는 것은

13 마음껏12 상상력을8 다시6 실내용품을 위해5 천을

2 옷을_만드느라

obj obj

16 ‘상상력을 … 놀이’라고 …

4 대하는

3 늘

• 트리 depth에 따른 단계별 출력- 문장의 상위 의미부터 파악 용이

• 필수격 강조 색깔- 문장의 핵심 의미 파악 용이

Page 25: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

옷을 만드느라 늘 대하는 천을 실내용품을 위해 다시 디자인하는 것은 '상상력을 마음껏 펼치는 즐거운 놀이'라고 말하는 그는 다른디자이너들처럼 찻잔, 접시등 식기 디자인까지 활동 폭을 넓혀갈 계획이다.

30 계획이다

28 활동 폭을26 찻잔, 접시등 식기 디자인까지22 다른 디자이너들처럼

29 넓혀갈

objnsubj

19 말하는 …

20 그는

1 ‘놀이’라고

15 즐거운14 펼치는9 디자인하는 것은

13 마음껏12 상상력을8 다시6 실내용품을 위해5 천을

2 옷을_만드느라

obj obj

16 ‘상상력을 … 놀이’라고 …

4 대하는

3 늘

• 트리 depth에 따른 단계별 출력- 문장의 상위 의미부터 파악 용이

• 필수격 강조 색깔- 문장의 핵심 의미 파악 용이

45 293 1 1 요즘 5:obl _:_3 3 2 3 우리_대중문화계에서 5:obl _:_3 4 4 흔히 5:advmod _:_2 5 5 6 7 볼_수_있는 9:acl PRED_AUX:_1 9 8 9 워홀의_반복은, 43:nsubj COMPOUND:_6 10 10 전혀 12:advmod _:_5 11 11 독창성을 12:obj _:_5 12 12 13 의식하지_않은 15:acl PRED_AUX:_4 15 14 15 워홀의_독창성을 17:obj COMPOUND:_5 16 16 단순히 17:advmod _:_4 17 17 18 베끼고_있다는 19:acl PRED_AUX:_3 19 19 점에서 20:obl _:_2 20 20 관습적이며 43:advcl _:_6 21 21 비록 28:advmod _:_6 23 22 23 이_시대가 26:nsubj _:_7 25 24 25 워홀의_60년대와 26:obl _:_6 26 26 흡사한 27:acl _:_5 27 27 점이 28:nsubj _:_5 28 28 많다고는 29:ccomp _:_4 29 29 해도 38:advcl _:_6 30 30 이미 33:advmod _:_6 31 31 32 워홀을_통해 33:advcl _:통해5 33 33 걸러진 35:acl _:_4 35 34 35 예술적_찌꺼기로 38:obl COMPOUND:_3 37 36 37 우리_시대를 38:obj _:_3 38 38 39 재구성하고_있다는 40:acl PRED_AUX:_2 40 40 점에서 43:obl _:_1 42 41 42 가짜라는_혐의를 43:obj _:_1 43 43 44 45 벗어날_수_없다. 0:root PRED_AUX:_

45 노드 29 노드

요즘 우리 대중문화계에서 흔히 볼 수 있는 워홀의 반복은, 전혀 독창성을 의식하지 않은 워홀의 독창성을 단순히 베끼고 있다는 점에서 관습적이며비록 이 시대가 워홀의 60년대와 흡사한 점이 많다고는 해도 이미 워홀을 통해 걸러진 예술적 찌꺼기로 우리 시대를 재구성하고 있다는 점에서 가짜라는 혐의를 벗어날 수 없다.

Page 26: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

43 벗어날 수 없다

9 워홀의 반복은, 20 관습적이며 42 가짜라는 혐의를

nsubj obj

obj3 가짜라는5 볼 수 있는

3 우리 대중문화계에서 4 흔히

5 우리

1 요즘

40 점에서

38 재구성하고 있다는

37 우리 시대를

5 우리

35 예술적 찌거기로 …

33 걸러진

31 워홀을 통해30 이미

29 해도 …

28 많다고는

27 점이

26 흡사한

25 워홀의 60년대와

9 워홀의

21 비록

23 이 시대가

19 점에서

17 베끼고 있다는 …

16 단순히15 워홀의 독창성을

12 의식하지 않은

10 전혀 11 독창성을

obj

obj

nsubj

nsubj

요즘 우리 대중문화계에서 흔히 볼 수 있는 워홀의 반복은, 전혀 독창성을 의식하지 않은 워홀의 독창성을 단순히 베끼고 있다는 점에서 관습적이며비록 이 시대가 워홀의 60년대와 흡사한 점이 많다고는 해도 이미 워홀을 통해 걸러진 예술적 찌꺼기로 우리 시대를 재구성하고 있다는 점에서 가짜라는 혐의를 벗어날 수 없다.

43 벗어날 수 없다

9 워홀의 반복은, 20 관습적이며 42 가짜라는 혐의를

nsubj obj

obj3 가짜라는5 볼 수 있는

3 우리 대중문화계에서 4 흔히

5 우리

1 요즘

40 점에서

38 재구성하고 있다는

37 우리 시대를

5 우리

35 예술적 찌거기로 …

33 걸러진

31 워홀을 통해30 이미

29 해도 …

28 많다고는

27 점이

26 흡사한

25 워홀의 60년대와

9 워홀의

21 비록

23 이 시대가

19 점에서

17 베끼고 있다는 …

16 단순히15 워홀의 독창성을

12 의식하지 않은

10 전혀 11 독창성을

obj

obj

nsubj

nsubj

요즘 우리 대중문화계에서 흔히 볼 수 있는 워홀의 반복은, 전혀 독창성을 의식하지 않은 워홀의 독창성을 단순히 베끼고 있다는 점에서 관습적이며비록 이 시대가 워홀의 60년대와 흡사한 점이 많다고는 해도 이미 워홀을 통해 걸러진 예술적 찌꺼기로 우리 시대를 재구성하고 있다는 점에서 가짜라는 혐의를 벗어날 수 없다.

Page 27: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

결과물 – 공개 소스• 충남대 공개 open 소스

1. S2D(SejongTree To Dependency):• https://github.com/cnunlplab/SejongTree2Dependency: • 세종 구문 분석 말뭉치에서 의존 구문 구조로의 변환 도구

2. 한국어 의존 구문 분석기• https://github.com/yseokchoi/KoreanDependencyParserusingStackPointer: • Stack-Pointer Network를 이용한 한국어 의존 구문 구조 학습 및 분석 도구

3. 한국어 구문 분석기• 2월말 예정 (github)• 형태소분석 + 구문분석• 입력 파일(Raw text) 출력 파일(CoNLL-U 형식 text)

• 한국어 구문분석기 Web Page Open• 트리 뷰어 포함• 3월말 오픈

17

결과물 – 논문• 학술대회

1. 최용석, 이공주, "한국어 구절 구문 코퍼스의 의존 구문 구조 트리로의 변환에서 중심어 전파 규칙", 제 30회 한글 및 한국어 정보처리 학술대회, p.514-519, 2018.

2. 최용석, 이공주, "스택-포인터 네트워크와 어절 정보를 이용한 한국어 의존 구문 파서", 제30회 한글 및 한국어 정보처리 학술대회, p.13-17. 2018.

• 논문지1. 정보과학회논문지 심사 중 1편

18

Page 28: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

2019 2

울산대학교

유태거 다의어 정확률 향상

1

다의어 태깅 전단계 – 동형이의어 태깅

자동 태깅 정확률이 100%는 아니지만, 그렇다고 가정한다.

공식 정확률 96.5%학습된 내용에서 정확률 약 99%

입력 : 없다고할수있다.

없__01/VA+다고/EC 하__01/VV+ㄹ/ETM 수__02/NNB 있__01/VA+다/EF+./SF

2

Page 29: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

문제 정의

문제의 단순화 : 의미번호에 숫자 4개를 추가하는 것

없__01/VA+다고/EC 하__01/VV+ㄹ/ETM 수__02/NNB 있__01/VA+다/EF+./SF

없__010102/VA+다고/EC 하__010101/VV+ㄹ/ETM 수__020100/NNB 있__010305/VA+다/EF+./SF

※ NNB는현재다의어분석대상이아님(예: 수__020100/NNB )

3

전처리

어절 경계와, 형태소 경계의 통합

“형태소의 나열"로 변화

없__01/VA+다고/EC 하__01/VV+ㄹ/ETM 수__02/NNB 있__01/VA+다/EF+./SF

없__01/VA 다고/EC 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA 다/EF ./SF

4

Page 30: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

말뭉치 학습형 : 문맥과 윈도우 사이즈

현재 형태소의 인접한 형태소가 ‘문맥‘멀리 떨어질 수록 윈도우 사이즈가 증가자기 자신 = 윈도우1최대 윈도우는 4

형태소 없__01/VA 다고/EC 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA 다/EF

윈도우 3 2 1 2 3 4 5

기준

5

윈도우1

문맥을 고려하지 않는 단순 확률 정보

하__01/VV > 하__010101/VV 가 될 확률은? 하__01/VV가 100번 나타날 때 하__010101/VV가 그 중에 몇개인지

확인하는 식

단순하지만 가장 중요한 정보 중 하나

6

형태소 없__01/VA 다고/EC 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA 다/EF

윈도우 3 2 1 2 3 4 5

기준

Page 31: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

윈도우2~4

문맥을 고려하는 것

예: 윈도우3, 하__010101 하__01/VV ㄹ/ETM 수__02/NNG 가 나타났을 때 하__010101이 될

확률

7

형태소 없__01/VA 다고/EC 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA 다/EF

윈도우 3 2 1 2 3 4 5

기준

한 형태소에 들어가는 자질들

하__010101/VV 가 될 확률에 대한 자질들 윈도우1 : 하__01/VV > 하__010101/VV 가 될 확률 윈도우2 :

o 좌 : 다고/EC 하__01/VV > ... 하__010101/VVo 우 : 하__01/VV ㄹ/ETM > 하__010101/VV ...

윈도우3 :o 좌 : 없__01/VA 다고/EC 하__01/VV > ... 하__010101/VVo 우 : 하__01/VV ㄹ/ETM 수__02/NNB > 하__010101/VV ...

윈도우4 :o 좌 : 없음o 우 : 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA > 하__010101/VV ...

없__01/VA 다고/EC 하__01/VV ㄹ/ETM 수__02/NNB 있__01/VA 다/EF

3 2 1 2 3 4 5

기준

8

Page 32: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

자질값 계산식

합성곱을 사용한다.

h: 동형이의어

poly: 다의어

f: 자질(n)의 함수(또는 값)

w: 자질(n)의 가중치

9

어휘의미망 UWordMap 사용

상술한 말뭉치 이용법의 문제 학습한 패턴(문장)에서만 효과적

예) “길을 걷는다.” 를 학습한 정보로 “오솔길을 걷는다.”를 처리할수는 없다.

UWordMap을 응용하여 미학습패턴도 일부 처리 길-을-걷다 하위범주화 정보와

길의 하위어(오솔길)를 조합하여 처리 가능

10

Page 33: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

UWordMap 소개11

UWordMap을 이용한 다의어 태깅

예문 : “일이 곤란하게 되었다.”

N : 다의어 후보 중 하나. (예문에서는 일__010007)

R : N또는 그 상위어에서 용언(곤란하)과 관계가 있는 것 (예문에서는 ‘상태’)

일 01 00 07 situation

형편 conditions

상태 conditions

모양 form

Top

N

곤란하가

(논항)

R

u2이길이가길수록추상화가많이되었다는것.후보점수에부정적

u1이길이가길수록정보가구체적이라는것을의미.후보점수에긍정적

12

하위범주화트리플형태상태-가-곤란하

Page 34: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

UWordMap 관련 자질들

자질코드 설명

U1 Depth(R)하위범주화의명사에서Top(최상위어) 까지의거리. 정보의구체화정도를의미한다.

U2 1/(Distance(N, R)+1)하위범주화명사 R에서후보N 까지의거리.추상화의정도를의미한다.

U3 하위범주화(트리플)정보를찾았는지여부. N에대해 R이존재하는지를의미한다.

U4 N의 UWordMap 의미번호가 1인지여부.일반적으로사전에서첫번째로정의된것이정답일확률이높다.

13

이전페이지에서그림으로설명됨

이전페이지에서그림으로설명됨

실험 환경

동형이의어 태깅의 정확률 : 약 99% (어절 단위, 모든 어절 대상) 동형이의어에 한하여 테스트 말뭉치도 학습에 사용하였음

표준국어대사전 용례만 사용 뜻풀이는 실생활 문장과는 멀어서 사용하지 않음 150만 어절

학습용 / 테스트용 학습용 : 60% 테스트용 : 40% 10문장 단위로 나뉘어, 앞6개는 학습, 뒤 4개는 테스트용으로 분할.

UWordMap은 전체를 사용 학습용과 테스트용으로 분할이 어려움

품사 한정 NNG, VV, VA 만을 대상으로 정확률 측정

14

Page 35: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

실험 결과 : 정확률과 재현율

말뭉치학습 UWordMap 정확률 (%)

O X 79.96

X O 66.54

O O (대표정확률) 81.14

O(테스트용포함) O 94.36

윈도우 재현율좌측(%) 재현율우측(%)

1 97.83

2 73.90 83.85

3 31.86 43.46

4 13.36 23.02

품사 정확률 (%) 형태소수

NNG 87.36 186,635

VV 74.45 135,239

VA 73.96 35,382

15

실험 결과 : 기타 정보

말뭉치 학습 파일 크기 : 322MB

UWordMap 파일 크기 : 130MB

속도 : 약 90만 어절에 대해 49초. 초당 1만 2천 어절

i7-4720 cpu (4세대 i7)

16

Page 36: 기초분석도구및 서비스개발203.246.112.72/workshop_20190219/kmu_ws2.pdf2019/02/19  · 기초분석도구및서비스개발 한국어정보처리원천기술연구개발사업

결론 및 향후 연구

말뭉치와 UWordMap의 동시 사용윈도우 사이즈 최대 4를 이용 81%의 정확률 달성초당 1만 어절 이상의 준수한 속도 450MB의 학습 사전 크기

향후 연구 자질 가중치 최적화 워드임베딩을 응용한 기술 적용 UWordMap에서 부사, 유의어 등 미사용 자원 연구 말뭉치 학습 기법에서 조사, 어미 등은 윈도우 안에서 제외하는 기법 연구 을-를, 이-가 같은 이형태는 하나로 추상화(통일)하여 학습하여 재현율을 향상시키는 방

법 등, 이와 유사한 각종 튜닝 사용자 말뭉치에서 구현

17