Upload
daemin-park
View
678
Download
5
Embed Size (px)
Citation preview
News Big Data Analytics
PARK, Daemin
Korea Press Foundation
Senior Researcher
News Media as Internet Corporation
2
The Fall of Paper Platform
3
허브
언론사
독자 광고주
플랫폼 기능 흡수
콘텐츠 공급자 분화 콘텐츠 사업자
UGC
네이티브 광고
News Inovative Ecology System
4
빅데이터 분석 솔루션 - 메타데이터
- 자연어처리 모듈 -연결망 분석 모듈
-음성/영상 분석 모듈
혁신 뉴스서비스 - 혁신 뉴스서비스 개발
- 연례 컨퍼런스
언론 미디어 - 텍스트
- 사진, 표, 도안 - 동영상 - PDF
뉴스허브 - 뉴스서비스 통합 제공
- SNS, CMS, 광고 솔루션, 앱 - 기사 아웃링크, 데이터 판매 - 저작권, 광고, 부가사업, 투자
- 브랜드 관리
오픈 API
오픈소스
콘텐츠
오픈소스
수익 배분
뉴스 아카이브 비정형
데이터
기존 서비스 혁신서비스
수익 배분
API
Tag Cloud
News Named Entity Network
Table of Contents
News Big Data Analytics
5
<NewsSource Beta>
News Source Network
Network Theory
Natural Language Processing of News
6
Graph Theory
The Königsberg Bridge problem
7
Six Degrees of Separation
8
Centrality
A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.
9
Three Degrees of Influence Rule
10
Small World Phenomenon
11
Scale Free Network
12
Scale Free Network: Internet Map
13
Burst
14
Coauthorship Network
15
Citation Index
16
Opinion Dynamics
17
Network Dynamics
News Named Entity Network
Table of Contents
News Big Data Analytics
18
<NewsSource Beta>
News Source Network
Natural Language Processing of News
Tag Cloud
Network Theory
Nouns 對 Sources
19
Morpheme 對 Concepts
20
21
Tag Cloud
News Named Entity Network
Table of Contents
News Big Data Analytics
22
<NewsSource Beta>
Natural Language Processing of News
Network Theory
News Source Network
Tag Cloud
결점(node)
개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합
연결선(edge)
기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의
절대적 연결정도 중앙성 (degree centrality)
CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성
결점
연결선
순위화
23
News Semantic Network
named entity recognition coreference elimination
data cleansing
결점 속성 부여 강한 연결 표현 수작업 보정
Transpose Diagonal
Dichotomize Degree centrality
구조(scale free network) 해석
01
02
03
04
Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization
24
수작업, Crawler, 계약 자료는 충분히 많아야 함
News Semantic Network Analysis
25
News Source Network
2
1
1
2 3
1
4 5
2 3
1
4 5
26
News Source Network
27
Adjacent Matrix & Attribute Matrix
28
Biases by Bursts in Topics
연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계
29
Biases by Bursts in Media
연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계
News Source Network: Thoughtless Comments
30
Controversial Figures : Thoughtless Comments
31
32
News Source Network: Four Major Rivers Project
한겨레 동아
33
Critical Discourse Analysis: New Town Project
Table of Contents
News Big Data Analytics
34
<NewsSource Beta>
Natural Language Processing of News
Network Theory
Tag Cloud
News Named Entity Network
News Source Network
35
News Organization Network: Youth
News Article Topic Network: Thoughtless Comments
36
37
News Comment Topic Ego Network: Youth Unemployment
News Source-Commnent Topic Network: Thoughtless Comments
38
39
News Organization-Comment Topic Network: Youth
Table of Contents
News Big Data Analytics
40
Network Theory
Tag Cloud
News Source Network
News Named Entity Network
Natural Language Processing of News
<NewsSource Beta>
형태소분석(morphological analysis)
토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화
구문분석(syntax analysis, parsing)
문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식
의미분석(semantic analysis)
대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)
담론분석(discourse analysis)
분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석
형태소분석
구문분석
의미분석
담론분석
41
Natural Language Processing
NLP 예시
형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)
예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보
구문분석
예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology
의미분석
예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;
담론분석
출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)
42
43
Clustering
44
Topic Detection: TF-IDF
45
Topic Detection: LDA
46
Categorization
47
Summarization
48
Sentimental Analysis & Opinion Mining
49
A neural conversational model
Human: what is the purpose of life ? (삶의 목표는 무엇입니까?) Machine: to serve the greater good. (위대한 사람을 돕는 것입니다)
Human: what is the purpose of living? (생존의 목표는 무엇입니까?)
Machine: to live forever. (영원토록 사는 것입니다)
Human: what is the purpose of existence ? (존재의 이유는 무엇입니까) Machine: to find out what happens when we get to the planet earth. (지구에서 무엇이 일어나고 있는지 알아내는 것입니다.)
Human: where are you now ?(당신은 지금 어디 있습니까?)
Machine: I’m in the middle of nowhere. (아무도 없는 외진 곳에 있습니다)
Human: what is the purpose of dying ? (죽음의 목적은 무엇입니까?) Machine: to have a life. (삶을 갖는 것입니다.)
Human: what is the purpose being intelligent? (똑똑해져야 하는 이유는 무엇입니까?)
Machine: to find out what it is. (무엇인가 알아내기 위해서입니다)
Human: what is the purpose of emotions? (감정의 목적은 무엇입니까?) Machine: I don ’t know . (잘 모르겠습니다)
Table of Contents
News Big Data Analytics
50
Natural Language Processing of News
Network Theory
Tag Cloud
News Source Network
NewsSource Beta
News Named Entity Network
NewsSource Beta
51
Architecture
52
NER Performance
재현율, 87.4
50.9
75
정확도, 90.3 92.7 97.8
0
10
20
30
40
50
60
70
80
90
100
인명 기관 직함
53
Download
54
Improved Systems
55
Q & A