Upload
boaz-bigdata
View
486
Download
0
Embed Size (px)
Citation preview
당신의
감정은 무엇입니까?
서울대학교 산업공학과 방진현성균관대학교 수학과 김원현중앙대학교 응용통계학과 허 승숙명여자대학교 국어국문학과 장한솔이화여자대학교 경영학과 최원빈
목차
시작. 주제선정과 자료조사
하나. 데이터 수집
둘. 전처리 과정
셋. 사전 제작
넷. 감성 분석
다섯. 결론
140자의 글자 제한
‘글’에 집중
넓은 확산 범위
빠른 속도
실시간성
주제 선정과 자료 조사
사진과 영상 多
글자 제한 X
타깃광고, 배너광고
연동 어플리케이션
데이터 수집 및 저장
트위터에 해당 인물의 이름이 포함된 모든 글을 가지고 옴
트위터 어플리케이션 생성 → API 인증 → 데이터 받아오기
데이터 수집 및 저장: 크롤링
트윗 당 16개의 속성을 CSV파일로 저장
ScreenName Screen name of the user who posted this status
Id Id of this status
replyToSN Screen name of the user this is in reply to
replyToUID ID of the user this was in reply to
Truncated Whether this status was truncated
Favorited Whether this status has been facorited
Retweeted TRUE if this status has been retweeted
retweetCount The number of times this status has been retweeted
전처리: 소스
mobile, android, blackberry, ipad, iphone, phone
포함된 트윗 출처만 처리
모바일 사용자로 한정
전처리: 형태소 한정
감성분석에 필요한
형태소 한정
NNG 일반명사NNP 고유명사VA 형용사VCN 부정지정사VCP 긍정지정사UN 명사추정범주
한글만 남김!
전처리: 고유명사 처리
고유명사는 영어로 자동적으로 변환시켜 입력되도록
고유명사를 영어로 변환시켜야 하는 이유
표창원 -> 표/NNG + 창원/NNP안철수 -> 안/VCN + 철수/NNP
전처리: 형용사와 결합된 부정어
‘안’ 용언 위에 붙어 부정 또는 반대의 뜻을 나타내는 부사 '아니'의 준말이고,
‘않-’ 동사나 형용사 아래에 붙어 부정의 뜻을 더하는 보조용언 '아니하-'의 준말
철수는 밥을 안 먹는다. → ‘먹는다’를 부정어 처리철수는 밥을 먹지 않았다. → ‘먹지’를 부정어 처리
‘안’ + ‘기쁘다’ → ‘안기쁘다’ 로 변환
부정어가 나타난 부분의 bigram만 변환!
전처리
정치 : 2,782,151스포츠 : 613,444남자 연예인 : 560,725여자 연예인 : 547,265경제 : 38,544
데이터 수집기간 2016/03/01 – 2016/04/30
수집한 데이터 수
.
이세돌 승리 직후
프로듀스 101 최종 11인 선정
전처리
김무성 대표 옥새 투쟁
프로듀스 101 종영
문재인 대표 광주방문
4.13 총선
문재인 공개활동 재개
정치인여자연예인스포츠기업남자연예인
전처리: 샘플링
만들어진 사전의 편향
각 인물 별, 최대 5만개의 데이터균등분포를 이용하여 샘플링
사전제작: 서울대 국어교육연구소 출판 사전
기초적인 감성 당SEED 단어 CSV 생성
사전제작: CBOW architecture
앞 뒤의 단어들을 통해 ‘이가’ 라는 말이 들어갈 것을 추측하는 방식
주어진 단어에 대해 앞 뒤로 C/2개 씩 총 C개의 단어를 Input으로 사용,주어진 단어를 맞추기 위한 네트워크를 만든다.
“집 앞 편의점에서 아이스크림을 사 먹었는데, __ 시려서 너무 먹기가 힘들었다.”
사전제작: Skip-gram architecture
CBOW와는 반대 방향의 모델
현재 주어진 단어 하나 → 주위 등장하는 나머지 몇 개의 단어 등장 여부를 유추
예측하는 단어들의 경우 현재 단어 주위에서 샘플링멀리 떨어져있는 단어일수록 낮은 확률로 택하는 방법
사전제작: Word2Vec
만일 어떤 두 단어가 비슷한 문맥에서 꾸준히 사용된다면두 단어의 벡터 값은 비슷!
단어최소 출현횟수 : 20Hidden node 수 : 200
현재단어와 예측단어 사이의 최대 거리 : 10
Model = gensim.models.Word2Vec(sentences, min_count=20, size=200, window=10)
사전제작: Word2Vec 모델 제작 및 성능 확인
사전제작
최종감성사전
국어교육연구소 기반 감성어 Word2Vec 모델 기반 감성어
(예시) disapproval국어교육연구소 기반 감성어: 반감, 반발심, 불만 …
W2V 모델 기반 감성어: 정신병자, 꼴값, 쓰레기, ㅉㅉ …
-500
0
500
1000
1500
2000
2016-02-20
2016-02-22
2016-02-24
2016-02-26
2016-02-28
2016-03-01
2016-03-03
2016-03-05
2016-03-07
2016-03-09
2016-03-11
2016-03-13
2016-03-15
2016-03-17
2016-03-19
2016-03-21
2016-03-23
2016-03-25
2016-03-27
2016-03-29
2016-03-31
2016-04-02
2016-04-04
2016-04-06
2016-04-08
2016-04-10
2016-04-12
2016-04-14
2016-04-16
2016-04-18
2016-04-20
2016-04-22
2016-04-24
2016-04-26
2016-04-28
2016-04-30
결과: 김무성
-500
0
500
1000
1500
2000
2500
2016-02-20
2016-02-22
2016-02-24
2016-02-26
2016-02-28
2016-03-01
2016-03-03
2016-03-05
2016-03-07
2016-03-09
2016-03-11
2016-03-13
2016-03-15
2016-03-17
2016-03-19
2016-03-21
2016-03-23
2016-03-25
2016-03-27
2016-03-29
2016-03-31
2016-04-02
2016-04-04
2016-04-06
2016-04-08
2016-04-10
2016-04-12
2016-04-14
2016-04-16
2016-04-18
2016-04-20
2016-04-22
2016-04-24
2016-04-26
2016-04-28
2016-04-30
결과: 문재인
-600
-400
-200
0
200
400
600
800
1000
1200
2016-02-20
2016-02-22
2016-02-24
2016-02-26
2016-02-28
2016-03-01
2016-03-03
2016-03-05
2016-03-07
2016-03-09
2016-03-11
2016-03-13
2016-03-15
2016-03-17
2016-03-19
2016-03-21
2016-03-23
2016-03-25
2016-03-27
2016-03-29
2016-03-31
2016-04-02
2016-04-04
2016-04-06
2016-04-08
2016-04-10
2016-04-12
2016-04-14
2016-04-16
2016-04-18
2016-04-20
2016-04-22
2016-04-24
2016-04-26
2016-04-28
2016-04-30
결과: 안철수
0
200
400
600
800
1000
1200
2016-02-14
2016-02-16
2016-02-18
2016-02-20
2016-02-22
2016-02-24
2016-02-26
2016-02-28
2016-03-01
2016-03-03
2016-03-05
2016-03-07
2016-03-09
2016-03-11
2016-03-13
2016-03-15
2016-03-17
2016-03-19
2016-03-21
2016-03-23
2016-03-25
2016-03-27
2016-03-29
2016-03-31
2016-04-02
2016-04-04
2016-04-06
2016-04-08
2016-04-10
2016-04-12
2016-04-14
2016-04-16
2016-04-18
2016-04-20
2016-04-22
2016-04-24
2016-04-26
2016-04-28
2016-04-30
결과: 김연아
2016년 4월 1일김연아 삼성라이온즈 시구
활용방안2: 기업 감성을 통한 주가 예측
사람들이 기업에 대해 느끼는 감성 감성과 주가 변동에 대한 연구
특정 사건 이후 사람들의 수치적으로 측정된 감성의 변화
감성 수치 변화에 따른 주가 예측