Upload
newsjelly
View
339
Download
2
Embed Size (px)
DESCRIPTION
Doing Journalism with Data 강좌의 모듈3 리뷰세미나 슬라이드 파일
Citation preview
MODULE 3 REVIEW
FINDING STORY IDEA WITH DATA ANALYSIS
뉴스젤리 김재옥
목차
1. 개념 소개2. 분석 툴3. 데이터 분석 사례
스토리를 위해 데이터 속에서 찾아야 할 것 .
•패턴 (PATTERN)
스토리를 위해 데이터 속에서 찾아야 할 것 .
•아웃라이어 (OUTLIER)
1. 개념 소개
•증감률
•비율
•평균 VS 중앙값
•최빈값
1. 개념 소개
= (New – Old) / Old
= 인구 x 명 당 (per)
= Average vs. Median
= 가장 빈번히 나타난 값
캐나다환율13.6.13 1CAD : 1,112.15 원14.6.13 1CAD : 938.82 원인구수가 다른 두 도시 비교
LA 다저스 연봉평균값 : $778 만중앙값 : $430 만 *Ryu $350 만
-15.6% ↓
•최고값 / 최저값
•사분위수
•표준편차
1. 개념 소개
= 내림차순 / 오름차순
= 25% / 50% / 75% / 100%
= to find outliers
•상관관계
•회귀분석
1. 개념 소개
= 인과관계 분석
= A 와 B 가 상관관계에 있으면 A 와 B 가 인과관계에 있다 ?
상관관계 ( 아이스크림 : 강력범죄 )
2. 분석 툴
• 엑셀
2. 분석 툴
• 오픈 리파인 http://openrefine.org/
• R 통계프로그램http://www.r-project.org/
• 하둡
• 엑셀
• Freeze( 틀고정 )• Sort & Filter ( 정렬 & 필터 )• 계산식• 함수• 피벗테이블
2. 분석 툴
• 오픈리파인 (Openrefine)
• 데이터 정제 툴• Facet 기능
2. 분석 툴
• R
• 오픈소스 통계 패키지• 성능• 그래픽 가능• R 언어
2. 분석 툴
• 하둡
• 오픈소스• 빅데이터 처리• 분산시스템
2. 분석 툴
3. 데이터 분석 사례
3. 데이터 분석 사례
• 비만도
• Freeze / 정렬 기능• 최고 / 최저값• 증감률• 비율활용 (per 값 )• 평균 , 중앙값• 상관관계
• 월드컵 H 조 득실점
• 최빈값• 피벗 테이블
• Discussion Points (Module 3)
Main Points• 주제 선정 후 , 스토리 설정이 먼저 ?
데이터 분석이 먼저 ?
• 수집한 데이터를 어떻게 분석할지 생각해봅시다 .
(optional)• 데이터 분석의 깊이는 어느 정도까지 되어야 할까요 ?
( 보도 수준 / 보고서 수준 / 논문 수준 )
THANK YOU