Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
저 시-비 리-동 조건 경허락 2.0 한민
는 아래 조건 르는 경 에 한하여 게
l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.
l 차적 저 물 성할 수 습니다.
다 과 같 조건 라야 합니다:
l 하는, 저 물 나 포 경 , 저 물에 적 허락조건 확하게 나타내어야 합니다.
l 저 터 허가를 러한 조건들 적 지 않습니다.
저 에 른 리는 내 에 하여 향 지 않습니다.
것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.
Disclaimer
저 시. 하는 원저 를 시하여야 합니다.
비 리. 하는 저 물 리 적 할 수 없습니다.
동 조건 경허락. 하가 저 물 개 , 형 또는 가공했 경에는, 저 물과 동 한 허락조건하에서만 포할 수 습니다.
공 사
Social Network Service Data 주
연 Platform 계
2012 8월
울 원
지 보 과
태
Social Network Service Data 주
연 Platform 계
지도 수
공 사
2012 8월
울 원
지 보 과
태
태 사
2012 7월
- i -
SNS(Social Network Service) ‘Web 2.0’ 시 Mobile
달 었다. SNS 수억 에 달 는 사 들 실시간 만들어 내
는 계에 주 여, 근 지 다수 연 가 진 어 다.
는 비스 공 가 공개 API(Application Programming Interface) 통 근
수 , 연 에 는 에 그 (Crawler)
통 수집 다.
SNS에 연 는 본 특 가지고 다. 지만 연
에는 규 연 가 연 진 , 당 원 가능 에
수집과 진 다. 연 단계에 수 업 처리
진 는 경우가 많 , 질 량 수집 수 없게 다. 는 연
과 에 시 착 재 업 타 다.
본 연 에 는 러 결 여, 사 고 주
연 도 수 는 SNS 료 수집- Platform 계, 다.
에 수 었 연 들에 어 사 고 수집 어 는
지 다. 다 SNS에 공 는 API 동 과 식 고
링 , SNS 상 는 주 연 수 생 수
는 과 극복 살펴보 다.
단계 내 여러 비스에 가능 가진 수
집- Platform 었다. 통 SNS 상 연 과 에 복 는 공
통 차 간 수 , 에 시 연 상 도 어느 도 결
- ii -
다. Platform 실 연 Case에 가능 과 여,
도 가 수집 는지 다.
주 어 : 트워크 비스, 그 그 스,
크 러, 랫폼
: 2010-22686
- iii -
차
1 ...................................................................................................................... 1
2 연 ............................................................................................................. 4
1 술 ................................................................................................... 4
2 연 사 .............................................................................................. 6
3 연 ............................................................................................. 15
1 연 ..................................................................................................... 15
2 연 ..................................................................................................... 16
4 능 사 .......................................................................................... 18
1 SNS API .............................................................................................. 18
2 SNS 연 상 ................................................................................ 27
5 Platform 계 .................................................................................................... 32
1 링 .............................................................................................. 32
2 사 스 .............................................................................. 35
3 능 ................................................................................................. 41
6 능 평가 ............................................................................................. 43
1 연 상 결 ................................................................................ 43
2 능 ................................................................................................ 44
7 결 .................................................................................................................... 52
1 .............................................................................................................. 52
2 연 시사 .............................................................................................. 52
3 연 계 언 ................................................................................... 53
Abstract ............................................................................................................................. 60
- iv -
차
1 Twitter 연 에 사 .................................................... 11
2 Twitter 비스 ................................................................................ 12
3 Facebook 개체 ......................................................................................... 20
4 User 개체 보 ..................................................................................... 21
5 Facebook 동 ......................................................................................... 22
6 Twitter 개체 ......................................................................................... 23
7 Tweet 개체 보 .................................................................................. 24
8 Twitter 동 ............................................................................................. 25
9 YouTube 개체 ( ) ........................................................................... 26
10 비 개체 보 ................................................................................ 27
11 YouTube 동 ........................................................................................ 27
12 Task Model Set ......................................................................... 34
13 사 사도 계산 결과 ................................................................................ 49
14 Tweet 색 어 결과 ................................................................................ 51
- v -
그림 차
그림 1 연 에 수집 사 보 Tweet 수 .................................................. 9
그림 2 Export.ly 결과 ............................................................................. 13
그림 3 XML 결과 .................................................................................. 29
그림 4 Platform 도 ............................................................................................. 32
그림 5 어 리 ......................................................................................... 35
그림 6 업 계 .............................................................................................. 36
그림 7 동 가 상 ..................................................................................... 37
그림 8 ................................................................................ 38
그림 9 수집 .............................................................................................. 38
그림 10 동 택 상 ..................................................................................... 39
그림 11 택 ................................................................................ 39
그림 12 료 택 상 .......................................................................... 40
그림 13 Facebook 사 ....................................................................... 46
그림 14 Task ....................................................................................... 47
그림 15 YouTube 동 상 보 Ontology ....................................................... 48
- 1 -
1
‘Web 2.0’ 시 는 찾고- 는 상 는 경
꿔 다 [1]. 달 사 시공간 많
여 주었다. 러 변 수 비스 에는 여러 가지가 겠 ,
그 에 Social Network Service( , SNS)는 가 큰 룬 고
수 겠다. Facebook 경우 계 사 는 2012 재 9억 도
[2], Twitter 경우 5억 수 다 [3]. 는 복 고 도 20억
에 는 계 사 [4] 50%에 달 는 비 SNS 는 것
다.
SNS 는 수많 사 들 동 많 실시간 만들
어 내고 다. 러 는 처리 지 (Raw) 것 , 수량 많 그
체 미 가지 는 들다. 계에 는 량 에 주 여, 여러
통 미 결 내 는 연 계 다.
러 연 가 가능 는, 비스 공 가 공개 API(Application
Programming Interface) 통 보 어 수 도 다.
API 식 가 공개 지 도 웹 탐색 처럼, 사 에
게 보여지는 내 여 수집 수 다. 지만 공 는 API
고 비스 에 맞는 얻어 수 다.
연 는 API 사 여 수집 고, 수집 통계 처
리 통 결 내게 다. 수집 는 과 보통 수집
그 (Crawler 고 는)에 동 수 , 처리 과 에
는 연 개 다.
- 2 -
SNS 상 진 는 연 다수는 상 -사 고
, 주 연 는 -사 경 가지는 경우가 많다. 지만 량
다루 는 API 식에 다 , 그
고 실 므 당 연 그룹 내에 든 사 결 어 다.
그 과 에 능 가진 타 연 업 는 것
수 다.
원 연 는 각 연 가 담당 업 만 진 는 것 니 ,
다는 에 , SNS 상 는 연 는
특 다고 수 다. -사 경 연 는 비스 사
가능 동 과 에 고 어 연 주 수 ,
수집과 담당 연 는 연 주 , 경 엇 지
다.
지만 연 상 간 는 쉽지 , 런 차 는 연 진 도
여러 생시킨다. 실 본 과 동료가 2010 Twitter 비
여러 SNS 연 [5], [6] 수 , 연 주 에 많 사 과 API에
, 수집과 과 에 복 업 경험 다.
다 비스에 수집 도 공통 재 수 었
다. 본 어떻게 SNS 연 과 에 시 착 복 과 수
고민 시 었다.
본 에 는 SNS 상 는 주 연 수
생 수 는 과 극복 살펴보도 다. 에 수 었 연 에
어 사 고 수집 어 는지, 실 비스에 는 어 동
과 사 는지 다. 내 , 연 주 사
- 3 -
는 SNS 수집- 도 계, 다. 도 계 과 에 는 에
SNS 처리 상 슈들 , 사 편
사 스 공 도 다.
- 4 -
2 연
1 술
1. API OpenAPI
API (Application Programming Interface) 그 특 비스 원에
근 는 규 다. 컴퓨 그 에 API는 에
브러리 시스 능에 근 수 것 , 어
개 다. [7]
웹 경에 API 는 어는 특 웹 비스 같 개 사 다.
사 사 에는 HTTP(Hypertext Transfer Protocol) 식 사
시지 주고 , 시지 내 상 XML(Extensible Markup
Language) JSON(JavaScript Object Notification), 식 는 SOAP(Simple
Object Access Protocol) 는 경우가 많다 [8]. 역시 다 변
고 본 미 90 후 에 규 것 다.
새 고 주 만 주 는 ‘Open API’ 고 리는 것 다. ‘Open’
비 없 웹 비스 능과 다 그 는 비스에
수 다는 것 미 다. 러 경 Web 2.0 개 과 께
갔다. Open API 개 상 비스 거 비스에 다
능 가 여 새 운 비스 만들 수 다는 것 다. Google
Maps API Craigslist 동산 보 쳐 지도에 동산 보 보여주도
HousingMaps.com , 에도 수없 많 ‘Mashup’ 비스가
- 5 -
만들어 다 [9]. 술 는 REST(Representational State Transfer) 고 여,
가지 에 여러 가지 태 타낼 수 는 것 특징
는 식 비스 는 경우가 많다 [8].
2. (Web) Crawler
(Web) Crawler는 그 , 에 보 수집 고 처리/
는 그 다. 보통 동 수집 ,
것 검색엔진 수집 웹 는 ‘검색 ’ 다.
경우 링크가 재 여 지에 다 여러 지 가리키
에, 처 ‘crawling’ 시 지 수많 지 검색 상 늘어
다. [10] 러 특 여 트워크 체 수 ,
탐색에 많 시간 므 상 략, 건 주 게
가 다. Crawler 연 는 링크 에 연결
계 트워크 다.
Web Crawler 경우 상 웹 에 특
가 없는 경우가 많 므 , Crawler 에 내 처리 각각 달 진
다. 그러 Web Service Crawler 경우 비스에 식 규
에 식에 맞는 처리 탐색 수 게 다.
3. Social Network Service 특징
Social Network Service(SNS)는 사 들 사 사 계 고 상
수 도 만들어진 비스 미 다. 컴퓨 경에 러 비스
- 6 -
역사는 었 , 그 는 Instant Messenger 게시
(BBS; Bulletin Board Service), 지 다 다.
근에 사 는 미 SNS는 가지 공통 특 가지고 다. 사
는 비스에 가 여 개 생 고 가지 개 보 개
다. 비스에는 여러 컨 릴 수 주 컨 는 비스에
, 사진, 동 상 등 다 다. 사 는 에 에 는 사
상 미 운 사 상 ‘ ’ 계 , 들에
고 리 수 다. 컴퓨 매개 커 니 특 상 상
계에 시공간 시키 , 러 특징 Mobile 술 달에
욱 가 었다.
근 에 드러지고 는 SNS 특징 실시간 과 다. Mobile 랫
폼과 SNS Application, GPS 내 과 같 술 러 특징 가능 게
다. 사 는 신 재 느 는 감 주변 상 , 사건에 업 드
수 다. 런 특징 단 타 는 2009 미 공 허드슨강
시착 사건 , Twitter 식 달 도가 언 사보다 빨 다 [11].
는 비스는 사 가 재 어 는지 타낼 뿐만 니 , 상
맞 마 주변 다 사 상 가능 게 다. 러
‘Check-in’ SNS Foursquare가 다. [12]
2 연 사
늘 생각 수 는 태 SNS가 공 지는 역사가 그리 지
다. 지만 재 비스 SNS 만 도 수십 가지가 , 사
도가 계 슈 만들어내는 Facebook, Twitter 등
- 7 -
비스에 는 많 연 가 루어 다. 여 는 들 Twitter에 루
어진 연 살펴보도 다.
1. Twitter 특징
Twitter 가 큰 특징 주 컨 가 140 다는 것 다.
러 단 시지(SMS) 시스 에 생 었 , 시스
Twitter 컨 고 특 (짧 에 보 포 , 시
) 만들어내 도 다 [13].
사 는 심 는 다 사 ‘follow’ 수 , 게 그 사
가 신 Timeline( 본 컨 보 )에 타 다. 본 다
사 가 follow 경우 그 사 는 ‘follower’ 고 다. Follow following
계는 가 없 , Twitter 만 특징 만든다.
follower 2천7 만에 달 는 Lady Gaga 같 주 는 사 가 는가
, 평균 사 follower 수는 300 짓 다 [14].
사 가 컨 는 Tweet 고 리 , 본 1 누 에게 공개
어 다. Tweet 고 특징 3가지는 다 과 같다.
Mention: 다 사 언 는 능. 에 ‘@user_id’ 같 시
다. 언 사 들 주 시키는 과가 다 [15].
Reply: 원 에 답 는 능. Mention과 연계 어 사 다.
Retweet: 다 사 달 는 능. 에 ‘RT @user_id’ 같
시 는 경우가 많 , 다 식도 다수 재 다 [15]. 원 에 본
1 본 값 에게 공개 , Private 에 비공개 수 다.
- 8 -
견 여 달 수 는 (수동) Retweet 식과, Twitter에 공 는 RT
식 (원 복 ) 가지가 재 다 [16].
에 언 Tweet 3가지 특징 원 Twitter에 공 는 능 니
고 사 들 규 것들 , 차 시스 에 포 었다.
Twitter 특질들 (5억에 가 운 가 ), 주 는 사 (
만 상 Follower 가짐), 실시간 슈에 (Michael Jackson 사망 당시
시간 당 10만여 개 Tweet [17]) 는 것과 같 상 타내고
다.
2. Data 주 연 사 Twitter 연
Twitter 에 , 주 연 도 많 진 었다. 시간 과
Twitter 비스 에 창 후 연 주 는 다 변 다.
에는 Twitter 비스 특징과 본 특 에 연 , 후 수
사 수 는 연 가 주 루었다. 근에는 사
들 는 컨 사 트워크 , 보 에 연
가 수 고 다. 그림 1 보 시간 수 수집 량 는 것
볼 수 다.
SNS 상 심 연 수 들 상당수 재 다. 들
에 연 에 당 는 보 , ‘어 ’ ‘언 ’, ‘얼마 ’
다는 것에 다. 미 재 는 그 사 거 직
경우 그 과 주 특징 고 , 여러
사 다 그 수 능 다 [18]. 지만 수집과 처리 ,
- 9 -
실 마주 수 는 들에 술 상 에, 후 연
진 고 는 다 연 에 쉬움 느 수 다.
그림 1 연 에 수집 사 보 Tweet 수
Twitter 여 수집 만 다룬 없 , 본
과 가 사 Erramilli [19] 다. 에 는 Twitter
사 쓰 ( ) 동 에 미 고, 동 빈도 시간
다. 240만 사 1천2 만 Tweet 수집 , 에 사
Follower/Following 계, 사 숫 ID, , Tweet 내 과 ID, 다.
수집 량 Tweet 공 는 것 어 에, 에 는
통 사 들 쓰 동 시뮬 수 는 시스
개 여 경 볼 수 도 고 다.
Java [20]에 는 7만 6천 사 130만여 Tweet 상 Twitter 사
특징 과 Trend에 트워크 수 다. 수집 상 사
숫 ID, Follower/Following 계, 보, Tweet 내 과 ID, 다.
10,000
100,000
1,000,000
10,000,000
100,000,000
1,000,000,000
10,000,000,000
User Tweets
- 10 -
Krishnamurthy 사 [21]에 는 Twitter 10만 사 상 계
동 수 다. 에 근거가 는 Follower Following,
Tweet 수, 사 숫 ID, 경, Tweet 시간 다.
Huberman [22]에 는 31만여 사 상 실 커 니 어 는
트워크에 수 다. 수집 Follower 수, Following 수,
Tweet 내 , Tweet 다.
Honeycutt [23]에 는 3만 7천여 개 Tweet 상 Twitter
Mention과 능에 다. 근거 개별 Tweet ,
Public Timeline 지 수집 것 다.
Leavitt [24]에 는 12 Twitter 사 그 Following network
상 연 수 다. 량 1천5 만 사 , 13만 Tweet ,
수집 사 Follower , Tweet Timeline과 Reply, Retweet,
Mention 내 다.
boyd [15]에 는 44만여 사 Tweet과 20만여 Retweet 상
Tweet 과 Retweet 동에 다. 수집 상 Public
Timeline Tweet들과 검색 능 수집 Retweet 내 들 다.
Kwak [25] 경우 4200만 사 1억여개 Tweet 상 사
특 과 , 는 Topic에 수 다. 수집 상
Follower/Following Network, Tweet 수, 사 시간 , Retweet 수,
Tweet들 다. 시간 변 는 슈 주 수집
, Spam 검 여 거 다는 특징 다. 수집 량
공개 고 다는 에 가 다.
- 11 -
Cha [26]에 는 5천 4 만 사 20억개 follow 연결 사
다. 근거 follower 수, Retweet에 포 사 ,
Mention에 포 사 , Tweet 내 (키워드) , 당 시 에 Twitter 연
는 가 많 수집, 것 다 [27].
다 는 언 들에 수집, 들 리 것 다.
User Profile Tweet 과 Timeline
Num
. ID
Usern
am
e
Nam
e
Location
Bio
.
Follow
er,
Follow
ing #
Rela
tionship
Reg. D
ate
T
ime Z
one
Tota
l T
weet
#
Language
Tw
eet
내
ID
Sourc
e
Mention
Reply
Retw
eet
Java07 ●
●
●
● ● ●
Balachander08 ●
●
● ●
Huberman09
●
●
●
Honeycutt09
●
Alex09
● ●
●
● ● ●
boyd10
●
●
Kwak10
●
● ●
●
●
Cha10
●
●
●
●
Erramilli11 ●
●
●
● ● ●
1 Twitter 연 에 사
3. Twitter 비스
고 술 에도, 료 수집 는 많다. 그
크게는 신상 마 시 동 사 개 취미 생
것 지 다 다. 런 , Twitter Open API 여 3
- 12 -
비스 공 가 만든 웹 비스가 수 여 재 다 [28]. 는
주 는 비스 사 가 상 고 단 는 곳에
다.
특징 비고
Export.ly Following 사 에 통계 공
Klout (주 별)
Peerindex 주 Topic , 사 랭킹
retweetrank Retweet 빈도 순 API 공
Searchtastic 사 랭킹, Hashtag 검색
Trendistic Issue Topic
TweetEffect Tweet 과 Follower 변동 계 시
Tweetmetrics 사 보 통계
Tweetmix 근 슈 시 내 비스
Tweetrend 사 랭킹, 키워드 내 비스
TweetStats 시간 별 트 보, Reply 통계
twInfluence 사 API 공
Twitaholic 사 랭킹
Twitalyzer
TwitGraph 별 통계, 주 사 단어, 상 Mention
사
Twitter Grader 사 랭킹, 본 보 통계
TwitterCounter 시간 변 에 Follower/Following/Tweet
변
Twitturly Tweet에 많 언 URL 열
2 Twitter 비스
열 비스 Export.ly 경우, 스트 보뿐만 니 그림 2 같
그 통계 보 사 가 직 볼 수 다는 특징 다.
- 13 -
그림 2 Export.ly 결과
여러 Twitter 비스는 다 과 같 공통 특징 가지고 다.
가. 수집 고 처리 지만, 그 식과 엇 지 지
. API에 공 는 본 , 간단 통계 처리 수
것
다. 원 는 data set 수 없고 비스가 사 에 역만 볼
수
고 수집과 처리 비스 경쟁 과 직결 는 만큼, 가 과
같 내역 공개 지 는 는 어느 도 득 수 다. 지만
검 수 없는 도 재 다. 편, Twitter에 시간당 API 수
고 는 만큼, 여러 사 에게 비스 공 는 과 같
본 만 사 거 , 지 체 다
그것 통계 수 게 다. 후 사 경우 타 비스
- 14 -
Twitter에 생 든 Tweet 수집 는 것 거 가능 (시간당 생
는 Tweet 수 사 수 ), 주 사 트워크에 거리가 사
경우 통계에 빠지 쉽다는 단 다.
연 에 가 큰 는 다 과 같 , 본 원 는
택 수 없다는 다. 에 열 수많 비스가 에도
고, 신 연 는 직 API 다룰 수 에 없 , 많 시간
과 게 다.
- 15 -
3 연
1 연
본 연 술 경 사 도 SNS 상 는 연
계, 진 시키는 어 움 없도 는 다. 술 경 사
는 크게 눌 수 는 , SNS 연 에 심 는 사 과 SNS
API에 직 숙 지 그 다. 경우 에 사 지식
고 연 는 것 편 실 수집과 연
검 에 어 움 겪는다. 후 경우 그 술 가지고 SNS가 가
지고 는 특 과 , 청 에 는 숙 지 다.
러 사 들 사 만 는 수집- Platform
, 다 과 같 연 다.
(연 1) SNS 얻 수 는 도 수 는 보는 엇
가
료 수집 거 에 어 가 사 가능 지 는 것
우 므 , 비스 직 얻 수 는 보 , 에 계산 등 차 거쳐
도 수 는 보가 엇 지 다.
(연 2) SNS에 수집 주 엇 처
는가
비스 특 과 료 수집 스 진 상 , 수집 과 에
여러 가 생 수 다. 본 연 에 는 러 미리 살펴보
고, 찾 낸 후 수집/ 도 에 도 다.
- 16 -
(연 3) SNS 상 는 연 에 사 수집/ 도 에는
어 가 포 어 어떻게 계 어 는가
다 에는 지 지 살펴보 연 비스 , 개 책
수집- 도 ( Platform) 계 도 다. 연 에 수 연
연 도 고 술 도 내 는 어 다. 에 고
는 Platform 차 연 - 경 과 가 단계
에 도움 주는 것 , 후 연 에 능 수
도 다. Platform 통 쉬운 수집 고 처리
는 공 도 다.
2 연
연 1 결 각 SNS에 공 는 API 고, 청
수 는 동 과 다. 든 SNS 상 는
어 우므 , 본 에 는 사 가 많 상 가 생 는 개 비스
(Facebook, Twitter, YouTube) 상 다. 다만 Platform에 변경
없 다 SNS 지원 수 도 계 다. 동 과 경우에도
공 고 는 것 많 , 비 연 에 사 수 다고 단 는 것 우
도 다.
연 2 결 는 실 연 에 생 들 원
살펴보고, 결책 시 다. 특 비스 만 근 보다는 SNS
연 에 수 는 찾는다. 료 원(Source), 수집 ,
그 술 , 처리 등에 살펴보도 다.
- 17 -
연 3 는 실 사 가능 그 계, 다. 도
는 독립실 그 태 가진다. 에 듯 수
집과 결과가 복 수 도 택 고 수 도
다. 도 검 수 업 료 수집과 그 료
수집 결과 과 비 고, 실 연 Case에 수 는 과
보도 다.
- 18 -
4 능 사
1 SNS API
에 언 것과 같 , (Facebook, Twitter, YouTube) SNS에
API 도 다. YouTube 경우 통상 개 SNS에 포
보다는 비 공 비스 는 경 강 , 매체 특
사 간 상 타 SNS 사 , 다 SNS 상 (링크
생 는) 경우가 많 포 었다. 든 비스 공 는 API
, 가 그 브러리234 참고 다.
1. Facebook
Facebook에 공 는 개 5에 주 료 태( ‘개체’
) 25 열 고 다. 지만 실 각 개체에 개체가 므
체 개체 수는 늘어 다. 연 에 다고 단 는 개 보( ,
쪽지 등) 개체 것 다 과 같다. (개체에 연결
개체 미 )
2 Facebook: RestFB (http://restfb.com/)
3 Twitter: Twitter4J (http://twitter4j.org/)
4 YouTube: Google Data Java Client Library (http://code.google.com/p/gdata-
java-client/)
5 https://developers.facebook.com/docs/reference/api/, 사 그
- 19 -
개체
Album 사진들 는
CategorizedFacebookTyp
e
(+ , ) , , 고 보가
들어
Checkin 체크 사 가 에
Checkin.Place 체크 에 보
Checkin.Place.Location 체크 보 보
Comment 들
Event 트 트
FacebookType 고 보가 들어
Group 그룹 그룹
Link 링크 링크 게시
Location 과 보
NamedFacebookType (+ ) 가리키 , , 고
보가 들어
Note 트 트
ObjectTag Object 태그 본 언 (사 ,
지)에 태그 보
Page 지 지
PageConnection 지 여러 지에
Photo 사진 사진 게시
Photo.Image 미지 여러 크 사진에
보
Photo.PhotoTag 사진 태그 사진에 지 태그
보
Post 게시 ( 든 ) 게시
Post.Comments 게시 들
Post.Likes 게시 ‘ ’
Post.Place 게시 게시 과 보
Post.Privacy 게시 공 게시 공개 상에
보
Post.Property 게시 가 보 게시 에 가 보
StatusMessage 상태 시지 상태 시지
User 사 사
User.Education 사 보
User.EducationClass 수업 사 가 들 수업에
보
- 20 -
User.Family 가 사 가 에 보
User.Sport 스포 사 스포 보
User.Work 직 사 직 보
Venue 과 보
Video 비 비 게시
3 Facebook 개체
개체는 User, Post 도 사 개체들 에도 가지고 는
보에 다 차 가 므 (Post Checkin, Link, Note, Photo,
StatusMessage, Video) 에 사 게 다.
다 비스에 도 간 연결 계가 어 지만, Facebook 경우에
는 ‘Graph’ API 여 연결 비스에 게 사 고 다. 개체가
고 뿐 니 URL 갖고 어 통 에 근 수 , 비스
에 재 는 도 URL 통 다는 특징 다.
각 개체 별 보 가지고 는 , User (사 보) 개체
가 가지고 는 보 다 과 같다. 각 값 단 값 경우도 고
(생 ) 값 ( ) 수도 다.
bio 내 개 사 개
birthday 생 사 생 . 도는 공개 지
수 .
connection 보 사 에 보
Education 사 보
Email 주 사 주
favoriteAthletes 는 운동 수 사 가 는 운동 수
favoriteTeams 는 스포 사 가 는 스포
firstName 사
gender 별 사 별
hometown 신지 사 신지
- 21 -
id 고 식별 는 고
interestedIn 심사 사 심사
languages 언어 사 가 사 는 언어
lastName 사
link 링크 Facebook 지 는 링크
locale 사 가 비스 사 는 언어 (ISO
드)
location 거주지 사 거주지
meetingFor 심사 ( 별) 사 가 만 는 것 는 상
별
middleName 가운 사 가운
name
political 사
quotes 는 사 가 는
relationshipStatus 결 /연 상태 사 결 는 연 상태
religion 사
significantOther 결 /연 상 사 결 는 연 상
sports 는 스포 사 가 는 스포
timezone 시간 사 가 곳 시간
type 식 식
updatedTime 수 시간 근 수 시간
username 사 사 고 (주 뒷 )
verified 여 사 지 여
website 웹사 트 사 웹사 트 주
work 직 사 직 에 보
4 User 개체 보
API에 는 주 (URL) 통 비스 보 원에 근 수 도 고 다.
동 재 다 과 같다.
보 가 여러 보 가 다.
보 가 개 보 가 다.
- 22 -
에 상 보
가
간략 보(고 , )만 는 에 상
보 가 다.
게시 보 가 게시 보 가 다.
사 보 가 사 보 가 다.
사 연 보 사 에 연 보 가 다.
사 담벼 사 담벼 가 다.
사 사 들 가 다. 간략 보만 재
, 상 보는 별도 어 니다.
사 보 사 들에 사 보 가 다.
타 본 타 가 다.
사 가 는 사 가 는 지 가 다.
사 사진 사 가 사진 게시 가 다.
사 가 게시 사 가 게시 가 다.
사 상태 시지 사 가 상태 시지 가 다.
사 비 사 가 비 게시 가 다.
5 Facebook 동
2. Twitter
Twitter에 API 통 얻 수 는 개체는 다 과 같다. 비스 특 에
개체 가 상 것 볼 수 다.
개체
GeoLocation 지리상 지
HashtagEntity 시태그 트 에 시 시태그
MediaEntity 미 어 트 에 포 미 어
Place 가 는 지역
Status 트 트
Trend 트 드 트 드
Trends 트 드 특 시간 트 드
URLEntity 주 트 에 포 단 웹주
- 23 -
User 사 사 보
UserList 사 리스트 사
UserMentionEntity 트 에 포 사
6 Twitter 개체
가 다고 단 는 Tweet 개체 (Status) 보 다
과 같다. Tweet 상태(새 었는지, 답 지, Retweet 었는지)에
값 재 에 차 가 다.
contributorsIDs 공동 Tweet 공동 고
createdAt 시간 Tweet 시간
geoLocation 보 Tweet과 보
hashtagEntities 시태그 Tweet에 포 시태그
id 고 Tweet 고
inReplyToScreenName 답 사 답 Tweet 상 사
inReplyToStatusId 답 Tweet 답 Tweet 원 Tweet 고
inReplyToUserId 답 사 고
답 Tweet 상 사 고
isFavorited 심 여 Tweet 심 지 는지 여
isTruncated 여 Tweet 본 140 과
는지 여
links 링크 Tweet에 포 링크
mediaEntities 미 어 Tweet에 포 미 어
myRetweetedStatus Retweet
Tweet
당 Tweet에 본 Retweet
보
place Tweet과
retweetCount Retweet 수 Tweet Retweet 수
retweetedStatus Retweet 원본 Retweet 었 경우, Tweet 원본
Tweet 보가 들어
source 경 Tweet 경 는 어 리
text 본 Tweet 본
urlEntities 주 Tweet에 포 단 웹 주
- 24 -
user 사 Tweet 사 보
userMentionEntities Mention Tweet에 포 사 Mention
wasRetweetedByMe 직 Retweet 본 Tweet Retweet 는지 여
7 Tweet 개체 보
특 만 , 비 근에 API가 변경 Tweet에 보들
( ‘Entities’ 는 ) 포 었다는 것 다. 보가 재 지
는 스트 처리 여 직 보 ,
보가 얻어내지 못 는 경우가 생 다. 비스 체에 미리 처리
공 므 러 수고 게 었다.
간 Trend 루 동 Trend 가
재 사 고 재 그 사 고 얻어
사 고
생
사 고 생 여, 사
상 수 도
Tweet 특징 Tweet에 다 과 같 특징 재 는지 :
Retweet, Mention, Singleton, Hash Tag, 링크.
Tweet 링크 Tweet에 포 든 링크 주
평균 Tweet 수 사 평균 Tweet 수 계산
Tweet 계 사
수
사 가 계 등 지 짜 수 계산
Follower-Following
비 계산
사 Follower Following 사 수 비 계산
Follow 사 사 Follow 는 다 사 가
Following 사
사 가 Following 다 사 가
사 보 가 사 에 보 가
리스트 사 리스트에 가 사 가
사 리스트 가
사 가 리스트 가
Tweet 가 사 가 Tweet 가
- 25 -
사 간 사 다 사 사 에 생 수
주간 Trend 주간 Trend 가
8 Twitter 동
8 API 리 동 다. 가지 동 (사 고
생 , 트 링크 등) 연 에 다고 단 어 가 다.
3. YouTube
비 심 비스에 맞게 비 비 에 보, 미 어
타 보에 재 다. 40개 개체 들 개체
다 같다.
개체
Category 특 타냄
CommentEntry
Content 내 내 에 보
FeedLink 링크 에 링크
Link 링크 다 에 링크
MediaThumbnail 미리보 동 상 특 시 에 미리보
보
Person 간략 사 보 ( 등)
PlaylistEntry 재생 재생
PlaylistLinkEntry 재생 링크 재생 에 링크
PlaylistLinkFeed 재생
여러 재생 에
SubscriptionEntry 독 사 가 독
SubscriptionFeed 독 사 가 독 들에
TextConstruct 스트 스트 보가 들어 습니다.
UserProfileEntry 사 보 사 에 보
VideoEntry 비 비 에 보
- 26 -
VideoFeed 비 비 에
YouTubeMediaGroup 미 어 보 미 어에 상 보
9 YouTube 개체 ( )
개체들 가 심 비 보는 다 과 같 보 가진
다. YouTube 특징 Category마다 어 개체 시 다는
것 , 에 보 얻 여러 단계 개체 거쳐 들어가
다. ( 에 것 개체 것 다)
authors
categories
commentEntries 에 달린
content 내 내
contributors 여 여
edited 편집 시간 편집 시간
embeddable 공 가능 사 트에 동 상 공 수 는지 여
geoCoordinates 과 에 보
id 고 고
kind
label 블 블
location 비
mediaGroup 미 어 보 미 어에 상 보
publicationState 공개 상태 비 공개 진 상태
published 시간 시간
racy 컨
포
비 에 컨 가 포 어 는지
여
rating 평 평 에 보
recorded 시간 시간
relatedVideos 비 비
responseVideos 답 비 답 비
- 27 -
rights 과 보
statistics 비 통계 비 에 통계 보
summary
title
updated 근 수 시간 근에 수 시간
ytIncomplete 결 비 타 보에 빠진 는지 여
ytRating YouTube 평 평 에 보
10 비 개체 보
마지막 비스에 공 는 동 다. 개체에 보
많 에, 사 수 는 개별 동 수는 많지 것 볼 수 다.
사 가능 비 막 사 가능 비 막 언어 가
비 가 비 가
비 보 가 비 보 가
비 막 가 비 막 가
사 보 가 사 들 보 가
재생 가 사 재생 들 가
독 가 사 독 들 가
겨찾 가 사 가 겨찾 비 가
린 비 사 가 린 비 가
검색어 찾 지 검색어 비 찾습니다.
키워드 찾 지 키워드 비 찾습니다.
11 YouTube 동
2 SNS 연 상
에는 SNS 상 는 연 진 연 에 경험 연
(사 과 그 포 )가 주 맞닥 릴 수 는 들에 살
펴보도 다.
- 28 -
1. 어 가 는지 어 움
에 살펴보 듯 각 비스 별 개체, 재
각각 미 단 어 다. 특 각 단순 값(숫 스
트) 것 니 다 개체 경우 그 는 것 욱
어 워진다. 같 료 가 복 원 , 료 식 계
진 거 (XML 경우), 료 달에 복 없 많 보 담
수 다. API 경우 러 료 는 그 보여주지 못 고
뚱그 식 여, 에 어 움 주고 다.
러 료 쉽게 는 원 계 ,
에 개체 식 는 그 보여주어 가 다. 각 료 별
어 식 고 어느 경우에 사 다는 같 수 어 다.
2. 사 어 운 업들
SNS API 식 거 XML 는 JSON 식 , 는 웹
비스 경 에 것 다. XML 경우 ( 진 식에 비 ) 사
수 는 식 고 도 지 다. 실 SNS에 API 통
어 원본 XML 직 다 도 어 에 어 가 는
것 지 어 다.
- 29 -
그림 3 XML 결과
연 에 에 도 러 사
직 처리 는 들다. 원본 사 보다는 웹 상 사
스에 찾는 것 게 다. 지만 사 스는
상 에 , 든 보가 에 보여지지 므
많 동 다.
XML JSON 식 사 보다는 그 처리 쉬우므 ,
그 여 사 가 수 도 다.
각 다 상에 같 업 수 는 복 업 경우에도,
그 처리 는 것 리 다. 역시 상 고 그 상에
업 복 도 다 결 수 는 다.
- 30 -
3. 연 과 에 data set 변경
연 과 거 data set 고, 료 게
다. set 변동 지 겠 , 다 보 특
가 경우가 생 다. 빠진 보 다시 수집 는 는 생각보다 많
시간 걸리는 , 개 경우 만 수집 다 도 에 린
든 보 청 다. 거 원 수집만큼 시간
다.
결 는 당 지 보 도 단
었다가, 만 택 사 는 다. 단, 다 에 API
수 공간 가 에, 는 보
는 청에 가 수 는 것 는 것 당 다.
4. API 사 상
각 SNS가 Open API 공 고 , 우 사 들에게 원 비
스 공 는 것 우 다. API 통 량 청 고
다. Twitter 경우 IP에 비 그 시 시간 당 150 , 그 시 350
비스 가능 다6. 사 Whitelist에 등 경우 시간당 2만 지 비
스 수 늘릴 수 , 사 상 ( 그 , 비스)
것 닐 경우 허 주지 는 경우가 많다.
6 Twitter Traffic 에 값 그 가 수도 다. [30]
- 31 -
YouTube 경우 시간 당 없 , 짧 시간 내에 여러 료 청
경우 도 늦춰 것 청 는 시지 다. 개 7에
런 경우 10 동 비스에 청 지 것 고 다. Facebook
경우 진 청 수 과 같 것 없지만, 비스 상태에
신 시지가 는 경우가 다.
러 에 수집 수 다. Twitter에 실
수집에 , 1시간 10 만에 주어진 수 사 고
지 시간 동 는 상 생 다. 비 비스 개 ( : 사
보 청 여 수 감 시킴) 러
수 다. API 도 원 만큼, 상 내에
청 고 근 다.
비스 상태에 돌 생 는 처리 다. 상
도 비스 사 가 많 경우 지 수 ,
게 빠진 는 료에 곡 가 수 다. 비스 에 맞 어 재시도
거 당 처리 는 것 처 수 다.
7 https://developers.google.com/youtube/faq#limits
- 32 -
5 Platform 계
단계 사 Platform 계 다. Platform
Social Network Inspector 고 여, 그 통 Social Network
들여다 볼 수 타내었다.
User Interface
Execution Module
Eclipse RCP Data Model Service Model
Task/Action Model
Triple Store XML
Java
그림 4 Platform 도
1 링
그 에 고 사 링 다.
Platform에 사 는 는 크게 비스에 보 실 내 담 것,
업(Task)에 3가지 뉜다.
1. Service Model
비스 개체, 료 타내 다. 다 과 같
어 다.
- 33 -
가. Service: 각 SNS 비스에 보 담고 다. 본 보 ( ,
) 에 Action과 Type 갖는다.
. Action: 비스에 수 수 는 동 들 다. 본 보 매개 변
수(Parameter) 갖는다.
다. Parameter: 동 수 는 값 다.
. Type: 비스 개체 료 에 보 다. 본 보 에
Field( ) 값 갖는다.
마. Field: 보 에 내 담고 다.
것 곧 SNS에 타 보 고 수 , 각 비스 별 내
술 XML 여 여 에 보 다. 과 에 후 변
경 없 다 비스 가, 변경 수 도 다.
2. Data Model
SNS 상에 재 는 실 담고 는 , 비스 달
값 여 는 맡는다. Service Model에 ‘ 료 ’에
당 다.
본 SNS 공 식(XML, JSON) 는 그
브러리가 에 도 , 편 가 는 거
재 다.
수집 차 진 료 는 , Database가 사
었다. 경우 계 Database에 Table 계 고 게
지만, SNS 료 는 계 가지고 보 수도 매우 가변
- 34 -
다. 러 결 Ontology 보 사 는
Triple Store 도 다. 에 가 SNS 보 Ontology linked
data 타낼 수 는 능 가능 다.
3. Task Model
컴퓨 에 업 시키 그 는 것처럼, 료 수집
차 간단 Set 다. 여 체
Task(‘ 업’) 고 고, 각 동 Action(‘동 ’) 고
다. Action 지 동 수 고 그 결과 Data set 가지고 다.
Set는 다 과 같다.
Combine 병 여러 동 실 결과 다.
Crawl 수집 비스 수집 다.
Input 료 원본 러 다.
Jump 순 동 단계 실 결과가 참 , 지 순
동 다.
Output 료 다.
Script 스크립트 능 , 스크립트 실 다.
Select 택 택 거 는다.
Store 에 수 다.
12 Task Model Set
Input 수집에 는 료 러 사 많 특
에 가 었다. Jump 경우 에 단계 돌 갈 수 는 ,
게 미 수집 원본 다 가 수집 는 동
수 수 다.
- 35 -
러 Task는 보 담고 는 XML 거 어 들 수 다.
Task 실 Module Task XML 어 차에 실 , 수집
Triple Store에 다.
2 사 스
Task 계 고 업 수 차 시 사 스
다. 다 운 체 사 는 경우가 많 진 만큼, Platform Java 언어
Eclipse RCP (Rich Client Platform) 에 만들어 다.
1. 어 리
그림 5 어 리
사 스 체 다 과 같다.
- 36 -
가. 쪽 - Task XML 볼 수 는 트 탐색
. 가운 - 업 계 (편집 )
다. 쪽 - 동 에
. - Task 실 상태 시 는 결과 창
2. 업 계
그림 6 업 계
업 계 에 는 동 (Action) 가, 삭 , 순 변경 수 다. 에
는 동 타내는 과 실 순 , 동 , 동 값
시 다.
동 가 경우 다 과 같 동 가 상 가 시 , 가 동
택 수 다.
- 37 -
그림 7 동 가 상
에 특 동 택 경우 다 동 시 다.
3. 동
동 에 는 각 동 과 값 수 다.
경우 , , 헤 , 경 , 내 지
수 다. 경 내 상 타 , 내
러 거 창에 내 간단 게 직 수 도 다. 지원 는
는 처리 스트 , 많 사 는 Excel 식 포
다.
경우 과 비슷 ( 에 계 여 내
것 가) 값 고 직 수 없 , 헤 ( 릿 ) 지
수 다.
- 38 -
그림 8
수집 에 는 비스 동 택 수 , 동 과 연 매개
변수 값 수 다.
동 택 동 택 상 에 원 는 동 택 다. 어느 동
어 비스에 는지 보여주 계 시 , 동 어
는지 시 다.
그림 9 수집
- 39 -
그림 10 동 택 상
택 에 는 수집 data set에 어 보
지 결 다. 에 여러 보 택 수 , 본 능
(개수, , 평균, , ) 지원 다. 값 택 경우 료 택
상 가 시 다.
그림 11 택
- 40 -
그림 12 료 택 상
료 택 상 는 동 택 마찬가지 비스 개체,
계 , 각 에 시 다.
단순 값 니 개체 경우 그 개체 다시 택 수 도
다.
Combine 과 병 , Jump 과 순
동 , Script 과 스크립트 , Store 과
다.
- 41 -
3 능
1. 비스 가
Platform과 술 는 XML 과 실 동 드
어 다. 러 Platform 리 여 러그 만들어,
후 능 가 가능 다. 미 재 는 능 변경 는 경우에
도 들어가는 다.
러그 식 능 는 에 것과 같 가지
( 비스 술 XML, 동 드)가 다. 러 들
net.theyt.sni.service.( 비스 ) 키지 에 다.
비스 술 XML 경우 동 료 에 보 실 드에 맞게 채
워 주 , service.xml 고 어 다. 비스 체 동
처리 는 Class는 ServiceHandler 는 가지 , 미리 지 다.
Data Model 경우 net.theyt.sni.service.( 비스 ).model 키지에 ,
에 특별 없다. 비스 사 트에 공 는 에 맞게
다.
능 체 미 3가지 비스 내 참 여
수 다.
2. Script 능
본 공 는 Task 동 Set 편 다. 는 Task 실 Engine
과 비스 가 가능 다. 지만 실 상 에 는 많 가
- 42 -
능 에 /후 처리가 , 러 사 에
Script 능 었다.
Script 능 사 가 별도 스크립트 실 수 는 능 다.
재 Platform에 지원 는 스크립트 언어 는 Beanshell, Java, Javascript,
Python (JPython) 후 가 가능 다. 그 에 지식 는
사 경우 Platform에 수집, 처리 스크립트 내에 가공
고, 다시 수 다.
스크립트 내에 는 단계 결과 ‘input’ 는 변수
수 , 처리 결과 ‘output’ 는 변수 돌 수 다. 복
처리 Ontology Triple Store에 직 근 수도 다.
스크립트 사 능 는 다 에 볼 수 다.
- 43 -
6 능 평가
1 연 상 결
에 SNS 연 상 가지 살펴보 다. Platform 에
어 어떻게 결 었는지 다.
1. 어 가 는지 어 움
사 스 상에 동 료 택 상 공 여, 비스에
어 동 사 수 고 어 료 택 수 는지 다.
특징에 맞게 계 보여주 , 각 쉬운 과 여
도 다. 보 계 는 경 태( ) 타내었다.
2. 사 어 운 업들
원본 (XML, JSON) 사 에게 숨 고 료 택 여 그 값
다룰 수 도 다. Jump 동 과 같 복 능 가 , 다
수 비스 동 에 값 수 게 여 같 동 -다
에 복 게 다.
3. 연 과 에 data set 변경
비스에 청 여 수 는 든 보가 Ontology Store에 므
, 에 들어가는 보 언 든지 가 수집 없 수 다.
- 44 -
수집 경우에도 미 수집 진 수 도
다.
4. API 사 상
사 에 API 사 직 처리 는 없도 사
에 처 다. 시간당 수가 는 경우(Twitter)에는 Platform 수
에 수 는 없 , 청 간 간격 여 결 수 는
경우 비스 청 도 동 시간 간격 도
다.
비스 에 원 는 수집 지 못 경우,
수 내에 재시도 도 여 곡 가능 다.
2 능
Platform 동 평가 개 Task 만들고, 실 결
과 살펴보 다.
1. Facebook 사 보 수집
Facebook에 그 재 사 얻고, 그 들 개 보
( , , 생 , 별) 수집 는 Task 다. 사 가 업 수 경
우 다 과 같다.
1. 비스에 그
2. 지 동
- 45 -
3. 각 지 동
4. 보 지에 보 찾 복사
5. 다 사 에 복 (3단계 )
Platform에 업 수 경우 다 과 같다.
1. 비스 그 ( 동 )
2. 수집: Facebook 사 보 가 ( 그 사 )
3. 수집: Facebook 사
4. 수집: Facebook 사 보
5. 택: 사 . , 사 . , 사 .생 , 사 . 별
6. : Excel
업 비 볼 다 간 차 가 는 것 볼 수 다. 는 사
웹 스 API 차 , 는 사 과 그 보 식
차 에 것 다.
Social Network Inspector Platform Facebook API 고 , 특
동 는 그 거 사 에게
다. 럴 경우 다 과 같 창 시 어 단계 진 수 다.
- 46 -
그림 13 Facebook 사
업 수 결과 4 20 에 걸쳐 89 (본 + 88 ) 보 상
어 다.
2. Twitter Follow 사 Follower가 가 많 수 찾
Twitter 사 가 Follow 사 , 가 Follower 수가 많 경우
지 보는 Task 다. 업 다 과 같다.
1. 수집: Twitter 재 사 고
2. 수집: Twitter 사 보 가
3. 수집: Twitter Follow 사
4. 택: 사 . 워 수 ( 값 )
5. : 스트
- 47 -
그림 14 Task
업 수 결과 25 동 수 었 ( 상 Follower 사 수 54 ),
결과 값 상 다.
3. YouTube에 사 가 가 많 시청 비 보 얻
에는 YouTube에 사 가 가 많 시청 비 얻어
는 Task 다. 업 다 과 같다.
1. :
2. 수집: YouTube 비 가 ( 사 가 많 시청 비
주 8)
3. : Ontology
수집 든 볼 수 도 Ontology 식
다. 업 수 결과 19 에 걸쳐 98개 비 보 수집, 다.
수집 Ontology 체 엔진에 에 습
다 과 같다. Linked data 각 개체가 어 에, 다
Hyperlink 통 동 당 보 수 다.
8 https://gdata.youtube.com/feeds/api/standardfeeds/kr/most_viewed
- 48 -
그림 15 YouTube 동 상 보 Ontology
4. 게시 시간에 사 사도 계산
Script 능 복 다. SNS에 연 는
단순 수집과 통계 어 [29]에 같 Homophily 트워크
(Hub, Authority, Influence 등)과 같 복 고
다. 에 는 그 , Twitter에 사 가 Tweet 시간
포 사 간 사도 계산 도 다. 계산 다 과 같다.
1. 여러 사 에 Tweet 수집 다.
2. 각 사 Tweet 시간 별 (24시간) 여 수 다.
3. 수 각 사 Tweet 수 누어 규 시킨다. Tweet
- 49 -
시간 별 Vector 고 다.
4. 사 다 사 Tweet 시간 별 Vector에
Cosine 사도 계산 다.
∑ ×
∑ ( )
× ∑ ( )
식 과 같 A B는 각 사 Tweet 시간 별 Vector 다.
다 본 (본 포 ) 7 사 에 Cosine 사도 계산
것 다.
사용자 유사도
(본 ) 1.0000
사 1 0.8317
사 2 0.7276
사 3 0.8536
사 4 0.8032
사 5 0.7610
사 6 0.7677
13 사 사도 계산 결과
본 신 경우에는 가 동 므 사도 값 1 , 사 에
사도 값에 차 가 는 것 볼 수 다. 다만 사 원 시간 사
에 사도 편차가 심 지는 다. 러 보
평가 가 수 수 다.
- 50 -
5. 게시 본 어 색 어
에는 그 여, 사 가 게시 색 어
도 다. 색 어 에는 어 태 9 사 다.
트 도우미 계 (@dowoomi) 근 Tweet 200개 상 본 수집
고, 태 통 색 어 다. 에 Tweet
에 도 수도 Tweet 특 상 연 고 보 어 우므
각 Tweet 별도 처리 다. 각 트 색 어 색 어 수가 가
것 여 빈도 고 결과는 다 과 같다. (빈도수 3 상)
단어 빈도
트 69
t.co/va7dHVRm 13
재 13
11
비 8
운 원 6
편 5
5
계 4
사 4
미지 4
드폰 4
도움말 3
3
비공개 3
3
타 3
9 Korean Language Technology (KLT):
http://nlp.kookmin.ac.kr/HAM/kor/index.html
- 51 -
3
14 Tweet 색 어 결과
원 계 특 (트 사 지원 계 )에 맞는 단어들 상 에 는
것 볼 수 다. 결과 웹 주 는 사 지원과 지 다.
러 통 계 스트 수 여, 사
수 수 것 단 다.
- 52 -
7 결
1
본 에 는 SNS 수집 고 는 도 Social Network
Inspector Platform 계, 다. 각 SNS 특징, 주 동
료 여 Model 다. 연
SNS 상 료 수집 는 과 에 생 수 는 견 고
책 찾 보 다.
Platform 크게 Task 실 Module과, 사 스 었다. Task
실 Module Task 실 고 수집 결과 는 역 , 사
스는 Task 계 고 실 결과 지 볼 수 도 만들어 다.
동 여 그 에는 Service Model, Data Model, Task
Action Model 각각 보 지 고 다.
Platform 결과 실 동 가능 Task 계 고 실 수 었 ,
도 상 수집 었다.
2 연 시사
(Web) Crawler 보 , 지 지 여러 동 수집
그 재 다. 지만 SNS 상 특 Task에
Platform에 는 직 지 진 과가 보고 없다.
Platform 여 SNS에 생 연 연 진척에 도움
것 고 다. 특 처 에 연 단계에 에
- 53 -
는 가 없 , 다 능 보 다 본격 수집과 에도
수 것 고 단 다.
3 연 계 언
여러 사 수집과 고민에도 고 Platform 계 상에 미
재 , 개 가 고 생각 다.
1. 동 료 개
비스 동 료 돕 계 태 에
다. 지만 료 경우 그 가 많 , 지 그
수는 비스당 수 개가 는다. SNS에 가 경우 원 는 어
는지 찾는 것도 쉬운 과 가 닐 수 다.
러 결 는 ‘ 주 사 는 료 ’ 여
편에 시 거 보 도 강 는 다.
2. 병 수집
SNS 연 량 수집 가고 , Big data
계에 재 각 는 다. 에 술 다시 컴퓨
에 료 청 는 거는 경우가 어, 량 지 수
집 경우 실 수집 는 시간 낮 지고는 다.
- 54 -
결 여러 컴퓨 병 수집 수 다.
Platform 경우 수집 Database에 도 10 고 여러 컴
퓨 에 실 다 병 수집 수 다. 지만 럴 경우 주
원본 data set 수집 data가 겹 지 도 는 것
다.
개 사 지만 처 달 만큼, 시험 거쳐 연 들에게
리 사 수 다 연 에 큰 도움 것 다.
10 Ontology Store 상 경 트워크 상 다 컴퓨 경 지 수
다.
- 55 -
참고 헌
[1] Tim O'Reilly, "What Is Web 2.0: Design Patterns and Business Models for
the Next Generation of Software," International Journal of Digital
Economics, no. 65, pp. 17-37, 2007.
[2] PCMag.com. (2012, Apr.) Facebook Now Totals 901 Million Users, Profits
Slip. [Online]. http://www.pcmag.com/article2/0,2817,2403410,00.asp
[3] mediabistro. (2012, Feb.) Twitter To Surpass 500 Million Registered
Users On Wednesday. [Online].
http://www.mediabistro.com/alltwitter/500-million-registered-
users_b18842
[4] Miniwatts Marketing Group. (2011) Internet World Stats. [Online].
http://www.internetworldstats.com/stats.htm
[5] Boram Park, Changjin Han, and Namjun Kang, "Network Topology of
Social Media and Information Behavior Pattern," in The 1st Conference on
Pioneering Convergence Technologies, Jeju, Korea, 2011, pp. 56-59.
[6] Eunbin Kim and Yong-tae Hwang, "Communication Networks on Twitter:
How Many of Twitter Followers Does One Actually Communicate with?,"
in The 1st Conference on Pioneering Convergence Technologies, Jeju,
Korea, 2011, pp. 52-55.
[7] (1996) PC Magazine. [Online].
http://www.pcmag.com/encyclopedia_term/0,2542,t=application+program
- 56 -
ming+interface&i=37856,00.asp
[8] Djamal Benslimane, Schahram Dustdar, and Amit Sheth, "Services
Mashups: The New Generation of Web Applications," IEEE Internet
Computing, vol. 12, no. 5, pp. 13-15, Sep. 2008.
[9] Sunilkumar Peenikal, "Mashups and the Enterprise," Mphasis, New York,
USA, White Paper 2009.
[10] Mei Kobayashi and Koichi Takeda, "Information retrieval on the web,"
ACM Computing Surveys, vol. 2, no. 32, pp. 144-173, June 2000.
[11] Helena Deards. (2009) Twitter first off the mark with Hudson plane crash
coverage. [Online].
http://www.editorsweblog.org/multimedia/2009/01/twitter_first_off_the_m
ark_with_hudson_p.php
[12] Jason Kincaid. (2009, Mar.) Foursquare Scores Despite Its Flaws.
[Online]. http://www.washingtonpost.com/wp-
dyn/content/article/2009/03/18/AR2009031802819.html
[13] D. Zhao and B. M. Rosson, "How and Why People Twitter: The Role that
Micro-blogging Plays in Informal Communication at Work," in Proceedings
of the ACM 2009 International Conference on Supporting Group Work,
New York, USA, 2009, pp. 243-252.
[14] Boris Veldhuijzen van Zanten. (2010, Sep.) The Next Web - Twitter
Statistics: 82% of Twitter users have less than 350 followers. [Online].
http://thenextweb.com/socialmedia/2010/09/30/twitter-statistics-82-of-
- 57 -
twitter-users-have-less-than-350-followers/
[15] d. boyd, S. Golder, and G. Lotan, "Tweet, Tweet, Retweet: Conversational
Aspects of Retweeting on Twitter," in Proceedings of the 43rd Hawaii
International Converence on System Sciences, Kauai, Hawaii, USA, 2010.
[16] Twitter, Inc. (2010, May) Twitter API Documentation. [Online].
http://dev.twitter.com/doc/post/statuses/retweet/:id
[17] Maggie Shiels. (2009, June) BBC News: Web slows after Jackson's death.
[Online]. http://news.bbc.co.uk/2/hi/technology/8120324.stm
[18] Christo Wilson, Bryce Boe, Alessandra Sala, Krishna P. N. Puttaswamy,
and Ben Y. Zhao, "User Interactions in Social Networks and their
Implications," in Procedings of EuroSys 2009, Nuremberg, Germany, 2009.
[19] Vijay Erramilli, Xiaoyuan Yang, and Pablo Rodriguez, "Explore what-if
scenarios with SONG: Social Network Write Generator," Spain, 2011.
[20] A. Java, X. Song, T. Finin, and B. Tseng, "Why We Twitter: Understanding
Microblogging Usage and Communities," in Proceeedings of the Joint 9th
WEBKDD and 1st SNA-KDD Workshop, San Jose, Califonia, USA, 2007.
[21] Balachander Krishnamurthy, Phillipa Gill, and Martin Arlitt, "A Few Chirps
About Twitter," in Proceedings of the First Workshop on Online Social
Networks, New York, USA, 2008, pp. 19-24.
[22] B. A. Huberman, D. Romero, and F. Wo, "Social Networks that Matter:
Twitter Under the Microscope," First Monday, no. 14, pp. 1-9, Jan. 2009.
- 58 -
[23] Courtenay Honeycutt and Susan C. Herring, "Beyond Microblogging:
Conversation and Collaboration via Twitter," in Proceedings of 42nd
Hawaii International Conference on System Sciences, USA, 2009, pp. 1-
10.
[24] Alex Leavitt, Evan Burchard, David Fisher, and Sam Gilbert, "The
Influentials: New Approaches for Analyzing Influence on Twitter," Web
Ecology Project, 2009.
[25] H. Kwak, C. Lee, H. Park, and S. Moon, "What is Twitter, a social network
or a news media?," in Proceedings of the 19th International World Wide
Web Conference, USA, 2010.
[26] M. Cha, H. Haddadi, F. Benevenuto, and K. Gummadi, "Measuring user
influence in twitter: The million follower fallacy," in Proceedings of the
4th International Conference on Weblogs and Social Media, USA, 2010.
[27] Jeff Young. (2010, May) The Chronicle: Researchers Find ‘Million-
Follower Fallacy’ in Twitter. [Online].
http://chronicle.com/blogs/wiredcampus/researchers-find-million-
follower-fallacy-in-twitter/24290
[28] (2011, Jan.) Twitter Fan Wiki - Apps. [Online].
http://twitter.pbworks.com/w/page/1779726/Apps
[29] De Munmun Choudhury, Hari Sundaram, Ajita John, Doree Duncan
Seligmann, and Aisling Kelliher, ""Birds of a Feather": Does User
Homophily Impact Information Diffusion in Social Media?," in
- 59 -
arXiv:1006.1702, 2010.
[30] Benny Evangelista. (2010, Sep.) San Francisco Chronicle: Twitter now has
145 million users after growth spurt. [Online]. http://www.sfgate.com/cgi-
bin/blogs/techchron/detail?entry_id=71579
[31] Twitter, Inc. Rate Limiting FAQ. [Online].
http://dev.twitter.com/pages/rate_limiting_faq
[32] Infochimps, Inc. (2011, Mar.) Twitter Census. [Online].
http://www.infochimps.com/collections/twitter-census
- 60 -
Abstract
Social Network Inspector: A Platform for Data-driven
Research of Social Network Services
Hwang, Yong-tae
Department of Digital Contents Convergence
The Graduate School
Seoul National University
The development of the Social Network Services was induced by the era of
'Web 2.0' and increasing use of the mobile devices. Enormous data is being
created and researchers are paying attention to them. These data can be
accessed by Application Programming Interface (API) which is publicly opened
by service providers. Most of data-driven research requires program called
'crawler' due to large amount of data.
Researches on SNS require interdisciplinary approach which typically
requires more people than single subject research. However, there are many
cases which require achievement by smaller group of members in early stage of
the study. Also, they most likely rely on manual data collecting, it may cause
unwanted errors.
In this paper, data collecting and analysis platform for researching Social
Network Services has proposed. First, previous studies were reviewed on
- 61 -
"types of data", and "collecting methods". Next, API actions and data types
provided by services were strategically modeled. Also, problems and solutions
which could be occurred while conducting SNS researches were addressed.
Based on the proceeding research, extensible and easy-to-use data
crawling platform was made. By using this platform, common procedure for SNS
researches can be simplified, and most of prior mentioned problems were
resolved. Finally, several case study for real-world research tasks,
performance test and data validation were achieved.
Keywords: Social Network Services (SNS), Application Programming Interface
(API), Crawler, Platform
Student Number: 2010-22686