24
농농 농농농농농 농농농 농농농 농농 농농 : 농농 농농농 농농농농 2013. 11. 29 1 농 농 농 ( 농농농농농 )

농업 빅데이터를 활용한 병해충 발생 예측 모형

Embed Size (px)

DESCRIPTION

2013 한국데이터사이언스학회 학술대회 및 정기총회(2013. 11. 29) 더아이엠씨(THEIMC) 전채남 대표의 “농업 빅데이터를 활용한 병해충 발생 예측 모형” 발표 자료입니다.

Citation preview

Page 1: 농업 빅데이터를 활용한 병해충 발생 예측 모형

농업 빅데이터를 활용한 병해충 발생 예측: 영주 사과를 대상으로

2013. 11. 29

1

전 채 남 ( 더아이엠씨 )

Page 2: 농업 빅데이터를 활용한 병해충 발생 예측 모형

2

목 차

Ⅰ. 연구 배경

Ⅱ. 기존 연구 검토

Ⅲ. 연구모형 및 방법

Ⅳ. 분석 결과

Ⅴ. 결론 및 연구의 한계점

2

Page 3: 농업 빅데이터를 활용한 병해충 발생 예측 모형

3

1. 연구 배경

Ⅰ. 연구 배경 및 목적

소셜미디어 시대의 도래로 엄청난 데이터들이 다양한 형태로 실시간으로

생성되고 있어 전 산업영역에서 빅데이터 활용이 지속적으로 증가

사과는 경북이 전국 생산량의 63% 를 차지하며 ( 영남일보 , 2012),

영주는 전국 최대 사과 생산지로 생산량이 7 만여 톤에 이름 ( 매일신문 , 2012)

2012 년부터 u-IT 기술을 이용하여 온도 / 습도 , 토양수분 , 강우여부 ,

해충 밀도 등과 같은 데이터를 영주의 사과 재배 농가에서 수집 중

그러나 농업분야의 빅데이터 활용에 대한 연구가 부족한 편임

Page 4: 농업 빅데이터를 활용한 병해충 발생 예측 모형

4

2. 연구 목적

Ⅰ. 연구 배경 및 목적

본 연구는 농업 데이터를 이용하여 농작물의 작황에 영향을 미치는

요소인 병해충 발생을 예측하는 모델을 개발하는 것이 목적임

공공데이터와 민간데이터를 통해 패턴을 발견하고 여러 데이터와

병해충 발생의 상관성을 확인하여 향후 농업 빅데이터 연구의 발전을

위한 기초를 제공

기존 연구의 검토를 통해 농업 빅데이터와 병해충 발생을 정의하고

연구모형를 제시한 후 연구문제를 설정함

농업관련 공공데이터와 민간데이터를 수집하고 정제하여 분석함

Page 5: 농업 빅데이터를 활용한 병해충 발생 예측 모형

5

Ⅱ. 기존 연구 검토

1. 검색엔진 쿼리 데이터를 이용한 유행성 독감 탐지 (Ginsberg, J. et al, 2009)

웹 검색 쿼리의 형식으로 건강 찾기 행동을 모니터링 하는 방법으로

유행성 독감의 초기 탐지를 함

이를 위해 모집단에서 감기와 같은 질병 (Influenza-Like Illness) 를

추적하는 다수의 구글 검색 쿼리를 분석하는 방법을 제시

어떤 쿼리의 상대적 빈도는 환자가 독감 징후를 표시하는 의원 방문의

퍼센티지와 높게 상관되어 있어 약 하루 정도의 보고 차이를 보이면서 미국

각 지역의 주간 독감 활동의 현재 상황을 정확하게 측정할 수 있음

이런 접근은 웹 검색 이용자의 큰 모집단을 가지고 많은 지역에서 유행성

독감을 탐지하기 위한 검색 쿼리를 활용하도록 함

Page 6: 농업 빅데이터를 활용한 병해충 발생 예측 모형

6

Ⅱ. 기존 연구 검토

2. 맨하탄의 맨홀 사건 예측을 위한 과정 (Rudin, C. et al, 2010)

맨홀 사건 예측에 관한 콜롬비아 / 콘에디슨 프로젝트의 부분으로 개발된 지식

발견과 데이터마이닝 과정을 제시함

이 과정은 전처리의 의미있는 양을 요구하는 잡문서 형식의 생데이터

(Raw Data) 를 가지고 우선 순위를 가진 현실 문제를 지원할 수 있음 .

문서들은 예측 기준에 따라 순서화된 일련의 사례에 연결되어져 있음

이 연구의 목표는 화재 , 폭발 , 연기는 맨홀 같은 맨홀 사건의 취양성

(Vulnerability) 에 따라 맨하탄 ( 맨홀과 서비스박스 ) 의 전력망 구조를

순서화하는 것임

순서화 결과는 현재 맨하탄 전력망에 대한 우선 보수 작업을 하도록

사용되어지고 있음

Page 7: 농업 빅데이터를 활용한 병해충 발생 예측 모형

7

Ⅱ. 기존 연구 검토

3. 빅데이터 분석의 기술마케팅 활용에 관한 연구 : 잠재 수요기업 발굴을 중심으로 ( 전채남 외 , 2013)

기술마케팅의 잠재 수요기업을 빅데이터를 활용해 발굴 하기 위해 KRISS

의 2 가지 신기술을 선정하고 데이터를 수집하여 텍스트마이닝과

시맨틱네트워크분석을 실시 함

신기술과 관련된 분석단어를 통해 빅데이터를 수집하고 분석한 결과 ,

연결정도 , 연결정도중심성 , 빈도 등을 통해 2 개의 기술마다 상위 20

개의 주요기술을 확인함

시맨틱네트워크분석을 실시하여 공동출현 연결망 , 연결 강도 , 코사인

유사계수 등을 통해 2 개 기술의 잠재 수요기업 을 발굴함

빅데이터의 활용 분야로 기술마케팅을 선택한 것은 기술시장의 특성으로

잠재 수요기업의 발굴이 중요하기 때문임

Page 8: 농업 빅데이터를 활용한 병해충 발생 예측 모형

Ⅱ. 기존 연구 검토

4. 연구문제

웹 &SNS 의 병해충 핵심어 사전을 활용해 병해충 발생을 예측할 수

있을까 ?

기후 데이터를 이용한 적산온도는 병해충 발생을 예측할 수 있을까 ?

기존 연구 검토를 통해 다음과 같이 두 가지의 연구문제를 도출하였음

Page 9: 농업 빅데이터를 활용한 병해충 발생 예측 모형

9

기후 데이터 , u-IT 센서 데이터 , 웹 &SNS 데이터 등의 패턴을 분석하고

병해충 데이터와 상관성을 통해 농작물의 장황에 영향을 미치는 요소인

병해충 발생의 징후를 발견할 수 있을 것임

1. 연구 모형

Data Set 결 과

병해충 징후 발견

기후 데이터

u-IT 센서 데이터

웹 &SNS

병해충 데이터

Ⅲ. 연구 모형 및 방법

< 그림 1> 연구모형

Page 10: 농업 빅데이터를 활용한 병해충 발생 예측 모형

10

농업 빅데이터

⁃ 빅데이터는 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나

새로운 형태의 가치를 추출할 수 있는 데이터 ( 빅토르 마이어 쇤버거 외 , 2013)

- 농업 빅데이터는 농업 생산과 관련해 생성되었거나 활용될 수 있는 빅데이터로

기후 데이터 , u-IT 센서 데이터 , 병해충 데이터 , 웹 &SNS 텍스트 등이 있음

병해충 발생 예측

⁃ 수집된 빅데이터의 데이터마이닝과 텍스트마이닝 기법을 활용하여 병해충

발생 패턴을 분석하고 병해충과 상관성이 높은 농업 데이터를 찾아 시각화 함

- 병해충과 상관성이 높은 농업 빅데이터를 활용하여 조기에 병해충 징후를

발견할 수 있도록 하여 신속한 방제의사결정을 지원함

2. 개념 정의

Ⅲ. 연구 모형 및 방법

Page 11: 농업 빅데이터를 활용한 병해충 발생 예측 모형

11

병해충 데이터

○ 기 간 : 2005 ~ 2012 년 (2010 년 제외 , 7 년 )

○ 수집방법 : 4~10월까지 5~10 일 간격의 해충트랩에 유인된 병해충 수

○ 수집해충 : 복숭아순나방 , 복숭아심식나방

○ 자료출처 : 영주시 농업기술센터 제공

3. 데이터

Ⅲ. 연구 모형 및 방법

기후 데이터

○ 기 간 : 2005 ~ 2012 년

○ 수집방법 : 기상청 영주관측소 일 단위 발표 자료

○ 수집자료 : 평균기온 , 최고기온 , 최저기온 , 평균습도 , 일조 , 강수량 등

○ 자료출처 : 기상청 홈페이지 (http://www.kma.go.kr)

Page 12: 농업 빅데이터를 활용한 병해충 발생 예측 모형

12

3. 데이터

Ⅲ. 연구 모형 및 방법

U-IT 센서 데이터

○ 기 간 : 2011 년 11월 ~ 2012 년

○ 수집범위 : 영주지역 13 개 농가 u-IT 센서 데이터

○ 수집자료 : 5~10 초 단위 기온 , 습도 , 토양수분 , 해충 수

○ 자료출처 : 영주시청 제공

웹 &SNS 데이터

○ 기 간 : 1998 년 ~ 2013 년 11월

○ 수집방법 : ‘ 영주’ , ‘ 병해충’을 키워드로 검색된 데이터

○ 수집도구 : The SCRM

○ 수집범위 : 포털사이트 (뉴스 , 블로그 , 카페 ) & SNS

Page 13: 농업 빅데이터를 활용한 병해충 발생 예측 모형

13

4. 웹 &SNS 데이터 수집

Ⅲ. 연구 모형 및 방법

- 사회 네트워크적 알고리즘에 기반한 KrKwic 프로그램 ( 박한우 , 2004) 을

참조하여 기능을 개선한 한국어 기반 빅데이터 일관처리 솔루션

- 어떤 특정한 단어들이 어떤 다른 단어들과 함께 사용됨에 따라 메시지의

의미가 달라질 수 있음에 주목함 ( 박한우 , 2004)

- 문장의 의미 연결을 중시하여 핵심단어들이 동시에 발생하는 빈도를 ‘관계’로

이해하고 동시출현 빈도에 기초한 네트워크 분석을 위한 분석 데이터 생성

- 연구자의 연구 목적에 따라 데이터를 추출하는 것이 아니라 데이터로부터

자연스럽게 등장한 의미들이 개념을 구성함

- 사회 네트워크분석이 가능한 분석 데이터 생성과 텍스트마이닝을 위한

데이터 수집 , 정제를 한꺼번에 편리하고 신속하게 일관 처리하는 솔루션

The SCRM(http//:www.thescrm.co.kr)

Page 14: 농업 빅데이터를 활용한 병해충 발생 예측 모형

14

4. 웹 &SNS 데이터 수집

Ⅲ. 연구 모형 및 방법

데이터 처리 / 정제데이터 수집 텍스트마이닝

자료 수집 및 처리 과정

- The SCRM 을 통해 대용량의 비정형 데이터를 수집하고 데이터 처리 및

정제의 정확성을 높이기 위해 단계적 처리 방식을 사용하였음

- 일관처리로 텍스트마이닝까지 실시하여 단어 빈도 수를 계산하였음

< 그림 2> 웹 &SNS 데이터 수집 및 처리 과정

Page 15: 농업 빅데이터를 활용한 병해충 발생 예측 모형

15

데이터마이닝

5. 분석 방법

Ⅲ. 연구 모형 및 방법

- 데이터마이닝이란 데이터로부터 유용한 패턴을 알아내고 그들 사이에서

필요한 관계를 파악하여 데이터에서 필요한 부분의 정보를 구하거나

의사결정을 하게 해주는 지식을 제공하는데 사용되는 수많은 기법

- 데이터마이닝은 단순히 대량의 데이터를 처리하는 기법이 아니고

상호교류적이고 반복적인 프로세스 (허준 외 , 2001)

- 데이터마이닝은 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 ,

패턴 , 규칙 등을 탐색하고 모형화함으로써 유용한 지식을 추출하는

일련의 과정 ( 박창이 외 , 2008)

Page 16: 농업 빅데이터를 활용한 병해충 발생 예측 모형

16

텍스트 마이닝

- 대용량의 비정형 데이터에서 숨겨진 패턴이나 키워드 등 유용한 정보를

추출하는 기술

- 문서로부터 구조화된 정보를 추출하여 규칙을 찾아내는 것을 목적으로

데이터베이스에서 문서의 분류 및 군집화 , 문서 색인 , 문서 여과 및 추천 ,

대표적 키워드 추출 등에 주로 응용 ( 정근하 , 2010)

5. 분석 방법

Ⅲ. 연구 모형 및 방법

정보 수집

병해충 관련 키워드로 자료 수집

정보 처리

키워드 추출을 위한 데이터셋 준비

분석 데이터 생성

빈도수 등으로 주요 키워드 추출

정보 분석

병해충 발생과 상관관계 분석

분석 과정

< 그림 3> 병해충 웹 &SNS 지수

Page 17: 농업 빅데이터를 활용한 병해충 발생 예측 모형

17

텍스트 빈도 수

4. 분석 방법

Ⅲ. 연구 모형 및 방법

- TF-IDF (Term Frequency – Inverse Document Frequency) 방식

• 어떤 단어가 특정 문서 내에서 얼마나 중요한지 나타내는 통계적 수치

• 정보추출 방법 중 가장 간단하면서도 강력한 방법

• 핵심어 추출 , 검색 엔진의 검색 결과의 순위 등에 활용

- TF : 어떤 범위 내의 문서에서 얼마나 자주 등장하는지 나타내는

특정 단어의 빈도수

- DF : 특정한 단어가 일정한 범위의 문서들간의 자주 사용되는 지수

- IDF : DF 의 역수

[ 텍스트 빈도 수 산출 공식 ]

Page 18: 농업 빅데이터를 활용한 병해충 발생 예측 모형

18

Ⅳ. 분석 결과

1. 웹 &SNS 병해충 핵심어 사전과 병해충 발생

병해충 핵심어는 병해충을 분석단어로 사용하여 웹 &SNS 데이터를 수집하여

텍스트마이닝과 소셜네트워크분석 (SNA) 을 실시하여 도출한 연관성이 높은

단어들이며 병해충 핵심어 사전은 이들의 집합임

< 병해충 지수 그래프 >

< 그림 4> 병해충 웹 &SNS 지수

Page 19: 농업 빅데이터를 활용한 병해충 발생 예측 모형

19

Ⅳ. 분석 결과

1. 웹 &SNS 병해충 핵심어 사전과 병해충 발생

병해충 핵심어는 병해충 발생과 상관성이 있는 것을 보여짐

< 그림 5> 병해충 웹 &SNS 지수와 병해충 발생의 상관성

Page 20: 농업 빅데이터를 활용한 병해충 발생 예측 모형

20

Ⅳ. 분석 결과

2. 기후 데이터와 병해충 발생

- 기후와 식생 또는 토양의 관계를 나타내는 기후지수 중 하나- 해충의 발육에 필요한 온도를 누적하여 계산한 값으로 해충발생시기를 예측 가능

적산온도

- 일유효온도 = 일평균온도 – 발육영점온도 - 일평균온도가 발육영점온도 이하이면 일유효온도는 ‘ 0’- 적산온도 = 일유효온도의 누적

적산온도 공식

구분 복숭아순나방 복숭아심식나방

1세대 발생 최성기 104 도 286 도

2세대 발생 최성기 490 도 1188 도

세대기간 알 ~ 성충 : 385 도

발육영점온도 9.3 도 11.6 도

산출기준일 초발일 초발일

※ 자료 : 사과병해충종합관리 길잡이 ( 농촌진흥청 사과시험장 )

※ 자료 : 사과병해충종합관리 길잡이 ( 농촌진흥청 사과시험장 , 2012)

Page 21: 농업 빅데이터를 활용한 병해충 발생 예측 모형

21

Ⅳ. 분석 결과

2. 기후 데이터와 병해충 발생

< 그림 6> 적산온도와 병해충 발생의 상관성

적산온도는 병해충 발생과 상관성이 있는 것을 보여짐

Page 22: 농업 빅데이터를 활용한 병해충 발생 예측 모형

Ⅴ. 결론 및 연구의 한계점

1. 결론

병해충 핵심어는 병해충 발생과 상관성이 있는 것으로 보여짐

The SCRM 을 통해 웹 &SNS 데이터를 수집하고 정제한 후

텍스트마이닝을 실시하여 병충해 핵심어 사전을 만들고 지수화하여 패턴을

분석하고 병해충 발생과 상관성을 시각화를 통해 분석함

연구 문제를 해결하기 위해 관련 공공 농업 빅데이터인 기후 데이터를

수집하여 정제하고 처리한 후 데이터마이닝을 통해 적산온도를 산출하여

데이터의 패턴을 분석하고 병해충 발생과 상관성을 시각화를 통해 분석함

적산온도는 병해충 발생과 상관성이 있는 것으로 보여짐

Page 23: 농업 빅데이터를 활용한 병해충 발생 예측 모형

Ⅴ. 결론 및 연구의 한계점

2. 연구의 한계점

농업 빅데이터 수집의 어려움과 수집된 데이터의 정확성에 문제가 있음

농업에 특화된 병해충 비정형 데이터의 양 부족과 핵심어 사전 구축을 위한

텍스트의 부족

핵심어 사전 구축 후 병해충 발생과 웹 &SNS 병해충 지수의 장기적인

상관성 분석이 필요함

기존 연구의 부족과 다양한 데이터의 통합을 위한 데이터마이닝 알고리즘의

정교화가 부족함

Page 24: 농업 빅데이터를 활용한 병해충 발생 예측 모형

24

참고문헌

박창이 , 김용대 , 김진석 , 송종우 , 최호식 (2011), R 을 이용한 데이터마이닝 , 교우사

박한우 , Leydesdorff, L.(2004), 한국어의 내용분석을 위한 KrKwic 프로그램의 이해와 적

용 :

Daum.net 에서 제공된 지역혁신에 관한 뉴스를 대상으로 , Journal of the Korean Data

Analysis Society , Vol,6(5)

이지연 역 (2013), 빅데이터 : 빅데이터가 만드는 세상 , 21세기북스 , Viktor Mayer-

Schönberger,

Kenneth Cukier (2013), Big Data: A Revolution That Will Transform How

We Live,

Work, and Think, JohnMurrayPublishers,Ltd.

전채남 , 서일원 (2013), 빅데이터 분석의 기술마케팅 활용에 관한 연구 : 잠재 수요기업 발굴을

중심

으로 , 마케팅논집 58호 , pp.181-203

정근하 (2011), 텍스트마이닝과 네트워크분석을 활용한 미래예측 방법 연구 ,

한국과학기술기획평가원

허준 , 최병주 (2001), 클레멘타인을 이용한 데이터마이닝 , 허준 , 최병주 , SPSS 아카데미

Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., Bril-

liant, L.,(2009),

Detecting influenza epidemics using search engine query data, Nature

457,

http://dx.doi.org/10.1038/nature07634

Rudin, C., Passonneau, R. J., Radeva, A., Dutta, H., Ierome, S., Isaac, D.,

(2010), A process for

predicting manhole events in Manhanttan, Mach Learn 80, pp.1-31