33

분석주제및목적 - mba.kookmin.ac.kr · * 상의정, 정창권, 이하정, 한용구, 이영구. (2016). 야구기록과뉴스데이터를활용한타격예측모델. 한국정보과

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

분석 주제 및 목적

추진 내용

추진 결과

맺음말 후기

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

인공지능 + 시뮬레이션

인공지능 다양한 통계 수치

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

➢ 3할 5푼 7리의 평균타율을 가진 타자가 이 상황에서도 저 확률로 안타를 칠 수 있을까?1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

사용 변수비교

❖ 다양한 통계적 변수들을 사용❖ 지수나 회귀식을 구하는 용도❖ 시뮬레이션 시 점수 변화폭 큼❖ 기계학습의 경우

- 통계적 변수만을 활용- 시뮬레이션에 활용X

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

VS

❖ 다양한 상황별 조건변수 사용❖ 정적인 통계수치가 아닌 매순간

상황에 따라 변하는 유동적 수치사용

❖ 가장 현실에 근접한 시뮬레이션가능

3. 상황을 학습할 수 있는 분석체계 마련4. 예측결과를 토대로한 경기 시뮬레이션

5. 최종결과 도출 및 시각화

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

KBO 기록실 (선수기록)출처 : https://www.koreabaseball.com/Record/Player/HitterBasic/Basic1.aspx

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

선수기록출처 : http://www.kbreport.com/leader/main?rows=20&order=oWAR&orderType=DESC&teamId=&defense_no=&year_from=2017&year_to=2017&gameType=&split01=&split02_1=&split02_2=&r_tpa_count=1000&tpa_count=1000#

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

시즌기록출처 : http://www.statiz.co.kr/stat.php

분석주제 및 목적

* 기존에 국내 야구 데이터를 기반한 경기 예측 혹은 시뮬레이션 관련 연구는 활발히 진행중.

- 그러나 팀별, 선수별 요약된 수치에 기반(KBO 기록실, SPORT2i)

-> 경기의 상황보다는 선수나 팀의지표(계수 개발)에 치중한 기존 선행연구

* 경기의 상황을 보고자 한 연구 있었으나, 연구자가 직접 방송관전으로 수기 기록/수집

(253건으로 연구 진행)

-> 객관적인 수집 체계 부족, 양적 한계 존재

경기 자체를 잘 반영하는 상황별 데이터 필요

+ 일관된 데이터 기반 연구 필요

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

분석주제 및 목적

1-1 선정 배경 및 필요성

1-2 주요 분석 절차

1-3 사례조사 및 선행연구

* 허준회, 정태충. (1998). 프로야구 경기 예측 시뮬레이터에서의 역전파 알고리즘을 이용한 투수 교체시기 예측 모듈개발. 한국정보과학회 학술발표논문집, 25(1B), 237-239.

-> 선수별 통계(1997 KBO)

* 김지원, 박상현, 방성우, 김재광, 이지형. (2010). 의사 결정 트리를 이용한 야구 경기 라인업 예측. 한국지능시스템학회 학술발표 논문집, 20(1), 93-95.

-> 선수별 통계(2008 KBO)

* 진승우, 김병철, 엄일규, 김영인. (2014). 「데이터마이닝 기법을 이용한 모바일 야구 투구 예측 게임 프로토타입 개발」. 한국정보기술학회논문지, 12(2), 135-143.

-> 사용 Data Set : 연구자 방송 관전 기록(253건)

* 오윤학, 김한, 윤재섭, 이종석. (2014). 데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구. 대한산업공학회지, 40(1), 8-17.

-> 선수별 통계(2013 KBO)

* 신규식, 이홍철. (2014). R 프로그램을 이용한 한국프로야구의 승리요인과 패턴분석. 대한산업공학회 춘계공동학술대회 논문집, , 819-824.

-> 선수별 통계(2013 KBO)

* 김종훈, 김경태, 한종기. (2015). 「Deep Learning 기반 기계학습 알고리즘을 이용한 야구 경기 Big Data 분석」. 한국통신학회 학술대회논문집, , 262-265.

-> 팀별, 선수별 기록(1982-2015, K-ICT 빅데이터, KBO, SPORT2i)

* 박대서, 김화종. (2016). 야구 데이터 분석을 통한 데이터 축소 방안 연구. 한국통신학회 학술대회논문집, , 244-245.

-> 선수별 기록(2015 STATIZ)

* 상의정, 정창권, 이하정, 한용구, 이영구. (2016). 야구 기록과 뉴스 데이터를 활용한 타격 예측 모델. 한국정보과학회 학술발표논문집, , 2020-2022.

-> 선수별 기록(MLB 선수별 종합)

분석주제 및 목적

타순Home(삼성)

타순Away(한화)

1 박해민 1 정근우

2 김상수 2 하주석

3 구자욱 3 송광민

4 러프 4 김태균

5 이승엽 5 로사리오

6 이정혁 6 이성열

7 김현곤 7 이동훈

8 정병곤 8 허도환

9 이지영 9 장민석

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

타순Home(삼성)

타순Away(한화)

1 박해민 1 정근우

2 김상수 2 하주석

3 구자욱 3 송광민

4 러프 4 김태균

5 이승엽 5 로사리오

6 이정혁 6 이성열

7 김현곤 7 이동훈

8 정병곤 8 허도환

9 이지영 9 장민석

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

최적의 변수를 추출출루 여부 결정

✓ 단 두개의 변수만 사용 -> 데이터에 따라 주요 변수 추출 불가✓ 선수마다 출루여부를 결정하기 위한 Decision Tree를 각각 생성해야 함

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

실제 상황 결과

타자 상대팀상대투수

홈어웨이

선발타순

이닝타순

총 투구수 실제 예측

민병헌 한화 배영수 Away 6번타자 1번타자 20개 미만 아웃 아웃

정수빈 한화 배영수 Away 5번타자 2번타자 20개 미만 아웃 아웃

김경언 두산 마야 Home 7번타자 3번타자 20개 미만 볼넷 1루타

주현상 두산 마야 Home 3번타자 3번타자 40개 미만 1루타 1루타

조인성 두산 마야 Home 2번타자 4번타자 40개 미만 1루타 1루타

타자상대팀

상대투수홈/어웨이선발타순이닝 타순총투구수

1루타2루타3루타홈런볼넷아웃

병살타

➢ 1st layer Activation : ‘Relu’

➢ 1st layer Dropout rate : 0.5

➢ 2nd layer Dropout rate : 0.5

➢ 2nd layer Activation : ‘Relu’

➢ 3rd layer Dropout rate : 0.5

➢ 3rd layer Activation : ‘Relu’

➢ 4th layer Activation : ‘softmax’

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

QuestionDecision

TreeDeep

Learning

N Y

N Y

Y N

N Y

N Y

N Y

N Y

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

사용 데이터 예시(2015년 03월 12일 두산vs한화 1회초 두산 공격)

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

TXT 파일

일자별 저장(YYYYMMDD_AWAY_HOME)

1차 테이블 생성

사용 데이터 예시(2015년 03월 12일 두산vs한화 1회초 두산 공격)

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

3차 테이블 생성(학습용 Data Set)

2차 테이블 생성

세부 상황별 분석용 Data Set 사용

사용 데이터 예시(2015년 03월 12일 두산vs한화 1회초 두산 공격)

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

‘요청’, ‘인정’, ‘부정투구’,‘수비방해’ 등

사용 변수(상황)설명추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

변수명 변수 한글명 설명 예시

PLAYER_NAME 타자명 현재 타석에선 타자이름 이용규

BATTING_HAND 타자구분 타자의 주사용 타수구분 좌/우타

AGAINST_TEAM 상대팀명 상대 구단 명칭 한화

AGAINST_PITCHER 상대투수명 상대구단의 투수이름 배영수

PITCHING_HAND 투수구분 투수의 주사용 투수구분 좌/우투

HOME_AWAY홈/원정구분 두산구단 입장에서 홈구장인지,

원정구장인지 여부AWAY/HOME

PLAYER_ORDER 선발타순 당일 경기에서 지명된 타자의 순서 1~9번타자

INNING 이닝 이닝상황 5이닝

INNING_BATTING_ORDER이닝별 타순 1이닝동안 들어선 타자의 순번 1~10번 타자

OUT_CNT 아웃카운트 현재 아웃상황 0~2아웃

DIFF_SCORE_GRP 점수차 현재까지의 경기의 점수차 0,1/2,3/4,5/6,7/8점차 (±)

BAT_HIT루타 1개 루상까지 가기 위해

타격하는 안타0~15

CUM_PITCHING_CNT 투구수 한 투수가 연속적으로 던진 공의 수 20/40/60/80/100

HIT_OUT 출루구분 출루상황 결과 1/2/3루타, 홈런, 볼넷, 아웃, 병살타아웃

예측할 결과

69.41%

68.27%

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

Train on 44328 samples, validate on 18998 samples

0.8298

0.8638

1

2

3

4

9회 반복

실제 결과와 비교

예측:출루 예측:아웃

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

추진내용

2-1 목표 및 개념도

2-2 추천모형 및 변수선정

2-3 사용 데이터

2-4 검증방법 및 결과

가상시나리오1<실시간인공지능의사결정지원시스템>

추진 결과

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

야구계의알파고를꿈꾼다!!

가상시나리오2<스포츠토토추천시스템>

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

추진 결과

토토를지배하라!!

가상시나리오3<야구매니아층을위한족집게예언가>

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

추진 결과

족집게예언가야스트라다무스!!

애로사항및한계점

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

추진 결과

향후개선사항(1)

변수의 다양성

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

추진 결과

향후개선사항(2)

3-1 활용 시나리오

3-2 애로사항 및 한계점

3-3 향후 개선사항

추진 결과

맺음말 및 후기

문어영표는예언자!? OR 분석가?