Upload
fast-campus
View
134
Download
1
Embed Size (px)
Citation preview
Boosted Decision Tree를 사용한Lending Club의 채무자 원리금 상환
/ 상환실패 예측
Data Science School 2기
이성진
발표 개요
• 주제 선정 이유
• 의사결정 나무
• Ada Boost
• 모델 적용
• 결과
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
현실에서의 2가지 분류 문제들
주가의 상승 / 주가의 하락
스팸 / 비-스팸
마케팅 메일 응답 / 마케팅 메일 비응답
원리금 완납 / 완리금 완납 실패
주제 선정 이유
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
현실 세계에서의 2가지 Classification 사례들
주가의 상승 / 주가의 하락 ?
파산 / 상환
스팸 / 비-스팸
마케팅 메일 응답 / 마케팅 메일 비응답
원리금 완납 / 완리금 완납 실패
랜딩클럽 2016년 1분기 데이터
주제 선정 이유
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
데이터 전처리
데이터 전처리(재료손질)
-> 모델(요리법) 적용
(42538, 111)
데이터 전처리
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
(42538, 111)
(42506, 26)
데이터 전처리
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
(42538, 111)
(42506, 26)
(42506, 55)
데이터 전처리
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
의사결정나무
연소득 (>$30K)
취업 기갂(년) (>3)
주택 보유 여부
파산
y n
상환
과거 파산 여부
y n
파산
상환
y n
파산
y n
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
에이다부스트(Adaboost)
Step1:
각 분류모델의 성능에 따라
가중치 w 부여
Step2:
각 모델들을 가중치에 따라
결합하여 새로운 모델 4 생성
W1*Model1 +
W2*Model2 +
W3*Model3
= > New model 4
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
Performance and Result
데이터사이언스스쿨 이성진 (github.com/lsjhome007)
감사합니다.
데이터사이언스스쿨 이성진 (github.com/lsjhome007)