12
ANOVA 분산분석 개념 및 기초 인과관계 casual relationship X=>Y Y 종속변수, 반응변수, 내생변수 용어 실험단위: 처리(실험조건, 요인 수준)가 가해지는 최소단위 X 설명변수, 독립변수, 요인(처리효과), 내생변수 관찰단위: 개체의 최소단위 반응(response): 관심 대상의 측도, output, Y 요인(factor): 제어 가능하며 반응에 영향을 주는 인자, X’s 회귀분석의 설명변수에 해당 Y X 범주형 측정형 회귀분석의 설명변수에 해당 수준(level): 실험에 사용되는 요인의 값 범주형이거나 실험에서 설정된 측정형 값 측정형 로지스틱 회귀분석 회귀분석 범주형 교차분석 분산분석 제어 요인(Controllable Factors) DOE Design of Experiment (실험설계) 관심 대상에 대한 정보를 얻기 위한 계획된 테스트나 관측 절대실험 absolute experiment: 3G 서비스에 대한 고객 만족도 제어 요인(Controllable Factors) X 1 X 2 X p 요인 현상을 관찰(관측)하여 관심 대상에 어떤 현상이 나타나는지 분석 비교실험 comparative experiment: 기존 마케팅 전략과 새로운 마 케팅 전략 비교 관심 현상에 영향을 요인(factor)을 조절하여 반응 변화 분석 Inputs Outputs Y=X’s+E 실험 Control vs. Experimental group Placebo 효과 Pre and Post test 비제어 인자(Uncontrollable Factors) Z 1 Z 2 Z q http://wolfpack.hnu.ac.kr 한남대학교 통계학과 권세혁교수 Statistics for Business and Economics (Spring, 2008) 95

분산분석개념및기초 ANOVA - Hannam Universitywolfpack.hannam.ac.kr/Spring2008/S4BE08/ANOVA 20080602.pdf · 2020. 11. 19. · One-Way ANOVA 개념 ANOVA `분산분석이란

  • Upload
    others

  • View
    19

  • Download
    0

Embed Size (px)

Citation preview

  • ANOVA분산분석 개념 및 기초

    인과관계 casual relationship X=>Y

    Y 종속변수, 반응변수, 내생변수

    용어

    실험단위: 처리(실험조건, 요인 수준)가 가해지는 최소단위

    X 설명변수, 독립변수, 요인(처리효과), 내생변수 관찰단위: 개체의 최소단위

    반응(response): 관심 대상의 측도, output, Y

    요인(factor): 제어 가능하며 반응에 영향을 주는 인자, X’s

    회귀분석의 설명변수에 해당

    YX

    범주형 측정형

    회귀분석의 설명변수에 해당

    수준(level): 실험에 사용되는 요인의 값

    범주형이거나실험에서 설정된 측정형값

    측정형로지스틱회귀분석

    회귀분석

    범주형 교차분석 분산분석

    제어 요인(Controllable Factors)

    DOE Design of Experiment (실험설계)

    관심 대상에 대한 정보를 얻기 위한 계획된 테스트나 관측

    절대실험 absolute experiment: 3G 서비스에 대한 고객 만족도

    제어 요인(Controllable Factors)

    X1 X2 … Xp 요인

    현상을관찰(관측)하여 관심 대상에 어떤현상이 나타나는지 분석

    비교실험 comparative experiment: 기존 마케팅 전략과 새로운 마케팅전략 비교

    관심현상에 영향을 요인(factor)을조절하여 반응 변화 분석

    Inputs Outputs

    Y=X’s+E실험

    Control vs. Experimental group

    Placebo 효과

    Pre and Post test …

    비제어 인자(Uncontrollable Factors)

    Z1 Z2 Zq

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)95

    ( )

  • ANOVADOE 기본 원리

    실험설계원리

    Randomization (랜덤화): 실험단위의 배정과 실험순서 랜덤하

    데이터형태

    반응: 측정형, 회귀분석 종속변수와 동일 개념게 결정 실험의 객관성 보장 . (예) 농지 6개, 비료 (A, B, C)

    Replication(반복): 동일 처리를 2개 이상의 실험단위에 가함실험오차 계산

    Blocking(블록화): 랜덤화 불가능, 실험의 정도를 높인다

    요인: 범주형, 측정형인 경우 몇 개 값을 수준으로

    요인유의성? (요인 하나, 수준 3개인 경우)

    응치 차 있각 수준 반응치 평균 차이가 있나? 세 집단 이상 집단 간 평균비교

    두집단 평균 차이검정: t-검정

    각 수준의 분포가(적어도 분산) 동일해야 가능하다.

    두집단 평균 비교의등분산 가정과 동일

    C B A

    A B C

    반응치 response

    전체평균+처리효과(Σ주효과+Σ교호효과)+(블록효과+)+(실험오차)

    분산분석에서는분산 차이: Bartlett 검정

    ijkijkjiijkY εαββαμ ++++= )(

    μ

    용어

    주효과 (main effect): 요인이 반응변수에 미치는 영향

    교호효과 ( ff ) 인자의 결합조건이 반응변수에 미

    ijkijkjiijkY εαββαμ ++++ )(

    교호효과 (interaction effect): 인자의 결합조건이 반응변수에 미치는 영향

    교락(confounding): 두 개 이상의 효과를 분리할 수 없는 경우μ1 μ2 μ3

    Y

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)96

    ijiijY εαμ ++=

  • ANOVAOne-Way ANOVA 개념

    분산분석이란

    반응의 변동을 분해

    총변동분해(decomposition)

    모형: Yij=μ+αi+eij (요인이 하나인 경우, 일원분산분석)

    요인에의한 설명 변동 + 오차변동

    집단(수준) 내(within) 변동

    2집단(수준) 간(between) 변동

    3총변동 (Total Sum of Squares)

    j j

    i=3, j=(1, 2, 3), (1, 2, 3), (1, 2, 3, 4) => 총 표본 개수 n=10

    총변동(SST: Total SS) ∑∑ −i j

    ij YY2)(

    3총변동 (Total Sum of Squares)

    총변동3=SSB 2 + SSW 집단간 변동(SSB: Between SS)

    SSA :요인 A 변동

    요인각 수준의 평균차이Between SST

    i j

    ∑∑ −i j

    i YY2

    . )(

    집단내 변동(SSW: Within SS)

    SSE: 오차변동

    Between Sum of Squares ∑∑ −

    i jiij YY

    2. )(

    요인 유의성?

    요인설명 변동의 크기의유의성 검정: F-검정

    Within Sum of Squares

    .2Y.3Y

    Y요인수준별 반응 평균의차이가 크면 요인은 반응변수에 영향을 준다.

    사후검점 Post-Hoc

    수준(1) 수준(2) 수준(3)

    .1Y

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)97

    수준(1) 수준(2) 수준(3)

  • ANOVA분산분석표 ANOVA Table

    요인유의성

    귀무가설: μ1= μ2=…= μa (수준(집단)별 반응변수 평균은 동일하

    사후검정(post-hoc test)

    집단간(pairwise) 평균 차이, 집단 그룹간(contrast) 평균 차이다) α1= α2=…= αa=0

    집단이 2개이면 독립인 t-검정

    대립가설: 적어도 한 집단의 평균은 다르다.

    주효과, 교호효과 모두 각 수준별 평균 차이의유무 분석

    귀무가설: μi= μj (집단 i와 j의평균은 같다)

    대립가설: 집단 i의 평균과집단 j의평균은 다르다.

    분산분석 F-검정 결과에 관계 없이 시행

    다중비교 (multiple comparison), 평 다중비교 (multiple comparison)

    Tukey Honestly Significant Difference(자연과학)

    Scheffe(사회과학), Dunnett (control 집단과 비교)

    Fihser / Bonferroni Least Significant Difference (1종 오류 높음)

    변동 자유도 SS MS F

    Between (요인 A) a-1 SSA(=SSB) MSB=SSB/(a-1)

    F=MSB/MSEWithin (오차) n-a SSE(=SSW) MSE=SSE/(n-a)

    (MSE는 σ2 추정치)Total (총) n-1 SST

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)98

  • ANOVA예제 ( SHIP.XLS)

    데이터설명

    유람선 운영 S 사는 배의 크기에 따른 고객 만족도 점수의 차이가있는지 알아보기 위한 조사, 배 크기별로 8개 유람선 임의 추출, 각유람선 탑승 고객의 평가 점수를 평균한 측정치

    In SPSS 한열마다 변수: 평가점수그리고 그룹

    분산분석절차

    상자-수염 그림

    이상치제외, 이분산(?) 너무 차이가 나면 데이터 재수집

    분산분석: F검정

    다중비교: Scheffe, Tukey 방법

    주효과, 교차효과 평균 도표 그리기

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)99

  • ANOVASPSS 절차 및 결과

    나무상자그리기100.00

    90.00평가

    크기 small인집단(배)에 이상치 존재 => 제거 후 분산분석

    메뉴

    평균 비교에 “일원배치분산분석” 있지만 80.00

    가점수

    평균 비교에 “일원배치분산분석” 있지만…

    L M S

    그룹

    80.00

    S

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)100

  • ANOVASPSS 절차 및 결과 (2)

    프로파일 도표: 집단간 평균 출력평가점수의 추정된 주변평균

    95.00

    92.50

    90.00

    87.50

    추정

    된 주

    변평

    사후검정 메뉴SML

    그룹

    85.00

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)101

  • ANOVASPSS 절차 및 결과 (3)

    옵션메뉴

    결과해석

    F검정 (유의확률=0.003)

    배의크기에 따른 평가점수의 차이 있음배의크기에 따른 평가점수의 차이 있음

    다중 비교

    (S, L) 집단 차이만유의

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)102

  • ANOVA이원분산분석 (Two-way ANOVA)

    요인설계: Factorial Design

    예제중심

    가솔린 종류(A, B, C)와 첨가제(1, 2, 3, 4)에 따른 연비의 차이가있는 알아보기 위하여 동일 차종 24대를 이용하여 (물론 차에 의한 차이도 있을 것이라 생각되지만 무시한다) 측정한 결과이다.

    첨가제가솔린 1 2 3 4

    A 27.4 28.6 33 32 33.5 32.3 30.8 29.7

    B 33.3 34.5 35.6 34.4 33.4 33.1 29.6 30.6

    C 33 33 5 34 7 33 3 33 32 28 6 29 8

    메뉴

    C 33 33.5 34.7 33.3 33 32 28.6 29.8

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)103

  • ANOVA이원분석 결과

    연비의 추정된 주변평균

    35.00

    34.00 3

    2

    1

    첨가제

    연비의 추정된 주변평균

    33.00

    32.00

    주변

    평균

    4

    31.00

    30.00

    추정

    된 주

    CBA

    가솔린

    29.00

    28.00

    가솔린

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)104

  • ANOVA이원분석 결과(2)

    평균프로파일과평균출력비교

    #1 NFL2.XLS

    HW #13 Due 2008.06.05

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)105

  • ANOVAHW #13 Due 2008.06.05

    #2 Resorts.XLS#3

    #4

    http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

    Statistics for Business and Economics (Spring, 2008)106