본문 바로가기
things/IT

2. 평균 비교_평균 분석, T검정(일표본,독립, 대응), 분산 분석(일원배치, 이원배치, 다원배치-> 사후분석)

by ooook 2021. 10. 21.
728x90

 

 

 

자료의 유형에 따른 분석 방법의 결정

  독립변수
범주형 연속형
종속변수 범주형 교차분석 로지스틱 회귀(시험에 안나옴)
연속형 T검정분산분석 상관분석, 회귀분석

 

독립변수: 범주형

종속변수: 연속형

 

 

집단의 수가 2개인 경우 = T검정

  • 집단이 1개=> 일표본 T검정
  • 집단이 2개 두 집단이 서로 독립인지=>독립표본 T검정
  • 집단이 2개 서로 짝을 이루고 있는지=> 대응표본 T검정

집단이  3개이상 = 분산분석

  • 집단을 나타내는 변수인 요인의 수가 1개=> 일원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 2개=> 이원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 3개=> 다원배치 분산분석 -> 사후분석

 

(1) 평균분석

(2) 일표본 T검정 => 특정 변수에 대한 각 그룹별 기술통계량 구함

 

(3) 독립표본 T검정

(4) 대응표본 T검정 => 두 집단의 모평균 비교에 사용됨

 

(5) 독립표본 T검정과 대응표본 T검정 비교

 

(6) 일원배치 분산분석 => 세 집단 이상의 모평균 비교에 사용됨

(7) 일원배치 분산분석에서 분산의 동질성 검정

(8) 사후분석

 

 

 

 

 

(1) 평균분석

특정변수에 대한 각 그룹별 기술통계량(그룹별 평균, 표준편차, 케이스 수, 합계, 전체 합계%, 전체 케이스 수 등)을 구할 때 사용한다.

그룹으로 분류되어 있는 변수를 독립변수로 지정하고

각 그룹별로 기술통계량을 구할 특정변수를 종속변수로 지정하여

각 그룹별 기술통계량을 서로 비교할 때 사용한다

 

1) 분석-평균비교-평균 분석

2) 독립변수= 형식, 종속변수=관리비

3) 옵션에서 셀 통계량으로 평균, 케이스 수, 표준편차, 합계, 전체 합계의 퍼센트 선택

 

 

1) 분석-평균비교-평균 분석

2) 독립변수= 방향, 종속변수=전기료, 수도료, 가스비

 

3) 옵션에서 셀 통계량으로 평균 선택

 

 

 

 T검정

집단의 수가 2개인 경우 = T검정

  • 집단이 1개=> 일표본 T검정
  • 집단이 2개 두 집단이 서로 독립인지=>독립표본 T검정
  • 집단이 2개 서로 짝을 이루고 있는지=> 대응표본 T검정

집단이  3개이상 = 분산분석

  • 집단을 나타내는 변수인 요인의 수가 1개=> 일원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 2개=> 이원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 3개=> 다원배치 분산분석

 

(2) 일표본 T검정 

 

표본집단이 하나일 경우 사용

특정 변수에 대한 각 그룹별 기술통계량 구함

 

1) 귀무가설, 대립가설 설정

2) 분석- 평균 비교-일표본T검정<아파트 하나>

3) 아파트의 관리비가 달라지는 지

    검정변수=관리비, 검정값=220

4) 옵션에서 신뢰구간 90%로 설정

5) 일표본T검정 결과 

 

유의수준 0.10(신뢰도90%)  < 유의확률P값  0.221 => 귀무가설 채택

즉, 유의수준 10%하에서 아파트 관리비의 평균은 200천원이다

 

6) 90%의 신뢰구간을 구하기 위해서는

일표본T검정 검정값 220->0으로 변환

상한 228.12 하한 218.80으로 신뢰구간은 ( 228.12,  218.80)

 

(3) 독립표본 T검정 

두 집단 간의 모평균에 차이가 있는지 없는지를 검정하고자 

 

두 집단이 서로 독립인지=독립표본 T검정

서로 짝을 이루고 있는지= 대응표본 T검정

 

1) 귀무가설, 대립가설 설정하기

2) 분석-평균 비교- 독립표본T검정<영업부, 관리부>

3) 부서<영업부, 관리부>에 따라 근무연수에 차이가 있는지

   검정변수= 근무연수, 집단변수=부서 

4) 집단 정의에서 집단1=1, 집단2=2

5) 독립표본 검정 결과

유의수준 0.05(신뢰도95%)  < 유의확률P값  0.535 => 귀무가설 채택

즉, 유의수준 5%하에서 부서에 따라 근무연수에 차이가 없다

 

1) 귀무가설, 대립가설 설정하기

2) 분석-평균 비교- 독립표본T검정<사원, 팀장, 차장>

3) 직위<사원, 팀장, 차장>에 따라 만나는 사람 수에 차이가 있는지

   검정변수= 만나는 사람 수, 집단변수=직위 

4) 집단 정의에서 집단1=1, 집단2=2, 집단3=3

5) 독립표본 검정 결과

유의수준 0.01(신뢰도99%) > 유의확률P값  0000 => 귀무가설 기각

즉, 유의수준 5%하에서 부서에 따라 근무연수에 차이가 있다

 

(4) 대응표 T검정 

독립표본T검정은 두 집단이 각각 정규분포를 따르고 서로 독립이라는 가정하에 두 집단 간 모평균에 차이가 있는지 검정한다

하지만 대응표본T검정은 두 집단이 서로 독립이라는 가정을 필요X, 서로 짝을 이룬 자료일 때 두 집단 간 모평균에 차이가 있는지 검정

 

 

1) 우선 데이터에 결측값처리

자습시간=99, 토론후 국어와 수능=999로 결측값 수정

1) 귀무가설과 대립가설 설정

2) 분석- 평균 비교- 대응표본T검정

3) 대응변수= 토론후국어, 토론전국어 < 대응되는 두 변수>

 

4) 대응표본T검정 결과

유의수준 0.05 > 유의확률 0.00 => 귀무가설 기각

 

즉, 토론식 수업 전과 후의 국어점수의 평균에 차이가 있다

 

 

 

(5) 독립 표 T검정 vs 대응표 T검정 

독립표본T검정의 예>

도시지역과 시골지역의 평균 가족 수에 차이가 있는지

흑인과 백인 간의 지능지수에 차이가 있는지

대졸사원의 성별에 따라 월별 초임에 차이가 있는지

 

대응표본T검정의 예>

동일한 운전자에게 기존 휘발유와 새로 개발한 휘발유의 평균 주행거리에 차이가 있는지

10명의 학생들에게 새로운 교육법을 실시하여 이전 성적과 이후 성적이 같은지

오른발에는 새로 산 운동화 왼발에는 기존 운동화를 신고 걸은 후 운동화의 마모도가 같은지 

 

 

 

 

 

 

 

(6) 일원배치 분산분석

집단의 수가 2개인 경우 = T검정

집단의 수가 3개이상 = 분산분석

  • 집단을 나타내는 변수인 요인의 수가 1개=> 일원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 2개=> 이원배치 분산분석
  • 집단을 나타내는 변수인 요인의 수가 3개=> 다원배치 분산분석

 

(7) 일원배치 분산분석에서
분산의 동질성 검정

 

1) 귀무가설과 대립가설 설정

2) 분석-평균 비교- 일원배치 분산분석

3) 종속변수=수선유지비, 요인=형식

4) 옵션에서 분산 동질성 검정 선택

5) 분산분석 동일성 검정 결과

유의수준 0.05  < 유의확률 0.283(동질성 유의확률) => 귀무가설 채택

즉, 유의수준 5%이하에서 아파트 형식별 수선유지비의 모분산은 같다

 

6) 일원배치 분산분석  결과

유의수준 0.05 > 유의확률 0.000 (동질성 유의확률) => 귀무가설 기각

즉, 유의수준 5%이하에서 아파트 형식에 따라 수선유지비에 차이가 있다

 

(7) 사후분석(다중비교)

분산분석에서 세 개 이상의 집단을 고려하는 경우

귀무가설은 각 집단에 대한 모평균이 모두 같다

분산분석 결과 귀무가설이 기각되어도 적어도 한 쌍의 모평균이 같지 않다고 판단되는 경우에
'어느 집단의 모평균 사이에 차이가 있는지'를 분석하기 위한 방법

 

1) 분석-평균 비교- 일원배치 분산분석

2) 사후분석에서 Turkey 방법,  Scheffe, LSD 3가지 체크 후

영가설 검정에서 사후분석 검정에 대한 유의수준 지정을 확인

Turkey 방법

유의수준 0.05  >  유의확률 0.00 => 계단형과 복층형/ 복도형과 복층형 차이가 있다, 

Scheffe

유의수준 0.05  < 유의확률 0.181 => 계단형과 복층형/ 복도형과 복층형  차이가 있다

LSD

유의수준 0.05  < 유의확률 0.181 => 계단형과 복층형/ 복도형과 복층형  차이가 있다

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90