목차
1. 통계학이란 무엇인가?
통계학의 정의
- 관심 또는 연구의 대상이 되는 모집단의 특성을 파악하기 위해
- 모집단으로부터 일부의 자료(표본) 수집
- 수집된 표본을 정리, 요약, 분석하여 표본의 특성 파악
- 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문
통계학의 기본용어
변수와 자료
- 정보: 일상생활에서 접하는 사실과 현상을 의미를 가지는 것을 변환한 것
- 양적정보: 숫자로 표현할 수 있는 사실이나 현상 (국민총생산, 주가, 이자율 등)
- 질적정보: 성질 또는 특성을 나타내는 사실과 현상 (성별, 취미, 선호도 등)
- 변수: 숫자로 표현된 정보 중 그 값이 변화하는 것
- 양적변수: 숫자로 표현할 수 있는 변수 (시험성적, 키, 몸무게 등)
- 질적변수: 번주로 나타낼 수 있는 변수. 범주를 숫자화하여 보여줄 수 있음( 예를 들어 남자는 1, 여성은 0)
- 자료: 관심이 있는 변수의 실제 관측한 값들의 집합
모집단 (population)
- 모집단: 연구대상이 되는 모든 개체의 집합 (전체 대상의 속성이 모집단이 되기도 함)
- 모집단의 한계: 대부분의 모집단은 매우 커서 전체를 조사하는 것이 불가능한 경우가 많다.
표본 (sample)
- 표본: 모집단에서 선택된 일부의 개체
- 모집단의 전수 조사가 힘들기 때문에 표본을 조사하고 이를 통해 모집단의 특성 추론
- 확률표본추출
단순무작위 표본추출 (random sampling) |
모집단으로부터 표본을 균등한 확률로 추출하는 것으로 난수표나 엑셀의 함수 등을 이용한다. - 장점: 모집단에 대한 자세한 지식 불필요, 분류에 따른 오류 가능성 제거 가능 - 단점: 다른 표본추출절차에 비해 표본오차가 높아지는 경향이 있다. |
체계적 표본추출 (계통추출, systematic sampling) |
표본 프레임에 배열된 구성요소들의 목록에서 일정한 간격으로 개체를 추출하는 방법. 표본추출간격은 표본크기로 나누어 결정 - 장,단점 랜덤샘플링과 동일 |
층화 표본추출 (stratified sampling) |
모집단을 서로 겹치지 않는 몇 개의 집단으로 분류한 후, 각 집단에서 배정된 표본을 단순무작위 표본추출 방법에 따라 추출하는 방법으로 실제 표본설계에서 널리 이용된다. - 표본크기가 크지 않아도 모집단의 대표성 보장 - 단순임의추출 또는 계통추출보다 불필요한 자료의 분산 축소 가능 - 전체 모집단에 대한 추정뿐만 아니라 각 층별 추정결과도 얻을 수 있다. |
집락 표본추출 (cluster sampling) |
모집단을 서로 인접한 기본단위들로 묶어 집락을 구성하여 먼저 집락을 추출하고, 추출된 집락 내의 일부 또는 전체를 조사하는 방법 |
- 비확률표본추출: 확률표본추출이 불가능하거나 시간과 비용이 매우 많이 드는 경우에 사용. 방법으로는 간편추출법, 판단추출법, 할당추출법, 눈덩이표본추출법이 있다.
2. 자료의 척도와 형태
자료의 척도
- 척도: 조사 대상을 측정하기 위해 부여한 숫자간의 관계
명목척도 | 측정대상이 어느 집단에 속하는지 분류하는 경우에 사용 - 성별 구분, 주거유형 구분 등 |
서열척도 | 측정대상들을 비교하기 위해 특성의 대소의 서열에 따라 수치를 부여한 척도 - 소득계층, 리커트 척도 등 |
등간척도 | 순위를 부여하고 순위 사이의 간격이 동일하여 양적인 비교가 가능한 척도 - 온도계 수치, 리커트 척도 등 |
비율척도 | 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하고 두 측정값의 비율이 의미를 지니는 척도 - 거리, 무게, 시간 등 |
자료의 형태
- 자료의 형태에 따라 분석방법이 다르다
양적자료 | 자료의 크기나 양을 숫자로 표현할 수 있는 자료 - 셀 수 있는 정수값으로 표현되는 이산형 자료 (자녀수 등) - 연속적인 양으로 표현되는 연속형 자료 (키, 몸무게 등) |
질적자료 | 원칙적으로 숫자로 표시될 수 없는 자료 - 범주형 자료 (직업, 거주지 등) - 순서형 자료 (교육수준 등) |
- 측정척도의 유형에 따라 자료 형태를 구분하면 다음과 같다.
양적자료 | 비율척도, 등간척도로 측정된 자료 |
질적자료 | 서열척도, 명목척도로 측정된 자료 |
3. 기술통계분석
기술통계학과 추리통계학
- 기술통계학: 자료 수집을 통해 얻은 자료를 이용하여, 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제한 채 정보를 단순히 요약하고 기술하는 것 (평균, 분산, 비율, 최대값, 최소값, 상관계수 등)
- 추리(추론)통계학: 기술통계로 얻어진 데이터로부터 유용한 정보를 추출하는 것. (통계적 추정, 가설검정, 예측 등)
기술통계량을 이용한 자료분석 - 집중화경향(중심경향성)의 측정
- 자료가 어디에 집중되어 있는가를 하나의 대표적인 값으로 요약하여 나타내는 통계량 (평균, 중앙값, 최빈치 등)
평균 (mean)
- 자료의 값들을 모두 더하고 이를 자료의 개수로 나눈 값
import numpy as np # numpy 모듈(라이브러리)을 불러온다.
a = [1,2,3,4,5,100] # 데이터를 리스트 변수로 설정한다.
np.mean(a)
중앙값 (median)
- 자료의 값들을 순서대로 나열했을 때 중앙에 위치한 값
- 평균에서 극단적으로 벗어난 값이 포함되어있는 경우 유용
- 관측값의 개수가 홀수인 경우 (n+1)/2번째 값, 짝수인 경우 n/2번째 값과 n+2/2번째 값의 평균
np.median(a)
최빈치 (mode)
- 자료에서 가장 빈도가 높은 값
import numpy as np # numpy 모듈(라이브러리)을 불러온다.
from scipy import stats # scipy 모듈에서 stats를 불러온다.
b = [1,2,3,4,5,5,100]
m = stats.mode(b)
print(m)
산포경향의 측정
- 자료가 어느정도 흩어져 있는지를 나타내주는 산표 경향을 아는 것이 매우 중요하며, 이를 측정하는 대표적인 통계량은 분산, 표준편차, 범위, 4분위범위, 왜도, 첨도 등이 있다.
분산 (variance)
- 평균을 중심으로 자료의 흩어진 정도를 측정하는 척도
- 관측값과 평균의 차이인 편차를 제곱한 것을 관측값의 총수로 나눈 것
import numpy as np
b = [1,2,3,4,5,5,100]
vp = np.var(b)
표준편차
- 분산에 양의 제곱근을 취한 것
sd = np.std(b) # 리스트인 b의 표준편차를 sd라는 변수로 설정한다.
4분위수
- 측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값
퀀타일25 = np.percentile(b, 25)
퀀타일75 = np.percentile(b, 75)
4. 확률
표본공간과 사건
- 표본공간: 실험에 의해 나타날 수 있는 가능한 모든 결과들의 집합
- 이산형 표본공간: 표본공간의 원소개수가 유한개이거나 무한하지만 셀 수 있을때 (ex. 정상품or불량품)
- 연속형 표본공간: 표본공간의 원소개수가 무한하면서 셀 수 없을때 (ex. 배달음식이 배달되는데 걸리는 시간)
- 사건: 몇 개의 원소들로 이루어진 표본공간의 부분집합
확률
- 어떤 사건이 일어날 가능성의 척도를 측정하는 숫자로 0과 1 사이의 값으로 표시
확률의 고전적 정의
- 이산형 표본공간에서 확률 정의
- P(A) = 사건 A에 속하는 원소의 수 / 표본공간의 전체 원소의 수
- 연속형 표본공간에서 확률 정의
- P(A) = 사건 A에 속하는 원소에 대한 측도(길이, 면적, 부피 등) / 표본공간의 전체 원소에 대한 측도
확률의 상대도수적 정의
- 사건 A가 발생할 확률은 같은 조건하에서 수없이 반복 시행했을 때 사건 A가 발생하는 비율
- 반복시행을 할수록 고전적 정의에 의한 확률값에 근사하게 된다.
- 문제점: 현실에서 같은 조건하에서 통계적 실험을 무수히 반복시행하기 어렵다.
- 이러한 문제점을 극복하기 위해 확률을 상대도수의 극한 개념으로 파악하는 정의가 제안되었다.
조건부 확률과 독립성
- 조건부 확률: 실험에서 사전정보를 확률 계산에 이용하는 확률계산법
- 독립성: 두 사건이 다음의 조건 중 하나를 만족하면 두 사건을 서로 확률적으로 독립이라고 정의
5. 확률변수와 확률분포
변수와 확률변수
- 변수(Variable): 숫자로 표현되는 정보 중 그 값이 경우에 따라 변화되는 것
- 질적변수: 직접 숫자로 나타낼 수 없으나 남성은 1, 여성은0으로 코드화 하는 것과 같이 숫자로 표현하는 것
- 양적변수: 관측값이 하나의 숫자로 결정되나 그 값이 경우마다 다르게 결정되는 변수 (개인의 소득 등)
- 상수(Constant): 경우에 따라 변화하지 않고 고정되어 있는 값
- 확률변수: 무작위 실험을 하는 경우 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수
이산형 확률변수와 연속형 확률변수
- 이산형(discrete) 확률변수
- 변수가 취할 수 있는 값이 이미 정해진 숫자만 취할 수 있는 경우의 변수 (ex. 주사위)
- 이산점에서 0이 아닌 확률값을 가지며, 각 이산점에서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.
- 연속형(continuous) 확률변수
- 변수가 취할 수 있는 값이 어느 정해진 구간안의 어떤 임의의 값이라도 취할 수 있는 경우
- 특정한 실수 구간 내에서 0이 아닌 확률을 가지므로 이 구간에 대한 확률은 함수의 형태로 표현된다.
- 이때 확률함수 f(x)를 확률밀도함수라고 한다.
확률분포
- 원데이터 수집 -> 도수분포 그래프 작성 -> 확률분포 그래프 작성 (Y축을 비율로 표시)
이산확률분포(discrete probability distribution)
- 정수와 같은 비연속적인 값에 대한 분포
- 두 확률변수 값 사이에 중간 값X
- 수직 막대그래프의 모양으로 나타낸다.
- 베르누이(Bernoulli) 분포: 변수 X가 가지는 값이 0과 1뿐으로서 아래와 같은 식의 함수를 가질 때 변수는 베르누이 분포를 따른다고 한다.
- 베르누이 확률분포의 평균과 분산
- 이항(Binomial) 분포: 한정된 시행횟수 중 특정한 사건이 발생하는 횟수를 나타내는 분포
- 이항분포의 조건
- 시행시에는 두가지 결과만 나올 수 있다.
- 각 시행은 상호 독립적이다. 즉, 한 시행의 결과는 다음 시행의 결과에 아무런 영향을 주지 않는다.
- 특정 사건이 발생할 확률은 각 시행 시마다 동일하다.
- 성공적인 시행회수 X를 이항확률변수라 하고 X~B(n,p)를 수학식으로 표현하면 다음과 같다. (성공확률 P와 총 시행회수 n은 분포의 모수이다.)
- 포아송(Poisson) 분포: 정해진 시간, 거리, 혹은 장소에서 발생하는 특정한 사건의 횟수에 대한 분포
- 따라서 이항분포에서 p가 매우 작고 n이 점차로 커지는 경우에 이항분포의 근사분포로 볼 수 있다.
- 기본조건: 임의의 구간에서 발생 가능한 사건의 수 제한 없음, 사건 발생 서로 독립적, 평균 사건 발생 수는 매 구간에서 동일
- 예시: 특정 도시에서 하루동안 발생하는 교통사고 수, 문서에서 페이지당 오타 수 등의 확률분포
- 확률변수(X)는 X~Poisson(u)로 표현되며 사건이 k번 발생될 확률은 아래와 같다.
연속확률분포
- 정규분포: 좌우대칭이며 종 모양을 하고 있으며 평균과 표준편차로 모양이 결정되고 이때의 분포를 N(평균,표준편차^2)로 표기
- 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라고 한다
- 정규분포에서 확률변수 X의 확률밀도함수
- 로그정규분포: 어떤 확률변수 X의 로그 값이 정규분포를 이룰 때 X의 확률분포를 로그 정규분포를 따른다고 한다.
6. 표본분포와 추정
표본분포
- 모집단에서 표본 추출시, 반복 실험을 통해 각기 다른 표본이 추출되면 표본의 특성 값인 통계량도 달라지게 된다.
- 각각 다른 값을 가지는 통계량은 확률변수로 확률분포를 가지게 된다.
- 표본분포: 통계량의 확률분포
중심극한정리
- 모집단이 어떤 분포를 하여도 표본의 크기가 충분히 크면 표본평균의 표본분포는 정규분포에 근접하게 된다.
- 따라서 표본평균은 정규분포의 성질을 이용하여 아래와 같이 표준정규확률변수로 전환될 수 있다.
t 분포 (Student's t-distribution)
- 현실적으로 모평균에 대한 추론에서 표준정규확률변수를 구할 수 없을 때 확인
추정
- 표본으로부터 모집단을 추측하는 것을 통계적 추론이라고 하는데, 통계적 추론은 추정과 검정으로 구분된다.
- 추정: 표본으로 모집단에 대한 결론을 도출한 것
점 추정
- 모집단의 특성을 가장 근사한 단일한 값으로 추정하는 방법
- 모평균을 추정하는 가장 대표적인 점추정 방법: 모집단에서 무작위로 추출한 표본들의 평균값 추정
- 표본의 크기가 클수록 표본평균과 실제 모집단의 평균 일치할 확률 증가
구간 추정
- 모수를 특정값이 아닌 구간으로 나타내는 것
- 신뢰구간의 크기가 작을수록, 신뢰수준은 높을수록 정교한 추정이라고 볼 수 있다.
- 표본크기가 클수록 신뢰구간 줄일 수 있음
바람직한(좋은) 추정량
- 모집단의 평균, 중앙값, 최빈치, 분산 등의 실제값에 매우 가깝거나 그 주위에 집중되는 경향을 보이는 것
- 불편성(불편의성): 편의/치우침(추정량의 기대치와 모수의 차이)가 없는 성질
- 효율성(유효성): 추정량의 분산이 작게 나타나는 성질
- 일치성: 표본 크기가 커질수록 추정량이 모수에 점점 더 가까워지는 성질
7. 가설검정
- 가설검정: 모집단의 특성에 대해 가설을 설정한 다음 표본을 관찰하여 그 가설의 채택여부를 결정하는 통계분석방법
- 귀무가설(영가설): 처음부터 버릴 것을 예상하는 가설
- 대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
- 일반적으로 귀무가설, 대립가설을 설정하고 이를 검정하는 순서는 다음과 같다.
- 귀무가설을 만든다: 기호는 일반적으로 H0이다.
- 대립가설을 만든다: 기호는 일반적으로 H1이다.
- 검정통계를 만들고 측정한다.
- 의사결정을 한다.
가설검증의 기초개념
- 양측검정: 귀무가설(H0)이 등호(=)로 이루어진 경우
- 단측검정: 귀무가설(H0)이 부등호(<=, >=)로 이루어진 경우
- 검정통계량: 표준화된 추정값을 가설의 진위를 판단하는 수단으로 사용하므로 검정통계량이라고 지칭한다.
- ex) Z-통계량, t-통계량, F-통계량, 카이제곱 통계량 등
- 기각역: 통계적검정에서 판단의 기준이 되는 검정통계량값의 일정한 구역으로 유의수준으로 정해진다.
- 유의수준: 귀무가설이 참인데도 불구하고 기각할 확률. 1종 오류가 발생할 확률의 최대 허용 한계라고도 해석 가능
- 신뢰수준과 유의수준의 관계
- 유의확률: 귀무가설하에 주어진 관측값보다 벗어날 확률
- p-value가 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단. 귀무가설을 기각할 수 있다.
- 표본으로부터 계산한 검정통계량값으로 결정한 판단이 잘못될 가능성(오류)는 다음과 같이 구분된다.
통계적 검정
KICPA ALLDEMY (https://kicpa-alldemy.com/)의 재무빅데이터분석사2급 데이터베이스 강의를 학습하고 개인 학습용으로 정리한 글입니다.
'ETC > 각종정보' 카테고리의 다른 글
재무빅데이터분석사 2024년 시험일정 기출문제 강의 난이도 등 (1) | 2023.11.20 |
---|---|
[재무빅데이터분석사 2급] Python 정리 (0) | 2023.06.13 |
[재무빅데이터분석사 2급] 데이터베이스 정리 (0) | 2023.06.02 |
고수익 블로그 찾는 방법 + 티스토리 분석 사이트에서 인기글, 키워드 확인하기!! (0) | 2023.03.28 |
티스토리 시작할 때 세팅 - 콘텐츠, 스킨, 플러그인 등 (0) | 2023.03.05 |
댓글