[재무빅데이터분석사 2급] 기초통계 정리

1. 통계학이란 무엇인가?
- 통계학의 정의
- 통계학의 기본용어
2. 자료의 척도와 형태
- 자료의 척도
- 자료의 형태
3. 기술통계분석
4. 확률
5. 확률변수와 확률분포
6. 표본분포와 추정
- 표본분포
  - 중심극한정리
  - t 분포 (Student's t-distribution)
- 추정
7. 가설검정
- 가설검증의 기초개념
- 통계적 검정

1. 통계학이란 무엇인가?

통계학의 정의

관심 또는 연구의 대상이 되는 모집단의 특성을 파악하기 위해
모집단으로부터 일부의 자료(표본) 수집
수집된 표본을 정리, 요약, 분석하여 표본의 특성 파악
표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문

통계학의 기본용어

변수와 자료

정보: 일상생활에서 접하는 사실과 현상을 의미를 가지는 것을 변환한 것
- 양적정보: 숫자로 표현할 수 있는 사실이나 현상 (국민총생산, 주가, 이자율 등)
- 질적정보: 성질 또는 특성을 나타내는 사실과 현상 (성별, 취미, 선호도 등)
변수: 숫자로 표현된 정보 중 그 값이 변화하는 것
- 양적변수: 숫자로 표현할 수 있는 변수 (시험성적, 키, 몸무게 등)
- 질적변수: 번주로 나타낼 수 있는 변수. 범주를 숫자화하여 보여줄 수 있음( 예를 들어 남자는 1, 여성은 0)
자료: 관심이 있는 변수의 실제 관측한 값들의 집합

모집단 (population)

모집단: 연구대상이 되는 모든 개체의 집합 (전체 대상의 속성이 모집단이 되기도 함)
모집단의 한계: 대부분의 모집단은 매우 커서 전체를 조사하는 것이 불가능한 경우가 많다.

표본 (sample)

표본: 모집단에서 선택된 일부의 개체
모집단의 전수 조사가 힘들기 때문에 표본을 조사하고 이를 통해 모집단의 특성 추론
확률표본추출

단순무작위 표본추출 (random sampling)	모집단으로부터 표본을 균등한 확률로 추출하는 것으로 난수표나 엑셀의 함수 등을 이용한다. - 장점: 모집단에 대한 자세한 지식 불필요, 분류에 따른 오류 가능성 제거 가능 - 단점: 다른 표본추출절차에 비해 표본오차가 높아지는 경향이 있다.
체계적 표본추출 (계통추출, systematic sampling)	표본 프레임에 배열된 구성요소들의 목록에서 일정한 간격으로 개체를 추출하는 방법. 표본추출간격은 표본크기로 나누어 결정 - 장,단점 랜덤샘플링과 동일
층화 표본추출 (stratified sampling)	모집단을 서로 겹치지 않는 몇 개의 집단으로 분류한 후, 각 집단에서 배정된 표본을 단순무작위 표본추출 방법에 따라 추출하는 방법으로 실제 표본설계에서 널리 이용된다. - 표본크기가 크지 않아도 모집단의 대표성 보장 - 단순임의추출 또는 계통추출보다 불필요한 자료의 분산 축소 가능 - 전체 모집단에 대한 추정뿐만 아니라 각 층별 추정결과도 얻을 수 있다.
집락 표본추출 (cluster sampling)	모집단을 서로 인접한 기본단위들로 묶어 집락을 구성하여 먼저 집락을 추출하고, 추출된 집락 내의 일부 또는 전체를 조사하는 방법

비확률표본추출: 확률표본추출이 불가능하거나 시간과 비용이 매우 많이 드는 경우에 사용. 방법으로는 간편추출법, 판단추출법, 할당추출법, 눈덩이표본추출법이 있다.

2. 자료의 척도와 형태

자료의 척도

척도: 조사 대상을 측정하기 위해 부여한 숫자간의 관계

명목척도	측정대상이 어느 집단에 속하는지 분류하는 경우에 사용 - 성별 구분, 주거유형 구분 등
서열척도	측정대상들을 비교하기 위해 특성의 대소의 서열에 따라 수치를 부여한 척도 - 소득계층, 리커트 척도 등
등간척도	순위를 부여하고 순위 사이의 간격이 동일하여 양적인 비교가 가능한 척도 - 온도계 수치, 리커트 척도 등
비율척도	구간척도가 갖는 특성에 더해 절대적인 원점이 존재하고 두 측정값의 비율이 의미를 지니는 척도 - 거리, 무게, 시간 등

자료의 형태

자료의 형태에 따라 분석방법이 다르다

양적자료	자료의 크기나 양을 숫자로 표현할 수 있는 자료 - 셀 수 있는 정수값으로 표현되는 이산형 자료 (자녀수 등) - 연속적인 양으로 표현되는 연속형 자료 (키, 몸무게 등)
질적자료	원칙적으로 숫자로 표시될 수 없는 자료 - 범주형 자료 (직업, 거주지 등) - 순서형 자료 (교육수준 등)

측정척도의 유형에 따라 자료 형태를 구분하면 다음과 같다.

양적자료	비율척도, 등간척도로 측정된 자료
질적자료	서열척도, 명목척도로 측정된 자료

3. 기술통계분석

기술통계학과 추리통계학

기술통계학: 자료 수집을 통해 얻은 자료를 이용하여, 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제한 채 정보를 단순히 요약하고 기술하는 것 (평균, 분산, 비율, 최대값, 최소값, 상관계수 등)
추리(추론)통계학: 기술통계로 얻어진 데이터로부터 유용한 정보를 추출하는 것. (통계적 추정, 가설검정, 예측 등)

기술통계량을 이용한 자료분석 - 집중화경향(중심경향성)의 측정

자료가 어디에 집중되어 있는가를 하나의 대표적인 값으로 요약하여 나타내는 통계량 (평균, 중앙값, 최빈치 등)

평균 (mean)

자료의 값들을 모두 더하고 이를 자료의 개수로 나눈 값

import numpy as np		# numpy 모듈(라이브러리)을 불러온다.
a = [1,2,3,4,5,100]		# 데이터를 리스트 변수로 설정한다.
np.mean(a)

중앙값 (median)

자료의 값들을 순서대로 나열했을 때 중앙에 위치한 값
평균에서 극단적으로 벗어난 값이 포함되어있는 경우 유용
관측값의 개수가 홀수인 경우 (n+1)/2번째 값, 짝수인 경우 n/2번째 값과 n+2/2번째 값의 평균

np.median(a)

최빈치 (mode)

자료에서 가장 빈도가 높은 값

import numpy as np			# numpy 모듈(라이브러리)을 불러온다.
from scipy import stats		# scipy 모듈에서 stats를 불러온다.
b = [1,2,3,4,5,5,100]
m = stats.mode(b)
print(m)

산포경향의 측정

자료가 어느정도 흩어져 있는지를 나타내주는 산표 경향을 아는 것이 매우 중요하며, 이를 측정하는 대표적인 통계량은 분산, 표준편차, 범위, 4분위범위, 왜도, 첨도 등이 있다.

분산 (variance)

평균을 중심으로 자료의 흩어진 정도를 측정하는 척도
관측값과 평균의 차이인 편차를 제곱한 것을 관측값의 총수로 나눈 것

import numpy as np
b = [1,2,3,4,5,5,100]
vp = np.var(b)

표준편차

분산에 양의 제곱근을 취한 것

sd = np.std(b)		# 리스트인 b의 표준편차를 sd라는 변수로 설정한다.

4분위수

측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값

퀀타일25 = np.percentile(b, 25)
퀀타일75 = np.percentile(b, 75)

4. 확률

표본공간과 사건

표본공간: 실험에 의해 나타날 수 있는 가능한 모든 결과들의 집합
- 이산형 표본공간: 표본공간의 원소개수가 유한개이거나 무한하지만 셀 수 있을때 (ex. 정상품or불량품)
- 연속형 표본공간: 표본공간의 원소개수가 무한하면서 셀 수 없을때 (ex. 배달음식이 배달되는데 걸리는 시간)
사건: 몇 개의 원소들로 이루어진 표본공간의 부분집합

확률

어떤 사건이 일어날 가능성의 척도를 측정하는 숫자로 0과 1 사이의 값으로 표시

확률의 고전적 정의

이산형 표본공간에서 확률 정의
- P(A) = 사건 A에 속하는 원소의 수 / 표본공간의 전체 원소의 수
연속형 표본공간에서 확률 정의
- P(A) = 사건 A에 속하는 원소에 대한 측도(길이, 면적, 부피 등) / 표본공간의 전체 원소에 대한 측도

확률의 상대도수적 정의

사건 A가 발생할 확률은 같은 조건하에서 수없이 반복 시행했을 때 사건 A가 발생하는 비율
반복시행을 할수록 고전적 정의에 의한 확률값에 근사하게 된다.
문제점: 현실에서 같은 조건하에서 통계적 실험을 무수히 반복시행하기 어렵다.
이러한 문제점을 극복하기 위해 확률을 상대도수의 극한 개념으로 파악하는 정의가 제안되었다.

조건부 확률과 독립성

조건부 확률: 실험에서 사전정보를 확률 계산에 이용하는 확률계산법

독립성: 두 사건이 다음의 조건 중 하나를 만족하면 두 사건을 서로 확률적으로 독립이라고 정의

5. 확률변수와 확률분포

변수와 확률변수

변수(Variable): 숫자로 표현되는 정보 중 그 값이 경우에 따라 변화되는 것
- 질적변수: 직접 숫자로 나타낼 수 없으나 남성은 1, 여성은0으로 코드화 하는 것과 같이 숫자로 표현하는 것
- 양적변수: 관측값이 하나의 숫자로 결정되나 그 값이 경우마다 다르게 결정되는 변수 (개인의 소득 등)
상수(Constant): 경우에 따라 변화하지 않고 고정되어 있는 값
확률변수: 무작위 실험을 하는 경우 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수

이산형 확률변수와 연속형 확률변수

이산형(discrete) 확률변수
- 변수가 취할 수 있는 값이 이미 정해진 숫자만 취할 수 있는 경우의 변수 (ex. 주사위)
- 이산점에서 0이 아닌 확률값을 가지며, 각 이산점에서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.

연속형(continuous) 확률변수
- 변수가 취할 수 있는 값이 어느 정해진 구간안의 어떤 임의의 값이라도 취할 수 있는 경우
- 특정한 실수 구간 내에서 0이 아닌 확률을 가지므로 이 구간에 대한 확률은 함수의 형태로 표현된다.
- 이때 확률함수 f(x)를 확률밀도함수라고 한다.

확률분포

원데이터 수집 -> 도수분포 그래프 작성 -> 확률분포 그래프 작성 (Y축을 비율로 표시)

이산확률분포(discrete probability distribution)

정수와 같은 비연속적인 값에 대한 분포
두 확률변수 값 사이에 중간 값X
수직 막대그래프의 모양으로 나타낸다.
베르누이(Bernoulli) 분포: 변수 X가 가지는 값이 0과 1뿐으로서 아래와 같은 식의 함수를 가질 때 변수는 베르누이 분포를 따른다고 한다.

베르누이 확률분포의 평균과 분산

이항(Binomial) 분포: 한정된 시행횟수 중 특정한 사건이 발생하는 횟수를 나타내는 분포
이항분포의 조건
- 시행시에는 두가지 결과만 나올 수 있다.
- 각 시행은 상호 독립적이다. 즉, 한 시행의 결과는 다음 시행의 결과에 아무런 영향을 주지 않는다.
- 특정 사건이 발생할 확률은 각 시행 시마다 동일하다.
- 성공적인 시행회수 X를 이항확률변수라 하고 X~B(n,p)를 수학식으로 표현하면 다음과 같다. (성공확률 P와 총 시행회수 n은 분포의 모수이다.)

포아송(Poisson) 분포: 정해진 시간, 거리, 혹은 장소에서 발생하는 특정한 사건의 횟수에 대한 분포
- 따라서 이항분포에서 p가 매우 작고 n이 점차로 커지는 경우에 이항분포의 근사분포로 볼 수 있다.
- 기본조건: 임의의 구간에서 발생 가능한 사건의 수 제한 없음, 사건 발생 서로 독립적, 평균 사건 발생 수는 매 구간에서 동일
- 예시: 특정 도시에서 하루동안 발생하는 교통사고 수, 문서에서 페이지당 오타 수 등의 확률분포
- 확률변수(X)는 X~Poisson(u)로 표현되며 사건이 k번 발생될 확률은 아래와 같다.

연속확률분포

정규분포: 좌우대칭이며 종 모양을 하고 있으며 평균과 표준편차로 모양이 결정되고 이때의 분포를 N(평균,표준편차^2)로 표기
평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라고 한다

정규분포에서 확률변수 X의 확률밀도함수

로그정규분포: 어떤 확률변수 X의 로그 값이 정규분포를 이룰 때 X의 확률분포를 로그 정규분포를 따른다고 한다.

6. 표본분포와 추정

표본분포

모집단에서 표본 추출시, 반복 실험을 통해 각기 다른 표본이 추출되면 표본의 특성 값인 통계량도 달라지게 된다.
각각 다른 값을 가지는 통계량은 확률변수로 확률분포를 가지게 된다.
표본분포: 통계량의 확률분포

중심극한정리

모집단이 어떤 분포를 하여도 표본의 크기가 충분히 크면 표본평균의 표본분포는 정규분포에 근접하게 된다.
따라서 표본평균은 정규분포의 성질을 이용하여 아래와 같이 표준정규확률변수로 전환될 수 있다.

t 분포 (Student's t-distribution)

현실적으로 모평균에 대한 추론에서 표준정규확률변수를 구할 수 없을 때 확인

추정

표본으로부터 모집단을 추측하는 것을 통계적 추론이라고 하는데, 통계적 추론은 추정과 검정으로 구분된다.
추정: 표본으로 모집단에 대한 결론을 도출한 것

점 추정

모집단의 특성을 가장 근사한 단일한 값으로 추정하는 방법
모평균을 추정하는 가장 대표적인 점추정 방법: 모집단에서 무작위로 추출한 표본들의 평균값 추정
표본의 크기가 클수록 표본평균과 실제 모집단의 평균 일치할 확률 증가

구간 추정

모수를 특정값이 아닌 구간으로 나타내는 것
신뢰구간의 크기가 작을수록, 신뢰수준은 높을수록 정교한 추정이라고 볼 수 있다.
표본크기가 클수록 신뢰구간 줄일 수 있음

바람직한(좋은) 추정량

모집단의 평균, 중앙값, 최빈치, 분산 등의 실제값에 매우 가깝거나 그 주위에 집중되는 경향을 보이는 것
불편성(불편의성): 편의/치우침(추정량의 기대치와 모수의 차이)가 없는 성질
효율성(유효성): 추정량의 분산이 작게 나타나는 성질
일치성: 표본 크기가 커질수록 추정량이 모수에 점점 더 가까워지는 성질

7. 가설검정

가설검정: 모집단의 특성에 대해 가설을 설정한 다음 표본을 관찰하여 그 가설의 채택여부를 결정하는 통계분석방법
- 귀무가설(영가설): 처음부터 버릴 것을 예상하는 가설
- 대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
일반적으로 귀무가설, 대립가설을 설정하고 이를 검정하는 순서는 다음과 같다.
1. 귀무가설을 만든다: 기호는 일반적으로 H0이다.
2. 대립가설을 만든다: 기호는 일반적으로 H1이다.
3. 검정통계를 만들고 측정한다.
4. 의사결정을 한다.

가설검증의 기초개념

양측검정: 귀무가설(H0)이 등호(=)로 이루어진 경우
단측검정: 귀무가설(H0)이 부등호(<=, >=)로 이루어진 경우
검정통계량: 표준화된 추정값을 가설의 진위를 판단하는 수단으로 사용하므로 검정통계량이라고 지칭한다.
- ex) Z-통계량, t-통계량, F-통계량, 카이제곱 통계량 등
기각역: 통계적검정에서 판단의 기준이 되는 검정통계량값의 일정한 구역으로 유의수준으로 정해진다.
유의수준: 귀무가설이 참인데도 불구하고 기각할 확률. 1종 오류가 발생할 확률의 최대 허용 한계라고도 해석 가능
- 신뢰수준과 유의수준의 관계

유의확률: 귀무가설하에 주어진 관측값보다 벗어날 확률
- p-value가 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단. 귀무가설을 기각할 수 있다.
- 표본으로부터 계산한 검정통계량값으로 결정한 판단이 잘못될 가능성(오류)는 다음과 같이 구분된다.

통계적 검정

KICPA ALLDEMY (https://kicpa-alldemy.com/)의 재무빅데이터분석사2급 데이터베이스 강의를 학습하고 개인 학습용으로 정리한 글입니다.

저작자표시 비영리 변경금지

'ETC > 각종정보' 카테고리의 다른 글

재무빅데이터분석사 2024년 시험일정 기출문제 강의 난이도 등 (1)	2023.11.20
[재무빅데이터분석사 2급] Python 정리 (0)	2023.06.13
[재무빅데이터분석사 2급] 데이터베이스 정리 (0)	2023.06.02
고수익 블로그 찾는 방법 + 티스토리 분석 사이트에서 인기글, 키워드 확인하기!! (0)	2023.03.28
티스토리 시작할 때 세팅 - 콘텐츠, 스킨, 플러그인 등 (0)	2023.03.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[재무빅데이터분석사 2급] 기초통계 정리

1. 통계학이란 무엇인가?

통계학의 정의

통계학의 기본용어

변수와 자료

모집단 (population)

표본 (sample)

2. 자료의 척도와 형태

자료의 척도

자료의 형태

3. 기술통계분석

기술통계학과 추리통계학

기술통계량을 이용한 자료분석 - 집중화경향(중심경향성)의 측정

평균 (mean)

중앙값 (median)

최빈치 (mode)

산포경향의 측정

분산 (variance)

표준편차

4분위수

4. 확률

표본공간과 사건

확률

확률의 고전적 정의

확률의 상대도수적 정의

조건부 확률과 독립성

5. 확률변수와 확률분포

변수와 확률변수

이산형 확률변수와 연속형 확률변수

확률분포

이산확률분포(discrete probability distribution)

연속확률분포

6. 표본분포와 추정

표본분포

중심극한정리

t 분포 (Student's t-distribution)

추정

점 추정

구간 추정

바람직한(좋은) 추정량

7. 가설검정

가설검증의 기초개념

통계적 검정

'ETC > 각종정보' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역