본문 바로가기
ETC/각종정보

[재무빅데이터분석사 2급] 기초통계 정리

by sssinga 2023. 6. 2.

목차

     

     

     

     

    1. 통계학이란 무엇인가?

    통계학의 정의

    • 관심 또는 연구의 대상이 되는 모집단의 특성을 파악하기 위해
    • 모집단으로부터 일부의 자료(표본) 수집
    • 수집된 표본을 정리, 요약, 분석하여 표본의 특성 파악
    • 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문

     

    통계학의 기본용어

    변수와 자료

    • 정보: 일상생활에서 접하는 사실과 현상을 의미를 가지는 것을 변환한 것
      • 양적정보: 숫자로 표현할 수 있는 사실이나 현상 (국민총생산, 주가, 이자율 등)
      • 질적정보: 성질 또는 특성을 나타내는 사실과 현상 (성별, 취미, 선호도 등)
    • 변수: 숫자로 표현된 정보 중 그 값이 변화하는 것
      • 양적변수: 숫자로 표현할 수 있는 변수 (시험성적, 키, 몸무게 등)
      • 질적변수: 번주로 나타낼 수 있는 변수. 범주를 숫자화하여 보여줄 수 있음( 예를 들어 남자는 1, 여성은 0)
    • 자료: 관심이 있는 변수의 실제 관측한 값들의 집합

    모집단 (population)

    • 모집단: 연구대상이 되는 모든 개체의 집합 (전체 대상의 속성이 모집단이 되기도 함)
    • 모집단의 한계: 대부분의 모집단은 매우 커서 전체를 조사하는 것이 불가능한 경우가 많다.

    표본 (sample)

    • 표본: 모집단에서 선택된 일부의 개체
    • 모집단의 전수 조사가 힘들기 때문에 표본을 조사하고 이를 통해 모집단의 특성 추론
    • 확률표본추출
    단순무작위 표본추출
    (random sampling)
    모집단으로부터 표본을 균등한 확률로 추출하는 것으로 난수표나 엑셀의 함수 등을 이용한다.
    - 장점: 모집단에 대한 자세한 지식 불필요, 분류에 따른 오류 가능성 제거 가능
    - 단점: 다른 표본추출절차에 비해 표본오차가 높아지는 경향이 있다.
    체계적 표본추출
    (계통추출,
    systematic sampling)
    표본 프레임에 배열된 구성요소들의 목록에서 일정한 간격으로 개체를 추출하는 방법. 표본추출간격은 표본크기로 나누어 결정
    - 장,단점 랜덤샘플링과 동일
    층화 표본추출
    (stratified sampling)
    모집단을 서로 겹치지 않는 몇 개의 집단으로 분류한 후, 각 집단에서 배정된 표본을 단순무작위 표본추출 방법에 따라 추출하는 방법으로 실제 표본설계에서 널리 이용된다.
    - 표본크기가 크지 않아도 모집단의 대표성 보장
    - 단순임의추출 또는 계통추출보다 불필요한 자료의 분산 축소 가능
    - 전체 모집단에 대한 추정뿐만 아니라 각 층별 추정결과도 얻을 수 있다.
    집락 표본추출
    (cluster sampling)
    모집단을 서로 인접한 기본단위들로 묶어 집락을 구성하여 먼저 집락을 추출하고, 추출된 집락 내의 일부 또는 전체를 조사하는 방법
    • 비확률표본추출: 확률표본추출이 불가능하거나 시간과 비용이 매우 많이 드는 경우에 사용. 방법으로는 간편추출법, 판단추출법, 할당추출법, 눈덩이표본추출법이 있다.

     

     

     

     

    2. 자료의 척도와 형태

    자료의 척도

    • 척도: 조사 대상을 측정하기 위해 부여한 숫자간의 관계
    명목척도 측정대상이 어느 집단에 속하는지 분류하는 경우에 사용
    - 성별 구분, 주거유형 구분 등
    서열척도 측정대상들을 비교하기 위해 특성의 대소의 서열에 따라 수치를 부여한 척도
    - 소득계층, 리커트 척도 등
    등간척도 순위를 부여하고 순위 사이의 간격이 동일하여 양적인 비교가 가능한 척도
    - 온도계 수치, 리커트 척도 등
    비율척도 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하고 두 측정값의 비율이 의미를 지니는 척도
    - 거리, 무게, 시간 등

     

    자료의 형태

    • 자료의 형태에 따라 분석방법이 다르다
    양적자료 자료의 크기나 양을 숫자로 표현할 수 있는 자료
    - 셀 수 있는 정수값으로 표현되는 이산형 자료 (자녀수 등)
    - 연속적인 양으로 표현되는 연속형 자료 (키, 몸무게 등)
    질적자료 원칙적으로 숫자로 표시될 수 없는 자료
    - 범주형 자료 (직업, 거주지 등)
    - 순서형 자료 (교육수준 등)
    • 측정척도의 유형에 따라 자료 형태를 구분하면 다음과 같다.
    양적자료 비율척도, 등간척도로 측정된 자료
    질적자료 서열척도, 명목척도로 측정된 자료

     

     

     

     

    3. 기술통계분석

    기술통계학과 추리통계학

    • 기술통계학: 자료 수집을 통해 얻은 자료를 이용하여, 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제한 채 정보를 단순히 요약하고 기술하는 것 (평균, 분산, 비율, 최대값, 최소값, 상관계수 등)
    • 추리(추론)통계학: 기술통계로 얻어진 데이터로부터 유용한 정보를 추출하는 것. (통계적 추정, 가설검정, 예측 등)

     

    기술통계량을 이용한 자료분석 - 집중화경향(중심경향성)의 측정

    • 자료가 어디에 집중되어 있는가를 하나의 대표적인 값으로 요약하여 나타내는 통계량 (평균, 중앙값, 최빈치 등)

     

    평균 (mean)

    • 자료의 값들을 모두 더하고 이를 자료의 개수로 나눈 값

    import numpy as np		# numpy 모듈(라이브러리)을 불러온다.
    a = [1,2,3,4,5,100]		# 데이터를 리스트 변수로 설정한다.
    np.mean(a)

     

    중앙값 (median)

    • 자료의 값들을 순서대로 나열했을 때 중앙에 위치한 값
    • 평균에서 극단적으로 벗어난 값이 포함되어있는 경우 유용
    • 관측값의 개수가 홀수인 경우 (n+1)/2번째 값, 짝수인 경우 n/2번째 값과 n+2/2번째 값의 평균
    np.median(a)

     

    최빈치 (mode)

    • 자료에서 가장 빈도가 높은 값
    import numpy as np			# numpy 모듈(라이브러리)을 불러온다.
    from scipy import stats		# scipy 모듈에서 stats를 불러온다.
    b = [1,2,3,4,5,5,100]
    m = stats.mode(b)
    print(m)

     

    산포경향의 측정

    • 자료가 어느정도 흩어져 있는지를 나타내주는 산표 경향을 아는 것이 매우 중요하며, 이를 측정하는 대표적인 통계량은 분산, 표준편차, 범위, 4분위범위, 왜도, 첨도 등이 있다.

     

    분산 (variance)

    • 평균을 중심으로 자료의 흩어진 정도를 측정하는 척도
    • 관측값과 평균의 차이인 편차를 제곱한 것을 관측값의 총수로 나눈 것

    import numpy as np
    b = [1,2,3,4,5,5,100]
    vp = np.var(b)

     

    표준편차

    • 분산에 양의 제곱근을 취한 것
    sd = np.std(b)		# 리스트인 b의 표준편차를 sd라는 변수로 설정한다.

     

    4분위수

    • 측정값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값
    퀀타일25 = np.percentile(b, 25)
    퀀타일75 = np.percentile(b, 75)

     

     

     

     

     

    4. 확률

    표본공간과 사건

    • 표본공간: 실험에 의해 나타날 수 있는 가능한 모든 결과들의 집합
      • 이산형 표본공간: 표본공간의 원소개수가 유한개이거나 무한하지만 셀 수 있을때 (ex. 정상품or불량품)
      • 연속형 표본공간: 표본공간의 원소개수가 무한하면서 셀 수 없을때 (ex. 배달음식이 배달되는데 걸리는 시간)
    • 사건: 몇 개의 원소들로 이루어진 표본공간의 부분집합

     

    확률

    • 어떤 사건이 일어날 가능성의 척도를 측정하는 숫자로 0과 1 사이의 값으로 표시

    확률의 고전적 정의

    • 이산형 표본공간에서 확률 정의
      • P(A) = 사건 A에 속하는 원소의 수 / 표본공간의 전체 원소의 수
    • 연속형 표본공간에서 확률 정의
      • P(A) = 사건 A에 속하는 원소에 대한 측도(길이, 면적, 부피 등) / 표본공간의 전체 원소에 대한 측도

    확률의 상대도수적 정의

    • 사건 A가 발생할 확률은 같은 조건하에서 수없이 반복 시행했을 때 사건 A가 발생하는 비율
    • 반복시행을 할수록 고전적 정의에 의한 확률값에 근사하게 된다.
    • 문제점: 현실에서 같은 조건하에서 통계적 실험을 무수히 반복시행하기 어렵다.
    • 이러한 문제점을 극복하기 위해 확률을 상대도수의 극한 개념으로 파악하는 정의가 제안되었다.

     

    조건부 확률과 독립성

    • 조건부 확률: 실험에서 사전정보를 확률 계산에 이용하는 확률계산법

    • 독립성: 두 사건이 다음의 조건 중 하나를 만족하면 두 사건을 서로 확률적으로 독립이라고 정의

     

     

     

     

     

    5. 확률변수와 확률분포

    변수와 확률변수

    • 변수(Variable): 숫자로 표현되는 정보 중 그 값이 경우에 따라 변화되는 것
      • 질적변수: 직접 숫자로 나타낼 수 없으나 남성은 1, 여성은0으로 코드화 하는 것과 같이 숫자로 표현하는 것
      • 양적변수: 관측값이 하나의 숫자로 결정되나 그 값이 경우마다 다르게 결정되는 변수 (개인의 소득 등)
    • 상수(Constant): 경우에 따라 변화하지 않고 고정되어 있는 값
    • 확률변수: 무작위 실험을 하는 경우 특정 확률로 발생하는 각각의 결과를 수치로 표현한 변수

    이산형 확률변수와 연속형 확률변수

    • 이산형(discrete) 확률변수
      • 변수가 취할 수 있는 값이 이미 정해진 숫자만 취할 수 있는 경우의 변수 (ex. 주사위)
      • 이산점에서 0이 아닌 확률값을 가지며, 각 이산점에서 확률의 크기를 표현하는 함수를 확률질량함수라고 한다.

    • 연속형(continuous) 확률변수
      • 변수가 취할 수 있는 값이 어느 정해진 구간안의 어떤 임의의 값이라도 취할 수 있는 경우
      • 특정한 실수 구간 내에서 0이 아닌 확률을 가지므로 이 구간에 대한 확률은 함수의 형태로 표현된다.
      • 이때 확률함수 f(x)를 확률밀도함수라고 한다.

     

    확률분포

    • 원데이터 수집 -> 도수분포 그래프 작성 -> 확률분포 그래프 작성 (Y축을 비율로 표시)

     

    이산확률분포(discrete probability distribution)

    • 정수와 같은 비연속적인 값에 대한 분포
    • 두 확률변수 값 사이에 중간 값X
    • 수직 막대그래프의 모양으로 나타낸다.
    • 베르누이(Bernoulli) 분포: 변수 X가 가지는 값이 0과 1뿐으로서 아래와 같은 식의 함수를 가질 때 변수는 베르누이 분포를 따른다고 한다.

    • 베르누이 확률분포의 평균과 분산

    • 이항(Binomial) 분포: 한정된 시행횟수 중 특정한 사건이 발생하는 횟수를 나타내는 분포
    • 이항분포의 조건
      • 시행시에는 두가지 결과만 나올 수 있다.
      • 각 시행은 상호 독립적이다. 즉, 한 시행의 결과는 다음 시행의 결과에 아무런 영향을 주지 않는다.
      • 특정 사건이 발생할 확률은 각 시행 시마다 동일하다.
      • 성공적인 시행회수 X를 이항확률변수라 하고 X~B(n,p)를 수학식으로 표현하면 다음과 같다. (성공확률 P와 총 시행회수 n은 분포의 모수이다.)

    이항 확률분포의 평균과 분산

    • 포아송(Poisson) 분포: 정해진 시간, 거리, 혹은 장소에서 발생하는 특정한 사건의 횟수에 대한 분포
      • 따라서 이항분포에서 p가 매우 작고 n이 점차로 커지는 경우에 이항분포의 근사분포로 볼 수 있다.
      • 기본조건: 임의의 구간에서 발생 가능한 사건의 수 제한 없음, 사건 발생 서로 독립적, 평균 사건 발생 수는 매 구간에서 동일
      • 예시: 특정 도시에서 하루동안 발생하는 교통사고 수, 문서에서 페이지당 오타 수 등의 확률분포
      • 확률변수(X)는 X~Poisson(u)로 표현되며 사건이 k번 발생될 확률은 아래와 같다.

     

    연속확률분포

    • 정규분포: 좌우대칭이며 종 모양을 하고 있으며 평균과 표준편차로 모양이 결정되고 이때의 분포를 N(평균,표준편차^2)로 표기
    • 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라고 한다

    • 정규분포에서 확률변수 X의 확률밀도함수

    • 로그정규분포: 어떤 확률변수 X의 로그 값이 정규분포를 이룰 때 X의 확률분포를 로그 정규분포를 따른다고 한다.

     

     

     

     

     

    6. 표본분포와 추정

    표본분포

    • 모집단에서 표본 추출시, 반복 실험을 통해 각기 다른 표본이 추출되면 표본의 특성 값인 통계량도 달라지게 된다.
    • 각각 다른 값을 가지는 통계량은 확률변수로 확률분포를 가지게 된다.
    • 표본분포: 통계량의 확률분포

    중심극한정리

    • 모집단이 어떤 분포를 하여도 표본의 크기가 충분히 크면 표본평균의 표본분포는 정규분포에 근접하게 된다.
    • 따라서 표본평균은 정규분포의 성질을 이용하여 아래와 같이 표준정규확률변수로 전환될 수 있다.

     

    t 분포 (Student's t-distribution)

    • 현실적으로 모평균에 대한 추론에서 표준정규확률변수를 구할 수 없을 때 확인

     

    추정

    • 표본으로부터 모집단을 추측하는 것을 통계적 추론이라고 하는데, 통계적 추론은 추정과 검정으로 구분된다.
    • 추정: 표본으로 모집단에 대한 결론을 도출한 것

    점 추정

    • 모집단의 특성을 가장 근사한 단일한 값으로 추정하는 방법
    • 모평균을 추정하는 가장 대표적인 점추정 방법: 모집단에서 무작위로 추출한 표본들의 평균값 추정
    • 표본의 크기가 클수록 표본평균과 실제 모집단의 평균 일치할 확률 증가

    구간 추정

    • 모수를 특정값이 아닌 구간으로 나타내는 것
    • 신뢰구간의 크기가 작을수록, 신뢰수준은 높을수록 정교한 추정이라고 볼 수 있다.
    • 표본크기가 클수록 신뢰구간 줄일 수 있음

    바람직한(좋은) 추정량

    • 모집단의 평균, 중앙값, 최빈치,  분산 등의 실제값에 매우 가깝거나 그 주위에 집중되는 경향을 보이는 것
    • 불편성(불편의성): 편의/치우침(추정량의 기대치와 모수의 차이)가 없는 성질
    • 효율성(유효성): 추정량의 분산이 작게 나타나는 성질
    • 일치성: 표본 크기가 커질수록 추정량이 모수에 점점 더 가까워지는 성질

     

     

     

     

     

    7. 가설검정

    • 가설검정: 모집단의 특성에 대해 가설을 설정한 다음 표본을 관찰하여 그 가설의 채택여부를 결정하는 통계분석방법
      • 귀무가설(영가설): 처음부터 버릴 것을 예상하는 가설
      • 대립가설: 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
    • 일반적으로 귀무가설, 대립가설을 설정하고 이를 검정하는 순서는 다음과 같다.
      1. 귀무가설을 만든다: 기호는 일반적으로 H0이다.
      2. 대립가설을 만든다: 기호는 일반적으로 H1이다.
      3. 검정통계를 만들고 측정한다.
      4. 의사결정을 한다.

    가설검증의 기초개념

    • 양측검정: 귀무가설(H0)이 등호(=)로 이루어진 경우
    • 단측검정: 귀무가설(H0)이 부등호(<=, >=)로 이루어진 경우
    • 검정통계량: 표준화된 추정값을 가설의 진위를 판단하는 수단으로 사용하므로 검정통계량이라고 지칭한다.
      • ex) Z-통계량, t-통계량, F-통계량, 카이제곱 통계량 등
    • 기각역: 통계적검정에서 판단의 기준이 되는 검정통계량값의 일정한 구역으로 유의수준으로 정해진다.
    • 유의수준: 귀무가설이 참인데도 불구하고 기각할 확률. 1종 오류가 발생할 확률의 최대 허용 한계라고도 해석 가능
      • 신뢰수준과 유의수준의 관계

    • 유의확률: 귀무가설하에 주어진 관측값보다 벗어날 확률
      • p-value가 유의수준보다 작다면 귀무가설이 참이라는 가정이 적절하지 않다고 판단. 귀무가설을 기각할 수 있다.
      • 표본으로부터 계산한 검정통계량값으로 결정한 판단이 잘못될 가능성(오류)는 다음과 같이 구분된다.

     

    통계적 검정

     

     

     

     

     

     

    KICPA ALLDEMY (https://kicpa-alldemy.com/)의 재무빅데이터분석사2급 데이터베이스 강의를 학습하고 개인 학습용으로 정리한 글입니다.

     

    댓글