티스토리 뷰

Studies/스터디파이 - 통계

통계학 정리 Week 01

prograsshopper_ 2019. 10. 21. 17:15

통계

정의 : 수집한 자료를 가지고 가설을 검정하는, 즉 확률적으로 판정하는 수리적 논리

역할 : 어떤 사건이나 현상을 요약하고 조직화하여 과학적인 연구를 수행하게끔 한다.

목적

1. 얻어진 자료를 단순히 설명, 묘사하는 것

2. 얻어진 자료의 결과를 일반화하는 것

 

변인

1. 양적변인 (Quantitive) : 수량으로 표시되는 변인으로 숫자이고 계산이 가능
- 연속변인 (Continuous) 측정된 값. 주어진 범위 내에서 아무 값이든 가진다. 즉, 소수점으로 표시가 가능하다. 예시로 키나 체중 등이 있음
- 비연속변인 : 이산변인(Discrete). 특정 수치로만 표시되는 변인이다. 예로 한 가정이 소유한 자동차 수 등이 있다.
2. 질적변인(Qualitivae) :범주형(Categorical). 숫자일수있으나 계산용은 아님. 예를 들어 남녀를 1, 0으로 표시한다고 해서 이걸 통해 평균을 계산하는 등의 행동은 옳지 않음
Ordinal : 서수. 순서단계가 있는 범주형 변수. 

*양적변수가 둘 중 무엇인지 알고싶으면 관찰값보다는 변수의 특성에 대해 생각해봐야한다. 연속변수를 반올림 등을 해서 이산변수로 보일 수 있기 때문이다,.

 

모집단과 표본

모집단 (population) : 전체의 모든 집합

표본 (Sample) : 실제 연구 대상이 된 부분적 집합.

 

관찰연구와 실험연구

- 연구에는 두 가지 종류가 있는데 관찰연구와 실험연구이다. 이 둘의 가장 큰 차이는 무작위 할당(Random Assignment)이다.

1. 관찰연구 (Observational) : 데이터가 어떻게 생기는 데에 대한 방해없이 연구를 수행. 단순 관찰. 단순히 연결만 설정 가능

  • Retrospective : 과거의 데이터 사용. 되풀이연구
  • Prospective: 연구 전반에 걸쳐 데이터 수집. 예상

2. 실험연구 (Experimental): 무작위로 관찰 대상을 할당하며 인과연결을 설정할 수 있다.

 

표집방법(Sampling, 샘플링)의 종류

단순무선표집(Simple random sampling)

- 가장 기본적인 표집 방법으로 아무 조작없이 표본을 추출하는 것,

유층표집(Stratified Sampling)

- 모집단을 구성하고 있는 하위집단(strata)의 요소중 일정 수를 처음부터 골고루 선택하여 표본과 모집단의 대표성을 높임. 

군집표집(Cluster Sampling)

- 모집단을 군집(cluster)이라는 많은 수의 집단으로 분류하여 그 군집 가운데 표집이 될 몇 개의 군집을 표집한 다음 이 군집내의 모든 사례를 표집하는 방법.

다단계 표집(Multistage sampling)

- 전집에서 1차 표집단위를 뽑은 후에 여기서 2차 단위를 뽑는 등 최종단계의 표집을 뽑기까지 여러 단계를 거치는 방법.

 

실험설계의 원칙

제어(control)Control(제어)

- 제어 그룹에 대한 흥미도 처리를 비교 (compare treatment of interest to control group)
Randomize(임의화)

- 피실험군을 무작위로 처리에 할당하는 법.
Replicate(복제)

- 충분히 큰 샘플을 모으거나 전반적 연구를 복제하기
Block(차단)

- 결과에 영향을 주거나 그럴 가능성이 있는 변수가 있다면 이를 차단해야함

무작위샘플링 (Random sampling)  : 연구를 위해 주제가 선택될 때

무작위 할당(Random assignment) : 연구를 기준으로 인과결과를 만들 수 있다

 

수치형 변수 분포 시각화에 사용하는 방식

- 보통 x축에 설명변수, y축에 결과를 표시.두 숫자변수의 관계에 대해 알고 싶을땐 방향을 봐야 한다.

  1. 히스토그램 : 수치형 변수의 분포를 시각화하는 좋은 방법. 히스토그램을 만들 때 유의할 점은 막대의 너비다. 너비가 너무 넓으면 세부 정보가 손실되고, 너무 좁으면 분포의 전체적인 그림을 가져오는 것이 어려울 수 있으니 이상적인 너비를 위해 다양한 시도를 해봐야한다. 이 너비정하는 것을 bining이라고 한다.
  2. 박스 플롯 : 중간값을 구하기에 편리하다.  분포의 중간 지점은 상자 내부의 굵은 선

 

데이터의 중심구하기

평균(Average) : 산술평균. 모든 자료를 다 더한 후 이를 총 사례 수만큼 나눈 값

중간값(Median) :  분포의 중심 혹은 50퍼센트. 데이터를 우선 오름차 순으로 정렬한 후 중간값을 구한다. 이 때 대상의 수가 짝수라서 정확한 중간이 없다면 양 중간의 산술 평균이 중간값이다.

최빈치(Mode) : 가장 빈번히 관찰되는 중간치

 

데이터의 분산도를 구하기

분산 :  편차 제곱의 평균. 샘플 분산을 S 제곱으로 나타내고 모집단 분산을 시그마 제곱으로 나타낸다.

분산을 계산하는 방법

각 값과 평균의 차이를 찾는다. 즉, 각 데이터와 대한 평균의 차이가 평균에 대한 편차가 된다.

모든 데이터에 대해 이러한 편차에 제곱을 한 뒤에 전부 더한다.

표본 크기 N에서 1을 빼준 ‘N -1’로 나누면 된다.

표준편차 : 각 점수가 평균으로부터 떨어진 정도가 편차인데, 이런 편차의 평균이다. 표준편차는 분산의 루트값이다.

 

Robust statistics 

- 극단적인 값이 영향을 덜 미치는 것

반응형

'Studies > 스터디파이 - 통계' 카테고리의 다른 글

통계학 정리 Week 02  (0) 2019.10.22
댓글