티스토리 뷰
통계
정의 : 수집한 자료를 가지고 가설을 검정하는, 즉 확률적으로 판정하는 수리적 논리
역할 : 어떤 사건이나 현상을 요약하고 조직화하여 과학적인 연구를 수행하게끔 한다.
목적
1. 얻어진 자료를 단순히 설명, 묘사하는 것
2. 얻어진 자료의 결과를 일반화하는 것
변인
1. 양적변인 (Quantitive) : 수량으로 표시되는 변인으로 숫자이고 계산이 가능
- 연속변인 (Continuous) 측정된 값. 주어진 범위 내에서 아무 값이든 가진다. 즉, 소수점으로 표시가 가능하다. 예시로 키나 체중 등이 있음
- 비연속변인 : 이산변인(Discrete). 특정 수치로만 표시되는 변인이다. 예로 한 가정이 소유한 자동차 수 등이 있다.
2. 질적변인(Qualitivae) :범주형(Categorical). 숫자일수있으나 계산용은 아님. 예를 들어 남녀를 1, 0으로 표시한다고 해서 이걸 통해 평균을 계산하는 등의 행동은 옳지 않음
Ordinal : 서수. 순서단계가 있는 범주형 변수.
*양적변수가 둘 중 무엇인지 알고싶으면 관찰값보다는 변수의 특성에 대해 생각해봐야한다. 연속변수를 반올림 등을 해서 이산변수로 보일 수 있기 때문이다,.
모집단과 표본
모집단 (population) : 전체의 모든 집합
표본 (Sample) : 실제 연구 대상이 된 부분적 집합.
관찰연구와 실험연구
- 연구에는 두 가지 종류가 있는데 관찰연구와 실험연구이다. 이 둘의 가장 큰 차이는 무작위 할당(Random Assignment)이다.
1. 관찰연구 (Observational) : 데이터가 어떻게 생기는 데에 대한 방해없이 연구를 수행. 단순 관찰. 단순히 연결만 설정 가능
- Retrospective : 과거의 데이터 사용. 되풀이연구
- Prospective: 연구 전반에 걸쳐 데이터 수집. 예상
2. 실험연구 (Experimental): 무작위로 관찰 대상을 할당하며 인과연결을 설정할 수 있다.
표집방법(Sampling, 샘플링)의 종류
단순무선표집(Simple random sampling)
- 가장 기본적인 표집 방법으로 아무 조작없이 표본을 추출하는 것,
유층표집(Stratified Sampling)
- 모집단을 구성하고 있는 하위집단(strata)의 요소중 일정 수를 처음부터 골고루 선택하여 표본과 모집단의 대표성을 높임.
군집표집(Cluster Sampling)
- 모집단을 군집(cluster)이라는 많은 수의 집단으로 분류하여 그 군집 가운데 표집이 될 몇 개의 군집을 표집한 다음 이 군집내의 모든 사례를 표집하는 방법.
다단계 표집(Multistage sampling)
- 전집에서 1차 표집단위를 뽑은 후에 여기서 2차 단위를 뽑는 등 최종단계의 표집을 뽑기까지 여러 단계를 거치는 방법.
실험설계의 원칙
제어(control)Control(제어)
- 제어 그룹에 대한 흥미도 처리를 비교 (compare treatment of interest to control group)
Randomize(임의화)
- 피실험군을 무작위로 처리에 할당하는 법.
Replicate(복제)
- 충분히 큰 샘플을 모으거나 전반적 연구를 복제하기
Block(차단)
- 결과에 영향을 주거나 그럴 가능성이 있는 변수가 있다면 이를 차단해야함
무작위샘플링 (Random sampling) : 연구를 위해 주제가 선택될 때
무작위 할당(Random assignment) : 연구를 기준으로 인과결과를 만들 수 있다
수치형 변수 분포 시각화에 사용하는 방식
- 보통 x축에 설명변수, y축에 결과를 표시.두 숫자변수의 관계에 대해 알고 싶을땐 방향을 봐야 한다.
- 히스토그램 : 수치형 변수의 분포를 시각화하는 좋은 방법. 히스토그램을 만들 때 유의할 점은 막대의 너비다. 너비가 너무 넓으면 세부 정보가 손실되고, 너무 좁으면 분포의 전체적인 그림을 가져오는 것이 어려울 수 있으니 이상적인 너비를 위해 다양한 시도를 해봐야한다. 이 너비정하는 것을 bining이라고 한다.
- 박스 플롯 : 중간값을 구하기에 편리하다. 분포의 중간 지점은 상자 내부의 굵은 선
데이터의 중심구하기
평균(Average) : 산술평균. 모든 자료를 다 더한 후 이를 총 사례 수만큼 나눈 값
중간값(Median) : 분포의 중심 혹은 50퍼센트. 데이터를 우선 오름차 순으로 정렬한 후 중간값을 구한다. 이 때 대상의 수가 짝수라서 정확한 중간이 없다면 양 중간의 산술 평균이 중간값이다.
최빈치(Mode) : 가장 빈번히 관찰되는 중간치
데이터의 분산도를 구하기
분산 : 편차 제곱의 평균. 샘플 분산을 S 제곱으로 나타내고 모집단 분산을 시그마 제곱으로 나타낸다.
분산을 계산하는 방법
각 값과 평균의 차이를 찾는다. 즉, 각 데이터와 대한 평균의 차이가 평균에 대한 편차가 된다.
모든 데이터에 대해 이러한 편차에 제곱을 한 뒤에 전부 더한다.
표본 크기 N에서 1을 빼준 ‘N -1’로 나누면 된다.
표준편차 : 각 점수가 평균으로부터 떨어진 정도가 편차인데, 이런 편차의 평균이다. 표준편차는 분산의 루트값이다.
Robust statistics
- 극단적인 값이 영향을 덜 미치는 것
'Studies > 스터디파이 - 통계' 카테고리의 다른 글
통계학 정리 Week 02 (0) | 2019.10.22 |
---|
- Total
- Today
- Yesterday
- 리액트와함께장고시작하기
- 한빛출판사
- 나는리뷰어다2022
- 길벗출판사
- Singapore
- 싱가포르
- Python
- 파고다후기
- 파고다갓생후기챌린지
- askcompany
- 싱가폴여행
- BookDiscussion
- 아토믹코틀린
- 개발자리뷰어
- 다시미분적분
- SRE를위한시스템설계와구축
- 유데미강의
- 동남아
- SQL기초구문
- 혼자공부하는얄팍한코딩지식
- Docker
- 해외여행
- udemy
- django
- 나는리뷰어다
- 싱가폴
- 그래프QL인액션
- 한빛미디어
- 머신러닝파워드애플리케이션
- 파고다강남후기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |