1. 통계 통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 조사 또는 실험을 통해 데이터를 확보하며, 조사대상에 따라 총조사와 표본조사로 구분한다. 2. 통계자료의 획득 방법 가. 총조사 / 전수 조사 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다. 나. 표본조사 원소(element) : 모집단을 구성하는 개체 표본(sample) : 조사하기 위해 추출한 모집단의 일부원소 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 3. 모집단과 표본집단의 개념 모집단 : 연구자가 알고 싶어하는 대상 / 집단 전체 표본(sample) : 연구자가 측정 또는 관찰한 결과들의 집합
1. 통계학은 데이터의 수집, 분석, 해석 전달에 관한 학문 - 데이터 수집 - 데이터 분석 - 데이터의 전체의 이해 (EDA) - 개별 변수의 이해 (히트맵) - 변수 간 관계의 이해 - 관측대상의 이해 과거의 통계학 : 작은 데이터셋 중심의 국소적 측면 현재의 통게학 : 라지 사이즈 데이터, 데이터 통계학 2. 통계분석 특정집단의 자료를 수집하여 대상에 대한 정보를 구하고, 적절한 분석방법을 이용하여 의사결정, 통계적 추론을 하는 과정 기술통계 - 주어진 자료의 특성은 객관적 데이터로 나타내는 통계분석방법(describe()) - Sample에 대한 평균, 표준편차, 최빈 값 등 추론통계 - 모수 추정 - 가설 검정 - 예측 표본집단 -> 모집단 추론 3. 통계분석 Flow (머신러닝 Flow와 유사..
빅분기 5회 실기 기출 # 작업형 1유형 # 가격 컬럼 중 종량제 봉투가 존재하면 값이 0 # 1. 용도 : 음식물쓰레기, 사용대상 : 가정용, 2L 가격의 평균을 소수점 버린 후 정수로 출력 cond1 = df['용도'] == '음식물쓰레기' cond2 = df['사용대상'] == '가정용' cond3 = df['2L가격'] != 0 df = df[cond1&cond2&cond3] # print(df.head()) # print(df['2L가격'].mean()) print(round(df['2L가격'].mean())) # 정답 : 119 # 작업형 1유형 # BMI지수 = 몸무게(kg) / 키(m)의 제곱 # 2. 비만도가 정상에 속하는 인원수와 과체중에 속하는 인원수의 차이를 정수로 출력 df['BM..
빅분기 4회 실기 기출 # 작업형 1유형 list = [2, 3, 3.2, 5, 7.5, 10, 11.8, 12, 23, 25, 31.5, 34] import pandas as pd df = pd.DataFrame({ 'value' : list }) # print(df) # 1-1. 제1사분위수와 제3사분위수 구하기 q1 = df['value'].quantile(.25) q3 = df['value'].quantile(.75) # print(q1, q3) # 정답 : 제1사분위수 = 4.55, 제3사분위수 = 23.5 # 1-2. 제1사분위수와 제3사분위수 차이의 절대값 구하기 # print(abs(q1-q3)) # 정답 : 18.95 # 1-3. 그 값의 소수점을 버린 후 정수로 출력 result = a..
빅분기 3회 실기기출 # 작업형 1유형 # 1. 데이터 중 결측치가 있는 경우 해당 데이터의 행을 모두 제거하고, 첫번째 행부터 순서대로 70%까지의 데이터를 훈련 데이터로 추출한 데이터 세트를 구성한다. # 변수 중 'housing_median_age'의 Q1(제1사분위수) 값을 정수로 계산하시오. # print(df.shape) # print(df.isnull().sum()) # 결측치 제거 df = df.dropna() # print(df.isnull().sum()) # print(df.shape) # print(len(df)) # 첫번째 행부터 순서대로 70%까지의 데이터 추출 # print(len(df)) # print(len(df)*0.7) train = df.iloc[:int(len(df)*..
빅분기 2회 기출 # 작업형 1유형 # 1. 범죄율 컬럼인 Crim 항목의 상위에서 10번째 값으로 상위 10개의 값을 변환한 후, # age가 80이상인 데이터를 추출하여 crim의 평균값 추출 # print(df.head()) df = df.sort_values('CRIM', ascending = False) # print(df['CRIM'].head(20)) # print(df['CRIM'].iloc[9]) # print(df['CRIM'].iloc[:10]) df['CRIM'].iloc[:10] = df['CRIM'].iloc[9] # print(df['CRIM'].head(20)) cond = df['AGE'] >= 80 df = df[cond] # print(df.head()) print(df..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.