빅데이터 & 인공지능 66

[작업1유형] 각 구의 초중고 전출입 인원

각 구의 초,중,고 전출 전입 인원 : https://data.seoul.go.kr/dataList/10729/S/2/datasetView.do & 후처리 * 순유입인원은 초중고 도내,도외 전입인원에서 초중고 도내, 도외 전출인원을 뺀값이다. * 각년도별로 가장 큰 순유입인원을 가진 지역구의 순유입인원을 구하고 * 전체 기간의 해당 순유입인원들의 합을 구하여라 import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e5_p1_3.csv') df['순유입인원']=df[[x for x in df.columns if '전입' in x]].sum(axis=1)-df..

[작업1유형] BMI

BMI는 몸무게(kg) / (키(M) * 키(M)) 로 정의 된다. 초고도 비만은 BMI 25이상 , 고도 비반은 BMI 25미만 - 23이상 , 정상은 23미만 - 18.5이상 저체중은 18.5미만으로 정의 된다. 주어진 데이터에서 초고도 비만 인원 + 저체중 인원 의 숫자는? import pandas as pd df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e5_p1_2_.csv') def category(x): if x >=25: return 'a' elif x >=23: return 'b' elif x >= 18.5: return 'c' else: return 'd' df['b..

[작업1유형] 종량제 봉투 분석

종량제 봉투 가격 데이터 : https://www.data.go.kr/data/15025538/standard.do 전국종량제봉투가격표준데이터 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr * 20L가격과 5L가격이 모두 0원이 아닌 데이터만 필터를 한 후, * 각 row별로 20L가격과 5L가격의 차이를 ‘차이가격’ 이라 부른다고 하자. * 시도명 별 차이가격의 평균가격을 비교할때 그 값이 가장 큰 금액을 반올림하여 소숫점 이하 1자리까지 구하여라 import pandas as pd df = pd.read_csv('https://..

텐서플로우(tensorflow) 설치

아나콘다(Anaconda)및 텐서플로우(tensoflow) 더보기 아나콘다(Anaconda)는 수학과 과학 분야에서 사용되는 여러 패키지들을 묶어 놓은 파이썬 배포판 SciPy, Numpy, Matplotlib, Pandas 등을 비롯한 많은 패키지들을 포함함 텐서플로(TensorFlow)는 구글(Google)에서 만든, 딥러닝 프로그램을 쉽게 구현할 수 있도록 다양한 기능을 제공 1. 환경 설정 1) 가상환경 Anaconda 설치 Anaconda를 설치하기 위해서는 Anaconda 에서 자신의 OS에 맞는 프로그램을 다운받아 설치 윈도우 버전은 여기 에서 다운 2) 텐서플로우(Tensorflow) 설치 2-1) 텐서플로우를 새로 만든 가상환경에 설치.(Anaconda Prompt에서 실행) conda ..

[노트정리] 5. t-test란?

1. 표본 검정(One Sample T-test) t-test 안에도 표본의 수와 실험 설계에 따라 여러 검정이 존재합니다. 하지만 모든 개념은 차이를 분산으로 비교하는 것입니다. 정규성을 확인 -> 데이터를 순위형으로 변환 -> 분산을 일정하게 만든 후 -> 윌콕슨 순위부호검정 2. 대응 2표본 검정(Paired T-test) [한집단 전후비교] 동일한 집단이지만, 두 집단을 비교해 주는 것처럼 처리 전과 처리 후를 비교해줍니다. 3. 독립 2표본 검정 [두집단의 표본수가 동일, 표준편차가 2내외]

[노트정리] 4.통계검정의 개념

통계학에서 가설검정은 귀무가설이 옳다는 가정 하에 시작한다. 귀무가설(H0) : 통상적인 개념 vs 대립가설(H1) : 새로운 개념 P-value 란? 유의확률, 대립가설이 우연히 채택 될 확률 유의확률이 작을 수록 귀무가설을 기각할 가능성이 높아지는 것 유의수준(a) 귀무가설을 기각하기 위한 반대의 증거가 어느정도 강해야 하는 지를 의미하는 수준 즉, 귀무가설을 유지하기 위한 최소한의 확률이 어느 정도인지를 정하는 것

[노트정리] 2. 모집단과 표본집단의 개념

1. 통계 통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 조사 또는 실험을 통해 데이터를 확보하며, 조사대상에 따라 총조사와 표본조사로 구분한다. 2. 통계자료의 획득 방법 가. 총조사 / 전수 조사 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다. 나. 표본조사 원소(element) : 모집단을 구성하는 개체 표본(sample) : 조사하기 위해 추출한 모집단의 일부원소 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 3. 모집단과 표본집단의 개념 모집단 : 연구자가 알고 싶어하는 대상 / 집단 전체 표본(sample) : 연구자가 측정 또는 관찰한 결과들의 집합

[노트정리] 1. 통계란 무엇인가?

1. 통계학은 데이터의 수집, 분석, 해석 전달에 관한 학문 - 데이터 수집 - 데이터 분석 - 데이터의 전체의 이해 (EDA) - 개별 변수의 이해 (히트맵) - 변수 간 관계의 이해 - 관측대상의 이해 과거의 통계학 : 작은 데이터셋 중심의 국소적 측면 현재의 통게학 : 라지 사이즈 데이터, 데이터 통계학 2. 통계분석 특정집단의 자료를 수집하여 대상에 대한 정보를 구하고, 적절한 분석방법을 이용하여 의사결정, 통계적 추론을 하는 과정 기술통계 - 주어진 자료의 특성은 객관적 데이터로 나타내는 통계분석방법(describe()) - Sample에 대한 평균, 표준편차, 최빈 값 등 추론통계 - 모수 추정 - 가설 검정 - 예측 표본집단 -> 모집단 추론 3. 통계분석 Flow (머신러닝 Flow와 유사..

반응형