Pandas DataFrame : pandas 라이브러리가 사용하는 기본 자료구조 1. DataFrame은 2차원 테이블 구조를 말합니다. 2. 1차원 구조인 Series 도 있습니다. (1 row, 1 column) 3. row, column으로 모든 원소를 구분합니다. (indexing) 4. index, columns, values라는 객체 변수를 가지고 있습니다. 5. Relational DB와 완전히 호환됩니다. 6. 하나의 column을 기준으로 모든 원소의 data type이 동일합니다. (모두 numpy array가 가지는 data type과 동일) 7. DataFrame은 numpy array를 상위 호환하는 개념으로 universal function이 사용 가능합니다. → 내부 구현체로..
Pandas : Python Data Analysis Library. 1. 정형 데이터 분석에 최적화된 라이브러리 - 2008년에 만들어졌으며, 2009년에 100% 오픈소스가 되었습니다. - 정형 데이터를 효율적으로 표현할 수 있는 DataFrame 형태로 모든 데이터를 표현합니다. - 다양한 데이터 조작 기능을 제공합니다. e.g. indexing(=search), filtering, reshaping, concatenation, reading/writing, ... - 벡터 연산에 최적화되어 있습니다. → Numpy와 연관성이 있다! # pandas example import pandas as pd df = pd.DataFrame(np.random.randn(5, 3)) df.head() 2. Pa..
1. 데이터 핸들링 1. 판다스 데이터 구조 2. DataFrame기본 3. row/column 선택, 추가, 삭제 4. 조건에 맞는 데이터 탐색 및 수정 5. 데이터 정렬 6. 데이터 결합 7. 데이터 요약 8. 데이터 재구조화 9. 데이터프레임에 함수 적용하기 10.문자열 데이터 변환하기 11.날짜 데이터 핸들링 2. EDA와 시각화 1. EDA의 의미 2. 막대 그래프와 히스토그램 3. 상자그림 4. 산점도 5. 상관관계 시각화 6. Pandas Profiling 3. 데이터 전처리 1. 데이터 전처리의 의미 2. 이상치 확인 및 정제 3. 범주형 변수처리 4. 데이터 분할 5. 데이터 스케일링 6. 차원 축소 7. 데이터 불균형 처리 4. 머신러닝 프로세스 1. 머신러닝의 의미 2. 머신러닝 프로..
Jupyter Notebook을 사용하면서 유용한 활용 가능 (Variable Inspector, ‘Table of Contents’) 기능-오타주의 (base) D:\>conda install -c conda-forge jupyter_contrib_nbextensions Collecting package metadata (current_repodata.json): done Solving environment: / The environment is inconsistent, please check the package plan carefully The following packages are causing the inconsistency: - defaults/win-64::anaconda==2021.11=..