백엔드 프레임워크 & 언어/Pandas & numpy 10

Numpy - np.insert

`np.insert` 함수는 NumPy 라이브러리에서 제공하는 배열(array)에 원소를 삽입하는 함수입니다. 이 함수는 기존 배열의 특정 위치에 새로운 값을 추가하는데 사용됩니다. `np.insert` 함수를 사용하면 배열의 특정 인덱스에 원소를 삽입하거나, 배열의 맨 끝에 원소를 추가하는 등 다양한 삽입 작업을 수행할 수 있습니다. 간단한 `np.insert` 함수의 사용 예제를 살펴보겠습니다: ```python import numpy as np # 1차원 배열 생성 arr = np.array([1, 2, 3, 4, 5]) # 배열의 특정 위치(인덱스 2)에 원소 10을 삽입 new_arr = np.insert(arr, 2, 10) print("Original Array:", arr) print("N..

jupyter notebook 단축키 모음

명령모드(Command Mode) : ESC로 전환한다다 Shift-Enter : 셀을 실행시키고, 아래 셀을 선택한다. Ctrl-Enter : 셀을 실행시킨다 Alt-Enter : 셀을 실행하고, 아래 한칸 추가 한다 Y : 코드 모드 M : 마크다운 모드 B : 아래 셀 삽입 X : 선택된 셀을 잘라내기 한다 C : 셀의 내용을 복사한다 Shift-V : 현재 셀 위에 복사한다. V : 셀아래 붙여넣기 한다 Z : 마지막 셀삭제 복원 D,D : 선택된 셀 삭제 Shift-M : 아래셀을 병합한다 명령모드(Command Mode) : ESC로 전환한다 Shift-Tab : 툴팁표시 Ctrl-] : indent Ctrl-Shift- : split cell 단축키 찾아 보기

데이터프레임을 살펴보는 다양한 함수

바로 head( )와 tail( )입니다. 이 두 함수는 기본적으로 5줄만 출력합니다. 더 많거나 적은 줄을 출력하려면 괄호 안에 원하는 숫자를 넣어주면 됩니다. sample.head() sample.tail() sample.info() 1 데이터 행 수(19)와 인덱스(0 to18)를 보여줍니다. 2 컬럼 개수를 보여줍니다. 3 데이터가 가지고 있는 컬럼명을 보여줍니다. 4 Non-Null Count는 Null이 아닌 데이터 수입니다. 여기서 Null이란 데이터가 비어 있다는 뜻입니다. 이 데이터에는 비어 있는 값이 없으므로 Var_1과 Var_2 모두에서 19를 출력합니다. 5 자료형을 의미합니다. Var_1과 Var_2 모두 int64라는 자료형입니다. sample.describe() 이 함수는 각..

판다스로 csv 파일 불러오기

판다스로 csv 파일 불러오기 판다스를 사용해서 sample.csv 파일을 불러오겠습니다. 해당 파일의 URL을 file_url이라는 이 름으로 저장하고, 이를 read_csv( ) 함수 안에 써주면 됩니다. 그러면 판다스 데이터프레임 형태 로 데이터를 불러옵니다. 이를 원하는 객체에 저장하면 해당 객체를 이용해 데이터를 사용할 수 있습니다. 여기서는 sample이라는 객체로 저장하겠습니다. import pandas as pd import numpy as np file_url = 'https://media.githubusercontent.com/media/musthave-ML10/data_source/main/sample.csv' sample = pd.read_csv(file_url) sample.hea..

Pandas DataFrame

Pandas DataFrame : pandas 라이브러리가 사용하는 기본 자료구조 1. DataFrame은 2차원 테이블 구조를 말합니다. 2. 1차원 구조인 Series 도 있습니다. (1 row, 1 column) 3. row, column으로 모든 원소를 구분합니다. (indexing) 4. index, columns, values라는 객체 변수를 가지고 있습니다. 5. Relational DB와 완전히 호환됩니다. 6. 하나의 column을 기준으로 모든 원소의 data type이 동일합니다. (모두 numpy array가 가지는 data type과 동일) 7. DataFrame은 numpy array를 상위 호환하는 개념으로 universal function이 사용 가능합니다. → 내부 구현체로..

데이터 분석 라이브러리-Pandas를 사용하는 이유

Pandas : Python Data Analysis Library. 1. 정형 데이터 분석에 최적화된 라이브러리 - 2008년에 만들어졌으며, 2009년에 100% 오픈소스가 되었습니다. - 정형 데이터를 효율적으로 표현할 수 있는 DataFrame 형태로 모든 데이터를 표현합니다. - 다양한 데이터 조작 기능을 제공합니다. e.g. indexing(=search), filtering, reshaping, concatenation, reading/writing, ... - 벡터 연산에 최적화되어 있습니다. → Numpy와 연관성이 있다! # pandas example import pandas as pd df = pd.DataFrame(np.random.randn(5, 3)) df.head() 2. Pa..

데이터 분석 With Python

1. 데이터 핸들링 1. 판다스 데이터 구조 2. DataFrame기본 3. row/column 선택, 추가, 삭제 4. 조건에 맞는 데이터 탐색 및 수정 5. 데이터 정렬 6. 데이터 결합 7. 데이터 요약 8. 데이터 재구조화 9. 데이터프레임에 함수 적용하기 10.문자열 데이터 변환하기 11.날짜 데이터 핸들링 2. EDA와 시각화 1. EDA의 의미 2. 막대 그래프와 히스토그램 3. 상자그림 4. 산점도 5. 상관관계 시각화 6. Pandas Profiling 3. 데이터 전처리 1. 데이터 전처리의 의미 2. 이상치 확인 및 정제 3. 범주형 변수처리 4. 데이터 분할 5. 데이터 스케일링 6. 차원 축소 7. 데이터 불균형 처리 4. 머신러닝 프로세스 1. 머신러닝의 의미 2. 머신러닝 프로..

jupiter notebook 확장 extentions 설치

Jupyter Notebook을 사용하면서 유용한 활용 가능 (Variable Inspector, ‘Table of Contents’) 기능-오타주의 (base) D:\>conda install -c conda-forge jupyter_contrib_nbextensions Collecting package metadata (current_repodata.json): done Solving environment: / The environment is inconsistent, please check the package plan carefully The following packages are causing the inconsistency: - defaults/win-64::anaconda==2021.11=..

반응형