백엔드 프레임워크 & 언어/Pandas & numpy

데이터 분석 라이브러리-Pandas를 사용하는 이유

anodos 2023. 7. 1. 20:27

Pandas : Python Data Analysis Library.

1. 정형 데이터 분석에 최적화된 라이브러리

 

- 2008년에 만들어졌으며, 2009년에 100% 오픈소스가 되었습니다.
- 정형 데이터를 효율적으로 표현할 수 있는 DataFrame 형태로 모든 데이터를 표현합니다.
- 다양한 데이터 조작 기능을 제공합니다.
   e.g. indexing(=search), filtering, reshaping, concatenation, reading/writing, ...
- 벡터 연산에 최적화되어 있습니다. → Numpy와 연관성이 있다!

 

# pandas example
import pandas as pd
df = pd.DataFrame(np.random.randn(5, 3))
df.head()

2. Pandas를 사용해야 하는 이유

1. 대부분의 정제된 데이터들은 테이블 형태로 표현됩니다.

2. 이런 테이블 형태의 데이터를 분석하기에 최적의 라이브러리입니다.
2. numpy처럼 정형화된 데이터 연산에 최적화 되어 있습니다. 성능이 매우 뛰어납니다!
3. 다양한 정형 데이터를 통합 관리할 수 있습니다. json, html, csv, xlsx, hdf5, sql, ... 모두 DataFrame으로 통일해서 표현

   될 수 있다.
4. 엑셀에서 제공하는 연산 기능을 거의 다 제공합니다. 편의성이 좋다!

 

 

 

 

 

 

 

반응형