EDA는 "Exploratory Data Analysis"의 약어로, 탐색적 데이터 분석을 의미합니다.
EDA는 데이터를 이해하고 파악하기 위해 다양한 시각화 및 통계 기법을 활용하는 과정입니다. 데이터 분석의 초기 단계로 사용되며, 데이터의 특성과 패턴을 파악하여 향후 분석 및 의사 결정에 도움을 줍니다.
EDA는 다음과 같은 목적과 과정을 가지고 있습니다:
1. 데이터 이해: EDA는 데이터셋의 구성, 변수의 형태, 변수 간의 관계, 데이터의 분포, 이상치 등을 탐색하여 데이터에 대한 이해를 돕습니다. 데이터의 특성과 품질을 파악하고 데이터의 잠재적인 문제점을 발견하는 데 도움을 줍니다.
2. 패턴 및 상관관계 파악: EDA는 데이터의 내재된 패턴이나 변수 간의 상관관계를 확인하는 데 사용됩니다. 그래프, 히스토그램, 산점도 등의 시각화 도구를 통해 데이터의 특성을 시각적으로 파악할 수 있습니다.
3. 이상치 탐지: EDA는 이상치(Outlier)를 탐지하고 이를 처리하는 데 도움을 줍니다. 이상치는 일반적인 데이터 패턴에서 벗어나는 값으로, 데이터 분석에 부정적인 영향을 줄 수 있습니다. EDA를 통해 이상치를 식별하고 필요에 따라 제거하거나 대체하는 등의 처리를 수행할 수 있습니다.
4. 변수 선택 및 특성 공학: EDA는 변수 간의 중요성을 평가하고, 예측 모델링이나 분류 작업에 가장 유용한 변수를 선택하는 데 도움을 줍니다. 또한, 변수들 간의 변환 또는 새로운 특성을 생성하기 위한 특성 공학에 활용될 수 있습니다.
EDA는 데이터 분석의 초기 단계이며, 데이터셋에 대한 탐색적인 분석을 수행하는 과정입니다. 다양한 시각화 기법, 통계적 분석, 그리고 기초적인 데이터 처리 기술을 사용하여 데이터의 특성을 파악하고 유용한 인사이트를 도출하는 데 활용됩니다.
'재테크•투자•경제•주식' 카테고리의 다른 글
씨드머니 빨리 모으는 법 (0) | 2023.07.14 |
---|---|
코테가와 타카시 투자기법 (0) | 2023.07.14 |
PBR(Price-to-Book Ratio) (0) | 2023.07.14 |
백테스팅(Backtesting) 이란? (0) | 2023.07.14 |
샤프 지수(Sharpe Ratio) 란? (0) | 2023.07.14 |