Data Analytics Value Chain
데이터 기반 의사결정을 위한 가치 사슬은 아래와 같으며, 데이터 분석으로 인사이트 도출과 실으로 가치를 만드는 것이 핵심임
데이터 전처리는 데이터 분석에서 가장 중요한 단계
“데이터전처리는데이터마이닝프로세스에서중요한단계입니다. “garbage in, garbage out” 이라는문구는특히데이터마이닝과기계학습프로젝트에적용될수있습니다. 데이터수집방법은제어가쉽지않아범위를벗어나는값(예: 소득-100), 데이터조합(예: 성별: 남성, 임신: 예), 누락된값등이발생합니다. 이러한문제에대해신중하게선별되지않은데이터분석은잘못된결과가발생할수있습니다. 따라서분석을수행하기전에데이터의품질과표현은다른무엇보다도더중요합니다. 대부분의경우데이터의전처리는기계학습프로젝트의가장중요한단계입니다(특히,전산생물학에서).
“Data preprocessingis an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in out-of-range values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running an analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology.”
Raw Data를 정리된 데이터로 만드는 과정
Data Proparation = Data pre-processing
데이터준비는원시데이터(이기종데이터소스에서올수있는)를쉽고정확하게분석할수있는형식으로작업(또는전처리)하는것입니다(예: 비즈니스목적). -> Data preparationis the act of manipulating (or pre-processing) raw data(which may come from disparate data sources) into a form that can readily and accurately be analysed, e.g. for business purposes.
•데이터 준비는데이터 분석 프로젝트의첫번째 단계이며 데이터로드 또는 데이터처리, 데이터통합, 데이터정제, 데이터확대 및 데이터 전달과같은많은 개별작업을 포함 할 수 있습니다.
-> Data preparation is the first step in data analytics projects and can include many discrete tasks such as loading data or data ingestion, data fusion, data cleaning, data augmentation, and data delivery.
1.원시데이터(Raw Data) 를 데이터분석이 가능한형태로 만드는과정이다.
2.그래서, 데이터마이닝과 머신러닝 프로젝트에서 가장 중요한 단계이다.
3.분석데이터전처리의 데이터품질은 가장 다루기 어려움 문제이지만 해결책은 현재없어 보인다.
4.하지만데이터품질이보장되지않으면데이터분석결과는사용하기어렵다(“garbage in, garbage out”).
•데이터 분석 작업의 대부분은 데이터 가공에 소요됨
p44 ~ p45
데이터과학 초보자들이 가지기쉬운 환상중하나가 데이터과학자 실무작업내용의 대부분이데이터의 시각화와 모형화라고생각하는것이다.
이환상은 대부분의 실무영역에서 빨리깨지게 된다.
시각화와 모형화를 바로실행 할 수있는 데이터는적다.
보통데이터과학자의데이터분석작업시간의70~80%이상은데이터가공에소요된다!
거꾸로생각하면이말은데이터가공을잘하면데이터를분석하는시간을 70~80%줄일수있다는것이다.
데이터가공은그만큼중요하다.
물론,통계학모형화등의지식이기본이되어야한다. 하지만통계모형화와시각화의기본기를갖춘사람이데이터가공에 능하게되면 훨씬많은 양의시각화와모형화를할수있게된다.
그리고그만큼다양한시각화와모형화를더많이연습할수있게되어 결국은 시각화와 모형화에도달인이된다. 선순환인것이다.
어떤도구를사용해야할까?필자의직장동료중엑셀만능숙하게사용하던사람이있었다.(중략…)
'데이터 아키텍처 & 처리기술 & DBMS > Data Preprocessing' 카테고리의 다른 글
데이터 전 처리 단계 활용 전략 (0) | 2023.12.24 |
---|---|
데이터를 바라보는 관점(Views) (0) | 2023.12.24 |
데이터 전 처리가 어려운 이유 (0) | 2023.12.24 |