데이터 아키텍처 & 처리기술 & DBMS/Data Preprocessing 4

데이터를 바라보는 관점(Views)

ANSI/X3/SPARC 3 Schema는 데이터 독립성(Data Independance)를 강조하며, 데이터를 개념스키마(Conceptual Schema) 즉 개념 데이터 모델 혹은 논리 데이터 모델 중심으로 데이터 관리가 되어야 함을 제안 The ANSI/X3/SPARC DBMS framework report of the study group on database management systems. Information systems, 3(3), 173-191. (https://www.sciencedirect.com/science/article/abs/pii/0306437978900017) The ANSI/X3/SPARC DBMS framework report of the study group on ..

데이터 전 처리가 어려운 이유

1.데이터를 처리하기 위해 여러 기술을사용함. 그기술의종류만큼데이터를중복한다는의미가될수있으니검토대상이다. 2. Software Developer의Data는Storage, File이다. Data는Storage, File에저장되는것이지Data = Storage, File은아니다. Data로현상과사실이설명될수있어야한다. 그사실들을 질의하여 언제든지 답을 얻을 수 있도록 정규화해놓은것이바로Database 다! 3. 데이터 처리는 SQL이 가장 효율적인데, SQL을 잘 사용하지 않는다. 이유는Data Engineer가SQL 구사능력이부족하기때문이라고생각한다. (My Personal Opinion) 4. Requirement Analysis를하지않고Design 부터한다. 비즈니스용어, 단어에대한고민은없고현재Hot한..

데이터 전처리의 정의

Data Analytics Value Chain 데이터 기반 의사결정을 위한 가치 사슬은 아래와 같으며, 데이터 분석으로 인사이트 도출과 실으로 가치를 만드는 것이 핵심임 데이터 전처리는 데이터 분석에서 가장 중요한 단계 “데이터전처리는데이터마이닝프로세스에서중요한단계입니다. “garbage in, garbage out” 이라는문구는특히데이터마이닝과기계학습프로젝트에적용될수있습니다. 데이터수집방법은제어가쉽지않아범위를벗어나는값(예: 소득-100), 데이터조합(예: 성별: 남성, 임신: 예), 누락된값등이발생합니다. 이러한문제에대해신중하게선별되지않은데이터분석은잘못된결과가발생할수있습니다. 따라서분석을수행하기전에데이터의품질과표현은다른무엇보다도더중요합니다. 대부분의경우데이터의전처리는기계학습프로젝트의가장중요한단계입니다..

반응형