1. Data Set 분할 - 학습데이터를 랜덤으로 학습/검증셋(trani/validation) 분할 - 테스트 셋(test)도 준비 - 학습데이터 : 70~90% - 검증데이터 : 10~20% - 테스트데이터 : 10~20% - 학습데이터를 그룹으로 나누어 교차검증을 하는 방법도 추천 2.데이터 전처리 - 데이터의 표준/정규화 - 범주자료 one-hot-encoding - 특성변수의 축약 - 표준화(평균 0 / 표준편차 1) - 범주형 특성변수를 0과 1의 값으로 변환 - 고차원의 경우 PCA 방법등으로 차원 축소 3.모델 적용 - 과제해결에 적합한 머신러닝 알고리즘 적용 - 평가지표를 통한 모델평가 - 예측/분류/비지도 알고리즘에 데이터 탐색 - 학습된 모델에 검증데이터로 평가 - 정확도 및 과소/과..
1.기술통계 [1] 데이터 요약 [2] 표본추출 [3] 확률 분포 이산확률분포 (베이기음초포) 1. 베르누이 분포 2. 이항분포 3. 기하분포 4. 음이항 분포 5. 초기하 분포 6. 포아송분포 연속확률분포 (표정카티프) 1. 표준정규분포(Z-분포) 2. 정규분포 3. 카이제곱 분포 4. T-분포 5. F-분포 [4] 표본분포 2. 추론통계 [1] 점추정
데이터분석에서 log변환을 하는 이유는 뭘까? 데이터의 정규성을 높이고 분석에서 좀더 정확한 값을 얻기 위함이다. 또 다른 말로 log의 역할은 큰 수를 같은 비율의 작은 수로 바꾸어 주는 역할이다. 복잡한 계산을 심플하고 만든다. 로그를 취하는 순간 그 수는 지수가 되어 버려 값이 작아진다. 식에 로그를 취하는 이유는 1. 큰 수를 작게 만들고 2. 그로 인해 복잡한 계산을 쉽게 만들고 3. 왜도와 첨도를 줄여서 데이터 분석 시 의미있는 결과를 도출한다. 출처 : https://velog.io/@cosmicdev/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EB%A1%9C%EA%B7%B8-%EB%B3%80%ED%99%98
ADP 17회 (출처: https://bigdata-analyst.tistory.com/34) 1. 머신러닝(Machine-Learning) (data: Housing data - log1p로 정규화시킴) EDA, Preprocessing 모델링하고 예측 하이퍼파라미터 조절하여 오차 줄이기, 평가지표는 RMAE 2. 시계열분석 및 시각화(data: Covid19 - 일별 확진자수, 일별 완치자수로 데이터 가공 필요) 코로나 위험지수를 만들고, 그 위험지수에 대한 설명을 적고, 위험지수가 높은 국가들 10개를 선정해서 시각화 한국의 코로나 확진자 예측: 선형 시계열모델, 비선형시계열 모델 2개 만들기 3. 통계분석(data: 설문조사 - A~S까지의 그룹이 설문조사에 응답했고 중간에 반대 문항이 들어가 있..
다음 중 통찰력을 제공하는 분석 기술로 부적절한 것은? ① 모델링 ② 추출 ③ 최적화 ④ 예측 두 번째는 통찰력을 제시하는 단계다. 이 단계에서는 분석의 여러 도구들을 활용해 더 깊이 파고들어 간다. 이를 통해 사업 성과를 좌우하는 핵심적인 문제에 대해 훨씬 깊이 있고 유용한 대답올 얻을 수 있다. 우선 과거에 대한 통찰력은 통계적 모델링 등을 활용해 어떻게. 왜 그런 일이 발생하는지에 대한 설명을 제공한다.그리고 현재에 대한 통찰력은 지금 벌어지는 상황에서 더 나은 결과를 얻기 위해 무엇을 해야 하는지에 대해 효과적인 권고를 줄 수 있다. 가령 지금 백화점을 방문하고 있는 충성고객의 만족도를 높이기 위해 어떤 서비스를 추가로 제공해야 함지에 대한 통찰력을 얻을 수 있는 것이다. 그 고객이 백화점 문을 ..
문) 다음 중 정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해 필요한 정보만을 수집하여 효율성을 달성하는 것은? ① 사전처리 ② 표본조사 ③ 상관관계 ④ 인과분석 문) 빅데이터가 만들어낸 본질적인 변화에 대한 설명으로 적절한 것은? ㄱ. 정해진 특정한 정보만 처리하는 것이 아니라 가능한 많은 데이터를 모으고, 다양한 형식으로 조합해 숨은 정보를 찾아내는 방식으로 전환 ㄴ. 폭발적인 데이터 증가와 더불어 처리비용 증가의 대안으로 전반적인 샘플링 분석 방식의 발전 ㄷ. 데이터의 양이 증가함에 따라 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못한다는 인식의 발전 ㄹ. 복잡한 상관관계 분석으로 발생하는 많은 시간과 비용을 줄이기 위해 인과관계 분석을 더욱 선호하게 되는 경향과 관련기술 발전 ① ..