과목1. 데이터 이해 제1장.데이터의 이해 제1절. 데이터와 정보 제2절. 데이터베이스의 정의와 특징 제3절. 데이터베이스 활용 제2장.데이터의 가치와 미래 제1절. 빅데이터의 이해 1.정의 2.출현배경 3.빅데이터 기능 4.빅데이가 만들어 내는 본질적 변화 제2절. 빅데이터의 가치와 영향 제3절. 비즈니스 모델 제4절. 위기 요인과 통제방안 제5절. 미래의 빅데이터 제3장.가치 창조를 위한 데이터 사이언스와 전략 인사이트 제1절. 빅데이터 분석과 전략 인사이트 제2절. 전략 인사이트 도출을 위한 필요 역량 1. 데이터사이언의 의미와 역할 2. 데이터사이언스의 구성요소 3. 데이터사이언:과학과 인문학의 교차 4. 전략적 통찰력과 인문의 부활 5. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할..
1. mongdb 실행 및 기본 db확인 C:\Users\anodos>mongo MongoDB shell version v4.2.18 connecting to: mongodb://127.0.0.1:27017/?compressors=disabled&gssapiServiceName=mongodb Implicit session: session { "id" : UUID("a675e7b8-400a-4618-966c-353842db7f1b") } MongoDB server version: 4.2.18 Welcome to the MongoDB shell. For interactive help, type "help". For more comprehensive documentation, see https://docs.m..
1. 다운로드 https://www.mongodb.com/try/download/community MongoDB Community Download Download the Community version of MongoDB's non-relational database server from MongoDB's download center. www.mongodb.com 2. default 설치 후 환경변수 등록 환경변수 : path에 등록 C:\Program Files\MongoDB\Server\4.2\bin 3. Mongodb 버전 확인 C:\Users\anodos>mongo --version MongoDB shell version v4.2.18 git version: f65ce5e25c0b26a00d091..
MLlib는 Spark SQL과 스파크 스트리밍(Spark Streaming)과 같이 스파크 내부의 서브 프로젝트다. 이름에서 알 수 있듯이 머신러닝을 위해 만들어졌다. 사실 머신러닝 프로그램은 매우 많고, 이미 상용 시장에서도 널리 활용되고 있다. 오픈소스만 나열하자면, 빅데이터용은 아니지만 가장 일반적인 분석 오픈소스인 R, 파이썬의 scikit-learn, 빅데이터용이고 하둡과 연계로 유명해진 머하웃, 최근 주목을 받고 있는 H20 등이 있다. 앞서 언급했듯이 여러 가지 분석툴이 있고, 특히 대용량 데이터 분석에서는 머하웃이 각광받고 있었다. 그런데 굳이 다시 스파크 서브 프로젝트로서 MLlib를 만든 이유는 무엇이고, 그 장점은 어떤것이 있을까? 대용량 분석이 가능한 머하웃과 비교해 보며 MLli..
https://community.hortonworks.com/articles/42027/rdd-vs-dataframe-vs-sparksql.html 특정 Spark 데이터 처리 작업 부하에 대해 RDD 대 DataFrame 대 SparkSQL의 성능 비교 결론 : 데이터 프레임이 짱. 데이터셋은 진보중. RDD가 DataFrames 및 SparkSQL보다 우수한 성능을 발휘했다고 나오는데 DataFrame 및 SparkSQL 테스트를 위해 RDD 에서 데이터 프레임으로 변환하는 과정때문이라고 Comment 로 지적. databricks 에서 SparkSQL csv reader 를 사용했다면 비교가 다를 것이라고 지적. 아파치 문서마다 DataFrame에 RDD 보다 뛰어난 메모리와 쿼리 옵티마이져가 있기..
1.스칼라? 스칼라는 2004년 마틴 오더스키(Martin Odersky)가 발표한 객체 지향 언어의 특징과 함수형 언어의 특징을 함께 가지는 다중 패러다임 프로그래밍 언어입니다. 특징 JVML(Java Virtual Machine Language) 스칼라는 자바가상머신(JVM)에서 동작하는 JVML입니다. JVML이란 자바가상머신(JVM) 위에서 동작하는 언어들로 scala, kotlin, Groovy 등1이 있습니다. 자바 가상 머신 위에서 동작하기 때문에 자바의 모든 라이브러리를 사용할 수 있습니다. 스칼라는 스칼라 컴파일러를 통해 스칼라 코드를 바이트 코드로 변환하고, 바이트 코드는 JVM 상에서 자바와 동일하게 실행됩니다. 함수형 언어 스칼라는 함수형 언어의 특징을 가지기 때문에 자바에 비하여 ..