마크다운 생성기 (MarkDown Generator)
https://www.tablesgenerator.com/markdown_tables
- 백엔드 프레임워크 & 언어/Pandas & numpy
- · 2023. 7. 9.
목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 3-1. 앙상블 모형을 이용한 성능개선 # K 최근접 이웃 분류 : 1 # 결정트리 : 1 # 로지스틱 회귀 : 0 Voting 방식에 따라 1이 2개이므로 1을 선택 from sklearn.neighbors import KNeighborsClassifier from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import VotingClassifier model_list =[('knn',KNeighbor..
목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 2-1. 분류를 통한 주가 등락 예측 지난시간에는 KNeighborsRegressor와 LinearRegression를 통해 주가 예측을 살펴 보았다. 강의주제의 저자 말로는 일일주가변동폭이 크지 않기 때문에, 주가 예측율이 99%이긴 하지만 , 실제로 등락폭 예측이 더 좋은 방법이라 한다. 엑셀의 주가데이터를 df 데이터로 다시 읽어 오기 df = pd.read_excel('samsung.xlsx') df 분류를 통해 주가 등락 예측을 해보자. 내일 주가의 등락여부를 판별해보자 data = df[['종가','시가','고가','저가','거래량']] data 주가 오르..
목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 2-1. 데이터 분석을 위한 라이브러리 설정 머신러닝을 위한 라이브러리를 임포트 한다. - K-최근접이웃- 선형회귀 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsRegressor from sklearn.linear_model import LinearRegression import numpy as np 2-2. 데이터 불러오기 저장해 두었던 samsung.xlsx를 df 로 불러오기 df = pd.read_exce..
목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-7. 페이징처리된 모든 데이터 가져오기 우리는 기존에 1페이지에 해당하는 데이터만 가져왔다. 근데 가져올 데이터는 아래와 같이 전체 679 페이징 데이터가 모두 필요하다. 1) for 문을 돌려서 679 페이지 까지 데이터를 가져오기 위해 range(1,680) 2) 모든 데이터를 취합하기 위한 total list 생성 3) for문의 시간을 측정하기 위해 tqdm 라이브러리 임포트 및 설정 4) 크롤링한 데이터를 저장하기 위해 total.append(table) 5) 크롤링시 서비스에 문제없고, DoS로 오해받지 않도록 sleep(1) 설정 import requ..
import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh: Intel OS X 10_13_6}'} url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1" url = requests.get(url, headers = headers) html = BeautifulSoup(url.text) # 이 HTML처럼 보이는 Text를 진짜 HTML로 변환하기 html = html.fin..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-7. 표 데이터를 Pandas로 가져오기 사실 해당 페이지에서 필요한 부분은 아래의 테이블 구조만 필요하다. 따라서 Dom 검색을 통해 해당 테이블만 추출하여야 한다. 페이지에서 마우스 오른 쪽 클릭 -> "검사"를 클릭해서 해당 DOM 구조를 찾는다. Dom 중에 table Tag에 class가 속성값이 "type2" 임이 확인된다. 해당 Dom 구조 데이터만 가져오기 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 i..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-6. 필요한 Dom 구조 가져오기 사실 해당 페이지에서 필요한 부분은 아래의 테이블 구조만 필요하다. 따라서 Dom 검색을 통해 해당 테이블만 추출하여야 한다. 페이지에서 마우스 오른 쪽 클릭 -> "검사"를 클릭해서 해당 DOM 구조를 찾는다. Dom 중에 table Tag에 class가 속성값이 "type2" 임이 확인된다. 해당 Dom 구조 데이터만 가져오기 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 impor..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-5. HTML로 변환하기 전단계 request를 가져온 데이터는 사실 text 형식이지 정확한 html 이 아니다. 이를 html 형식으로 인식할수 있도록 BeautifulSoup을 통해 html로 변환해야 한다. import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 (Macintos..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-4. 크롤링 방지 우회하기 Http 요청시 헤더 정보의 User-Agent 가 프로그래밍 방식으로 되어 있는 경우 포털 홈페이지에서 이를 필터하므로, 요청시 헤더 정보를 아이폰의 User-Agent로 변경하여 우회하여 가져와 보자 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 ..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-2 크롤링을 위한 URL 구조 식별 하단 페이지를 클릭해 URL 구조 확인 https://finance.naver.com/item/sise_day.naver?code=005930&page=1 1-3. 크롤링 해오기 필요 라이브러리 임포트하고 해당 페이지의 html을 가져온다 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 url = "https:/..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-1. 크롤링 대상 식별 및 확인 1-1-1. 크롤링이란? - 크롤링 : 인터넷에서 데이터를 수집하는 방법 - 주의 : 각 포털은 크롤링 대응을 하기 때문에 UserAgent를 통해서 크롤링 방어를 우회하여야 함 1-1-2. 크롤링 대상 확인 (네이버 금융 페이지 삼성전자 주식데이터 일별시세 ) 1) 네이버 금융(https://finance.naver.com/) 2) 상단메뉴 -> 국내증시 -> 시가총액(왼쪽메뉴) -> 삼성전자 -> 시세(중간쯤) 클릭 -> 일별시세 3) 일별 시세만을 가져오기 위해서 상단 URL 변경 (크롤..
https://www.tablesgenerator.com/markdown_tables
명령모드(Command Mode) : ESC로 전환한다다 Shift-Enter : 셀을 실행시키고, 아래 셀을 선택한다. Ctrl-Enter : 셀을 실행시킨다 Alt-Enter : 셀을 실행하고, 아래 한칸 추가 한다 Y : 코드 모드 M : 마크다운 모드 B : 아래 셀 삽입 X : 선택된 셀을 잘라내기 한다 C : 셀의 내용을 복사한다 Shift-V : 현재 셀 위에 복사한다. V : 셀아래 붙여넣기 한다 Z : 마지막 셀삭제 복원 D,D : 선택된 셀 삭제 Shift-M : 아래셀을 병합한다 명령모드(Command Mode) : ESC로 전환한다 Shift-Tab : 툴팁표시 Ctrl-] : indent Ctrl-Shift- : split cell 단축키 찾아 보기
1. 일표본 T-검정 개념 가. 일표본 T-검정 개념 단일 모집단에서 관심이 있는 연속형 변수의 평균값을 특정 기준값과 비교 가정 : 모집단의 구성요소들이 정규분포를 이룬다는 가정 - 종속변수는 연속형이어야 함 - 검증하고자 하는 기준값이 있어야 함 나. 일표본 검정 단계
[연습문제] A생산라인, B생산라인 각각에서 12개의 제품을 샘플로 뽑았다. A생산라인의 제품 평균은 5.7mm이고 표준편차는 0.03, B생산라인의 제품 평균은 5.6mm이고 표준편차는 0.04 이다. 5%유의수준에서 두 제품의 평균의 차이가 있는지 검정하라 1. 귀무가설과 대립가설을 작성하시오 2. 검정통계량 구하고 대립가설 채택여부를 작성하시오 1. 귀무가설과 대립가설을 작성하시오 귀무가설 : A,B 두 생산라인 제품의 평균은 같다. 대립가설 : A,B 두 생산라인 제품의 평균은 같지 않다. 2. 검정통계량 구하고 대립가설 채택여부를 작성하시오 두집단의 표본수가 동일(표본의 표준편차가 2개 이내임)하므로 등분산 가정 T검정을 수행한다. t 통계량 6.928203 에 대한 p-value 4.05293..
1. 표본 검정(One Sample T-test) t-test 안에도 표본의 수와 실험 설계에 따라 여러 검정이 존재합니다. 하지만 모든 개념은 차이를 분산으로 비교하는 것입니다. 정규성을 확인 -> 데이터를 순위형으로 변환 -> 분산을 일정하게 만든 후 -> 윌콕슨 순위부호검정 2. 대응 2표본 검정(Paired T-test) [한집단 전후비교] 동일한 집단이지만, 두 집단을 비교해 주는 것처럼 처리 전과 처리 후를 비교해줍니다. 3. 독립 2표본 검정 [두집단의 표본수가 동일, 표준편차가 2내외]
통계학에서 가설검정은 귀무가설이 옳다는 가정 하에 시작한다. 귀무가설(H0) : 통상적인 개념 vs 대립가설(H1) : 새로운 개념 P-value 란? 유의확률, 대립가설이 우연히 채택 될 확률 유의확률이 작을 수록 귀무가설을 기각할 가능성이 높아지는 것 유의수준(a) 귀무가설을 기각하기 위한 반대의 증거가 어느정도 강해야 하는 지를 의미하는 수준 즉, 귀무가설을 유지하기 위한 최소한의 확률이 어느 정도인지를 정하는 것
1. 차이와 분산의 이해 두 표본의 차이를 가지고 모집단이 차이가 난다고 말할 수 있을까요? 2. 통계적으로 차이가 유의한가? t 값을 사용하여 두 집단의 차이가 유의한지를 판단합니다. 3. t-통계량은 무슨 의미일까요? P-Value 값
1. 통계 통계란 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 조사 또는 실험을 통해 데이터를 확보하며, 조사대상에 따라 총조사와 표본조사로 구분한다. 2. 통계자료의 획득 방법 가. 총조사 / 전수 조사 총 조사란 대상 집단 모두를 조사하는 방법이며, 특별한 경우를 제외하고는 사용되지 않는다. 나. 표본조사 원소(element) : 모집단을 구성하는 개체 표본(sample) : 조사하기 위해 추출한 모집단의 일부원소 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 3. 모집단과 표본집단의 개념 모집단 : 연구자가 알고 싶어하는 대상 / 집단 전체 표본(sample) : 연구자가 측정 또는 관찰한 결과들의 집합
1. 통계학은 데이터의 수집, 분석, 해석 전달에 관한 학문 - 데이터 수집 - 데이터 분석 - 데이터의 전체의 이해 (EDA) - 개별 변수의 이해 (히트맵) - 변수 간 관계의 이해 - 관측대상의 이해 과거의 통계학 : 작은 데이터셋 중심의 국소적 측면 현재의 통게학 : 라지 사이즈 데이터, 데이터 통계학 2. 통계분석 특정집단의 자료를 수집하여 대상에 대한 정보를 구하고, 적절한 분석방법을 이용하여 의사결정, 통계적 추론을 하는 과정 기술통계 - 주어진 자료의 특성은 객관적 데이터로 나타내는 통계분석방법(describe()) - Sample에 대한 평균, 표준편차, 최빈 값 등 추론통계 - 모수 추정 - 가설 검정 - 예측 표본집단 -> 모집단 추론 3. 통계분석 Flow (머신러닝 Flow와 유사..