목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-7. 페이징처리된 모든 데이터 가져오기 우리는 기존에 1페이지에 해당하는 데이터만 가져왔다. 근데 가져올 데이터는 아래와 같이 전체 679 페이징 데이터가 모두 필요하다. 1) for 문을 돌려서 679 페이지 까지 데이터를 가져오기 위해 range(1,680) 2) 모든 데이터를 취합하기 위한 total list 생성 3) for문의 시간을 측정하기 위해 tqdm 라이브러리 임포트 및 설정 4) 크롤링한 데이터를 저장하기 위해 total.append(table) 5) 크롤링시 서비스에 문제없고, DoS로 오해받지 않도록 sleep(1) 설정 import requ..
import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh: Intel OS X 10_13_6}'} url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1" url = requests.get(url, headers = headers) html = BeautifulSoup(url.text) # 이 HTML처럼 보이는 Text를 진짜 HTML로 변환하기 html = html.fin..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-7. 표 데이터를 Pandas로 가져오기 사실 해당 페이지에서 필요한 부분은 아래의 테이블 구조만 필요하다. 따라서 Dom 검색을 통해 해당 테이블만 추출하여야 한다. 페이지에서 마우스 오른 쪽 클릭 -> "검사"를 클릭해서 해당 DOM 구조를 찾는다. Dom 중에 table Tag에 class가 속성값이 "type2" 임이 확인된다. 해당 Dom 구조 데이터만 가져오기 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 i..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-6. 필요한 Dom 구조 가져오기 사실 해당 페이지에서 필요한 부분은 아래의 테이블 구조만 필요하다. 따라서 Dom 검색을 통해 해당 테이블만 추출하여야 한다. 페이지에서 마우스 오른 쪽 클릭 -> "검사"를 클릭해서 해당 DOM 구조를 찾는다. Dom 중에 table Tag에 class가 속성값이 "type2" 임이 확인된다. 해당 Dom 구조 데이터만 가져오기 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 impor..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-5. HTML로 변환하기 전단계 request를 가져온 데이터는 사실 text 형식이지 정확한 html 이 아니다. 이를 html 형식으로 인식할수 있도록 BeautifulSoup을 통해 html로 변환해야 한다. import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 (Macintos..
프로젝트 형식으로 공부하면서 정리 하기 목표 1. 크롤링을 통해 네이버 금융주가 주가 가져오기 2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기 3. 성능 좋은 모델을 만들기 1-4. 크롤링 방지 우회하기 Http 요청시 헤더 정보의 User-Agent 가 프로그래밍 방식으로 되어 있는 경우 포털 홈페이지에서 이를 필터하므로, 요청시 헤더 정보를 아이폰의 User-Agent로 변경하여 우회하여 가져와 보자 import requests # HTTP 요청 라이브러리 from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능 import time #시간 import pandas as pd # 엑셀화 headers = {'User-Agent' : 'Mozilla/5.0 ..