프로젝트 형식으로 공부하면서 정리 하기
목표
1. 크롤링을 통해 네이버 금융주가 주가 가져오기
2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기
3. 성능 좋은 모델을 만들기
1-2 크롤링을 위한 URL 구조 식별
하단 페이지를 클릭해 URL 구조 확인
https://finance.naver.com/item/sise_day.naver?code=005930&page=1
1-3. 크롤링 해오기
필요 라이브러리 임포트하고 해당 페이지의 html을 가져온다
import requests # HTTP 요청 라이브러리
from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능
import time #시간
import pandas as pd # 엑셀화
url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1"
url = requests.get(url)
print(url.text)
근데 가져온 페이지를 보니 에러 메시지를 가져온다!
크롤링 방지를 위해서 HTTP Request 요청시 User Agent 검증을 통해 를 통해 크롤링을 방지하고 있는 듯하다.
'백엔드 프레임워크 & 언어 > Python' 카테고리의 다른 글
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(6) (0) | 2023.07.09 |
---|---|
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(5) (0) | 2023.07.09 |
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(4) (0) | 2023.07.09 |
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(3) (0) | 2023.07.09 |
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(1) (0) | 2023.07.09 |