[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(7)

백엔드 프레임워크 & 언어/Python

[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(7)

anodos 2023. 7. 9. 17:07

import requests # HTTP 요청 라이브러리
from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능
import time  #시간
import pandas as pd # 엑셀화 

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh: Intel OS X 10_13_6}'}


url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1"
url = requests.get(url, headers = headers)
html = BeautifulSoup(url.text) # 이 HTML처럼 보이는 Text를 진짜 HTML로 변환하기
html = html.find('table', class_='type2')
table = pd.read_html(str(html))[0]
table = table.dropna()
table

목표

1. 크롤링을 통해 네이버 금융주가 주가 가져오기

2. 머신러닝알고리즘을 적용해 주가 예측 모델 만들기

3. 성능 좋은 모델을 만들기

1-6. 테이블 데이터 가져오기, 결측치 제거

Dom에서 발췌한 테이블 html상의 데이터를 처리하기 위해서 pandas의 read_html()함수를 이용하여 데이터를 읽는다. 주의할 점은 해당 html을 text 형식으로 변경해서 읽어야 한다.

import requests # HTTP 요청 라이브러리
from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능
import time  #시간
import pandas as pd # 엑셀화 

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh: Intel OS X 10_13_6}'}


url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1"
url = requests.get(url, headers = headers)
html = BeautifulSoup(url.text) # 이 HTML처럼 보이는 Text를 진짜 HTML로 변환하기
html = html.find('table', class_='type2')
pd.read_html(str(html))

판다스로 데이터를 가져왔다. 문제가 있다.

list 형식으로 가져왔기 때문에 안에 데이터를 꺼내주어야 하고, 데이터 활용을 위해서 NaN으로 표기된 결측치를 제거해 주어야 한다.

import requests # HTTP 요청 라이브러리
from bs4 import BeautifulSoup # python으로 HTML을 다루는 기능
import time  #시간
import pandas as pd # 엑셀화 

headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh: Intel OS X 10_13_6}'}


url = "https://finance.naver.com/item/sise_day.naver?code=005930&page=1"
url = requests.get(url, headers = headers)
html = BeautifulSoup(url.text) # 이 HTML처럼 보이는 Text를 진짜 HTML로 변환하기
html = html.find('table', class_='type2')
table = pd.read_html(str(html))[0]
table = table.dropna()
table

데이터를 테이블형식에 예쁘게 저장했다!

저작자표시 비영리 변경금지

'백엔드 프레임워크 & 언어 > Python' 카테고리의 다른 글

[프로젝트]데이터분석-머신러닝을 통한 삼성전자 주가 예측(9) (0)	2023.07.10
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(8) (0)	2023.07.09
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(6) (0)	2023.07.09
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(5) (0)	2023.07.09
[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(4) (0)	2023.07.09

현재글[프로젝트]데이터수집-머신러닝을 통한 삼성전자 주가 예측(7)

진리를 향한 끊없는 혼의 동경

이 블로그는 IT전문가, 심리, 건강, 라이프해킹, 사용자경험 등 살아가는데 필요한 기술적, 심리적, 사회적 기술과 지식, 팁을 제공함으로 써 건강하고 행복한 미래를 만드는데 도움을 주기위해 만들어진 공간입니다.

T머니반독점, no-code, 마음훈련, 잘모른면뺑이침, 티머니공돈먹기, 로코드, 6계명, 54%, 팀뷰어, Oracle19c, 티머니잔대가리, TeamViewer, Teamviewer설치시 오류#알약, 설치오류, 노코드, 충전형티머니, USIM교체, 베르누이분포, raw-code, 모바일티머니,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

진리를 향한 끊없는 혼의 동경