본문 바로가기

파이썬 활용

(37)
데이터 프레임 조작+데이터 형변환 + 주식 데이터 시계열 활용 1. 데이터 프레임 형변환 2. 오브젝트 자료를 데이트 형으로 변환해서 불러오기 3. 주식 데이터 시계열 활용 In [3]: import pandas as pd import numpy as np In [ ]: concat 함수 In [26]: df1 = pd.DataFrame([['a0','a0','a0','a0'],['a1','a1','a1','a1'], ['a2','a2','a2','a2'], ['a3','a3','a3','a3']], columns=['A','B', 'C', 'D']) df2 = pd.DataFrame([['a4','a4','a4','a4'],['a5','a5','a5','a5'], ['a6','a6','a6','a6'], ['a7','a7','a7','a3']], columns=[..
크롤링한 데이터 엑셀에 저장 후 불러오기 크롤링 해서 엑셀파일로 저장¶ openpyxl 라이브 러리 사용¶ xlsx 파일읽고 저장 모두 가능 설치 터미널 모드에서 다음명령 실행 !pip install openpyxl In [2]: !pip install openpyxl Requirement already satisfied: openpyxl in c:\users\82105\anaconda3\lib\site-packages (3.0.9) Requirement already satisfied: et-xmlfile in c:\users\82105\anaconda3\lib\site-packages (from openpyxl) (1.1.0) In [8]: import openpyxl In [10]: excel_file = openpyxl.Workbook(..
네이버 api json 데이터 가져오기 In [1]: import json data = """ { "lastBuildDate": "Sat, 22 Jun 2019 14:57:13 +0900", "total": 634151, "start": 1, "display": 10, "items": [ { "title": "MHL 케이블 (아이폰, 안드로이드 스마트폰 HDMI TV연결)", "link": "https://search.shopping.naver.com/gate.nhn?id=10782444869", "image": "https://shopping-phinf.pstatic.net/main_1078244/10782444869.5.jpg", "lprice": "16500", "hprice": "0", "mallName": "투데이샵", "produc..
기상 데이터 크롤링(넘파이로 전처리) In [1]: import requests from bs4 import BeautifulSoup import pandas as pd In [2]: res = requests.get('https://www.weather.go.kr/w/obs-climate/land/city-obs.do') print(res) In [3]: soup=BeautifulSoup(res.content, 'html.parser') soup Out[3]: 메인메뉴 바로가기 본문 바로가기 기상청 날씨누리 홈 바로가기 KOR ENG CHN JPN 날씨 기상특보 특보현황 통보문 영향예보 가뭄예보 안개정보 기상특보 발표기준 국민행동요령 날씨상황판 예보 단기예보 중기예보 북한날씨 장기전망 1개월 전망 3개월 전망 3개월 전망 해설서 기후감시요..
지마켓 탑100개 (품명 ,가격) 크롤링 + 엑셀에 저장 Crawling & Crawing¶ 1. 실전 예제: 크롤링¶ 이커머스(지마켓) 베스트100 상품 타이틀/가격 추출하기 In [2]: import requests from bs4 import BeautifulSoup import re res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06') soup = BeautifulSoup(res.content, 'html.parser') bestlists = soup.select('div.best-list') bestitems = bestlists[0] products = bestitems.select('ul li') for index, product in enume..
xml 불러오기 다양한 Open API 사용하기¶ 정부3.0 공공 데이터 포털 API 사용하기¶ 공공 데이터 포털 가입하기 https://www.data.go.kr 회원가입 -> 로그인 -> '한국환경공단_대기오염정보' 으로 검색 후, 해당 Open API 페이지로 이동공공 데이터 포털은 공인된 기관임에도 아쉽게도, 메뉴와 Open API 가 링크 등이 수시로 바뀌고 있습니다. 해당 API 에서 활용신청을 통해 인증키를 발급받은 후, 샘플코드 또는 페이지에 링크되어 있는 문서 또는 가이드를 기반으로 테스트 진행 JSON 이외에 XML 포멧으로 데이터를 다루는 경우도 많음 XML 관련 내용은 '다양한 데이터 읽기 - XML 파일' 참조 공공데이터포털 Open API 예제¶ https://www.data.go.kr/data..
크롤링 지마켓- 상품명 + 배송사 크롤링 지마켓 베스트 페이지 상품명 가격 + 이중 크로링으로 배송사 알아내기¶ In [1]: import requests from bs4 import BeautifulSoup import re res = requests.get('http://corners.gmarket.co.kr/Bestsellers?viewType=G&groupCode=G06') soup = BeautifulSoup(res.content, 'html.parser') bestlists = soup.select('div.best-list') bestitems=bestlists[0] #혹시 html에 동일한 div가 있을수도 있기때문에 몀ㅊ번째 div인지 지정 bestitem = bestitems.select('ul > li') for index,..
다중 크롤링 네이버 쇼핑몰, 주식 네이버쇼핑몰 크롤링¶ 상품명 크롤링후 상품명 문장 전처리¶ In [18]: import requests from bs4 import BeautifulSoup res = requests.get('https://davelee-fun.github.io/') soup = BeautifulSoup(res.content, 'html.parser') items = soup.select('div.card-body > h4') for index,item in enumerate(items): print (str(index+1),item.get_text().split(':')[1].split(',')[0].strip()) 1 보몽드 순면스퀘어 솔리드 누빔매트커버 2 슈에뜨룸 선인장 리플 침구 세트 3 선우랜드 레인보우 2단..