본문 바로가기

파이썬 활용

(37)

10.26 형태소 분석 네이버 기사 크롤링_ 학교수업 때 배운내용 In [1]: ## 01_형택소분석 명사 조사 등등 종류별로 구분하기 ## 02_TXT파일 불러서 형태서 분석 ## 03_append()와 +의 차이점 Mounted at /gdrive In [ ]: # 텍스트를 형태소 단위로 나눈다. okt.morphs(df) # 텍스트에 어절을 추출 okt.phrases(df) # 텍스트에서 명사만 추출 okt.nouns(df) #오타를 고쳐서 분석해준다. # norm = True : 품사 태깅(기본값 False) okt.pos("이것도 되나욬ㅋㅋㅋㅋ",norm = True) #stem=True : 원형 글자로 바꿔준다. (기본값 False) okt.pos("이것도 되나욬ㅋㅋㅋㅋ",norm = True,stem=True) In [ ]: # +는 1차원리스트를 유지시키..

크로링 기초 _ 학교 수업 때 배운 부분 1. HTML¶ HTML: 웹 페이지의 구조를 나타내기 위한 언어이며 태그로 구성되어 있다. 태그 꺾쇠 괄호()로 표시하며 많은 대부분의 태그는 시작태그와 종료태그로 구성된다. 가장 큰 제목 두 번째로 큰 제목 태그는 속성명과 속성값이 올 수 있다. 가장 큰 제목 태그는 부모 태그와 자식 태그가 있다. 크롤링 시 자주 사용되는 태그 div: 구역 나누기 a: 링크 h1~h6: 제목 (h1의 글자 크기가 가장 크고, h6의 글자 크기가 가장 작다.) p: 문단 ul: 순서없는 목록 선언 li: 목록 2. 네이버 헤드라인 뉴스 크롤링¶ 목차 requests 라이브러리 beautifulsoup 라이브러리 네이버 헤드라인 뉴스 크롤링 2.1 requests 라이브러리¶ HTTP 통신을 위한 파이썬 라이브러..

인구통계분석_학교 수업 때 배운 부분 In [ ]: !sudo apt-get install -y font-nanum Reading package lists... Done Building dependency tree Reading state information... Done E: Unable to locate package font-nanum In [ ]: !sudo fc-cache -fv /usr/share/fonts: caching, new cache contents: 0 fonts, 1 dirs /usr/share/fonts/truetype: caching, new cache contents: 0 fonts, 2 dirs /usr/share/fonts/truetype/humor-sans: caching, new cache content..

API 크롤링_지역별 산불 통계 _ 학교 수업 때 배운 부분 In [ ]: In [34]: from google.colab import drive drive.mount('/gdrive', force_remount= True ) Mounted at /gdrive In [ ]: import requests as rq from bs4 import BeautifulSoup as bs import numpy as np import pandas as pd #2021년은 길이가 한부분 달라서 데이터 프레임 불가능 했더 site= 'https://apis.data.go.kr/1400000/forestStusService/getfirestatsservice?' userkey= 'serviceKey=AAAS9ZmuHQ8ul8jOsCMUTd%2BVwHzoVIN%2Fqa2GAqr78T..

문자열 함수 모음집 문자열 관련 함수 알아보기¶ 문자열에 있는 특정 문자 갯수 세기 (count 함수)¶ In [1]: data = 'Dave David' data.count('D') # 문자열에 D 가 몇 번 나올까요? 대소문자도 구별함 Out[1]: 2 간단 연습: string에 v 는 몇 번 나올까? 간단 연습: string에 vid 는 몇 번 나올까? (꼭 문자 하나만 되는 것이 아니라, 연결된 문자열도 가능) 문자열에 있는 특정 문자의 위치 알려주기¶ index 함수¶ In [7]: string = 'Dave ID is dave' string.index('i') # 맨 앞 자리부터 0, 1, ... 순으로 위치를 표시 Out[7]: 8 간단 연습: string에 있는 D의 위치 확인하기 (가장 먼저 나오는 위치를 ..

브라질 이커머스 쇼핑몰 매우 큰 데이터 셋으로 전처리 후 분석 해보기 데이터 브라질에서 가장 큰 백화점의 이커머스 쇼핑몰 (https://olist.com/solucoes/distribuidoras-e-lojas-de-bebidas/) 2016년도부터 2018년도 100k 개의 구매 데이터 정보 구매 상태, 가격, 지불수단, 물류 관련, 리뷰관련, 상품 정보, 구매자 지역 관련 정보

코로나 년도별 데이터 셋에서 확진자 회복자 사망자별 분류 전처리 In [17]: import pandas as pd years=['2020','2021','2022'] df_year=[] for year in years: path= 'final_covid_data_for_Recovered_%s.csv' %year covid_df= pd.read_csv(path, encoding='utf-8-sig',index_col=0) df_year.append(covid_df) covid_df=pd.merge(df_year[0],df_year[1], on='Country_Region') covid_df=pd.merge(covid_df,df_year[2], on='Country_Region') cols_covic = covid_df.columns.tolist() cols_covic..

코로나 년도별 확진자수 분석 전처리 In [17]: import pandas as pd years=['2020','2021','2022'] df_year=[] for year in years: path= 'final_covid_data_for_Recovered_%s.csv' %year covid_df= pd.read_csv(path, encoding='utf-8-sig',index_col=0) df_year.append(covid_df) covid_df=pd.merge(df_year[0],df_year[1], on='Country_Region') covid_df=pd.merge(covid_df,df_year[2], on='Country_Region') cols_covic = covid_df.columns.tolist() cols_covic..

이전 1 2 3 4 5 다음

티스토리툴바