본문 바로가기

파이썬 활용

(37)
데이터 전처리 판다스 병합, 분할, 특정 조회, csv로 저장 PANDA ~ 1.pdf¶ In [44]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns In [45]: data = pd.read_csv("kaggle_survey_2020_responses.csv") data.columns #4, 6,7 , 10 .15,20,26,36,39 C:\Users\82105\AppData\Local\Temp\ipykernel_1064\4007746332.py:1: DtypeWarning: Columns (0) have mixed types. Specify dtype option on import or set low_memory=False. data = pd..
지하철 사용 빈도 알아보기 2 시계열 문자열 활용 전처리와 시각화가 합쳐졌기 떄문에 다양한 전처리 과정을 볼수 있습니다. In [7]: import pandas as pd 넷째마당 대중교통 데이터 프로젝트¶ Unit 11. 대중교통 데이터 시각화하기¶ In [5]: subway_data = pd.read_csv('subwayfee.csv', encoding = 'cp949') subway_data Out[5]: 사용월 호선명 역ID 지하철역 유임승차 유임하차 무임승차 무임하차 0 2019-01 1호선 150 서울역 1516452 1400464 221180 211764 1 2019-01 1호선 151 시청 676932 676266 102388 101033 2 2019-01 1호선 152 종각 1240810 1177643 162410 152062 3 201..
판다스를 이요한 전처리과정 본 노트북에서 사용할 도구들입니다. In [1]: import pandas as pd import matplotlib.pyplot as plt import numpy as np 코랩 환경에서는 아래 코드를 실행시켜 동봉된 파일들을 불러올 수 있습니다. In [ ]: # from google.colab import files # files.upload() 첫째마당 기온 공공 데이터¶ Unit 2. 서울의 기온 데이터 분석하기¶ Unit 2의 데이터 불러오기는 아래와 같은 단순한 코드를 통해 구현할 수 있습니다. In [2]: data_unit2 = pd.read_csv('seoul.csv', encoding = 'cp949') data_unit2 Out[2]: 날짜 지점 평균기온(℃) 최저기온(℃) 최고기..
CSV파일 불러온 후 문자열함수를 활용하여 전처리 하기 In [1]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import csv In [5]: data_unit2 = pd.read_csv('seoul.csv', encoding = 'cp949') data_unit2 Out[5]: 날짜 지점 평균기온(℃) 최저기온(℃) 최고기온(℃) 0 1907-10-01 108 13.5 7.9 20.7 1 1907-10-02 108 16.2 7.9 22.0 2 1907-10-03 108 16.2 13.1 21.3 3 1907-10-04 108 16.5 11.2 22.0 4 1907-10-05 108 17.6 10.9 25..
NUMPY를 이용한 지역별 인구분포도 In [2]: import numpy as np import csv import pandas as pd 넘파이를 이용한 지역인구¶ In [3]: f = open('age.csv') data = csv.reader(f) next(data) Out[3]: ['행정구역', '2019년02월_계_총인구수', '2019년02월_계_연령구간인구수', '2019년02월_계_0세', '2019년02월_계_1세', '2019년02월_계_2세', '2019년02월_계_3세', '2019년02월_계_4세', '2019년02월_계_5세', '2019년02월_계_6세', '2019년02월_계_7세', '2019년02월_계_8세', '2019년02월_계_9세', '2019년02월_계_10세', '2019년02월_계_11세', '..
특정지역 성별 인구통계를 통한 점 그래프 활용 In [1]: import csv f = open('gender.csv') data = csv.reader(f) m = [] f = [] name = input('궁금한 동네를 입력해주세요 : ') for row in data : if name in row[0] : for i in range(3,104) : m.append(int(row[i])) f.append(int(row[i+103])) break import matplotlib.pyplot as plt plt.plot(m, label = 'Male') plt.plot(f, label = 'Female') plt.legend() plt.show() 궁금한 동네를 입력해주세요 : 제주특별자치도 In [2]: import csv f = open('gen..
아주 유용 1.지역별 인구 통계 분석 2. 서울 지하철 노선별 시간별 사용 전국 지역별 인구 시각화¶ In [3]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import csv In [4]: f= open('age.csv', 'r', encoding='cp949') data = csv.reader(f,delimiter=',') f.close() In [ ]: In [25]: f= open('age.csv', 'r', encoding='cp949') data = csv.reader(f,delimiter=',') age=[] age_ok=[] sinlim=[] for row in data: if '송하동' in row[0]: for i in row[3:]: ..
기온 데이터 분석_문자열 함수로 전처리 후 시각화 In [2]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import csv In [4]: f= open('work.csv', 'r', encoding='cp949') data = csv.reader(f,delimiter=',') for row in data: print(row) f.close() ['국가별', '1995', '1995', '1995', '1996', '1996', '1996', '1997', &#..