데이터 사이언스

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] k-beauty 온라인 판매분석

melt함수 melt함수는 열을 행으로 모은다. pandas.melt(dataframe, id_vars, value_vars, var_name, value_name, col_level) id_vars : 식별자 변수에 사용되는 열 value_vars : 식별자 변수로 지정되지 않은 열 var_name : variable 이름 변경 value_name : value 이름 변경 하나 이상의 식별자 열과 variable 및 value라는 두 개의 비 식별자 열만 포함하는 변환 된 DataFrame을 반환 df_raw.melt(id_vars=['국가(대륙)별', '상품군별', '판매유형별']) 나머지 column 들이 다 행으로 들어온것 확인 가능(variable의 밑으로) df_raw의 value들이 valu..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] Quiz 3

head(), tail(), sample()은 데이터 미리보기 용도로 씀 info()는 기본정보를 보기위해 씀 df.isnull().mean() df.isnull()은 boolean 값을 리턴한다. 예를들어 한 행이 다음과 같은 데이터를 갖고 있다고 가정하자 [nan, 2, 3, 4] isnull()을 하게되면 다음과 같은 boolean값을 얻게 될 것이다. [true, false, false,false] 이는 [1,0,0,0]으로 해석될수 있다. 이에 mean()을 하게되면 0.25가 나오게 된다. 따라서 mean()을 이용해서 결측치가 행에서 차지하는 비율을 알아낼 수 있다. df.isnull().max() df.isnull()은 boolean 값을 리턴한다. max()는 최대값을 리턴하는데 true..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 건강검진 데이터로 가설 검증

라이브러리 불러오기 import pandas as pd #판다스 불러오기 import numpy as np import seaborn as sns import matplotlib.pyplot as plt 더보기 * numpy 넘파이(Numpy)는 Python에서 벡터, 행렬 등 수치 연산을 수행하는 선형대수(Linear algebra) 라이브러리 선형대수 관련 수치 연산을 지원하고 내부적으로는 C로 구현되어 있어 연산이 빠른 속도로 수행 https://numpy.org/devdocs/user/quickstart.html * seaborn Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지 seaborn을 더 선호하는 이유 1. seaborn에서만 제공되는 통계..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] Quiz 2

window에서는 plt.rc('font', family='Malgun Gothic') https://stackoverflow.com/questions/60249807/python-isnull-sum-vs-isnull-count Python - isnull().sum() vs isnull().count() So I'm currently finishing a tutorial with the titanic dataset (https://www.kaggle.com/c/titanic/data). Now I'm trying a couple of new things that might be related. The info for it is : There ar... stackoverflow.com sum을 이용할 경..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 의료정보 분포 확인 실습

성형외과는 강남이 다른곳 보다 많을까?¶ In [144]: from IPython.core.display import display, HTML display(HTML("")) #창 맞추기위함 In [89]: import pandas as pd #판다스 불러오기 import numpy as np import seaborn as sns import matplotlib.pyplot as plt In [90]: #window의 한글 폰트 설정 plt.rc('font',family='Malgun Gothic') #한글 폰트 이용할 경우 minus 폰트 깨지는 문제 발생 #따라서 minus 폰트 깨짐 방지 해야함 plt.rc('axes', unicode_minus=Fals..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 서울 종합병원 분포 확인

필요한 라이브러리¶ numpy 넘파이(Numpy)는 Python에서 벡터, 행렬 등 수치 연산을 수행하는 선형대수(Linear algebra) 라이브러리 선형대수 관련 수치 연산을 지원하고 내부적으로는 C로 구현되어 있어 연산이 빠른 속도로 수행 https://numpy.org/devdocs/user/quickstart.html seaborn Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지 seaborn을 더 선호하는 이유 seaborn에서만 제공되는 통계 기반 plot 특별하게 꾸미지 않아도 깔끔하게 구현되는 기본 color 더 아름답게 그래프 구현이 가능한 palette 기능 pandas 데이터프레임과 높은 호환성 : hue 옵션으로 bar 구분이 가능..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 파일 경로 설정 방법

1. 'file-path-setting'의 이름을 가진 주피터 노트북 파일을 만들어 준다. 2. 도로교통공단_교통사고 정보 로 들어가셔서 데이터를 다운받는다. (다른 데이터를 다운받아도 됨) https://www.data.go.kr/dataset/15003493/fileData.do 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 3. 다운받은 파일을 주피터 노트북에서 작업하고 있는 폴더로 가져오기 !move "C:\Users\송민영\Downloads\한국도로공사_교통사고통계_20191231.csv" . - 윈도우는 ..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 판다스 기초

판다스란? 수식으로 계산할 수 있고 시각화도 할 수 있는 데이터 분석도구 데이터 셋을 이용한 다양한 통계 처리 기능을 제공한다. 표 형태의 데이터를 다루는데 특화된 파이썬 모듈 대용량 데이터를 빠르고 처리할 수 있음 https://pandas.pydata.org/pandas-docs/version/1.0.0/getting_started/10min.html 10 minutes to pandas — pandas 1.0.0 documentation This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Time series pandas has simple..

데이터 사이언스

[파이썬으로 시작하는 데이터 사이언스] 데이터 분석 환경 구성

아나콘다란? 여러가지 수학 및 과학 패키지(Package)들을 기본적으로 포함하고 있는 파이썬 배포판 아나콘다 설치 1. 다음의 경로로 접속 후 download 누르기 https://www.anaconda.com/products/individual#download-section Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com (각 운영체제에 맞게 다운로드 하기) 2. 파일 다운이 완료되면 관리자 권한으로 실행 3. Next 클릭 ..

ankisile
'데이터 사이언스' 카테고리의 글 목록 (2 Page)