Do it! 판다스 입문
-
Chapter 09-1~09-2 문자열 다루기, 문자열 메서드Do it! 판다스 입문 2022. 6. 25. 13:56
파이썬과 문자열 문자열은 작은따옴표나 큰따옴표로 감싸서 만듭니다. 다음은 작은따옴표로 grail, a scratch라는 문자열 데이터를 만들어 변수 word, sent에 저장한 것입니다. word = 'grail' sent = 'a scratch' 인덱스로 문자열 추출하기 데이터프레임에서 인덱스를 이용하여 원하는 데이터를 추출했던 것을 기억하나요? 문자열도 인덱스를 사용하여 추출할 수 있습니다. 문자는 길이가 1인 문자열로 생각하면 됩니다. 다음은 문자열과 인덱스를 함께 나타낸 표입니다. 간단하게 살펴보고 바로 실습으로 넘어갈까요? 문자열 grail과 인덱스 인덱스 0 1 2 3 4 문자열 g r a i l 음수 인덱스 -5 -4 -3 -2 -1 문자열 a scratch와 인덱스 인덱스 0 1 2 3 4..
-
Chapter 08 판다스 자료형Do it! 판다스 입문 2022. 6. 23. 19:33
자료형 변환하기 자료형 변환은 데이터 분석 과정에서 반드시 알아야 하는 요소 중 하나입니다. 예를 들어 카테고리는 문자열로 변환해야 데이터 분석을 수월하게 할 수 있기 때문에 자주 변환하는 자료형입니다. 또 다른 예는 전화번호입니다. 전화번호는 보통 숫자로 저장합니다. 하지만 전화번호로 평균을 구하거나 더하는 등의 계산은 거의 하지 않습니다. 오히려 문자열처럼 다루는 경우가 더 많죠. 다음 실습을 통해 여러 가지 자료형을 문자열로 변환하는 방법에 대해 알아보겠습니다. 자료형을 자유자재로 변환하기 - astype 메서드 1. 이번에 사용할 데이터 집합은 seaborn 라이브러리의 tips 데이터 집합입니다. import pandas as pd import seaborn as sns tips = sns.lo..
-
Chapter 07-3~5 여러 열을 하나로 정리하기, 중복 데이터 처리하기, 대용량 데이터 처리하기Do it! 판다스 입문 2022. 6. 22. 20:27
여러 열을 하나로 정리하기 보통 데이터프레임의 열은 파이썬의 변수와 같은 개념으로 사용합니다. 하지만 비슷한 성질의 데이터를 관리하기 위해 열이 여러 개로 분리되어 있는 경우도 있습니다. 다음 실습을 통해 여러 개로 분리된 열을 정리하는 방법에 대해 알아보겠습니다. 기상 데이터의 여러 열을 하나로 정리하기 - melt, pibot_table 메서드 1. 다음은 기상 데이터를 불러와 출력한 것입니다. 날짜 열(d1, ..., d31)에는 각 월별 최고, 최저 온도 데이터가 저장되어 있습니다. 지금은 날짜 열이 옆으로 길게 늘어져 있어 보기 불편합니다. 먼저 날짜 열을 행 데이터로 피벗하겠습니다. weather = pd.read_csv('../data/weather.csv') print(weather.ilo..
-
Chapter 06 누락값 처리하기_2Do it! 판다스 입문 2022. 6. 21. 18:55
누락값의 개수 지금까지 누락값이 생기는 다양한 경우에 대해 알아보았습니다. 이번에는 누락값의 개수를 구하는 방법에 대해 알아보겠습니다. 누락값의 개수 구하기 1. 다음과 같이 입력하여 데이터를 불러옵니다. ebola = pd.read_csv('../data/country_timeseries.csv') 2. 먼저 count 메서드로 누락값이 아닌 값의 개수를 구해 보겠습니다. print(ebola.count( )) Date 122 Day 122 cases_Guinea 93 Cases_Liberia 83 Cases_SierraLeone 87 ... Deaths_Spain 16 Deaths_Mali 12 dtype: int64 3. 과정 2의 결과만 잘 활용해도 누락값의 개수를 쉽게 구할 수 있습니다. sha..
-
Chapter 06 누락값 처리하기_1Do it! 판다스 입문 2022. 6. 21. 17:13
누락값과 누락값 확인하기 누락값(NaN)은 NaN, NAN, nan과 같은 방법으로 표기할 수 있습니다. 이 책에서는 누락값을 NaN이라고 표기하여 사용합니다. 그러면 바로 실습을 진행해 보면서 누락값이 무엇인지 알아보겠습니다. 누락값 확인하기 1. 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러옵니다. from numpy import NaN, NAN, nan 2. 누락값은 0, ' '와 같은 값과는 다른 개념이라는 것에 주의해야 합니다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미합니다. 그래서 '같다'라는 개념도 없죠. 다음은 누락값과 True, False, 0, ' '을 비교한 결과입니다. print(NaN == True) False print(NaN == False) False p..
-
Chapter 05 데이터 연결하기Do it! 판다스 입문 2022. 6. 21. 12:09
분석하기 좋은 데이터란? 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말합니다. 데이터 분석 단계에서 데이터 정리는 아주 중요합니다. 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이죠. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깔끔한 데이터(Tidy Data)라고 부릅니다. 깔끔한 데이터의 조건 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 합니다. 측정한 값은 행(row)을 구성해야 합니다. 변수는 열(column)로 구성해야 합니다. 아직은 깔끔한 데이터가 왜 중요한지 알 수 없겠지만 실습을 하나씩 진행하다 보면 깔끔한 데이터의 중요성에 대해 자연스럽게 이해할 수 ..
-
Chapter 04-4~04-5 데이터프레임과 시리즈로 그래프 그리기, seaborn 라이브러리로 그래프 스타일 설정하기Do it! 판다스 입문 2022. 6. 20. 17:19
데이터프레임과 시리즈로도 그래프를 그릴 수 있습니다. 간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용하여 바로 그래프를 그릴 수 있습니다. 데이터프레임과 시리즈로 그래프 그리기 1. 우선 히스토그램을 그려볼까요? 시리즈에 있는 plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. ax = plt.subplots( ) ax = tips['total_bill'].plot.hist( ) 2. 투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 됩니다. 다음은 tips 데이터프레임에서 2개의 시리즈를 선택하여 히스토그램을 그린 것입니다. fig, ax = plt.subplots( ) ax = tip..