전체 글
-
Chapter 11-1~11-2 데이터 집계, 데이터 변환Do it! 판다스 입문 2022. 6. 25. 17:56
데이터 집계하기 - groupby 메서드 02장에서 갭마인더 데이터 집합으로 각 연도의 평균 수명을 구했던 것을 기억하나요? 수집한 데이터를 바탕으로 평균이나 합 등을 구하여 의미 있는 값을 도출해 내는 것을 '집계'라고 합니다. 데이터를 집계하면 전체 데이터를 요약, 정리하여 볼 수 있기 때문에 데이터 분석이 훨씬 편해지죠. 그러면 groupby 메서드로 평균값을 구하는 과정을 통해 데이터 집계가 무엇인지 알아보겠습니다. groupby 메서드로 평균값 구하기 1. 먼저 갭마인더 데이터 집합을 불러옵니다. import pandas as pd df = pd.read_csv('../data/gapminder.tsv', sep='\t') 2. 다음은 year 열을 기준으로 데이터를 그룹화한 다음 lifeExp..
-
Chapter 10 apply 메서드 활용Do it! 판다스 입문 2022. 6. 25. 16:13
간단한 함수 만들기 이 책은 파이썬의 기초 지식을 어느 정도 아는 독자를 대상으로 집필되었습니다. 따라서 함수는 간단히 설명하고 넘어갑니다. 함수의 기본 구조는 다음과 같습니다. def my_function( ): # 여기부터 코드를 입력합니다. 그러면 제곱 함수와 n 제곱 함수를 직접 만들어보겠습니다. 제곱 함수와 n 제곱 함수는 10-2에서 apply 메서드와 함께 사용합니다. 여기에서 꼭 함수를 만들어보고 다음으로 넘어가세요. 제곱 함수와 n 제곱 함수 만들기 1. 제곱 함수는 다음과 같습니다. def my_sq(x): return x ** 2 2. n 제곱 함수 my_exp는 다음과 같습니다. def my_exp(x, n): return x ** n 3. 과정 1~2에서 만든 함수를 사용해 볼까요..
-
Chapter 09-3~09-4 문자열 포매팅, 정규식으로 문자열 처리에 날개 달기Do it! 판다스 입문 2022. 6. 25. 14:53
문자열 포매팅하기 문자열 포매팅은 문자열을 편리하게 출력할 수 있게 해주는 기능입니다. 예를 들어 I can swim, I can fly, I can run과 같은 문자열은 I can이라는 문자열에 swim, run, fly와 같은 단어만 바꿔 넣어 출력하는 것이 더 편리합니다. 즉, 문자열 포매팅이란 출력할 문자열의 형식을 지정하거나 변수를 조합하여 출력하는 방법을 말합니다. 문자열 포매팅하기 1. 다음과 같이 단어를 삽입할 위치를 {}로 지정하고 format 메서드에 원하는 단어를 전달하면 {}의 위치에 전달한 단어를 삽입해 출력합니다. 이때 {}를 플레이스 홀더라고 부릅니다. var = 'flesh wound' s = "It's just a {}!" print(s.format(var)) It's j..
-
Chapter 09-1~09-2 문자열 다루기, 문자열 메서드Do it! 판다스 입문 2022. 6. 25. 13:56
파이썬과 문자열 문자열은 작은따옴표나 큰따옴표로 감싸서 만듭니다. 다음은 작은따옴표로 grail, a scratch라는 문자열 데이터를 만들어 변수 word, sent에 저장한 것입니다. word = 'grail' sent = 'a scratch' 인덱스로 문자열 추출하기 데이터프레임에서 인덱스를 이용하여 원하는 데이터를 추출했던 것을 기억하나요? 문자열도 인덱스를 사용하여 추출할 수 있습니다. 문자는 길이가 1인 문자열로 생각하면 됩니다. 다음은 문자열과 인덱스를 함께 나타낸 표입니다. 간단하게 살펴보고 바로 실습으로 넘어갈까요? 문자열 grail과 인덱스 인덱스 0 1 2 3 4 문자열 g r a i l 음수 인덱스 -5 -4 -3 -2 -1 문자열 a scratch와 인덱스 인덱스 0 1 2 3 4..
-
Chapter 08 판다스 자료형Do it! 판다스 입문 2022. 6. 23. 19:33
자료형 변환하기 자료형 변환은 데이터 분석 과정에서 반드시 알아야 하는 요소 중 하나입니다. 예를 들어 카테고리는 문자열로 변환해야 데이터 분석을 수월하게 할 수 있기 때문에 자주 변환하는 자료형입니다. 또 다른 예는 전화번호입니다. 전화번호는 보통 숫자로 저장합니다. 하지만 전화번호로 평균을 구하거나 더하는 등의 계산은 거의 하지 않습니다. 오히려 문자열처럼 다루는 경우가 더 많죠. 다음 실습을 통해 여러 가지 자료형을 문자열로 변환하는 방법에 대해 알아보겠습니다. 자료형을 자유자재로 변환하기 - astype 메서드 1. 이번에 사용할 데이터 집합은 seaborn 라이브러리의 tips 데이터 집합입니다. import pandas as pd import seaborn as sns tips = sns.lo..
-
Chapter 07-3~5 여러 열을 하나로 정리하기, 중복 데이터 처리하기, 대용량 데이터 처리하기Do it! 판다스 입문 2022. 6. 22. 20:27
여러 열을 하나로 정리하기 보통 데이터프레임의 열은 파이썬의 변수와 같은 개념으로 사용합니다. 하지만 비슷한 성질의 데이터를 관리하기 위해 열이 여러 개로 분리되어 있는 경우도 있습니다. 다음 실습을 통해 여러 개로 분리된 열을 정리하는 방법에 대해 알아보겠습니다. 기상 데이터의 여러 열을 하나로 정리하기 - melt, pibot_table 메서드 1. 다음은 기상 데이터를 불러와 출력한 것입니다. 날짜 열(d1, ..., d31)에는 각 월별 최고, 최저 온도 데이터가 저장되어 있습니다. 지금은 날짜 열이 옆으로 길게 늘어져 있어 보기 불편합니다. 먼저 날짜 열을 행 데이터로 피벗하겠습니다. weather = pd.read_csv('../data/weather.csv') print(weather.ilo..
-
Chapter 06 누락값 처리하기_2Do it! 판다스 입문 2022. 6. 21. 18:55
누락값의 개수 지금까지 누락값이 생기는 다양한 경우에 대해 알아보았습니다. 이번에는 누락값의 개수를 구하는 방법에 대해 알아보겠습니다. 누락값의 개수 구하기 1. 다음과 같이 입력하여 데이터를 불러옵니다. ebola = pd.read_csv('../data/country_timeseries.csv') 2. 먼저 count 메서드로 누락값이 아닌 값의 개수를 구해 보겠습니다. print(ebola.count( )) Date 122 Day 122 cases_Guinea 93 Cases_Liberia 83 Cases_SierraLeone 87 ... Deaths_Spain 16 Deaths_Mali 12 dtype: int64 3. 과정 2의 결과만 잘 활용해도 누락값의 개수를 쉽게 구할 수 있습니다. sha..