Do it! 판다스 입문
-
Chapter 04-3 seaborn 라이브러리 자유자재로 사용하기Do it! 판다스 입문 2022. 6. 20. 14:34
04-2에서는 seaborn 라이브러리의 tips 데이터 집합만 사용했지만 이번에는 seaborn 라이브러리 자체를 활용하여 그래프도 그려보겠습니다. seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있습니다. 다변량 그래프 그리기 - 히스토그램 1. 지금부터는 seaborn 라이브러리를 sns라는 이름으로 줄여 사용하겠습니다. 다시 tips 데이터 집합을 불러옵니다. import seaborn as sns tips = sns.load_dataset("tips") 2. seaborn 라이브러리로 히스토그램을 그리려면 subplots, distplot 메서드를 사용하면 됩니다. 먼저 subplots 메서드로 기본 틀을 만들고 distplot 메서드에 total_bi..
-
Chapter 04-2 matplotlib 라이브러리 자유자재로 사용하기Do it! 판다스 입문 2022. 6. 20. 13:35
04-1에서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했던 것을 기억하나요? 이 밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있습니다. 지금부터 matplotlib 라이브러리에는 어떤 메서드가 있는지 실습을 통해 하나씩 알아보겠습니다. 더불어 고급 그래프 라이브러리인 seaborn 라이브러리도 함께 알아보겠습니다. 기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있습니다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. 이번 실습에서는 tips 데이터 집합을 사용해 다양한 그래프를 그려보겠습니다. 그래프를 이해하는 데 필요한 개념은 그래프를 그리기 전에 설명하..
-
Chapter 04-1 데이터 시각화가 필요한 이유Do it! 판다스 입문 2022. 6. 20. 12:48
앤스콤 4분할 그래프 살펴보기 데이터 시각화를 보여주는 전형적인 사례로 앤스콤 4분할 그래프(Anscombe's quartet)가 있습니다. 이 그래프는 영국의 프랭크 앤스콤(Frank Anscombe)이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프입니다. 그러면 앤스콤이 지적한 '함정'이란 무엇일까요? 앤스콤이 지적한 함정과 데이터 시각화의 필요성 앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있습니다. 그런데 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있습니다. 그래서 이런 결과만 보고 '데이터 그룹 Ⅰ, Ⅱ, Ⅲ, Ⅳ의 데이터는..
-
Chapter 03-4~03-6 데이터프레임 다루기, 시리즈와 데이터프레임의 데이터 처리하기, 데이터 저장하고 불러오기Do it! 판다스 입문 2022. 6. 13. 22:05
데이터프레임 다루기 데이터프레임도 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 그러면 불린 추출부터 실습해 보겠습니다. 불린 추출과 브로드캐스팅 1. 불린 추출하기 데이터프레임도 불린 추출을 할 수 있습니다. 다음은 데이터프레임의 Age 열에서 Age 열의 평균보다 높은 행만 출력합니다. print(scientists[scientists['Age'] > scientists['Age'].mean( )]) Name Born Died Age Occupation 1 William Gosset 1876-06-13 1937-10-16 61 Statistician 2 Florence Nightingale 1820-05-12 1910-08-13 90 Nurse 3 Marie Curie 1867-11..
-
Chapter 03-1~03-3 나만의 데이터 만들기, 시리즈 다루기(기초,응용)Do it! 판다스 입문 2022. 6. 13. 19:58
나만의 데이터 만들기 02장에서는 파일에서 데이터 집합을 불러온 다음 실습을 진행했습니다. 이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어서 진행하겠습니다. 시리즈와 데이터프레임 직접 만들기 1. 시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성합니다. import pandas as pd s = pd.Series(['banana', 42] print(s) 0 banana 1 42 dtype: object 2. 02장에서 인덱스는 보통 0부터 시작한다고 설명했던 것을 기억하나요? 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수도 있습니다. 문자열을 인덱스로 지정하려면 Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전..
-
Chapter.02-3~02-4 기초적인 통계 계산하기, 그래프 그리기Do it! 판다스 입문 2022. 6. 12. 14:57
지금까지는 데이터를 추출하는 방법에 대해 알아보았습니다. 이번에는 추출한 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보겠습니다. 다음은 갭마인더 데이터 집합에서 0~9번째 데이터를 추출하여 출력한 것입니다. print(df.head(n=10)) country continent year lifeExp pop gdpPercap 0 Afghanistan Asia 1952 28.801 8425333 779.445314 1 Afghanistan Asia 1957 30.332 9240934 820.853030 2 Afghanistan Asia 1965 31.997 10267083 853.100710 3 Afghanistan Asia 1967 34.020 11537966 836.197138 4 Afghanist..
-
Chapter.02-2 데이터 추출하기Do it! 판다스 입문 2022. 6. 12. 14:09
지금까지 데이터프레임의 크기와 자료형을 살펴보는 방법에 대해 알아보았습니다. 앞에서 head 메서드를 이용해 데이터프레임에서 가장 앞에 있는 5개의 데이터를 추출하여 출력했던 것을 기억하나요? 이번에는 데이터프레임에서 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보겠습니다. 먼저 열 단위로 데이터를 추출하는 방법을 알아보겠습니다. 열 단위 데이터 추출하기 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 합니다. 이때 열 이름은 꼭 작은따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용할 수도 있습니다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있습니다. 열 단위로 데이터 추출하기 1...
-
Chapter 02-1 데이터 집합 불러오기Do it! 판다스 입문 2022. 6. 11. 23:17
데이터 분석의 시작은 데이터 불러오기부터 데이터 분석을 위해 가장 먼저 해야 할 일은 무엇일까요? 바로 테이터를 불러오는 것입니다. 이때 불러오는 데이터를 '데이터 집합'이라고 합니다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보는 방법에 대해 알아보겠습니다. 우리가 처음 불러올 데이터 집합은 갭마인더(Gapminder)입니다. '02_practice'를 주피터 노트북으로 열어 실습을 시작해 볼까요? 갭마인더 데이터 집합 불러오기 1. 판다스의 여러 기능을 사용하려면 판다스 라이브러리를 불러와야 합니다. 다음과 같이 입력하여 판다스 라이브러리를 불러 오세요. import pandas 2.갭마인더 데이터 집합을 불러오려면 read_csv 메서드를 사용해야 합니다. read_csv 메서드는 ..