전체 글
-
Chapter 06 누락값 처리하기_1Do it! 판다스 입문 2022. 6. 21. 17:13
누락값과 누락값 확인하기 누락값(NaN)은 NaN, NAN, nan과 같은 방법으로 표기할 수 있습니다. 이 책에서는 누락값을 NaN이라고 표기하여 사용합니다. 그러면 바로 실습을 진행해 보면서 누락값이 무엇인지 알아보겠습니다. 누락값 확인하기 1. 먼저 누락값을 사용하기 위해 numpy에서 누락값을 불러옵니다. from numpy import NaN, NAN, nan 2. 누락값은 0, ' '와 같은 값과는 다른 개념이라는 것에 주의해야 합니다. 누락값은 말 그대로 데이터 자체가 없다는 것을 의미합니다. 그래서 '같다'라는 개념도 없죠. 다음은 누락값과 True, False, 0, ' '을 비교한 결과입니다. print(NaN == True) False print(NaN == False) False p..
-
Chapter 05 데이터 연결하기Do it! 판다스 입문 2022. 6. 21. 12:09
분석하기 좋은 데이터란? 분석하기 좋은 데이터란 데이터 집합을 분석하기 좋은 상태로 만들어 놓은 것을 말합니다. 데이터 분석 단계에서 데이터 정리는 아주 중요합니다. 실제로 데이터 분석 작업의 70% 이상을 차지하고 있는 작업이 데이터 정리 작업이죠. 분석하기 좋은 데이터는 다음 조건을 만족해야 하며 이 조건을 만족하는 데이터를 특별히 깔끔한 데이터(Tidy Data)라고 부릅니다. 깔끔한 데이터의 조건 데이터 분석 목적에 맞는 데이터를 모아 새로운 표(Table)를 만들어야 합니다. 측정한 값은 행(row)을 구성해야 합니다. 변수는 열(column)로 구성해야 합니다. 아직은 깔끔한 데이터가 왜 중요한지 알 수 없겠지만 실습을 하나씩 진행하다 보면 깔끔한 데이터의 중요성에 대해 자연스럽게 이해할 수 ..
-
Chapter 04-4~04-5 데이터프레임과 시리즈로 그래프 그리기, seaborn 라이브러리로 그래프 스타일 설정하기Do it! 판다스 입문 2022. 6. 20. 17:19
데이터프레임과 시리즈로도 그래프를 그릴 수 있습니다. 간편하게 그래프를 그리고 싶은 경우에는 데이터프레임이나 시리즈를 사용하여 바로 그래프를 그릴 수 있습니다. 데이터프레임과 시리즈로 그래프 그리기 1. 우선 히스토그램을 그려볼까요? 시리즈에 있는 plot 속성에 정의된 hist 메서드를 사용하면 해당 시리즈의 값을 이용하여 히스토그램을 바로 그릴 수 있습니다. ax = plt.subplots( ) ax = tips['total_bill'].plot.hist( ) 2. 투명도를 조절하려면 hist 메서드의 alpha, bins, ax 인자를 사용하면 됩니다. 다음은 tips 데이터프레임에서 2개의 시리즈를 선택하여 히스토그램을 그린 것입니다. fig, ax = plt.subplots( ) ax = tip..
-
Chapter 04-3 seaborn 라이브러리 자유자재로 사용하기Do it! 판다스 입문 2022. 6. 20. 14:34
04-2에서는 seaborn 라이브러리의 tips 데이터 집합만 사용했지만 이번에는 seaborn 라이브러리 자체를 활용하여 그래프도 그려보겠습니다. seaborn 라이브러리를 활용하면 matplotlib보다 좀 더 화려한 그래프를 그릴 수 있습니다. 다변량 그래프 그리기 - 히스토그램 1. 지금부터는 seaborn 라이브러리를 sns라는 이름으로 줄여 사용하겠습니다. 다시 tips 데이터 집합을 불러옵니다. import seaborn as sns tips = sns.load_dataset("tips") 2. seaborn 라이브러리로 히스토그램을 그리려면 subplots, distplot 메서드를 사용하면 됩니다. 먼저 subplots 메서드로 기본 틀을 만들고 distplot 메서드에 total_bi..
-
Chapter 04-2 matplotlib 라이브러리 자유자재로 사용하기Do it! 판다스 입문 2022. 6. 20. 13:35
04-1에서 앤스콤 4분할 그래프를 그릴 때 제목을 추가하기 위해 set_title 메서드를 사용했던 것을 기억하나요? 이 밖에도 matplotlib 라이브러리에는 그래프를 그리기 위한 다양한 메서드가 준비되어 있습니다. 지금부터 matplotlib 라이브러리에는 어떤 메서드가 있는지 실습을 통해 하나씩 알아보겠습니다. 더불어 고급 그래프 라이브러리인 seaborn 라이브러리도 함께 알아보겠습니다. 기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있습니다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것입니다. 이번 실습에서는 tips 데이터 집합을 사용해 다양한 그래프를 그려보겠습니다. 그래프를 이해하는 데 필요한 개념은 그래프를 그리기 전에 설명하..
-
Chapter 04-1 데이터 시각화가 필요한 이유Do it! 판다스 입문 2022. 6. 20. 12:48
앤스콤 4분할 그래프 살펴보기 데이터 시각화를 보여주는 전형적인 사례로 앤스콤 4분할 그래프(Anscombe's quartet)가 있습니다. 이 그래프는 영국의 프랭크 앤스콤(Frank Anscombe)이 데이터를 시각화하지 않고 수치만 확인할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프입니다. 그러면 앤스콤이 지적한 '함정'이란 무엇일까요? 앤스콤이 지적한 함정과 데이터 시각화의 필요성 앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있습니다. 그런데 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있습니다. 그래서 이런 결과만 보고 '데이터 그룹 Ⅰ, Ⅱ, Ⅲ, Ⅳ의 데이터는..
-
Chapter 03-4~03-6 데이터프레임 다루기, 시리즈와 데이터프레임의 데이터 처리하기, 데이터 저장하고 불러오기Do it! 판다스 입문 2022. 6. 13. 22:05
데이터프레임 다루기 데이터프레임도 시리즈와 마찬가지로 불린 추출과 브로드캐스팅을 할 수 있습니다. 그러면 불린 추출부터 실습해 보겠습니다. 불린 추출과 브로드캐스팅 1. 불린 추출하기 데이터프레임도 불린 추출을 할 수 있습니다. 다음은 데이터프레임의 Age 열에서 Age 열의 평균보다 높은 행만 출력합니다. print(scientists[scientists['Age'] > scientists['Age'].mean( )]) Name Born Died Age Occupation 1 William Gosset 1876-06-13 1937-10-16 61 Statistician 2 Florence Nightingale 1820-05-12 1910-08-13 90 Nurse 3 Marie Curie 1867-11..
-
Chapter 03-1~03-3 나만의 데이터 만들기, 시리즈 다루기(기초,응용)Do it! 판다스 입문 2022. 6. 13. 19:58
나만의 데이터 만들기 02장에서는 파일에서 데이터 집합을 불러온 다음 실습을 진행했습니다. 이번에는 실습에 사용할 시리즈와 데이터프레임을 직접 만들어서 진행하겠습니다. 시리즈와 데이터프레임 직접 만들기 1. 시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성합니다. import pandas as pd s = pd.Series(['banana', 42] print(s) 0 banana 1 42 dtype: object 2. 02장에서 인덱스는 보통 0부터 시작한다고 설명했던 것을 기억하나요? 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수도 있습니다. 문자열을 인덱스로 지정하려면 Series 메서드의 index 인자를 통해 인덱스로 사용하고자 하는 문자열을 리스트에 담아 전..