본문 바로가기

데이터/데이터사이언스입문

2.1 DataFrame 인덱싱

해당 글은 코드잇 강의를 참고하여 작성되었습니다.

- row를 선택할 때는 .loc를 사용하고 column을 선택할 때는 .loc없이 사용한다.

- 1차원은 Data type이 Series로 나온다.

 

05. 카드사 고객 분석

문제 : 
데이터의 중요성을 깨달은 “삼송카드”와 “현디카드”가 협업을 하기로 결정했습니다.
두 카드사는 사람들이 요일별로 지출하는 평균 금액을 “요일”, “식비", “교통비”, “문화생활비”, “기타” 카테고리로 정리해서 우리에게 공유해 주기로 했는데요. 각각 samsong.csv 파일과 hyundee.csv 파일을 보냈습니다.
두 회사의 데이터를 활용해서, 사람들의 요일별 문화생활비를 분석해보려 합니다. 아래와 같은 형태로 출력이 되도록 DataFrame을 만들어보세요.
정답 : 
import pandas as pd

samsong_df = pd.read_csv('data/samsong.csv')
hyundee_df = pd.read_csv('data/hyundee.csv')

# 코드를 작성하세요.
sam_culture = samsong_df['문화생활비']
hyun_culture = hyundee_df['문화생활비']
sam_day = samsong_df['요일']
final_file = {"day": sam_day, "samsong": sam_culture, "hyundee": hyun_culture}
pd.DataFrame(final_file)​

- 여러개를 인덱싱할 때는 리스트 형식을 사용한다.

- column은 바로 슬라이싱할 수 없다 → .loc 사용해야 함

- 나머지는 리스트와 유사

- DataFrame 조건으로 인덱싱 

리스트의 boolean개수가 column, row의 개수와 같아야 한다. (이전버전은 나머지를 False로 채워줬지만 현재는 X)

- DataFrame 위치로 인덱싱하기

인덱싱, 슬라이싱 모두 가능

'데이터 > 데이터사이언스입문' 카테고리의 다른 글

2.3 큰 데이터 다루기  (0) 2021.07.08
2.2 데이터 변형하기  (0) 2021.07.07
1.4 Pandas  (0) 2021.07.07
1.3.7-8 인덱싱, 슬라이싱, 기본연산, 불린연산  (0) 2021.07.07
1.3.1 Numpy란?  (0) 2021.07.06