본문 바로가기

데이터/데이터사이언스입문

3.5 새로운 인사이트 발견하기

해당 글은 코드잇 강의를 참고하여 작성되었습니다.

- 새로운 값 계산하기

  • 새로운 column만들기
    예시 

 

- 문자열 필터링

df['column명'].str.contains('찾는 문자열') 해당 문자열을 포함하는 전체 column들(boolean형태)
df['column명'].str.startswith('찾는 문자열') 해당 문자열이 맨처음에 나오는 전체 column들(boolean형태)

 

- 문자열 분리

  • str.split('나누는 기준', n=x) → 기본적으로 나누는 기준은 공백

 

- 카테고리로 분류

 

- groupby

  • .max는 오류발생

문제 :
groupby 문법을 사용해서 '여성 비율'이 높은 순으로 직업을 나열해 보세요.
DataFrame이 아닌 Series로, 'gender'에 대한 값만 아래와 같이 출력되어야 합니다.
정답 : 
import pandas as pd
df = pd.read_csv('data/occupations.csv')

# 코드를 작성하세요.
occupation_group = df.groupby('occupation')
df.loc[df['gender'] == 'M', 'gender'] = 0
df.loc[df['gender'] == 'F', 'gender'] = 1
occupation_group.mean()['gender'].sort_values(ascending=False)​

 

- 데이터 합치기(merge)

  • inner join (두 프레임이 겹치는 것만 합친다) → 교집합
  • left outer join
  • right outer join
  • full outer join → 합집합

'데이터 > 데이터사이언스입문' 카테고리의 다른 글

4.2 데이터 클리닝  (0) 2021.07.13
4.1 좋은 데이터의 기준  (0) 2021.07.13
3.4 Exploratory Data Analysis  (0) 2021.07.10
3.3 통계 기본 상식  (0) 2021.07.09
3.2 Seaborn 시각화  (0) 2021.07.09