본문 바로가기

데이터/데이터사이언스입문

3.3 통계 기본 상식

해당 글은 코드잇 강의를 참고하여 작성되었습니다.

- 평균값 

  •  ∑데이터 / 데이터개수

 

- 중간값

  • 정렬된 데이터셋에서 딱 중간에 있는 값 (홀수이면 앞뒤의 평균)

 

- 상관계수 

  • 두 변수의 연관성 → 피어슨 상관계수 = -1~1 사이로 0일 때 연관성이 없다.
%matplotlib inline
import pandas as pd
import seaborn as sns

df = pd.read_csv('data/exam.csv')

df.corr()
sns.heatmap(df.corr(), annot=True)
#annot=True는 숫자도 함께 보여줌을 의미
#heatmap의 색이 밝을 수록 상관관계가 강하다

'데이터 > 데이터사이언스입문' 카테고리의 다른 글

3.5 새로운 인사이트 발견하기  (0) 2021.07.12
3.4 Exploratory Data Analysis  (0) 2021.07.10
3.2 Seaborn 시각화  (0) 2021.07.09
3.1 시각화와 그래프  (0) 2021.07.09
2.3 큰 데이터 다루기  (0) 2021.07.08