음원 데이터 music.xlsc 분석 실습

 

 

 

 

1. 데이터 확인

music_df = pd.read_excel('music.xlsx')

 

 

 

 

 

2. 데이터 구조 확인

music_df.shape

 

df.shape으로 데이터 개수 및 컬럼 수를 확인합니다

 

 

 

music_df.dtypes

df.dtypes 데이터의 타입을 확인합니다

 

 

 

 

3. 데이터 구조 변경

music['Date'] = music['Date'].astype( 'datetime64' )

Date는 object 타입이 아니라 datetime 형식이기에 바꿔줍니다

 

 

 

music.Distribution.unique(), len(music.Distribution.unique())

컬럼값과 컬럼 개수 확인 로엔 엔터테인먼트, 로엔엔터테인먼트 처럼 중복되지만 컬러명이 달라서 다른 데이터인 오류가 있음을 확인할 수 있습니다

 

 

def myChange( x ):
  x = x.replace(' ', '')
  x = x.replace('㈜', '(주)')
  x = x.replace('소니뮤직', 'SonyMusic')
  x = x.replace('유니버설뮤직', 'Universal')
  x = x.replace('(주)지니뮤직', '지니뮤직')
  x = x.replace('(주)미러볼뮤직', 'MirrorballMusic')
  return x

tmp = music.Distribution.apply( myChange )
tmp.unique(), len(tmp.unique())

컬럼값을 apply로 replace 후 추가로 확인할 컬럼이나 합쳐진 컬럼 값을 확인합니다

 

 

 

4. 피벗 테이블

music.groupby('Distribution').agg({
    'Rating':'mean',
    'Distribution':'count',
    'Music Count':'sum'
})

컬럼별로 평점은 평균, 제작 개수, 노래 개수합 등으로 컬럼에 알맞게 정리하면 데이터 분석 준비 완료입니다

 

이후 시각화와 조건에 따른 분류를 통해 데이터 분석을 진행하여 결론을 도출할 수 있습니다

+ Recent posts