데이터 분석 실습 예제 음원 데이터 준비

dev-u 2024. 1. 30. 18:30

2024. 1. 30. 18:30

음원 데이터 music.xlsc 분석 실습

1. 데이터 확인

music_df = pd.read_excel('music.xlsx')

2. 데이터 구조 확인

music_df.shape

df.shape으로 데이터 개수 및 컬럼 수를 확인합니다

music_df.dtypes

df.dtypes 데이터의 타입을 확인합니다

3. 데이터 구조 변경

music['Date'] = music['Date'].astype( 'datetime64' )

Date는 object 타입이 아니라 datetime 형식이기에 바꿔줍니다

music.Distribution.unique(), len(music.Distribution.unique())

컬럼값과 컬럼 개수 확인 로엔 엔터테인먼트, 로엔엔터테인먼트 처럼 중복되지만 컬러명이 달라서 다른 데이터인 오류가 있음을 확인할 수 있습니다

def myChange( x ):
  x = x.replace(' ', '')
  x = x.replace('㈜', '(주)')
  x = x.replace('소니뮤직', 'SonyMusic')
  x = x.replace('유니버설뮤직', 'Universal')
  x = x.replace('(주)지니뮤직', '지니뮤직')
  x = x.replace('(주)미러볼뮤직', 'MirrorballMusic')
  return x

tmp = music.Distribution.apply( myChange )
tmp.unique(), len(tmp.unique())

컬럼값을 apply로 replace 후 추가로 확인할 컬럼이나 합쳐진 컬럼 값을 확인합니다

4. 피벗 테이블

music.groupby('Distribution').agg({
    'Rating':'mean',
    'Distribution':'count',
    'Music Count':'sum'
})

컬럼별로 평점은 평균, 제작 개수, 노래 개수합 등으로 컬럼에 알맞게 정리하면 데이터 분석 준비 완료입니다

이후 시각화와 조건에 따른 분류를 통해 데이터 분석을 진행하여 결론을 도출할 수 있습니다

'Python > 데이터 분석' 카테고리의 다른 글

데이터 분석 텍스트 마이닝 정규표현식 python [2편] (0)	2024.02.06
데이터 분석 텍스트 마이닝 정규표현식 python [1편] (0)	2024.02.02
데이터 분석 텍스트 마이닝 예제 nsmc (0)	2024.01.30
데이터 분석 matplotlib, seaborn 시각화 (0)	2024.01.30
데이터 분석 pandas (2)	2024.01.30

Developer_u

데이터 분석 실습 예제 음원 데이터 준비

'Python > 데이터 분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바