음원 데이터 music.xlsc 분석 실습
1. 데이터 확인
music_df = pd.read_excel('music.xlsx')
2. 데이터 구조 확인
music_df.shape
df.shape으로 데이터 개수 및 컬럼 수를 확인합니다
music_df.dtypes
df.dtypes 데이터의 타입을 확인합니다
3. 데이터 구조 변경
music['Date'] = music['Date'].astype( 'datetime64' )
Date는 object 타입이 아니라 datetime 형식이기에 바꿔줍니다
music.Distribution.unique(), len(music.Distribution.unique())
컬럼값과 컬럼 개수 확인 로엔 엔터테인먼트, 로엔엔터테인먼트 처럼 중복되지만 컬러명이 달라서 다른 데이터인 오류가 있음을 확인할 수 있습니다
def myChange( x ):
x = x.replace(' ', '')
x = x.replace('㈜', '(주)')
x = x.replace('소니뮤직', 'SonyMusic')
x = x.replace('유니버설뮤직', 'Universal')
x = x.replace('(주)지니뮤직', '지니뮤직')
x = x.replace('(주)미러볼뮤직', 'MirrorballMusic')
return x
tmp = music.Distribution.apply( myChange )
tmp.unique(), len(tmp.unique())
컬럼값을 apply로 replace 후 추가로 확인할 컬럼이나 합쳐진 컬럼 값을 확인합니다
4. 피벗 테이블
music.groupby('Distribution').agg({
'Rating':'mean',
'Distribution':'count',
'Music Count':'sum'
})
컬럼별로 평점은 평균, 제작 개수, 노래 개수합 등으로 컬럼에 알맞게 정리하면 데이터 분석 준비 완료입니다
이후 시각화와 조건에 따른 분류를 통해 데이터 분석을 진행하여 결론을 도출할 수 있습니다
'Python > 데이터 분석' 카테고리의 다른 글
데이터 분석 텍스트 마이닝 정규표현식 python [2편] (0) | 2024.02.06 |
---|---|
데이터 분석 텍스트 마이닝 정규표현식 python [1편] (0) | 2024.02.02 |
데이터 분석 텍스트 마이닝 예제 nsmc (0) | 2024.01.30 |
데이터 분석 matplotlib, seaborn 시각화 (0) | 2024.01.30 |
데이터 분석 pandas (2) | 2024.01.30 |