본문 바로가기

사전캠프 데일리미션

데이터분석 아티클 10 - 양질의 데이터를 판별하는 5가지 방법 : ④데이터 형식을 파악했는가?

1. 오늘의 아티클(주제)

https://yozm.wishket.com/magazine/detail/1107/

 

양질의 데이터를 판별하는 5가지 방법 : ④ 데이터 형식을 파악했는가? | 요즘IT

데이터 구조와 생김새에서 모든 데이터는 차이를 보입니다. 그리고 데이터의 생김새, 즉 데이터 형식에 따라서 분석 가치가 높은 양질의 데이터와 그렇지 못한 저품질의 데이터가 나뉘기도 합

yozm.wishket.com

2. 아티클 정보 요약

-양질의 데이터일 수록 형식에 특별한 공통점이 있으며, 저품질의 것도 마찬가지!

 

데이터가 순수한 정형 데이터인가?

1)정형 데이터와 비정형 데이터

(1)정형 데이터 : 미리 정해 놓은 형식과 구조에 따라 고정된 자리에 저장되는 데이터

 =>숫자이거나 수치화 가능! 사실상 수치데이터

(2)비정형 데이터 : 행과 열 형태로 저장 불가능한 텍스트, 이미지, 영상, 오디오 등

2)정형/비정형 데이터 간 활용 방식 차이

-정형 : 평균, 표준편차, 심화 토계, 머신러닝, 딥러닝

-비정형 : 현재로선 대부분 인공지능 분야에 국한 -> 앞으로는 많이질 수 있음

 

범주형 데이터의 비율이 얼마나 되는가

1)데이터의 척도 : 빅데이터에서 정형 데이터가 정의되고 분류되는 방식

 (1)범주형 데이터 :

     ①명목 척도(Nominal scale) : '남자=1, 여자=2'와 같이 데이터를 단순 히숫자로 변화시킨 것

     ②서열 척도(Ordinal scale) : 1등, 2등, 3등 등과 같이 단순한 순서만을 의미

 (2)수치형 데이터 :

     ①등간 척도(Interval scale) : 온도 등과 같이 각 값의 상대적 크기 비교 가능한 것

     ②비율 척도(Ratio scale) : 무게와 같이 절대적 기준이 있는 영점(0)이 존재하는 것

2)범주형 데이터의 비율

-머신러닝 혹은 범주형 데이터를 위한 알고리즘 적요한느 경우 제외하면 버뭊형 변수의 한계는 명확함

 =>데이터 대부분이 범주형으로만 이루어져 있으면 분석 대상에서 제외하는 것이 좋음

 But. 가능한 수치형 데이터가 많은 데이터를 탐색하되 범주형 데이터의 비율을 절대적 조건으로 활용하진 말 것

 

결국 숫자로 표시된 데이터가 높은 활용도를 보인다

-비정형 데이터보다는 정형데이터가 활용도 높음

-정형 데이터 안에서도 '범주형<수치형'으로 활용도 높음

3. 인사이트 

-데이터는 비정형과 정형, 그리고 정형은 범주형과 수치형으로 나뉜다.

-비정형보다는 정형이, 정형 내에서도 범주형보다 수치형 데이터가 활용도가 높다