1. 오늘의 아티클(주제)
https://yozm.wishket.com/magazine/detail/1107/
2. 아티클 정보 요약
-양질의 데이터일 수록 형식에 특별한 공통점이 있으며, 저품질의 것도 마찬가지!
데이터가 순수한 정형 데이터인가?
1)정형 데이터와 비정형 데이터
(1)정형 데이터 : 미리 정해 놓은 형식과 구조에 따라 고정된 자리에 저장되는 데이터
=>숫자이거나 수치화 가능! 사실상 수치데이터
(2)비정형 데이터 : 행과 열 형태로 저장 불가능한 텍스트, 이미지, 영상, 오디오 등
2)정형/비정형 데이터 간 활용 방식 차이
-정형 : 평균, 표준편차, 심화 토계, 머신러닝, 딥러닝
-비정형 : 현재로선 대부분 인공지능 분야에 국한 -> 앞으로는 많이질 수 있음
범주형 데이터의 비율이 얼마나 되는가
1)데이터의 척도 : 빅데이터에서 정형 데이터가 정의되고 분류되는 방식
(1)범주형 데이터 :
①명목 척도(Nominal scale) : '남자=1, 여자=2'와 같이 데이터를 단순 히숫자로 변화시킨 것
②서열 척도(Ordinal scale) : 1등, 2등, 3등 등과 같이 단순한 순서만을 의미
(2)수치형 데이터 :
①등간 척도(Interval scale) : 온도 등과 같이 각 값의 상대적 크기 비교 가능한 것
②비율 척도(Ratio scale) : 무게와 같이 절대적 기준이 있는 영점(0)이 존재하는 것
2)범주형 데이터의 비율
-머신러닝 혹은 범주형 데이터를 위한 알고리즘 적요한느 경우 제외하면 버뭊형 변수의 한계는 명확함
=>데이터 대부분이 범주형으로만 이루어져 있으면 분석 대상에서 제외하는 것이 좋음
But. 가능한 수치형 데이터가 많은 데이터를 탐색하되 범주형 데이터의 비율을 절대적 조건으로 활용하진 말 것
결국 숫자로 표시된 데이터가 높은 활용도를 보인다
-비정형 데이터보다는 정형데이터가 활용도 높음
-정형 데이터 안에서도 '범주형<수치형'으로 활용도 높음
3. 인사이트
-데이터는 비정형과 정형, 그리고 정형은 범주형과 수치형으로 나뉜다.
-비정형보다는 정형이, 정형 내에서도 범주형보다 수치형 데이터가 활용도가 높다
'사전캠프 데일리미션' 카테고리의 다른 글
데이터분석 아티클 12 - SQL 가독성을 높이는 다섯 가지 사소한 습관 (0) | 2023.12.13 |
---|---|
데이터분석 아티클 11 - 양질의 데이터를 판별하는 5가지 방법 : ⑤목적에 적합한 데이터인가? (0) | 2023.12.13 |
데이터분석 아티클 09 - 양질의 데이터를 판별하는 5가지 방법 : ③관계형 데이터베이스인가? (0) | 2023.12.12 |
데이터분석 아티클 08 - 양질의 데이터를 판별하는 5가지 방법 : ②믿을 수 있는 데이터인가? (2) | 2023.12.11 |
데이터분석 아티클 07 - 양질의 데이터를 판별하는 5가지 방법 : ①데이터 양은 충분한가 (0) | 2023.12.11 |