1. 오늘의 아티클(주제)
https://yozm.wishket.com/magazine/detail/1070/
2. 아티클 정보 요약
양질의 데이터란 무엇인가?
1)데이터의 품질
-다양한 데이터를 보유하는 것이 이익 취득에 직결되지는 않는다.
-고품질의 데이터일수록 실제로 활용될 확률이 높다.
-경제적/시강적 비용의 측면에서 양질의 데이터를 판별할 줄 아는 능력은 중요하다.
2)양질의 데이터를 판단하는 방법
-데이터 품질을 가늠하는 명확한 기준은 없다
= > '분석하기 쉬운가, 해당 데이터 분석을 통해 결과를 명확하게 받아들일 수 있는가?'로 질문하기
-양질의 데이터의 일반적인 특징 :
: ⓐ충분히 많음
ⓑ자체적인 오류 적음
ⓒ관계형데이터베이스 형식
ⓓ수치형 데이터 형식 많음
ⓔ활용 목적에 적합
*모든 양질의 데이터가 5가지를 다 지키는 것도, 낮은 데이터가 모두와 어긋나는 것도 아니다
데이터가 충분히 많은가?
1)데이터 양을 중요하게 고려해야 하는 경우
-표본이 모집단을 대표하지 못할 때
-AI/딥러닝 알고리즘 : 데이터가 많을 수록 정확도가 높음
2)어느 정도의 데이터가 충분한 양일까? : 절대적인 기준은 없으며, 상황과 목적에 따라 그 정도가 다르다!
(1)통계적 분석 : 500개 이상의 데이터 => '통계적 유의미성' 산출
(2)머신러닝(기계학습) : 보통 '(변수의 수)*100' 이상이면 어느 정도 충분한 것으로 여김
데이터 양은 분석 결과의 신뢰도로 연결!
3. 인사이트
-데이터 품질을 가늠하는 일반적인 기준이 존재하나, 절대적인 기준은 아님
-데이터의 양을 가늠하는 절대적인 기준은 없으며, 크게 데이터가 '통계적분석'을 위한 것인지, '머신러닝'을 위한 것인지에 따라 다름
'사전캠프 데일리미션' 카테고리의 다른 글
데이터분석 아티클 09 - 양질의 데이터를 판별하는 5가지 방법 : ③관계형 데이터베이스인가? (0) | 2023.12.12 |
---|---|
데이터분석 아티클 08 - 양질의 데이터를 판별하는 5가지 방법 : ②믿을 수 있는 데이터인가? (2) | 2023.12.11 |
데이터분석 아티클 07 - 데이터 분석가가 되어보니 중요한 것들 (2) | 2023.12.08 |
데이터분석 아티클 06 - 데이터기반 의사결정의 장점 (2) | 2023.12.07 |
데이터분석 아티클 05 - 데이터 시각화 101: ③데이터 속 거짓말 발견하기 (0) | 2023.12.07 |