본문 바로가기

사전캠프 데일리미션

데이터분석 아티클 07 - 양질의 데이터를 판별하는 5가지 방법 : ①데이터 양은 충분한가

1. 오늘의 아티클(주제)

https://yozm.wishket.com/magazine/detail/1070/

 

양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가? | 요즘IT

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로

yozm.wishket.com

 

2. 아티클 정보 요약

양질의 데이터란 무엇인가?

1)데이터의 품질

 -다양한 데이터를 보유하는 것이 이익 취득에 직결되지는 않는다.

 -고품질의 데이터일수록 실제로 활용될 확률이 높다.

 -경제적/시강적 비용의 측면에서 양질의 데이터를 판별할 줄 아는 능력은 중요하다.

2)양질의 데이터를 판단하는 방법

 -데이터 품질을 가늠하는 명확한 기준은 없다

  = > '분석하기 쉬운가, 해당 데이터 분석을 통해 결과를 명확하게 받아들일 수 있는가?'로 질문하기

 -양질의 데이터의 일반적인 특징 : 

   : ⓐ충분히 많음

     ⓑ자체적인 오류 적음

     ⓒ관계형데이터베이스 형식

     ⓓ수치형 데이터 형식 많음

     ⓔ활용 목적에 적합

 *모든 양질의 데이터가 5가지를 다 지키는 것도, 낮은 데이터가 모두와 어긋나는 것도 아니다

데이터가 충분히 많은가?

1)데이터 양을 중요하게 고려해야 하는 경우

 -표본이 모집단을 대표하지 못할 때

 -AI/딥러닝 알고리즘 : 데이터가 많을 수록 정확도가 높음

2)어느 정도의 데이터가 충분한 양일까? : 절대적인 기준은 없으며, 상황과 목적에 따라 그 정도가 다르다!

 (1)통계적 분석 : 500개 이상의 데이터 => '통계적 유의미성' 산출

 (2)머신러닝(기계학습) : 보통 '(변수의 수)*100' 이상이면 어느 정도 충분한 것으로 여김

 

데이터 양은 분석 결과의 신뢰도로 연결!

 

3. 인사이트 

-데이터 품질을 가늠하는 일반적인 기준이 존재하나, 절대적인 기준은 아님

-데이터의 양을 가늠하는 절대적인 기준은 없으며, 크게 데이터가 '통계적분석'을 위한 것인지, '머신러닝'을 위한 것인지에 따라 다름