본문 바로가기

사전캠프 데일리미션

데이터분석 아티클 08 - 양질의 데이터를 판별하는 5가지 방법 : ②믿을 수 있는 데이터인가?

1. 오늘의 아티클(주제)

https://yozm.wishket.com/magazine/detail/1074/

 

양질의 데이터를 판별하는 5가지 방법 : ② 믿을 수 있는 데이터인가? | 요즘IT

데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데

yozm.wishket.com

 

2. 아티클 정보 요약

-데이터 신뢰성 : 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념

신뢰성 있는 데이터인가?

1)데이터 오류 : 사실이 아닌 잘못된 정보를 적재하고 있는 경우

 -컴퓨터를 통해 자동적으로 찾아내기 어려움

 -크게 프로그래밍 오류를 비롯한 수집 당시의 오류, 데이터 조작 시의 오류로 나뉨

  *프로그래밍 오류 : 9999등 매우 높은 숫자는 꽤 흔하게 나타남

  *수집 단계에서의 오류 : 만나이-한국나이, 실거주지-주민등록상거주지

=>데이터 분석가는 분석 초기부터 각 데이터 및 수집된 방법에 대한 파악을 반드시 하고 있어야 함

2)결측 데이터 : 수집 혹은 적재과정에서 누락된 데이터

 -단순한 컴퓨터 에러, 피치 못한 사정에 의한 것일 수 있으며, 결측 데이터 자체에 특별한 의미 있을 수 있음

  ex)관리비 항목이 비어있는 '단독주택'의 케이스

 -보통 해당 데이터를 삭제하며, 특정 값이나 평균, 중앙값으로 대체할 수도 있으나 최선의 방법은 아님

 -애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터 선택하는 것이 신뢰성에 가장 좋음

데이터 가공 정도 : 데이터의 신뢰성을 가늠하는 데에 있어 중요한 지표

1)원천데이터

 -사람의 손 최소로 탄 생태이기에 오류가 적은 편이나, 프로그래밍 오류를 포함한 수집 당시의 오류가 있을 수 있음

 -원천데이터 자체가 복잡해서 때로는 최소한의 가공을 거친 데이터가 가장 신뢰성이 높을 수도 있음

2)가공데이터

-많이 가공된 데이터는 틀린 정보를 담게 될 수밖에 없음!

-하지만 '가공=양질X' 은 아님!

 => 중요한 것은 원천 데이터(데이터 신뢰성)과 가공 데이터(데이터 활용성) 사이에 균형을 잘 잡는 것!

 

데이터에 대한 믿음이 선행되어야 분석이 가능하다

-데이터 자체에 대한 신뢰성이 있어야 양질의 데이터라고 할 수 있음

-허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 적당한 가공 정도와 적재 내용을 결정해야함!

3. 인사이트 

- 중요한 것은 원천 데이터(데이터 신뢰성)과 가공 데이터(데이터 활용성) 사이에 균형을 잘 잡는 것!