1. 오늘의 아티클(주제)
https://yozm.wishket.com/magazine/detail/1074/
2. 아티클 정보 요약
-데이터 신뢰성 : 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념
신뢰성 있는 데이터인가?
1)데이터 오류 : 사실이 아닌 잘못된 정보를 적재하고 있는 경우
-컴퓨터를 통해 자동적으로 찾아내기 어려움
-크게 프로그래밍 오류를 비롯한 수집 당시의 오류, 데이터 조작 시의 오류로 나뉨
*프로그래밍 오류 : 9999등 매우 높은 숫자는 꽤 흔하게 나타남
*수집 단계에서의 오류 : 만나이-한국나이, 실거주지-주민등록상거주지
=>데이터 분석가는 분석 초기부터 각 데이터 및 수집된 방법에 대한 파악을 반드시 하고 있어야 함
2)결측 데이터 : 수집 혹은 적재과정에서 누락된 데이터
-단순한 컴퓨터 에러, 피치 못한 사정에 의한 것일 수 있으며, 결측 데이터 자체에 특별한 의미 있을 수 있음
ex)관리비 항목이 비어있는 '단독주택'의 케이스
-보통 해당 데이터를 삭제하며, 특정 값이나 평균, 중앙값으로 대체할 수도 있으나 최선의 방법은 아님
-애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터 선택하는 것이 신뢰성에 가장 좋음
데이터 가공 정도 : 데이터의 신뢰성을 가늠하는 데에 있어 중요한 지표
1)원천데이터
-사람의 손 최소로 탄 생태이기에 오류가 적은 편이나, 프로그래밍 오류를 포함한 수집 당시의 오류가 있을 수 있음
-원천데이터 자체가 복잡해서 때로는 최소한의 가공을 거친 데이터가 가장 신뢰성이 높을 수도 있음
2)가공데이터
-많이 가공된 데이터는 틀린 정보를 담게 될 수밖에 없음!
-하지만 '가공=양질X' 은 아님!
=> 중요한 것은 원천 데이터(데이터 신뢰성)과 가공 데이터(데이터 활용성) 사이에 균형을 잘 잡는 것!
데이터에 대한 믿음이 선행되어야 분석이 가능하다
-데이터 자체에 대한 신뢰성이 있어야 양질의 데이터라고 할 수 있음
-허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 적당한 가공 정도와 적재 내용을 결정해야함!
3. 인사이트
- 중요한 것은 원천 데이터(데이터 신뢰성)과 가공 데이터(데이터 활용성) 사이에 균형을 잘 잡는 것!
'사전캠프 데일리미션' 카테고리의 다른 글
데이터분석 아티클 10 - 양질의 데이터를 판별하는 5가지 방법 : ④데이터 형식을 파악했는가? (0) | 2023.12.12 |
---|---|
데이터분석 아티클 09 - 양질의 데이터를 판별하는 5가지 방법 : ③관계형 데이터베이스인가? (0) | 2023.12.12 |
데이터분석 아티클 07 - 양질의 데이터를 판별하는 5가지 방법 : ①데이터 양은 충분한가 (0) | 2023.12.11 |
데이터분석 아티클 07 - 데이터 분석가가 되어보니 중요한 것들 (2) | 2023.12.08 |
데이터분석 아티클 06 - 데이터기반 의사결정의 장점 (2) | 2023.12.07 |