본문 바로가기

사전캠프 데일리미션

데이터분석 아티클 11 - 양질의 데이터를 판별하는 5가지 방법 : ⑤목적에 적합한 데이터인가?

1. 오늘의 아티클(주제)

https://yozm.wishket.com/magazine/detail/1123/

 

양질의 데이터를 판별하는 5가지 방법 : ⑤ 목적에 적합한 데이터인가? | 요즘IT

사실 좋은 데이터라고 매번 쓰이는 것은 아니며 좋지 않은 데이터라고 절대 사용되지 않는 것은 아닙니다. 양질의 데이터라는 것은 상황에 따라, 분석 목적에 따라 변화하기 마련입니다. 결국

yozm.wishket.com

2. 아티클 정보 요약

-양질의 데이터 : 상황 및 분석 목적에 맞는 데이터

 

데이터에 원하는 정보가 담겨 있는가?

1)DIKW 피라미드 이론 *DIKW : 데이터(data), 정보(information), 지식(knowledge), 지혜(wisdom)

-'데이터->정보->지식->지혜'로 갈 수록 그 범위와 빈도 좁아짐.

-혹시나 하는 마음으로 수집한 데이터는 대부분 애초에 직접적으로 필요하지 않은 경우가 많음

 =>분석하고자 하는 목적/상황에 충실하지 않은 데이터는 애초에 저품질로 판별하는 것이 효율적!

2)데이터vs분석가

-같은 데이터라도 분석가의 역량에 따라 분석 내용 질 달라질 수밖에 없음

 

분석 방법에 부합하는 데이터인가?

-목적에 부합하는 정보, 분석가의 역량, 그리고 분석 방법에도 부합하는 데이터가 양질의 데이터!

1)머신러닝을 위한 빅데이터

-데이터의 양, 그리고 데이터의 종속변수 존재 여부 중요

-종속변수 :관심 대상이 되는 데이터. 머신러닝에서는 예측하고자 하는 정보를 의미!

 ex)주식가격 학습 및 예측하기 위해서는 그 동안의 주식 가격에 대한 데이터(종속변수)가 필요함. 없으면 머신러닝 불가

 =>머신러닝 시 활용 시나리오에 맞는 종속변수가 존재하며, 그것이 데이터 속에 명확히 적재되어 있다면 양질 데이터!

2)인사이트 도출을 위한 빅데이터

-활용 가치 높은 정보가 데이터에 숨겨져 있는지 잘 살펴봐야 ->힌트로서의 지수(index) 활용할 수 있음

 ex)한국 모든 기업 주식의 전체 움직임을 살피는 것으로는 인사이트 도출 어려움 =>코스피 지수

   *어느 정도 가ㅏ공된 데이터가 인사이트 도출시에 유리함

 

분석 목적이 명확하지 않으면 데이터 품질을 논할 수 없다

-분석 목적 설정 : 양질의 데이터 판별을 위한 이정표 역할!

 

 

3. 인사이트 

-목적에 부합하는 정보, 분석가의 역량, 그리고 분석 방법에도 부합하는 데이터가 양질의 데이터임

-머신러닝을 위한 빅데이터에서는 종속변수가 중요함

-빅데이터에서 힌트로서의 지수를 적극적으로 활용해야함