1. 오늘의 아티클(주제)
https://yozm.wishket.com/magazine/detail/1123/
2. 아티클 정보 요약
-양질의 데이터 : 상황 및 분석 목적에 맞는 데이터
데이터에 원하는 정보가 담겨 있는가?
1)DIKW 피라미드 이론 *DIKW : 데이터(data), 정보(information), 지식(knowledge), 지혜(wisdom)
-'데이터->정보->지식->지혜'로 갈 수록 그 범위와 빈도 좁아짐.
-혹시나 하는 마음으로 수집한 데이터는 대부분 애초에 직접적으로 필요하지 않은 경우가 많음
=>분석하고자 하는 목적/상황에 충실하지 않은 데이터는 애초에 저품질로 판별하는 것이 효율적!
2)데이터vs분석가
-같은 데이터라도 분석가의 역량에 따라 분석 내용 질 달라질 수밖에 없음
분석 방법에 부합하는 데이터인가?
-목적에 부합하는 정보, 분석가의 역량, 그리고 분석 방법에도 부합하는 데이터가 양질의 데이터!
1)머신러닝을 위한 빅데이터
-데이터의 양, 그리고 데이터의 종속변수 존재 여부 중요
-종속변수 :관심 대상이 되는 데이터. 머신러닝에서는 예측하고자 하는 정보를 의미!
ex)주식가격 학습 및 예측하기 위해서는 그 동안의 주식 가격에 대한 데이터(종속변수)가 필요함. 없으면 머신러닝 불가
=>머신러닝 시 활용 시나리오에 맞는 종속변수가 존재하며, 그것이 데이터 속에 명확히 적재되어 있다면 양질 데이터!
2)인사이트 도출을 위한 빅데이터
-활용 가치 높은 정보가 데이터에 숨겨져 있는지 잘 살펴봐야 ->힌트로서의 지수(index) 활용할 수 있음
ex)한국 모든 기업 주식의 전체 움직임을 살피는 것으로는 인사이트 도출 어려움 =>코스피 지수
*어느 정도 가ㅏ공된 데이터가 인사이트 도출시에 유리함
분석 목적이 명확하지 않으면 데이터 품질을 논할 수 없다
-분석 목적 설정 : 양질의 데이터 판별을 위한 이정표 역할!
3. 인사이트
-목적에 부합하는 정보, 분석가의 역량, 그리고 분석 방법에도 부합하는 데이터가 양질의 데이터임
-머신러닝을 위한 빅데이터에서는 종속변수가 중요함
-빅데이터에서 힌트로서의 지수를 적극적으로 활용해야함
'사전캠프 데일리미션' 카테고리의 다른 글
데이터분석 아티클 13 - R vs 파이썬, 빅데이터 분석에 무엇이 더 좋을까? (0) | 2023.12.14 |
---|---|
데이터분석 아티클 12 - SQL 가독성을 높이는 다섯 가지 사소한 습관 (0) | 2023.12.13 |
데이터분석 아티클 10 - 양질의 데이터를 판별하는 5가지 방법 : ④데이터 형식을 파악했는가? (0) | 2023.12.12 |
데이터분석 아티클 09 - 양질의 데이터를 판별하는 5가지 방법 : ③관계형 데이터베이스인가? (0) | 2023.12.12 |
데이터분석 아티클 08 - 양질의 데이터를 판별하는 5가지 방법 : ②믿을 수 있는 데이터인가? (2) | 2023.12.11 |