본문 바로가기

사전캠프 데일리미션

데이터분석 아티클 09 - 양질의 데이터를 판별하는 5가지 방법 : ③관계형 데이터베이스인가?

1. 오늘의 아티클(주제)

https://yozm.wishket.com/magazine/detail/1096/

 

양질의 데이터를 판별하는 5가지 방법 : ③ 관계형 데이터베이스인가? | 요즘IT

보통 빅데이터의 특성을 이야기할 때 3V라는 단어를 언급하는 경우가 많습니다. Velocity(속도), Volume(양), Variety(다양성)까지 V로 시작하는 3가지 단어의 묶음입니다. 이때 Variety(다양성)이라는 단

yozm.wishket.com

 

2. 아티클 정보 요약

-빅데이터의 특성 : 3V -> Velocity(속도), Volume(양), Variety(다양성)

  =>어떤 다양한 모습의 빅데이터라도 활용하기 좋은 데이터들이 지키고 있는 공통의 형식이 존재함! '데이터형식!

 

관계형 데이터베이스

1)관계형 데이터베이스의 정의 : 데이터를 행(row)과 열(column)의 테이블 형태로 저장하여 서로 관계있는 데이터를 관리하는 방식

2)관계형 데이터베이스 형식이 중요한 이유

-행, 열의 형식이라는 편리한 구조

-형식을 지켜야 다른 데이터와 연결하기 쉬움 => 다른 데이터와 유기적으로 연결되어 더 넓은 시야 제공

 

보유한 데이터를 테이블이라 부를 수 있는가?

-테이블 : 관계형 데이터베이스에서 데이터의 기본 단위

 => 테이블 되기 위한 구성조건을 충족한다는 것은 관계형 데이터베이스 양식을 지키고 있다는 의미!

1)키(Key)의 존재

-키 : 속성(열) 중 식별자로 이용 가능한 속성

-키가 없으면? : 데이터의 의미 파악X, 실제 상황에 적용X, 타 테이블과의 결합X

2)유일성, 무결성

-양질의 데이터를 판별하기 위해선 키의 후보군을 찾고 유일성과 무결성을 만족시키고 있는지 살펴야함

-키가 없는 데이터는 활용하기 힘든 저품질 데이터

 

데이터로서 지켜야 할 형식이 무너졌다면 활용에도 한계가 있다

-관계형 데이터베이스 형식 : 양질 데이터의 기본적인 전제 조건

 =>유일성과 무결성이 충족되더라도 무조건 양질의 데이터는 아니나, 그렇지 않다면 저품질 데이터는 맞음

3. 인사이트 

-양질의 데이터를 판별하기 위해선 키의 후보군을 찾고 유일성과 무결성을 만족시키고 있는지 살펴야함

-키가 없는 데이터는 활용하기 힘든 저품질 데이터

-유일성과 무결성이 충족되더라도 무조건 양질의 데이터는 아니나, 그렇지 않다면 저품질 데이터는 맞음