양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT
데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이
yozm.wishket.com
✅ 구체적인 신뢰성 판별 기준
- 데이터 오류 정도 : 사실이 아닌 정보가 얼만큼?
- 결측치 / 결측 데이터 : 수집 혹은 적재 과정에서 누락된 정도와 그 데이터가 얼만큼?
- 동일한 패턴을 보이는 결측치는 활용 가능하다.
- 발견했을 때 삭제하기/대체값 넣어주기 등등의 방법이 있지만 권장하지 않음.
- 데이터 가공 정도 (raw or not)
- 최소한으로 가공된 데이터가 가장 신뢰성 높을 수도 있다. (이 정도는 그냥 raw로 통칭한다.)
- 가공할 때 오류 발생 최소화하기. 데이터 조작 많이 할수록 오류가능성 높아지고 신뢰도 하락하기 때문
- raw data의 신뢰성과 가공 데이터의 활용성을 적절하게 이용하자.
✅ 결론
좋은 데이터의 절대적인 기준은 없다.
그러니 아래 3가지 기준을 미리 설정해놓고 분석을 진행하자.
- 허용가능한 오류 정도를 미리 설정
- 얼마나 가공할 건지 / 얼마나 가공된 데이터를 선택할지 결정
- 어떤 내용을 담고 있는 데이터를 선택할지 결정
좋은 데이터는 신뢰성을 가진 데이터이다. 그 신뢰성은 (데이터 오류, 결측치, 가공)의 정도에 따라 달라진다. 그러나 절대적으로 신뢰성이 높다고 할 수 있는 완벽한 데이터란 없다. 그러니 목적에 맞게 데이터 선별 기준을 미리 설정해두자.
일반적으로 데이터 양이 많을수록 좋다고 했는데, 이 글을 읽으니 ‘오류가 적은’ 데이터가 많을수록 좋다는 걸 (당연한 얘기지만) 구체적인 예시와 함께 알 수 있어서 좋았다. 그리고 때로는 그 오류를 적절하게 활용하기도 한다고 하니 데이터를 다루는 사람이 주어진 재료를 어떻게 요리하냐에 따라 데이터 가치가 달라질 수 있다는 걸 느꼈다. 결국 사람의 몫이다.
'데이터 분석 > 아티클 미션' 카테고리의 다른 글
| [아티클 미션] -16 관계형 데이터베이스 (0) | 2025.03.18 |
|---|---|
| [아티클 미션] -14 가설 검증 (0) | 2025.03.07 |
| [아티클 미션] -13 사용자데이터 통계 분석 (0) | 2025.03.04 |
| [아티클 미션] -12 데이터 아키텍처 (0) | 2025.02.27 |
| [아티클 미션] -11 Data Analytics Engineer가 하는 일 (0) | 2025.02.10 |