데이터 분석/아티클 미션

[아티클 미션] -15 데이터의 신뢰성

경 민 2025. 3. 14. 19:48
 

양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT

데이터 신뢰성이란 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념으로 이해하면 좋습니다. 데이터 자체에 틀린 정보가 담겨있을 수도 있으며, 확실한 값이 아닌 추정 값을 데이

yozm.wishket.com

 

 

✅ 구체적인 신뢰성 판별 기준

  1. 데이터 오류 정도 : 사실이 아닌 정보가 얼만큼?
  2. 결측치 / 결측 데이터 : 수집 혹은 적재 과정에서 누락된 정도와 그 데이터가 얼만큼?
    • 동일한 패턴을 보이는 결측치는 활용 가능하다.
    • 발견했을 때 삭제하기/대체값 넣어주기 등등의 방법이 있지만 권장하지 않음.
  3. 데이터 가공 정도 (raw or not)
    • 최소한으로 가공된 데이터가 가장 신뢰성 높을 수도 있다. (이 정도는 그냥 raw로 통칭한다.)
  • 가공할 때 오류 발생 최소화하기. 데이터 조작 많이 할수록 오류가능성 높아지고 신뢰도 하락하기 때문
  • raw data의 신뢰성과 가공 데이터의 활용성을 적절하게 이용하자.

✅ 결론

좋은 데이터의 절대적인 기준은 없다.

그러니 아래 3가지 기준을 미리 설정해놓고 분석을 진행하자.

  1. 허용가능한 오류 정도를 미리 설정
  2. 얼마나 가공할 건지 / 얼마나 가공된 데이터를 선택할지 결정
  3. 어떤 내용을 담고 있는 데이터를 선택할지 결정

 

좋은 데이터는 신뢰성을 가진 데이터이다. 그 신뢰성은 (데이터 오류, 결측치, 가공)의 정도에 따라 달라진다. 그러나 절대적으로 신뢰성이 높다고 할 수 있는 완벽한 데이터란 없다. 그러니 목적에 맞게 데이터 선별 기준을 미리 설정해두자.


일반적으로 데이터 양이 많을수록 좋다고 했는데, 이 글을 읽으니 ‘오류가 적은’ 데이터가 많을수록 좋다는 걸 (당연한 얘기지만) 구체적인 예시와 함께 알 수 있어서 좋았다. 그리고 때로는 그 오류를 적절하게 활용하기도 한다고 하니 데이터를 다루는 사람이 주어진 재료를 어떻게 요리하냐에 따라 데이터 가치가 달라질 수 있다는 걸 느꼈다. 결국 사람의 몫이다.