데이터 분석/프로젝트

[최종 프로젝트] [2주차] 크롤링 진행 상황

경 민 2025. 6. 11. 00:11

저번주 화~목요일 오전까지 크롤링 코드 작성을 완료하고, 목요일 오후부터 금, 토, 일 연휴 내내 크롤링을 했다. 

 

< 이슈 >

내가 처음 맡았던 2025년 4~5월 부분에서는 삭제된 방송이 많이 없었는데, 내 걸 다 마치고 다른 분들이 담당하시는 부분을 도와드리려고 2024년 7~8월을 크롤링해보니 비교적 삭제된 방송이 많은 걸 발견했다. 아무래도 1년 전 방송이다보니 그런 것 같다.

 

우리는 삭제된 방송이면 스토어명을 알 수 없고, 스토어명을 알 수 없다면 방송 지표도 의미가 없을 거라고 판단했기 때문에 해당 방송에 대해서는 아무 것도 수집하지 않고 다음 방송으로 넘어가는 구조로 코드를 작성했었다.

대신 에러로그 파일에는 해당 날짜, 방송 상세정보 링크, 오류 정보가 누적되어 쌓였다.

 

그런데 삭제된 방송이 생각보다 많다보니 이게 문제가 될 것 같다는 생각이 들었다.

 

월별 방송 수 비율과 삭제된 방송 비율이 동일하면 문제가 없겠지만,

그렇지 않다면 올바른 데이터 수집이 안 될 것이기 때문이다.

(예: 사실상 6월에 가장 방송이 많은데 삭제된 방송이 많아서 비교적 방송 수가 적은 다른 월과 큰 차이가 없는 경우의 문제)

 

월요일 오전 회의에서 팀원분들에게 이러한 이슈를 공유했다.

회의 결과,

방송 수는 [수집된 데이터의 행 개수]와 [에러로그의 행 개수]를 더 하면 [전체 방송 수]를 알 수 있기 때문에 큰 문제는 없지만

방송지표(월별 전체 매출액, 판매 건수, 구매전환율, 구매고객 수 등)를 분석하려면 모든 방송의 해당 정보를 알아야하기 때문에 에러로그 파일에 수집된 url만 다시 크롤링하기로 결정했다.

 

재수집할 때에는 스토어명을 알 수 없으면 'untitled'로 저장되게 설정했다.

 

처음부터 올바르게 판단했으면 이런 불상사가 없고, 오늘부터 전처리를 시작할 수 있었을텐데.. 하는 아쉬움이 있었지만 팀원분들과 같이 으쌰으쌰하며 힘을 냈다.. ^_^

 

 

그렇게 오늘 오전까지 1차 데이터 수집을 완료하고,

오후부터는 본격적으로 에러로그에 대한 재수집을 시작했다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==================================== 내일 목표 ======================================

 

  1. 내일 오전까지
    • 에러로그 재수집 완료
    • 월별 통합 → 전체 통합 → live_type 컬럼 생성 (open/plan) → 전체 통합
      • broadcast, product 총 2개의 최종 통합 파일 생성
  2. 오후부터 전처리 회의 시작

================================================================================