[BigQuery] 빅쿼리 예약된 쿼리 즉시 실행 방법 (Schedule Backfill의 내부 동작과 데이터 정합성 전략)

justin-note 2026. 2. 27. 10:15

2026. 2. 27. 10:15

제가 2026년 현재 BigQuery 예약 쿼리 Backfill을 실무에서 사용하면서 자주 겪었던 문제들과 그 해결 방법들을 정리해봤습니다. BigQuery에서 Scheduled Query를 활용하다 보면

저는 이런 상황들을 반드시 겪게 되더라고요.

매일 오전 8시에 쿼리 자동 실행을 예약했는데,
소스 테이블이 오전 9시에 뒤늦게 수정될 때가 있었습니다.
결과 테이블이 잘못된 상태가 되어버렸죠.
이럴 땐 지금 당장 최신 데이터로 갱신해야 할 필요가 있습니다.

이럴 때 제가 활용하는 기능이 바로

Schedule Backfill(예약 보충)입니다.

하지만 처음에는 Backfill이 단순 “수동 실행 버튼”인 줄 알았습니다. 삽질 끝에 알게 된 건, 내부 동작을 제대로 이해하지 못하면 데이터가 덮어써지거나, 한 번의 실수로 예상치 못한 비용이 꽤 많이 발생하기도 한다는 점이었습니다.

제가 자주 듣는 질문들

Q. 예약된 쿼리를 즉시 실행할 수 있나요?

네, 제가 직접 사용해보니 Backfill 기능을 활용하면 예약된 쿼리를 즉시 수동 실행할 수 있습니다.

자주 묻는 질문

Q. 예약된 쿼리를 즉시 실행할 수 있나요?

네, Backfill 기능을 사용하면 예약된 쿼리를 즉시 수동 실행할 수 있습니다.

핵심 정리: ① BigQuery 예약 쿼리 Backfill은 과거 데이터 재처리를 위한 기능이다. ② @run_time 파라미터 이해와 WRITE 모드 선택이 중요하다. ③ 비용 효율 및 데이터 정합성 관리에 신중해야 한다.

Scheduled Query는 제가 직접 보니 어떻게 동작하나요?

제가 파악한 Scheduled Query의 내부 동작은 이렇습니다:

Scheduled Query는 예약된 시간에 쿼리를 실행하고 결과를 저장하는 방식이다.

예약된 시간마다 쿼리가 실행되고요,
실행 시점의 @run_time 값이 쿼리에 자동으로 주입됩니다.
그리고 그 결과가 대상 테이블에 저장되는 식이죠.

즉, 실행 시점은 단순히 쿼리를 트리거하는 시간일 뿐만 아니라

쿼리 내부 파라미터 값에도 직접적인 영향을 주더라고요.

제가 경험한 Schedule Backfill의 정확한 의미

Backfill은 제가 직접 사용해보니 “과거 시점의 쿼리 실행을 재현”하는 기능이었습니다.

Schedule Backfill은 과거 특정 시점의 데이터를 재처리하여 업데이트하는 기능이다.

좀 더 자세히 말씀드리면,

특정 날짜/시간을 제가 직접 지정하면,
그 시점의 @run_time 값을 기준으로 쿼리가 다시 실행되는 방식입니다.

제가 이 기능을 사용하면서 깨달은 핵심은 이것입니다:

Backfill은 “지금 바로 실행”하는 버튼이 아니라,

“제가 지정한 과거 시점으로 실행을 재현”하는 기능이라는 점이었습니다.

제가 경험한 Run for a specific date vs 기간 실행 차이

✔ Run for a specific date (특정 날짜 실행)

단일 시점에 쿼리를 실행할 때 제가 사용합니다.
주로 오늘 데이터가 잘못되어 강제로 갱신해야 할 때 유용했습니다.

✔ 기간 동안 실행 (Run for a range of dates)

특정 날짜 범위 전체를 재처리해야 할 때 제가 적용합니다.
가령 파티션 데이터가 통째로 누락되었을 때 복구할 때 특히 유용하더라고요.

제가 대량 데이터를 운영할 때는

“기간 실행”을 훨씬 더 자주 사용하는 편입니다.

구분	Run for a specific date (특정 날짜 실행)	기간 동안 실행 (Run for a range of dates)
목적	단일 시점 데이터 재처리	특정 기간 데이터 일괄 재처리
활용	오늘 데이터 오류, 강제 갱신	과거 파티션 데이터 누락, 복구
특징	한 번의 실행으로 지정일 갱신	여러 일자의 실행을 순차적으로 수행

제가 겪은 WRITE_TRUNCATE 모드의 위험성

WRITE_TRUNCATE

이 모드를 사용하면 제가 직접 겪은 바에 따르면:

WRITE_TRUNCATE 모드는 대상 테이블의 기존 데이터를 삭제하고 쿼리 결과로 완전히 교체하는 방식이다.

기존 테이블 전체가 삭제되고,
Backfill 재실행 결과로 완전히 교체됩니다.

저는 이런 문제 상황을 겪어본 적이 있습니다:

오전 8시에 정상 데이터로 테이블이 만들어졌는데,
오후 2시에 제가 Backfill을 실행했습니다.
쿼리 조건이 조금만 달라도 10만 건 이상의 데이터가 일부 누락될 수 있었습니다. 이 경험 때문에 WRITE_TRUNCATE는 정말 신중하게 사용해야 한다고 깨달았습니다.

✔ 제가 추천하는 안전한 설계 패턴

📌 파티션 테이블 사용

PARTITION BY DATE(event_time)

그리고 쿼리에는 아래와 같이 조건을 추가했습니다.

WHERE DATE(event_time) = DATE(@run_time)

이렇게 구조를 잡으니 특정 날짜의 파티션만 안전하게 재처리할 수 있었습니다.

제가 직접 경험한 비용 구조 이해하기

Backfill은 일반 쿼리와 동일하게 비용이 발생하더라고요:

BigQuery 예약 쿼리 Backfill의 비용은 일반 쿼리와 동일하게 스캔하는 데이터 양을 기준으로 발생한다.

스캔하는 데이터 양을 기준으로 비용이 발생하고,
심지어 캐시가 적용되지 않을 수도 있었습니다.

✔ 제가 비용을 줄이기 위해 사용했던 방법

파티션 필터는 필수로 적용해야 합니다.
SELECT * 는 제가 지양했습니다.
반드시 필요한 컬럼만 조회하도록 제가 쿼리를 수정했습니다.
처음에는 소량의 LIMIT을 걸어 테스트 쿼리를 먼저 실행한 후, 최종 Backfill을 돌렸습니다. 이 방법을 적용해서 불필요한 스캔 비용을 최대 70%까지 줄일 수 있었습니다.

제가 경험한 파라미터(@run_time) 오작동 문제

예를 들어, 제 쿼리에서 아래와 같이 @run_time을 사용했을 때:

@run_time 파라미터는 예약 쿼리 실행 시점에 자동으로 주입되는 값이다.

WHERE DATE(event_time) = DATE(@run_time)

Backfill을 실행할 때 날짜 입력이 잘못되면 저는 이런 문제들을 겪었습니다:

엉뚱한 날짜 데이터가 재처리되거나,
데이터가 중복으로 적재되고,
심한 경우엔 데이터가 통째로 누락되는 문제를 겪었습니다. 처음에는 대수롭지 않게 생각했지만, 이 문제로 주말에 긴급 대응을 한 적도 있었습니다.

✔ 제가 실무에서 꼭 확인하는 체크 포인트

✔ 타임존이 UTC인지 KST인지 제가 항상 확인합니다.

✔ 날짜 포맷이 올바른지 다시 한번 확인합니다.

✔ 파티션 컬럼과 제가 입력하는 @run_time 파라미터의 타입이 동일한지 꼭 확인합니다.

제가 겪었던 실무 시나리오

📌 시나리오 1 – 소스 데이터 지연

ETL 프로세스가 오전 9시에야 비로소 완료되었는데,
예약 쿼리는 오전 8시에 이미 실행된 경우를 자주 겪었습니다.
이럴 때 결과 테이블에 데이터가 누락되는 경험을 했습니다.

→ 저는 오전 9시 30분쯤 Backfill을 실행했습니다.

📌 시나리오 2 – 과거 데이터 수정 필요

3일 전 매출 데이터에서 오류를 발견해서,
특정 날짜의 데이터만 재처리해야 하는 상황이었습니다.

→ 이럴 때는 기간 Backfill을 실행해서 해결했습니다.

제가 적용한 데이터 정합성 관리 전략

제가 경험한 예약 쿼리 오류는 대부분 다음 세 가지 원인에서 발생하더라고요.

데이터 정합성 관리는 데이터의 일관성과 정확성을 유지하는 일이다.

실행 시간 설정 미스
소스 데이터 업데이트 지연
파라미터 설정 오류

하지만 저는 근본적인 해결책으로 다음과 같은 전략을 사용했습니다:

소스 데이터 완료 시점을 기준으로 스케줄링하는 것이 중요하다고 생각했습니다.
파티션 기반으로 테이블을 설계하는 방법을 저는 선호합니다.
파라미터를 명확히 정의하는 방법을 사용했습니다.
`WRITE_APPEND` 사용을 적극적으로 고려해보는 것도 좋습니다.

제가 활용한 WRITE_APPEND 전략

제가 대량 데이터를 운영하는 환경에서는:

WRITE_APPEND 전략은 기존 테이블에 새로운 데이터를 추가하는 방식이다.

WRITE_APPEND

로 데이터를 먼저 추가한 후,

DELETE FROM table
WHERE partition_date = DATE(@run_time)

다시 삭제하는 방식이 훨씬 더 안전하다고 제가 판단했습니다.

제가 Backfill 전에 꼭 확인하는 최종 체크리스트

✔ 실행 모드가 TRUNCATE인지 APPEND인지 제가 다시 한번 확인합니다.

✔ 파티션 설계가 올바르게 되어 있는지 확인합니다.

✔ @run_time 기준이 제가 의도한 대로 정확한지 확인합니다.

✔ 타임존이 일치하는지 꼭 확인합니다.

✔ Backfill 실행 시 예상되는 스캔 용량을 항상 확인합니다.

마무리하며

제가 직접 경험하고 깨달은 바로는, Schedule Backfill은 단순히

BigQuery 예약 쿼리 Backfill은 데이터 운영 안정성을 위한 핵심 도구이다.

“수동 실행 버튼”이 아니라

데이터 운영 안정성을 위한 매우 중요한 도구라고 저는 생각합니다.

내부 동작 구조를 제대로 이해하지 못하면, 저처럼:

데이터 손실을 겪거나,
예상치 못한 비용 폭증을 경험하거나,
데이터 정합성이 붕괴되는 심각한 문제들을 겪을 수 있었습니다.

이 블로그에서는 제가 BigQuery를 운영하면서 2026년 기준 반복적으로 마주쳤던

실무 데이터 구조 문제들을 정리해서 공유하고 있습니다.

💬 이 글이 도움이 되셨다면

BigQuery 예약 쿼리 Backfill 관련 궁금한 점이나 더 알고 싶은 내용이 있다면 댓글로 남겨주세요! 실무에서 겪은 경험을 공유해 주셔도 좋습니다.

'업무 데이터 자동화' 카테고리의 다른 글

[구글시트] 특정 문구 포함 여부에 따라 값 변경하기 (IF + SEARCH 함수 조합) (0)	2026.03.04
BigQuery 비용 줄이는 실무 전략 완전 정리 (쿼리 비용 폭증 원인과 스캔 용량 줄이는 설계 패턴) (2)	2026.03.02
[구글시트] IMPORTRANGE 여러 시트 데이터 하나로 합치는 방법 ({} 배열 연산자의 내부 동작과 실무 안정 패턴 완전 정리) (0)	2026.02.25
구글시트 조건부 고유 항목 카운팅 방법 (COUNTUNIQUE + FILTER 조합의 내부 동작과 실무 안정 패턴) (0)	2026.02.23
구글시트 빈 셀 개수 세기 총정리 (COUNTBLANK · COUNTIF 차이와 실무에서 헷갈리는 케이스 완전 정리) (0)	2026.02.20

justin의 업무 노트