문제가 생겼을 때 보는 순서
- 로컬 서버가 떠 있는지 확인합니다.
- 같은 스킬을 수동으로 실행해 스킬 자체가 정상인지 봅니다.
- LLM provider 응답 실패인지, 외부 API 실패인지, 채널 발송 실패인지 분리합니다.
- cron trigger 는 마지막에 확인합니다. 수동 실행이 실패하면 cron 도 실패합니다.
스케줄 운영
cron trigger 는 서버가 실행 중일 때만 의미가 있습니다. 노트북 절전, 네트워크 단절, provider quota 초과처럼 로컬 환경의 영향을 받기 때문에 중요한 알림은 처음 며칠 동안 수동 확인을 병행하는 것이 좋습니다.
업그레이드 전 체크
- 현재 쓰는 스킬 목록과 config 를 확인합니다.
- 아침 브리핑, URL 모니터링처럼 매일 쓰는 흐름을 하나씩 수동 실행합니다.
- 업그레이드 후 같은 명령을 다시 실행해 출력과 채널 발송이 같은지 비교합니다.
장애 원인 분리 예시
스킬 실패
CLI 수동 실행도 실패합니다. config, 외부 API, 스킬 코드부터 확인합니다.
LLM 실패
API key, 모델 이름, provider endpoint, local model tool-use 지원 여부를 확인합니다.
채널 실패
CLI 결과는 정상인데 Telegram/Slack/Discord/Kakao 발송만 실패합니다.
cron 실패
수동 실행은 정상인데 예약 시각에 실행되지 않습니다. 서버 실행 상태와 trigger 를 봅니다.
운영 기준
자동화는 한 번 성공보다 재시작 후에도 다시 성공하는지가 중요합니다. setup 저장, server restart, manual run, channel delivery 순서로 다시 확인하세요.