근데 Hollo를 한 번 날 잡고 제대로 살펴보긴 해야 할 것 같다. 요즘 너무 자주 죽어서…
전반적인 설계는 Hackers' Pub과 유사한데 (물론 Hackers' Pub이 나중에 만든 거라 좀 더 낫긴 함), Hackers' Pub은 멀쩡한 반면 Hollo는 자주 죽는 게 이상하다.
근데 Hollo를 한 번 날 잡고 제대로 살펴보긴 해야 할 것 같다. 요즘 너무 자주 죽어서…
전반적인 설계는 Hackers' Pub과 유사한데 (물론 Hackers' Pub이 나중에 만든 거라 좀 더 낫긴 함), Hackers' Pub은 멀쩡한 반면 Hollo는 자주 죽는 게 이상하다.
알고 보니 쉽게 고칠 수 있는 문제였다. 일단 hollo.social 쪽 Caddyfile에서 헬스 체크를 업스트림의 NodeInfo 엔드포인트를 바라보게 해 뒀는데, Hollo의 NodeInfo 엔드포인트가 데이터가 많을 때 느려지는 문제가 있어 타임아웃이 나고 있었다. 그래서 Caddy 입장에서는 모든 업스트림 노드가 unhealthy하다고 여겨져서 서비스 전체가 503 Service Unavailable 오류를 내게 되었던 것.
NodeInfo 엔드포인트가 데이터가 많을 때 느린 문제는 SQL을 잘못 짜서 그런 거라 해당 문제를 고쳤고, 이제 모든 문제가 해결되었다.