בניית אגרגטור בדיקות תקינות רב-אזורי

📅3 hours ago⏱2 min read

בניית אגרגטור Health-Check רב-אזורי

משתמש ב-São Paulo נתקל ב-edge node שאינו מגיב. הוא לא מגיש דיווח על תקלה. הוא פשוט סוגר את הלשונית וצופה במשהו אחר.

מנטר uptime רגיל יפספס את זה. רוב המנטרים מבצעים probing ממיקום יחיד. מאותה נקודה אחת, הכל נראה ירוק.

דף הסטטוס שלנו נהג להציג 100% uptime בזמן שמשתמשים אמיתיים חוו timeouts. בדיקת תקינות (health check) גלובלית אחת שיקזה לנו שקר.

הנה איך בנינו מערכת שאומרת את האמת.

הבעיה: הטיות דגימה (Sampling Bias) אם המנטר שלכם נמצא במרכז נתונים אחד, הוא רואה רק מציאות אחת. אתם עלולים לדווח על מצב "ירוק" גם אם ה-edges שלכם בסינגפור וב-São Paulo מנתקים חיבורים.

תעבורת וידאו מחמירה את המצב. כשלים אזוריים נפוצים כוללים:

נתיבי BGP לקויים המשפיעים על יבשת אחת.
Cache evictions שמאלצים fallback איטי ל-origin.
שגיאות דיסק הגורמות ל-timeouts ב-TLS handshake.
בעיות DNS ב-resolvers מקומיים ספציפיים.

תגובת "200 OK" בודדת כמעט לא אומרת לכם דבר.

שלושת הכללים שלנו לבדיקת תקינות: עברנו מעבר לקודי סטטוס. אנחנו מגדירים תקינות באמצעות שלושה מדדים:

נגישות (Reachability): לחיצות היד (handshakes) של TCP ו-TLS חייבות להסתיים תוך 800ms.
שיהוי (Latency): אנחנו עוקבים אחר p95 Time-to-First-Byte (TTFB). ממוצעים מסתירים את ה-"tail" האיטי שמציק למשתמשים.
תקינות (Correctness): גוף התגובה חייב להכיל סימן (marker) צפוי. תגובת 200 OK שמחזירה דף שגיאה היא כשל.

הפתרון: Probing רב-אזורי הפסקנו להשתמש במנטר אחד גדול. במקום זאת, אנו פורסים קבצי binary קטנים בשפת Go על גבי מופעי VPS אזוריים וזולים.

כל prober:

בודק את ה-edges מנקודת מבט מקומית.
משתמש ב-httptrace כדי לקבל נתוני TTFB אמיתיים.
מפרסם תוצאות ל-aggregator מרכזי.

אנחנו משתמשים ב-SQLite לאחסון. הוא פשוט ומטפל בעומס שלנו ללא overhead. אנחנו שומרים דגימות גולמיות (raw samples) במקום נתונים שעברו אגרגציה מראש. זה מאפשר לנו לבצע re-score להיסטוריה או לדבג כשלים ספציפיים מאוחר יותר.

הסוד: Quorum רשתות הן רועשות. חבילה (packet) אחת שאבדה אינה מהווה השבתה.

אנחנו משתמשים במערכת quorum כדי למנוע התראות שווא. אנחנו מכריזים על edge כ-"down" רק כאשר מספר אזורים מסכימים על כך. אם אזור אחד מזהה כשל אך אחרים לא, אנחנו לא שולחים page לצוות. בחירה עיצובית זו הסירה 90% מהתראות השווא

אתה לא צריך פלטפורמת observability כבדה. אתה צריך probes מקומיים, נתונים גולמיים, וחוק שמסרב להיכנס לפאניקה בגלל רעש.

מקור: https://dev.to/ahmet_gedik778845/building-a-multi-region-health-check-aggregator-for-video-cdn-edges-2865

בניית אגרגטור בדיקות תקינות רב-אזורי

Continue reading

𝗧𝗵𝗲 𝗠𝗶𝘀𝘀𝗶𝗻𝗴 𝗗𝗡𝗦 𝗔𝗻𝗰𝗵𝗼𝗿

𝗢𝗯𝘀𝗲𝗿𝘃𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝗔𝗜: 𝗠𝗼𝗻𝗶𝘁𝗼𝗿𝗶𝗻𝗴 𝗶𝘀 𝗡𝗼𝘁 𝗘𝗻𝗼𝘂𝗴𝗵

𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝗶𝗻𝗴 𝗔𝗻 𝗢𝗯𝘀𝗲𝗿𝘃𝗮𝗯𝗹𝗲 𝗘𝗱𝗴𝗲 𝗣𝗼𝗱

𝗪𝗵𝘆 𝗛𝗲𝗮𝗹𝘁𝗵𝗰𝗮𝗿𝗲 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿𝘀 𝗙𝗮𝗶𝗹 𝘁𝗼 𝗔𝗰𝘁 𝗼𝗻 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸

𝗧𝗵𝗲 𝗗𝗮𝘆 𝗪𝗲 𝗙𝗶𝘅𝗲𝗱 𝗢𝘂𝗿 𝗦𝗶𝗴𝗻𝘂𝗽 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲