𝗗𝟭 𝗥𝗲𝗮𝗱 𝗥𝗲𝗽𝗹𝗶𝗰𝗮𝘀 𝗛𝗮𝗱 𝟲 𝗦𝗲𝗰𝗼𝗻𝗱𝘀 𝗼𝗳 𝗟𝗮𝗴

📅3 hours ago⏱1 min read

تأخیر ۶ ثانیه‌ای در Read Replicaهای D1

یک Read Replica از D1 در توکیو، ۶.۱ ثانیه نسبت به یک عملیات نوشتن (write) در آمریکای شمالی عقب افتاد.

من این موضوع را از طریق یک ردیاب (tracker) که باعث محدود شدن (throttling) نمایش‌های اشتباه شده بود، متوجه شدم. مستندات به eventual consistency اشاره می‌کنند، اما زمان مشخصی برای برنامه‌ریزی به شما نمی‌دهند.

من یک پروب (probe) برای سنجش میزان کهنگی (staleness) ساختم تا اعداد واقعی را پیدا کنم. این پروب، ردیفی را با یک UUID و یک epoch می‌نویسد. سپس تا زمانی که آن ردیف در replica ظاهر شود، آن را پایش (poll) می‌کند و در نهایت میزان تأخیر را ثبت می‌کند.

نتایج حاصل از ۲۰۰ پروب در آسیا:

p50: 800ms
p95: 3,400ms
p99: 6,100ms

اگر دیتابیس اصلی (primary) شما در آمریکای شمالی و کاربران شما در آسیا باشند، این تأخیر بسیار زیاد خواهد بود.

من همچنین با یک خطای schema مواجه شدم. یک migration روی دیتابیس اصلی اجرا شد. یک Worker ری‌استارت شد. اولین درخواست‌ها قبل از اینکه جدول جدید به replica برسد، به آن برخورد کردند. خطا اعلام می‌کرد که جدول وجود ندارد؛ در حالی که جدول وجود داشت، اما replica عقب مانده بود.

من این مشکل را با مسیریابی برای دور زدن تأخیر (routing around the lag) حل کردم. من با آن نمی‌جنگم.

طراحی من به این صورت است:

نویسنده (writer) یک written_at epoch به ردیف اضافه می‌کند.
نویسنده یک هدر X-D1-Written-At به پاسخ اضافه می‌کند.
خواننده (reader) آن هدر را با داده‌های دریافتی از replica مقایسه می‌کند.
اگر داده‌های replica قدیمی‌تر از هدر باشند، خواننده به سراغ KV می‌رود (fallback).

KV در همان منطقه (region) زیر ۵۰۰ میلی‌ثانیه اجرا می‌شود. این سرویس تا ۱۰ میلیون خواندن در روز رایگان است. این روش، راهی ارزان برای دریافت داده‌های تازه برای پرچم‌های (flags) حیاتی فراهم می‌کند.

شما فقط در بازه زمانی کوتاهی که replica عقب مانده است، از KV استفاده می‌کنید. پس از اینکه replica همگام شد، اکثر خواندن‌ها به طور عادی به D1 متصل می‌شوند.

من اسکریپت کامل و الگوی migration را در پست مفصل خود به اشتراک گذاشته‌ام.

منبع: https://dev.to/riversea/d1-read-replicas-returned-stale-data-for-6-seconds-heres-what-i-measured-and-how-i-designed-mme

𝗗𝟭 𝗥𝗲𝗮𝗱 𝗥𝗲𝗽𝗹𝗶𝗰𝗮𝘀 𝗛𝗮𝗱 𝟲 𝗦𝗲𝗰𝗼𝗻𝗱𝘀 𝗼𝗳 𝗟𝗮𝗴

Continue reading

𝗛𝗶𝗴𝗵 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗗𝗶𝘀𝘁𝗿𝗶𝗯𝘂𝘁𝗲𝗱 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗪𝗵𝘆 𝗜 𝗦𝘄𝗶𝘁𝗰𝗵𝗲𝗱 𝗧𝗼 𝗥𝘂𝘀𝘁 𝗦𝗼𝗼𝗻𝗲𝗿

𝗥𝗲𝗮𝗰𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

𝟳 𝗛𝗶𝗱𝗱𝗲𝗻 𝗝𝗮𝘃𝗮𝗦𝗰𝗿𝗶𝗽𝘁 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗕𝗼𝘁𝘁𝗹𝗲𝗻𝗲𝗰𝗸𝘀