Async Batching மூலம் Inference செலவுகளை 50% குறைக்கலாம்

AI மாடல்களை இயக்குவதற்கு அதிக செலவாகும். இந்தச் செலவுகள் inference மூலம் ஏற்படுகின்றன. நீங்கள் அதிக தரவுகளைச் செயலாக்கும்போது, உங்கள் செலவுகளும் அதிகரிக்கின்றன. இதை async batching மூலம் சரிசெய்யலாம்.

Async batching என்பது பல கோரிக்கைகளை (requests) ஒன்றாகக் குழுவாக்குகிறது. ஒவ்வொரு முறையும் ஒரு கோரிக்கையை மட்டும் செயலாக்குவதற்குப் பதிலாக, இந்த அமைப்பு பல கோரிக்கைகளை ஒரே நேரத்தில் கையாள்கிறது. இந்த முறை உங்கள் வன்பொருளை (hardware) சிறப்பாகப் பயன்படுத்துவதோடு, தேவையற்ற காத்திருப்பு நேரத்தையும் (idle time) தவிர்க்கிறது.

இந்த இரண்டு முறைகளையும் ஒப்பிடுங்கள்:

Single Processing:

  • 100 கோரிக்கைகள்
  • 5000ms நேரம்
  • $200 செலவு
  • உயர் தரம்

Async Batching:

  • 500 கோரிக்கைகள்
  • 2500ms நேரம்
  • $100 செலவு
  • உயர் தரம்

நீங்கள் பணத்தைச் சேமிப்பதோடு வேகத்தையும் பெறுகிறீர்கள். தரத்தில் எந்தக் குறைவும் ஏற்படாது.

இதை எவ்வாறு செயல்படுத்துவது:

  • உங்கள் தற்போதைய அமைப்பில் உள்ள தடைகளை (bottlenecks) கண்டறியுங்கள்.
  • கோரிக்கைகளை குழுவாக்க ஒரு செயல்முறையை வடிவமைக்கவும்.
  • பணிகளைக் கையாள ஒரு async framework-ஐச் சேர்க்கவும்.
  • பகுப்பாய்வு (analytics) மூலம் உங்கள் செயல்திறனைக் கண்காணிக்கவும்.
  • தரவுகளின் அடிப்படையில் உங்கள் அல்காரிதத்தைப் (algorithm) புதுப்பிக்கவும்.

நீங்கள் பெறும் நன்மைகள்:

  • குறைந்த செயல்பாட்டுச் செலவு.
  • சிறந்த CPU மற்றும் GPU பயன்பாடு.
  • அதிக தரவுகளுக்கு எளிதாக விரிவாக்கம் (scaling) செய்யலாம்.
  • நிலையான வெளியீட்டுத் தரம்.

கவனிக்க வேண்டிய சவால்கள்:

  • சிக்கலான அமைப்பு வடிவமைப்பு.
  • கடினமான பிழை மேலாண்மை (error management).
  • பதிலளிக்கும் நேரத்தில் ஏற்படக்கூடிய தாமதங்கள்.

இந்தச் சிக்கல்களைத் தவிர்க்க உங்கள் கட்டமைப்பை (architecture) கவனமாகத் திட்டமிடுங்கள். Async batching உள்கட்டமைப்பில் (infrastructure) அதிகச் செலவு செய்யாமலேயே உங்கள் தேவையை விரிவாக்க உதவுகிறது.

மூலம்: https://dev.to/aicomag/async-batching-for-large-scale-discovery-cutting-inference-spend-by-50-without-quality-loss-46gd

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi