LLM ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ವೆಚ್ಚದ ಸುಧಾರಣೆ

Translated for your language. Read the original.

AI-assisted draft.

ನಿನ್ನೆ2min read

𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

LLM ವೆಚ್ಚಗಳು ಬಳಕೆಗೆ ಅನುಗುಣವಾಗಿ ಹೆಚ್ಚಾಗುತ್ತವೆ. ದಿನಕ್ಕೆ 10,000 ವಿನಂತಿಗಳನ್ನು (requests) ಪ್ರತಿ ವಿನಂತಿಗೆ $0.01 ರಂತೆ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು ದಿನಕ್ಕೆ $100 ವೆಚ್ಚವಾಗುತ್ತದೆ. ಅಂದರೆ ವರ್ಷಕ್ಕೆ $36,000 ಕ್ಕಿಂತ ಹೆಚ್ಚು. ಎಂಟರ್‌ಪ್ರೈಸ್ ಮಟ್ಟದಲ್ಲಿ, ಈ ಸಂಖ್ಯೆಗಳು ಇನ್ನೂ ವೇಗವಾಗಿ ಬೆಳೆಯುತ್ತವೆ.

ಇಷ್ಟೀಕರಣ (Optimization) ಎಂದರೆ ಕೇವಲ ವೆಚ್ಚವನ್ನು ಕಡಿತಗೊಳಿಸುವುದಲ್ಲ. ಇದು ಅಗತ್ಯವಿರುವ ಕಡೆಗಳಲ್ಲಿ ಮಾತ್ರ ಟೋಕನ್‌ಗಳನ್ನು (tokens) ಬಳಸುವುದರ ಬಗ್ಗೆಯಾಗಿದೆ.

ನಿಮ್ಮ ವೆಚ್ಚವನ್ನು ನಿಯಂತ್ರಿಸಲು ಈ ಐದು ತಂತ್ರಗಳನ್ನು ಬಳಸಿ:

ಟೋಕನ್ ಬಜೆಟ್‌ಗಳನ್ನು ನಿಗದಿಪಡಿಸಿ (Set Token Budgets) ಒಂದು ಸೆಷನ್ (session) ಅತಿಯಾಗಿ ಚಲಿಸದಂತೆ ನೋಡಿಕೊಳ್ಳಿ. ಪ್ರತಿ ಸೆಷನ್, ಪ್ರತಿ ಕಾರ್ಯ ಅಥವಾ ಪ್ರತಿ ದಿನಕ್ಕೆ ಮಿತಿಗಳನ್ನು ನಿಗದಿಪಡಿಸಿ. • ಪ್ರತಿ-ಸೆಷನ್ ಬಜೆಟ್‌ಗಳು ಅತಿಯಾದ ವೆಚ್ಚವನ್ನು ತಡೆಯುತ್ತವೆ. • ಪ್ರತಿ-ಕಾರ್ಯ ಬಜೆಟ್‌ಗಳು ಕೆಲಸಕ್ಕೆ ತಕ್ಕಂತೆ ಮಾಡೆಲ್ ಅನ್ನು ಹೊಂದಿಸುತ್ತವೆ. ವರ್ಗೀಕರಣಕ್ಕಾಗಿ (classification) ಸಣ್ಣ ಮಾಡೆಲ್‌ಗಳನ್ನು ಮತ್ತು reasoning ಗಾಗಿ ದೊಡ್ಡ ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸಿ. • ಅಡಾಪ್ಟಿವ್ ಬಜೆಟ್‌ಗಳು (Adaptive budgets) ಇತಿಹಾಸದ ಆಧಾರದ ಮೇಲೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತವೆ. ಒಂದು ಕಾರ್ಯವು ನಿರೀಕ್ಷಿತಕ್ಕಿಂತ ಕಡಿಮೆ ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸಿದರೆ, ನಿಮ್ಮ ಹಂಚಿಕೆಯನ್ನು (allocation) ಕಡಿಮೆ ಮಾಡಿ.
ಲೋಕಲ್ ಇನ್ಫರೆನ್ಸ್ (Local Inference) ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಬಳಸುವಾಗ ನಿಮ್ಮ ಸ್ವಂತ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಚಲಾಯಿಸುವುದು ಅಗ್ಗವಾಗುತ್ತದೆ. • Qwen2.5-7B ನಂತಹ ಸಣ್ಣ ಮಾಡೆಲ್‌ಗಳಿಗಾಗಿ, ದಿನಕ್ಕೆ ಕೇವಲ ಒಂದು ಗಂಟೆಯ ಬಳಕೆಯಲ್ಲಿ ಲೋಕಲ್ ಇನ್ಫರೆನ್ಸ್ ತನ್ನ ವೆಚ್ಚವನ್ನು ತಾನೇ ತೀರಿಸಿಕೊಳ್ಳಬಹುದು (break even). • RTX 4090 ನಂತಹ ಹಾರ್ಡ್‌ವೇರ್ ಸುಮಾರು ಆರು ತಿಂಗಳಲ್ಲಿ ತನ್ನ ವೆಚ್ಚವನ್ನು ತಾನೇ ತೀರಿಸಿಕೊಳ್ಳುತ್ತದೆ. • ಹಾರ್ಡ್‌ವೇರ್‌ಗೆ ಮುಂಗಡ ಹಣದ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂಬುದನ್ನು ನೆನಪಿಡಿ. APIs ನಿಮ್ಮ ವೆಚ್ಚವನ್ನು ತಕ್ಷಣವೇ ನಿಲ್ಲಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತವೆ.
ಗುಣಮಟ್ಟ ಆಧಾರಿತ ಫಾಲ್‌ಬ್ಯಾಕ್ (Quality-Based Fallback) ನಿಮಗೆ ಯಾವಾಗಲೂ ಅತ್ಯಂತ ದುಬಾರಿ ಮಾಡೆಲ್ ಅಗತ್ಯವಿರುವುದಿಲ್ಲ. • ಒಂದು ರೂಟಿಂಗ್ ಸಿಸ್ಟಮ್ (routing system) ರಚಿಸಿ. ಮೊದಲು ಅಗ್ಗದ ಮಾಡೆಲ್ ಅನ್ನು ಪ್ರಯತ್ನಿಸಿ. • ಔಟ್‌ಪುಟ್ ಗುಣಮಟ್ಟವು ನಿಮ್ಮ ನಿಗದಿತ ಮಟ್ಟಕ್ಕಿಂತ ಕಡಿಮೆಯಾದರೆ, ವಿನಂತಿಯನ್ನು ದೊಡ್ಡ ಮಾಡೆಲ್‌ಗೆ ಕಳುಹಿಸಿ. • ಇದು ಕೆಲಸಕ್ಕೆ ಅಗತ್ಯವಿದ್ದಾಗ ಮಾತ್ರ ನೀವು ಹೆಚ್ಚಿನ ಬುದ್ಧಿವಂತಿಕೆಗಾಗಿ (high intelligence) ಹಣ ಪಾವತಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.
ವಿಳಂಬ ಆಧಾರಿತ ಫಾಲ್‌ಬ್ಯಾಕ್ (Latency-Based Fallback) ಕೆಲವೊಮ್ಮೆ ವೆಚ್ಚಕ್ಕಿಂತ ವೇಗವು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿರುತ್ತದೆ. • ನಿಮ್ಮ ಸಮಯದ ಬಜೆಟ್‌ಗೆ ಹೊಂದಿಕೆಯಾಗುವ ಅತ್ಯಂತ ವೇಗದ ಮಾಡೆಲ್‌ಗೆ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು (prompts) ಕಳುಹಿಸಿ. • ಇದು ಅನಗತ್ಯ ಶಕ್ತಿಗಾಗಿ ಹೆಚ್ಚು ಹಣ ಪಾವತಿಸದೆ ನಿಮ್ಮ ಬಳಕೆದಾರರ ಅನುಭವವನ್ನು ಸುಗಮವಾಗಿರಿಸುತ್ತದೆ.
ಕ್ಯಾಷಿಂಗ್ (Caching) ಹಣ ಉಳಿಸಲು ಕ್ಯಾಷಿಂಗ್ ಅತ್ಯಂತ ಕಡಿಮೆ ಅಂದಾಜಿಸಲ್ಪಟ್ಟ ಸಾಧನವಾಗಿದೆ. • ಎಕ್ಸಾಕ್ಟ್ ಕ್ಯಾಷಿಂಗ್ (Exact caching) ಒಂದೇ ರೀತಿಯ ಪುನರಾವರ್ತಿತ ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಮೇಲೆ ಹಣವನ್ನು ಉಳಿಸುತ್ತದೆ. • ಸೆಮ್ಯಾಂಟಿಕ್ ಕ್ಯಾಷಿಂಗ್ (Semantic caching) ಪದಗಳು ಭಿನ್ನವಾಗಿದ್ದರೂ ಒಂದೇ ಅರ್ಥವನ್ನು ನೀಡುವ ಪ್ರಾಂಪ್ಟ್‌ಗಳ ಮೇಲೆ ಹಣವನ್ನು ಉಳಿಸುತ್ತದೆ. • ರೆಸ್ಪಾನ್ಸ್ ಕ್ಯಾಷಿಂಗ್ (Response caching) FAQs ನಂತಹ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ.

ತಂತ್ರಗಳ ಸಾರಾಂಶ: • ಯಾವುದೇ ಇಷ್ಟೀಕರಣವಿಲ್ಲ: ಅತಿ ಹೆಚ್ಚು ವೆಚ್ಚ, ಅತಿ ಕಡಿಮೆ ಸಂಕೀರ್ಣತೆ. • ಟೋಕನ್ ಬಜೆಟಿಂಗ್: ಮಧ್ಯಮ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಫಾಲ್‌ಬ್ಯಾಕ್ ಮಾಡೆಲ್‌ಗಳು: ಕಡಿಮೆ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಕ್ಯಾಷಿಂಗ್: ಅತಿ ಕಡಿಮೆ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಹೈಬ್ರಿಡ್ ವಿಧಾನ: ಇಷ್ಟೀಕರಿಸಿದ ವೆಚ್ಚ ಮತ್ತು ಗುಣಮಟ್ಟ, ಅತಿ ಹೆಚ್ಚು ಸಂಕೀರ್ಣತೆ.

ಸರಳವಾಗಿ ಪ್ರಾರಂಭಿಸಿ. ಮೊದಲು ನಿಮ್ಮ ಮೂಲ ಹರಿವನ್ನು (basic flow) ಕಾರ್ಯಗತಗೊಳಿಸಿ. ನಿಮ್ಮ ಬಿಲ್‌ಗಳು ಸಮಸ್ಯೆಯಾದಾಗ ಮಾತ್ರ ಈ ಇಷ್ಟೀಕರಣಗಳನ್ನು ಸೇರಿಸಿ.

ಮೂಲ: https://dev.to/rosgluk/cost-optimization-for-llm-systems-where-the-money-actually-goes-17e

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

LLM ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ವೆಚ್ಚದ ಸುಧಾರಣೆ

Continue reading

𝗟𝗼𝘄𝗲𝗿 𝗔𝗚𝗘𝗡𝗧 𝗖𝗢𝗠𝗣𝗨𝗧𝗘 𝗖𝗢𝗦𝗧𝗦

MCP ಸಂದರ್ಭದ ತೆರಿಗೆ

𝗧𝗵𝗲 𝗥𝗲𝗮𝗹 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝘀𝘆𝗻𝗰 𝗕𝗮𝘁𝗰𝗵𝗶𝗻𝗴 𝗖𝘂𝘁𝘀 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗖𝗼𝘀𝘁𝘀 𝗯𝘆 𝟱𝟬%

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀