𝗖𝗼𝘀𝘁 𝗢𝗽𝘁𝗶𝗺𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗟𝗟𝗠 𝗦𝘆𝘀𝘁𝗲𝗺𝘀
LLM ವೆಚ್ಚಗಳು ಬಳಕೆಗೆ ಅನುಗುಣವಾಗಿ ಹೆಚ್ಚಾಗುತ್ತವೆ. ದಿನಕ್ಕೆ 10,000 ವಿನಂತಿಗಳನ್ನು (requests) ಪ್ರತಿ ವಿನಂತಿಗೆ $0.01 ರಂತೆ ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು ದಿನಕ್ಕೆ $100 ವೆಚ್ಚವಾಗುತ್ತದೆ. ಅಂದರೆ ವರ್ಷಕ್ಕೆ $36,000 ಕ್ಕಿಂತ ಹೆಚ್ಚು. ಎಂಟರ್ಪ್ರೈಸ್ ಮಟ್ಟದಲ್ಲಿ, ಈ ಸಂಖ್ಯೆಗಳು ಇನ್ನೂ ವೇಗವಾಗಿ ಬೆಳೆಯುತ್ತವೆ.
ಇಷ್ಟೀಕರಣ (Optimization) ಎಂದರೆ ಕೇವಲ ವೆಚ್ಚವನ್ನು ಕಡಿತಗೊಳಿಸುವುದಲ್ಲ. ಇದು ಅಗತ್ಯವಿರುವ ಕಡೆಗಳಲ್ಲಿ ಮಾತ್ರ ಟೋಕನ್ಗಳನ್ನು (tokens) ಬಳಸುವುದರ ಬಗ್ಗೆಯಾಗಿದೆ.
ನಿಮ್ಮ ವೆಚ್ಚವನ್ನು ನಿಯಂತ್ರಿಸಲು ಈ ಐದು ತಂತ್ರಗಳನ್ನು ಬಳಸಿ:
ಟೋಕನ್ ಬಜೆಟ್ಗಳನ್ನು ನಿಗದಿಪಡಿಸಿ (Set Token Budgets) ಒಂದು ಸೆಷನ್ (session) ಅತಿಯಾಗಿ ಚಲಿಸದಂತೆ ನೋಡಿಕೊಳ್ಳಿ. ಪ್ರತಿ ಸೆಷನ್, ಪ್ರತಿ ಕಾರ್ಯ ಅಥವಾ ಪ್ರತಿ ದಿನಕ್ಕೆ ಮಿತಿಗಳನ್ನು ನಿಗದಿಪಡಿಸಿ. • ಪ್ರತಿ-ಸೆಷನ್ ಬಜೆಟ್ಗಳು ಅತಿಯಾದ ವೆಚ್ಚವನ್ನು ತಡೆಯುತ್ತವೆ. • ಪ್ರತಿ-ಕಾರ್ಯ ಬಜೆಟ್ಗಳು ಕೆಲಸಕ್ಕೆ ತಕ್ಕಂತೆ ಮಾಡೆಲ್ ಅನ್ನು ಹೊಂದಿಸುತ್ತವೆ. ವರ್ಗೀಕರಣಕ್ಕಾಗಿ (classification) ಸಣ್ಣ ಮಾಡೆಲ್ಗಳನ್ನು ಮತ್ತು reasoning ಗಾಗಿ ದೊಡ್ಡ ಮಾಡೆಲ್ಗಳನ್ನು ಬಳಸಿ. • ಅಡಾಪ್ಟಿವ್ ಬಜೆಟ್ಗಳು (Adaptive budgets) ಇತಿಹಾಸದ ಆಧಾರದ ಮೇಲೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತವೆ. ಒಂದು ಕಾರ್ಯವು ನಿರೀಕ್ಷಿತಕ್ಕಿಂತ ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಬಳಸಿದರೆ, ನಿಮ್ಮ ಹಂಚಿಕೆಯನ್ನು (allocation) ಕಡಿಮೆ ಮಾಡಿ.
ಲೋಕಲ್ ಇನ್ಫರೆನ್ಸ್ (Local Inference) ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಬಳಸುವಾಗ ನಿಮ್ಮ ಸ್ವಂತ ಹಾರ್ಡ್ವೇರ್ನಲ್ಲಿ ಮಾಡೆಲ್ಗಳನ್ನು ಚಲಾಯಿಸುವುದು ಅಗ್ಗವಾಗುತ್ತದೆ. • Qwen2.5-7B ನಂತಹ ಸಣ್ಣ ಮಾಡೆಲ್ಗಳಿಗಾಗಿ, ದಿನಕ್ಕೆ ಕೇವಲ ಒಂದು ಗಂಟೆಯ ಬಳಕೆಯಲ್ಲಿ ಲೋಕಲ್ ಇನ್ಫರೆನ್ಸ್ ತನ್ನ ವೆಚ್ಚವನ್ನು ತಾನೇ ತೀರಿಸಿಕೊಳ್ಳಬಹುದು (break even). • RTX 4090 ನಂತಹ ಹಾರ್ಡ್ವೇರ್ ಸುಮಾರು ಆರು ತಿಂಗಳಲ್ಲಿ ತನ್ನ ವೆಚ್ಚವನ್ನು ತಾನೇ ತೀರಿಸಿಕೊಳ್ಳುತ್ತದೆ. • ಹಾರ್ಡ್ವೇರ್ಗೆ ಮುಂಗಡ ಹಣದ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂಬುದನ್ನು ನೆನಪಿಡಿ. APIs ನಿಮ್ಮ ವೆಚ್ಚವನ್ನು ತಕ್ಷಣವೇ ನಿಲ್ಲಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತವೆ.
ಗುಣಮಟ್ಟ ಆಧಾರಿತ ಫಾಲ್ಬ್ಯಾಕ್ (Quality-Based Fallback) ನಿಮಗೆ ಯಾವಾಗಲೂ ಅತ್ಯಂತ ದುಬಾರಿ ಮಾಡೆಲ್ ಅಗತ್ಯವಿರುವುದಿಲ್ಲ. • ಒಂದು ರೂಟಿಂಗ್ ಸಿಸ್ಟಮ್ (routing system) ರಚಿಸಿ. ಮೊದಲು ಅಗ್ಗದ ಮಾಡೆಲ್ ಅನ್ನು ಪ್ರಯತ್ನಿಸಿ. • ಔಟ್ಪುಟ್ ಗುಣಮಟ್ಟವು ನಿಮ್ಮ ನಿಗದಿತ ಮಟ್ಟಕ್ಕಿಂತ ಕಡಿಮೆಯಾದರೆ, ವಿನಂತಿಯನ್ನು ದೊಡ್ಡ ಮಾಡೆಲ್ಗೆ ಕಳುಹಿಸಿ. • ಇದು ಕೆಲಸಕ್ಕೆ ಅಗತ್ಯವಿದ್ದಾಗ ಮಾತ್ರ ನೀವು ಹೆಚ್ಚಿನ ಬುದ್ಧಿವಂತಿಕೆಗಾಗಿ (high intelligence) ಹಣ ಪಾವತಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ.
ವಿಳಂಬ ಆಧಾರಿತ ಫಾಲ್ಬ್ಯಾಕ್ (Latency-Based Fallback) ಕೆಲವೊಮ್ಮೆ ವೆಚ್ಚಕ್ಕಿಂತ ವೇಗವು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿರುತ್ತದೆ. • ನಿಮ್ಮ ಸಮಯದ ಬಜೆಟ್ಗೆ ಹೊಂದಿಕೆಯಾಗುವ ಅತ್ಯಂತ ವೇಗದ ಮಾಡೆಲ್ಗೆ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು (prompts) ಕಳುಹಿಸಿ. • ಇದು ಅನಗತ್ಯ ಶಕ್ತಿಗಾಗಿ ಹೆಚ್ಚು ಹಣ ಪಾವತಿಸದೆ ನಿಮ್ಮ ಬಳಕೆದಾರರ ಅನುಭವವನ್ನು ಸುಗಮವಾಗಿರಿಸುತ್ತದೆ.
ಕ್ಯಾಷಿಂಗ್ (Caching) ಹಣ ಉಳಿಸಲು ಕ್ಯಾಷಿಂಗ್ ಅತ್ಯಂತ ಕಡಿಮೆ ಅಂದಾಜಿಸಲ್ಪಟ್ಟ ಸಾಧನವಾಗಿದೆ. • ಎಕ್ಸಾಕ್ಟ್ ಕ್ಯಾಷಿಂಗ್ (Exact caching) ಒಂದೇ ರೀತಿಯ ಪುನರಾವರ್ತಿತ ಪ್ರಾಂಪ್ಟ್ಗಳ ಮೇಲೆ ಹಣವನ್ನು ಉಳಿಸುತ್ತದೆ. • ಸೆಮ್ಯಾಂಟಿಕ್ ಕ್ಯಾಷಿಂಗ್ (Semantic caching) ಪದಗಳು ಭಿನ್ನವಾಗಿದ್ದರೂ ಒಂದೇ ಅರ್ಥವನ್ನು ನೀಡುವ ಪ್ರಾಂಪ್ಟ್ಗಳ ಮೇಲೆ ಹಣವನ್ನು ಉಳಿಸುತ್ತದೆ. • ರೆಸ್ಪಾನ್ಸ್ ಕ್ಯಾಷಿಂಗ್ (Response caching) FAQs ನಂತಹ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ.
ತಂತ್ರಗಳ ಸಾರಾಂಶ: • ಯಾವುದೇ ಇಷ್ಟೀಕರಣವಿಲ್ಲ: ಅತಿ ಹೆಚ್ಚು ವೆಚ್ಚ, ಅತಿ ಕಡಿಮೆ ಸಂಕೀರ್ಣತೆ. • ಟೋಕನ್ ಬಜೆಟಿಂಗ್: ಮಧ್ಯಮ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಫಾಲ್ಬ್ಯಾಕ್ ಮಾಡೆಲ್ಗಳು: ಕಡಿಮೆ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಕ್ಯಾಷಿಂಗ್: ಅತಿ ಕಡಿಮೆ ವೆಚ್ಚ, ಮಧ್ಯಮ ಸಂಕೀರ್ಣತೆ. • ಹೈಬ್ರಿಡ್ ವಿಧಾನ: ಇಷ್ಟೀಕರಿಸಿದ ವೆಚ್ಚ ಮತ್ತು ಗುಣಮಟ್ಟ, ಅತಿ ಹೆಚ್ಚು ಸಂಕೀರ್ಣತೆ.
ಸರಳವಾಗಿ ಪ್ರಾರಂಭಿಸಿ. ಮೊದಲು ನಿಮ್ಮ ಮೂಲ ಹರಿವನ್ನು (basic flow) ಕಾರ್ಯಗತಗೊಳಿಸಿ. ನಿಮ್ಮ ಬಿಲ್ಗಳು ಸಮಸ್ಯೆಯಾದಾಗ ಮಾತ್ರ ಈ ಇಷ್ಟೀಕರಣಗಳನ್ನು ಸೇರಿಸಿ.
ಮೂಲ: https://dev.to/rosgluk/cost-optimization-for-llm-systems-where-the-money-actually-goes-17e
ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi