ಈ RAG ಸೆಟಪ್ ಮೂಲಕ ನಾನು ನನ್ನ AI ವೆಚ್ಚವನ್ನು 60% ಹೇಗೆ ಕಡಿಮೆ ಮಾಡಿದೆ
ಮೂರು ತಿಂಗಳ ಹಿಂದೆ, ನಾನು ಒಬ್ಬ ಕ್ಲೈಂಟ್ನನ್ನು ಕೆಲಸದಿಂದ ತೆಗೆದುಹಾಕುವ ಹಂತಕ್ಕೆ ಬಂದಿದ್ದೆ.
ಅವರು ಕಷ್ಟಕರವಾಗಿದ್ದರಿಂದಲ್ಲ. ಅವರ LLM ಬಿಲ್ ನನ್ನ ಲಾಭವನ್ನೇ ನುಂಗುತ್ತಿತ್ತು. ಅವರ RAG ಸಿಸ್ಟಮ್ ಅನ್ನು ನಿರ್ಮಿಸಲು ನಾನು $4,800 ಚಾರ್ಜ್ ಮಾಡಿದ್ದೆ. ಎರಡನೇ ತಿಂಗಳ ಹೊತ್ತಿಗೆ, ಅದನ್ನು ನಡೆಸಲು ಮಾತ್ರ ನಾನು API ಶುಲ್ಕಕ್ಕಾಗಿ $3,100 ಖರ್ಚು ಮಾಡಿದ್ದೆ. ಅದು ವ್ಯವಹಾರವಲ್ಲ, ಅದು ದಾನಧರ್ಮ.
ನಾನು ಇಡೀ ಪೈಪ್ಲೈನ್ ಅನ್ನು ಮರುನಿರ್ಮಿಸಿದೆ. ನಾನು DeepSeek ಗೆ ಬದಲಾದೆ ಮತ್ತು ನನ್ನ vector store ಸೆಟಪ್ ಅನ್ನು ಬದಲಾಯಿಸಿದೆ. ಈಗ, ಅದೇ ಕೆಲಸಕ್ಕೆ ತಿಂಗಳಿಗೆ ಕೇವಲ $410 ವೆಚ್ಚವಾಗುತ್ತದೆ. ನಿಖರತೆ ಮತ್ತು ಗುಣಮಟ್ಟ ಮೊದಲಿನಂತೆಯೇ ಇದೆ. ನಾನು ನನ್ನ ವೆಚ್ಚವನ್ನು ಅಂದಾಜು 87% ಕಡಿಮೆ ಮಾಡಿದ್ದೇನೆ.
ಇಲ್ಲಿದೆ ಅದರ ಕಾರ್ಯತಂತ್ರ (Playbook).
ಹೆಚ್ಚಿನ AI ಬಾಟ್ಗಳ ಸಮಸ್ಯೆ ಇಂಜಿನಿಯರಿಂಗ್ ಅಲ್ಲ. ಕ್ಲೈಂಟ್ಗಳು ವಾರಕ್ಕೆ 40,000 ಕ್ವೆಯರಿಗಳನ್ನು ನಡೆಸುವಾಗ ಲಾಭದಲ್ಲಿ ಇರುವುದು ದೊಡ್ಡ ಸವಾಲು. ನಾನು ಮೊದಲು GPT-4o ನಂತಹ "ಸುರಕ್ಷಿತ" ಮಾಡೆಲ್ಗಳನ್ನು ಬಳಸುತ್ತಿದ್ದೆ. ಅಂತಹ ಮಾಡೆಲ್ಗಳಿಂದ ಮನೆ ಸಾಲ ತೀರಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.
ನಾನು ಪ್ರತಿಯೊಂದು ರಿಕ್ವೆಸ್ಟ್ ಅನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದೆ. ನಾನು ಟೋಕನ್ ಸಂಖ್ಯೆ ಮತ್ತು ಕ್ಯಾಶ್ ಹಿಟ್ (cache hits) ಅನ್ನು ಗಮನಿಸಿದೆ. ಹೆಚ್ಚಿನ ಹಣವು ಕ್ಷುಲ್ಲಕ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿಯೇ ಖರ್ಚಾಗುತ್ತಿದೆ ಎಂದು ನನಗೆ ಅರಿವಾಯಿತು. ಜನರು ಪದೇ ಪದೇ "ನಮ್ಮ ರಿಫಂಡ್ ಪಾಲಿಸಿ ಏನು?" ಎಂದು ಕೇಳುತ್ತಿದ್ದರು. ಈ ಪ್ರಶ್ನೆಗಳು ಪ್ರತಿ ಬಾರಿಯೂ ಒಂದೇ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತಿದ್ದವು.
ನನ್ನ ಹಳೆಯ ಸೆಟಪ್ನಲ್ಲಿ ಎಲ್ಲದಕ್ಕೂ GPT-4o ಬಳಸಲಾಗುತ್ತಿತ್ತು. ಪ್ರತಿಯೊಂದು ಸರಳ ಪ್ರಶ್ನೆಗೆ ನನಗೆ $0.014 ವೆಚ್ಚವಾಗುತ್ತಿತ್ತು. ತಿಂಗಳಿಗೆ ನಲವತ್ತು ಸಾವಿರ ಸರಳ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಮಾತ್ರ $560 ಖರ್ಚಾಗುತ್ತಿತ್ತು.
ನನ್ನ ಹೊಸ ಸೆಟಪ್ ಒಂದು ಸ್ಮಾರ್ಟ್ ರೂಟಿಂಗ್ ಸ್ಟ್ರಾಟಜಿಯನ್ನು ಬಳಸುತ್ತದೆ:
• 80% ಟ್ರಾಫಿಕ್ DeepSeek V4 Flash ಗೆ ಹೋಗುತ್ತದೆ. • 20% ಸಂಕೀರ್ಣ ಕೆಲಸಗಳು DeepSeek V4 Pro ಗೆ ಹೋಗುತ್ತವೆ. • ಕ್ಷುಲ್ಲಕ ಕೆಲಸಗಳು GLM-4 Plus ಗೆ ಹೋಗುತ್ತವೆ.
ವೆಚ್ಚದ ವ್ಯತ್ಯಾಸವು ಬಹಳ ದೊಡ್ಡದಿದೆ. DeepSeek V4 Flash ಪ್ರತಿ ಮಿಲಿಯನ್ ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳಿಗೆ $0.27 ವೆಚ್ಚವಾಗುತ್ತದೆ. ಆದರೆ GPT-4o ಗೆ $2.50 ವೆಚ್ಚವಾಗುತ್ತದೆ.
ನಾನು ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಇರಿಸಿಕೊಳ್ಳುವುದು ಹೀಗೆ:
- ಅತಿ ಹೆಚ್ಚು ಕ್ಯಾಶ್ ಬಳಸಿ (Cache aggressively). ಎರಡು ಬಾರಿ ಕೇಳಲಾದ ಯಾವುದೇ ಪ್ರಶ್ನೆಯನ್ನು ನಾನು ಕ್ಯಾಶ್ ಮಾಡುತ್ತೇನೆ. 40% ಕ್ಯಾಶ್ ಹಿಟ್ ರೇಟ್ ಸಾವಿರಾರು ಡಾಲರ್ಗಳನ್ನು ಉಳಿಸುತ್ತದೆ.
- ಕಠಿಣತೆಯ ಆಧಾರದ ಮೇಲೆ ರೂಟ್ ಮಾಡಿ. ಒಂದು ವಾಕ್ಯದ ಉತ್ತರಕ್ಕಾಗಿ ದುಬಾರಿ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸಬೇಡಿ.
- ಫಾಲ್ಬ್ಯಾಕ್ ಪಾತ್ (fallback path) ಬಳಸಿ. ಒಂದು ಪ್ರೊವೈಡರ್ ಕೆಲಸ ಮಾಡದಿದ್ದರೆ, ಎರಡನೇ ಮಾಡೆಲ್ ಸಿದ್ಧವಿರಲಿ.
- ಗುಣಮಟ್ಟವನ್ನು ಗಮನಿಸಿ. ನಿಖರತೆ ಹೆಚ್ಚಾಗಿರಲು ನಾನು ವಾರಕ್ಕೊಮ್ಮೆ ಸ್ಪಾಟ್-ಚೆಕ್ ಮಾಡುತ್ತೇನೆ.
ನಾನು ನನ್ನ ಕ್ಯಾಶ್ ಆಗಿ ChromaDB ಅನ್ನು ಬಳಸುತ್ತೇನೆ. ಹೆಚ್ಚಿನ ಪ್ರಶ್ನೆಗಳು ಪುನರಾವರ್ತನೆಯಾಗುವ ಸಪೋರ್ಟ್ ಬಾಟ್ಗೆ, ಇದು ಅನೇಕ ಕ್ವೆಯರಿಗಳನ್ನು ಬಹುತೇಕ ಉಚಿತವಾಗಿಸುತ್ತದೆ.
ನೀವು ಬಿಲ್ಡಿಂಗ್ ಫೀ (build fee) ಮೂಲಕ ಶ್ರೀಮಂತರಾಗಲು ಸಾಧ್ಯವಿಲ್ಲ. ಕ್ಲೈಂಟ್ ನಿಮ್ಮ ಸಿಸ್ಟಮ್ ಮೇಲೆ ಅವಲಂಬಿತರಾದ ನಂತರ, ತಿಂಗಳ ರಿಟೈನರ್ (monthly retainer) ಮೂಲಕ ನೀವು ಶ್ರೀಮಂತರಾಗುತ್ತೀರಿ.
Source: https://dev.to/bolddeck/i-cut-my-ai-costs-60-with-this-rag-setup-full-breakdown-2a0