ನಾನು ಒಂದು ವಾರಾಂತ್ಯದಲ್ಲಿ ನನ್ನ AI ಏಜೆಂಟ್‌ನ ಟೋಕನ್ ಬಿಲ್ ಅನ್ನು 62% ರಷ್ಟು ಕಡಿಮೆ ಮಾಡಿದೆ

ನನ್ನ AI ಏಜೆಂಟ್ ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ (task) $5.40 ವೆಚ್ಚ ಮಾಡುತ್ತಿತ್ತು. ನಾನು ಒಂದು ವಾರಾಂತ್ಯದಲ್ಲಿ ಆ ವೆಚ್ಚವನ್ನು ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ $2.05 ಕ್ಕೆ ಇಳಿಸಿದೆ. ಗುಣಮಟ್ಟವನ್ನು ಕಳೆದುಕೊಳ್ಳದೆ ನಾನು ಈ 62% ಇಳಿಕೆಯನ್ನು ಸಾಧಿಸಿದೆ.

ನಾನು ಇದನ್ನು ಮಾಡಿದ್ದು ಹೀಗೆ.

ಸಮಸ್ಯೆ: ನನ್ನ ಏಜೆಂಟ್ ಒಂದು ಸಂಶೋಧನಾ ಲೂಪ್ (research loop) ಅನ್ನು ನಡೆಸುತ್ತದೆ. ಇದು ವೆಬ್‌ನಲ್ಲಿ ಹುಡುಕುತ್ತದೆ, ಪುಟಗಳನ್ನು ಸ್ಕ್ರೇಪ್ (scrape) ಮಾಡುತ್ತದೆ ಮತ್ತು ಸಾರಾಂಶಗಳನ್ನು ಬರೆಯುತ್ತದೆ. ಇದು ಮೂರು ರೀತಿಯಲ್ಲಿ ಟೋಕನ್‌ಗಳನ್ನು ವ್ಯರ್ಥ ಮಾಡುತ್ತಿತ್ತು:

  • Context stuffing: ನಾನು ಇಡೀ 50,000 ಅಕ್ಷರಗಳ ಪುಟಗಳನ್ನು ಮಾಡೆಲ್‌ಗೆ ಕಳುಹಿಸುತ್ತಿದ್ದೆ. ನನಗೆ ಕೇವಲ 2,000 ಅಕ್ಷರಗಳು ಮಾತ್ರ ಬೇಕಿತ್ತು. ಒಂದು ಸೂಜಿಯನ್ನು ಹುಡುಕಲು ನಾನು ಇಡೀ ಒಣಹುಲ್ಲನ್ನೇ (haystack) ಖರೀದಿಸುತ್ತಿದ್ದೆ.
  • Verbose prompts: ನನ್ನ ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಒಂದೇ ಸೂಚನೆಗಳನ್ನು ಮೂರು ಬಾರಿ ಪುನರಾವರ್ತಿಸುತ್ತಿದ್ದವು. ಪ್ರತಿ ಬಾರಿಯೂ ಮಾಡೆಲ್ ನನ್ನದೇ ಪದಗಳನ್ನು ಮರುಪಠಿಸಲು ನಾನು ಹಣ ಪಾವತಿಸುತ್ತಿದ್ದೆ.
  • ದುಬಾರಿ ಮಾಡೆಲ್‌ಗಳ ಅತಿಯಾದ ಬಳಕೆ: ಒಂದು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಸಾರಾಂಶಗೊಳಿಸುವಂತಹ ಸರಳ ಕಾರ್ಯಗಳಿಗೂ ನಾನು ಹೈ-ಟಿಯರ್ ರೀಸನಿಂಗ್ ಮಾಡೆಲ್‌ಗಳನ್ನು (high-tier reasoning models) ಬಳಸುತ್ತಿದ್ದೆ.

ಪರಿಹಾರಗಳು:

  1. ಕಳುಹಿಸುವ ಮೊದಲು ಫಿಲ್ಟರ್ ಮಾಡಿ ಇಡೀ ಪುಟಗಳನ್ನು ಕಳುಹಿಸುವ ಬದಲಿಗೆ, ಈಗ ನಾನು ಪಠ್ಯವನ್ನು ಚಂಕ್‌ಗಳಾಗಿ (chunks) ವಿಂಗಡಿಸುತ್ತೇನೆ. ಮೊದಲು ನಾನು ಸಂಬಂಧಿತ ಭಾಗಗಳನ್ನು ಹುಡುಕುತ್ತೇನೆ. ನಂತರ ಆ ಭಾಗಗಳನ್ನು ಮಾತ್ರ ಮಾಡೆಲ್‌ಗೆ ಕಳುಹಿಸುತ್ತೇನೆ. ಇದರಿಂದ ಪ್ರತಿ ಪುಟದ ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು 12,500 ರಿಂದ 3,200 ಕ್ಕೆ ಇಳಿದವು.

  2. ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಕತ್ತರಿಸಿ (Trim) ನಾನು ಅನಗತ್ಯ ಸೂಚನೆಗಳನ್ನು ಅಳಿಸಿದೆ. ಮಾಡೆಲ್‌ಗೆ ಈಗಾಗಲೇ ತಿಳಿದಿರುವ ಟೂಲ್ ವಿವರಣೆಗಳನ್ನು ತೆಗೆದುಹಾಕಿದೆ. "think step-by-step" ನಂತಹ ಬಾಯ್ಲರ್ ಪ್ಲೇಟ್ (boilerplate) ಪದಗಳನ್ನು ಬಳಸುವುದನ್ನು ನಿಲ್ಲಿಸಿದೆ, ಏಕೆಂದರೆ ಆಧುನಿಕ ಮಾಡೆಲ್‌ಗಳು ಇದನ್ನು ಡಿಫಾಲ್ಟ್ ಆಗಿಯೇ ಮಾಡುತ್ತವೆ.

  3. Tiered model routing ಎಲ್ಲದಕ್ಕೂ ಒಂದೇ ಮಾಡೆಲ್ ಬಳಸುವುದು ನಾನು ನಿಲ್ಲಿಸಿದೆ. ನಾನು ಕಾರ್ಯಗಳನ್ನು ಮೂರು ಹಂತಗಳಾಗಿ ವಿಂಗಡಿಸಿದೆ:

  • Extraction: ಅಗ್ಗದ, ಸಣ್ಣ ಮಾಡೆಲ್ ಬಳಸಿ.
  • Synthesis: ಹೈ-ಟಿಯರ್ ರೀಸನಿಂಗ್ ಮಾಡೆಲ್ ಬಳಸಿ.
  • Formatting: ಅಗ್ಗದ, ಸಣ್ಣ ಮಾಡೆಲ್ ಬಳಸಿ.

50-ಕಾರ್ಯಗಳ ಪರೀಕ್ಷೆಯ ಫಲಿತಾಂಶಗಳು:

  • ಪ್ರತಿ ಕಾರ್ಯದ ವೆಚ್ಚ: $5.40 ರಿಂದ $2.05 ಕ್ಕೆ
  • Latency: 41s ನಿಂದ 28s ಕ್ಕೆ
  • Citation coverage: 67% ರಿಂದ 89% ಕ್ಕೆ

ಏಜೆಂಟ್ ಹೆಚ್ಚು ಬುದ್ಧಿವಂತನಾಗಿಲ್ಲ. ಪೈಪ್‌ಲೈನ್ ಕೇವಲ ಹೆಚ್ಚು ದಕ್ಷವಾಗಿದೆ (efficient).

ನಿಮ್ಮ ಪ್ರೊಡಕ್ಷನ್ ಏಜೆಂಟ್‌ಗಳಿಗಾಗಿ ಮೂರು ಪಾಠಗಳು:

  • ಕಟ್ಟುನಿಟ್ಟಾದ ಟೋಕನ್ ಬಜೆಟ್ ಅನ್ನು ನಿಗದಿಪಡಿಸಿ. ಅದು ನಿಮ್ಮ ಮಿತಿಯನ್ನು ಮೀರಿದರೆ ಕಾರ್ಯವನ್ನು ನಿಲ್ಲಿಸಿ.
  • ನಿಮ್ಮ ಫಲಿತಾಂಶಗಳನ್ನು ಕ್ಯಾಶ್ (Cache) ಮಾಡಿ. ಒಂದೇ URL ಅನ್ನು ಎರಡು ಬಾರಿ ಸ್ಕ್ರೇಪ್ ಮಾಡಬೇಡಿ.
  • ಎಲ್ಲವನ್ನೂ ಲಾಗ್ (Log) ಮಾಡಿ. ಯಾವ ಹಂತವು ಅತಿ ಹೆಚ್ಚು ಹಣವನ್ನು ಖರ್ಚು ಮಾಡುತ್ತದೆ ಎಂಬುದು ನಿಮಗೆ ನಿಖರವಾಗಿ ತಿಳಿದಿರಬೇಕು.

ಗುಣಮಟ್ಟ ಕಡಿಮೆಯಾದಾಗ ದೊಡ್ಡ