ಜಪಾನಿನ ಪ್ರಯೋಗಾಲಯಗಳು ಉತ್ತಮ RAG ವ್ಯವಸ್ಥೆಗಳನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುತ್ತವೆ

ನಿಮ್ಮ vector database ಸಂಬಂಧಿತ ಚಂಕ್‌ಗಳನ್ನು (chunks) ನೀಡುತ್ತದೆ. ನಿಮ್ಮ embedding model ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ಸ್ಕೋರ್ ಪಡೆಯುತ್ತದೆ. ಆದರೆ ಬಳಕೆದಾರರು ಸಂಕೀರ್ಣವಾದ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳಿದಾಗ, ವ್ಯವಸ್ಥೆಯು ನಿರುಪಯುಕ್ತ ಉತ್ತರವನ್ನು ನೀಡುತ್ತದೆ.

ಇದು ರಿಟ್ರಿವಲ್ ಆರ್ಕಿಟೆಕ್ಚರ್ (retrieval architecture) ವೈಫಲ್ಯವಾಗಿದೆ. ನಿಮ್ಮ LLM ಅನ್ನು ಟ್ಯೂನ್ ಮಾಡುವುದರಿಂದ ಇದನ್ನು ಸರಿಪಡಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ.

ಜಪಾನಿನ ಸಂಶೋಧನಾ ತಂಡವು ಇದಕ್ಕೆ ಪರಿಹಾರವನ್ನು ಕಂಡುಕೊಂಡಿದೆ. ಅವರು 'knowledge graph RAG' ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ಮಿಸಿದರು. ಈ ವಿಧಾನವು ವೈಜ್ಞಾನಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ ನಿಖರತೆಯನ್ನು ಶೇಕಡಾ 90 ರಷ್ಟು ಸುಧಾರಿಸಿತು.

ಸ್ಟ್ಯಾಂಡರ್ಡ್ RAG ನಲ್ಲಿನ ಸಮಸ್ಯೆ ಎಂದರೆ semantic similarity (ಅರ್ಥಾತ್ಮಕ ಸಾಮ್ಯತೆ). ಪ್ರೋಟೀನ್ ಫೋಲ್ಡಿಂಗ್ ಬಗ್ಗೆ ಇರುವ ಒಂದು ಚಂಕ್, CRISPR ಬಗ್ಗೆ ಇರುವ ಪ್ರಶ್ನೆಗೆ ಸಾಮ್ಯತೆಯನ್ನು ಹೊಂದಿರುವಂತೆ ಕಾಣಬಹುದು. ಆದರೆ ಸಾಮ್ಯತೆ ಎಂದರೆ ಅದು ಸಂಬಂಧಿತ ಎಂದರ್ಥವಲ್ಲ.

ಜಪಾನಿನ ತಂಡವು ಕೇವಲ ಪಠ್ಯದ ಚಂಕ್‌ಗಳ ಬದಲಿಗೆ ಎಂಟಿಟಿ ಸಂಬಂಧಗಳನ್ನು (entity relationships) ಬಳಸುತ್ತದೆ. ಅವರು ಇವುಗಳನ್ನು ಹೊರತೆಗೆಯುತ್ತಾರೆ:

  • ಪ್ರೋಟೀನ್‌ಗಳು ಅಥವಾ ಸಂಶೋಧಕರಂತಹ ಎಂಟಿಟಿಗಳು (Entities)
  • ತಡೆಯುತ್ತದೆ (inhibits) ಅಥವಾ ಉಲ್ಲೇಖಿಸುತ್ತದೆ (cites) ಎಂಬಂತಹ ಸಂಬಂಧಗಳು (Relationships)
  • ಕಾನ್ಫಿಡೆನ್ಸ್ ಸ್ಕೋರ್‌ಗಳಂತಹ ಗುಣಲಕ್ಷಣಗಳು (Attributes)

ಅವರು ಎರಡು ಹಂತದ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಬಳಸುತ್ತಾರೆ. ಮೊದಲನೆಯದಾಗಿ, ಅವರು ಸಂಬಂಧಿತ ಸಬ್‌ಗ್ರಾಫ್‌ಗಳನ್ನು (subgraphs) ಗುರುತಿಸುತ್ತಾರೆ. ಎರಡನೆಯದಾಗಿ, ಆ ಎಂಟಿಟಿಗಳಿಗೆ ಸಂಬಂಧಿಸಿದ ಪಠ್ಯವನ್ನು ರಿಟ್ರೀವ್ ಮಾಡುತ್ತಾರೆ. ಇದು semantic drift ಅನ್ನು ತಡೆಯುತ್ತದೆ. ನೀವು ಕೇವಲ ಸಾಮ್ಯತೆಯ ಪದಗಳನ್ನು ಮಾತ್ರವಲ್ಲದೆ, ಪೂರ್ಣ ಸಂದರ್ಭವನ್ನು (context) ಪಡೆಯುತ್ತೀರಿ.

GraphRAG ಅನ್ನು ನಿರ್ಮಿಸುವುದು ಸ್ಟ್ಯಾಂಡರ್ಡ್ RAG ಗಿಂತ ಕಷ್ಟಕರವಾಗಿದೆ. ನಿಮಗೆ ಇವುಗಳ ಅಗತ್ಯವಿದೆ:

  • ಎಂಟಿಟಿ ಎಕ್ಸ್‌ಟ್ರಾಕ್ಷನ್ ಪೈಪ್‌ಲೈನ್‌ಗಳು (Entity extraction pipelines)
  • ರಿಲೇಶನ್‌ಶಿಪ್ ಕ್ಲಾಸಿಫಿಕೇಶನ್ (Relationship classification)
  • ಗ್ರಾಫ್ ಸ್ಟೋರೇಜ್ ಇನ್ಫ್ರಾಸ್ಟ್ರಕ್ಚರ್ (Graph storage infrastructure)
  • ಹೈಬ್ರಿಡ್ ಕ್ವೆರಿ ಇಂಜಿನ್‌ಗಳು (Hybrid query engines)

ದೊಡ್ಡ ಅಪಾಯವೆಂದರೆ ನಿರ್ವಹಣೆ (maintenance). ನೀವು ಅವುಗಳನ್ನು ಅಪ್‌ಡೇಟ್ ಮಾಡದಿದ್ದರೆ ಗ್ರಾಫ್‌ಗಳು ಹಳೆಯದಾಗುತ್ತವೆ (rot). 2023 ರಲ್ಲಿ ನಾನು ಇದನ್ನು ಕಷ್ಟಪಟ್ಟು ಕಲಿತೆ. ನಾನು ಹೆಚ್ಚಿನ ನಿಖರತೆಯೊಂದಿಗೆ ಒಂದು ಕಾನೂನು RAG ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ಮಿಸಿದೆ. ಆದರೆ ಅಪ್‌ಡೇಟ್ ಮಾಡುವ ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ಮಿಸಲು ನಾನು ವಿಫಲನಾದೆ. ಆರು ತಿಂಗಳ ನಂತರ, ಡೇಟಾ ಹಳೆಯದಾಯಿತು. ನಿಖರತೆಯು ಶೇಕಡಾ 94 ರಿಂದ ಶೇಕಡಾ 71 ಕ್ಕೆ ಇಳಿಯಿತು.

ಇದನ್ನು ಸರಿಯಾಗಿ ನಿರ್ಮಿಸುವುದು ಹೇಗೆ:

  • ಎಂಟಿಟಿ ಟ್ಯಾಕ್ಸಾನಮಿ (entity taxonomy) ಮೂಲಕ ಪ್ರಾರಂಭಿಸಿ. 20 ರಿಂದ 30 ಪ್ರಮುಖ ವಿಧಗಳನ್ನು ಆರಿಸಿ.
  • ಮೊದಲ ದಿನದಿಂದಲೇ ಹೈಬ್ರಿಡ್ ರಿಟ್ರಿವಲ್ ಬಳಸಿ. ಸಂಬಂಧಗಳಿಗಾಗಿ ಗ್ರಾಫ್‌ಗಳನ್ನು ಮತ್ತು ವಿಷಯಗಳಿಗಾಗಿ ವೆಕ್ಟರ್‌ಗಳನ್ನು ಬಳಸಿ.
  • ಮೊದಲು ನಿಮ್ಮ ನಿರ್ವಹಣಾ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ನಿರ್ಮಿಸಿ. ಹೊಸ ದಾಖಲೆಗಳು ಗ್ರಾಫ್ ಅನ್ನು ಹೇಗೆ ಅಪ್‌ಡೇಟ್ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ಯೋಜಿಸಿ.
  • ರೀಸನಿಂಗ್ ಚೈನ್ಸ್‌ಗಳನ್ನು (reasoning chains) ಅಳೆಯಿರಿ. ಉತ್ತರಿಸಲು ವ್ಯವಸ್ಥೆಯು ಎಷ್ಟು ಹಂತಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಎಂಬುದನ್ನು ಪತ್ತೆಹಚ್ಚಿ.

ನೀವು ವಿಜ್ಞಾನ, ಕಾನೂನು ಅಥವಾ ವೈದ್ಯಕೀಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದರೆ, ನಿರ್ವಹಣಾ ವೆಚ್ಚವು ಪ್ರಯೋಜನಕಾರಿಯಾಗುತ್ತದೆ. ಸರಳವಾದ FAQs ಗಾಗಿ, ಸ್ಟ್ಯಾಂಡರ್ಡ್ RAG ಸಾಕಾಗುತ್ತದೆ.

ನಿಮ್ಮನ್ನು ನೀವೇ ಹೀಗೆ ಕೇಳಿಕೊಳ್ಳಿ: ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಎಷ್ಟು ಶೇಕಡಾ ಪ್ರಶ್ನೆಗಳು ಸಂಬಂಧಗಳ ಬಗ್ಗೆ ಕೇಳುತ್ತವೆ? ನಿಮ್ಮ ಬಳಕೆದಾರರಲ್ಲಿ ಶೇಕಡಾ 40 ಕ್ಕಿಂತ ಹೆಚ್ಚು ಜನರು ವಿಷಯಗಳು ಹೇಗೆ ಸಂಬಂಧಿಸಿವೆ ಎಂದು ಕೇಳಿದರೆ, ನಿಮಗೆ ಗ್ರಾಫ್ ಅಗತ್ಯವಿದೆ.

Source: https://dev.to/xu_xu_b2179aa8fc958d531d1/how-japans-research-labs-are-building-rag-systems-that-actually-work-and-what-western-teams-keep-21b2

Optional learning community: https://t.me/GyaanSetuAi