Różne metody chunkingu dla RAG
Duże modele językowe mają limity tokenów. Aby temu zaradzić, stosuje się chunking. Chunking polega na dzieleniu długiego tekstu na mniejsze fragmenty. Pomaga to modelowi przetwarzać dane bez ryzyka braku pamięci.
Jeśli korzystasz z Retrieval-Augmented Generation (RAG), chunking jest kluczowy. RAG dostarcza modelom źródło prawdy, co zapobiega halucynacjom. Tekst zamieniany jest na liczby zwane embeddingami, które są następnie przechowywane w bazie danych wektorowych.
Jakość wyszukiwania zależy od Twoich chunków. Jeśli fragmenty są zbyt duże lub zbyt małe, AI nie będzie w stanie znaleźć poprawnej odpowiedzi.
Oto pięć sposobów na chunking danych:
Fixed-Size Chunking Ta metoda dzieli tekst według określonej liczby znaków. Jest szybka i tania. Jednak nie bierze pod uwagę kontekstu i często przecina zdania w połowie.
Recursive Character Splitting To standard branżowy. Wykorzystuje hierarchię separatorów, takich jak znaki nowej linii czy spacje. Próbuje utrzymać powiązane zdania w jednym bloku. Najlepiej stosować go do ogólnych artykułów.
Document-Specific Chunking Ta metoda bierze pod uwagę strukturę pliku. Wykorzystuje tagi HTML lub nagłówki Markdown, aby znaleźć granice. Dzięki temu kod lub konkretne sekcje pozostają nienaruszone.
Semantic Chunking Ta metoda skupia się na znaczeniu, a nie na liczbie znaków. Grupuje zdania poruszające ten sam temat. Tworzy fragmenty, które trzymają się jednego zagadnienia. Do jej działania wymagany jest model embeddingowy.
Agentic Chunking Agent AI czyta tekst, aby zdecydować, gdzie go podzielić. Agent sprawdza, czy dana myśl jest kompletna, zanim przejdzie dalej. Jest to najdokładniejsza metoda, ale jednocześnie najwolniejsza i najdroższa.
Szybkie porównanie:
• Fixed-Size: Najlepszy do prototypów. Bardzo łatwy. Koszt: $0. • Recursive: Najlepszy do ogólnych tekstów. Łatwy. Koszt: $0. • Document: Najlepszy do kodu lub HTML. Średnio trudny. Koszt: $0. • Semantic: Najlepszy do głębokich analiz. Trudny. Niski koszt. • Agentic: Najlepszy dla wysokiej precyzji. Bardzo trudny. Wysoki koszt.
Wybór odpowiedniej strategii zmienia wyniki działania Twojej sztucznej inteligencji. Wkrótce podzielę się większą ilością szczegółów na temat tych metod.
Źródło: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi
