A Magia dos Embeddings
Embeddings transformam linguagem em matemática.
Eles são a base da IA moderna. Muitas pessoas os tratam como uma caixa preta. Este post explica como eles funcionam.
A busca por palavras-chave falha quando as palavras não coincidem.
Se você pesquisar por "Como redefino minha senha?", uma busca por palavras-chave procurará por essas palavras exatas. Se um documento disser "Passos para recuperar suas credenciais de conta", a busca pode falhar. Você sabe que o significado é o mesmo. Os computadores não.
Embeddings resolvem esse problema.
Um embedding é uma lista de números. Esses números representam o significado do texto. Um modelo de embedding mapeia palavras em um espaço de alta dimensão.
Uma única palavra como "cat" torna-se um vetor: [0.18, -0.42, 0.91, ...]
Os números sozinhos não significam nada. O que importa é a posição do vetor.
Pense em um mapa. Cidades próximas umas das outras compartilham climas e fronteiras semelhantes. Embeddings funcionam da mesma maneira. Textos com significados semelhantes ficam próximos uns dos outros no espaço vetorial.
- Cão e Gato ficam próximos.
- Carro e Caminhão ficam próximos.
- Carro e Cão ficam distantes.
A distância entre esses pontos representa a similaridade.
Isso permite a busca semântica. Você pode encontrar informações com base na intenção, em vez da ortografia.
Para comparar esses vetores, usamos a similaridade de cosseno. Essa métrica mede o ângulo entre dois vetores.
- Ângulo pequeno significa alta similaridade.
- Ângulo grande significa baixa similaridade.
Embeddings também impulsionam a Geração Aumentada de Recuperação (RAG). Em um pipeline de RAG, o processo é assim:
- Converter documentos em vetores usando um modelo de embedding.
- Armazenar vetores em um banco de dados vetorial.
- Converter uma consulta do usuário em um vetor.
- Encontrar os vetores mais próximos no banco de dados.
- Enviar os documentos relevantes para o LLM.
O LLM não pesquisa seus arquivos diretamente. Ele pesquisa o espaço de embedding em busca das correspondências mais próximas.
Se você constrói aplicações de IA, deve entender embeddings. Eles impulsionam tudo, desde mecanismos de busca até sistemas de recomendação. Sua força reside na forma como organizam o significado.
Fonte: https://dev.to/tahaboussaden/embeddings-magic-2hlb
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
