MCP + RAG: Por que parei de construir sistemas RAG complexos
Passei quatro anos construindo sistemas RAG complexos.
Usei estratégias de chunking, modelos de embedding, bancos de dados vetoriais e rerankers. Construí um sistema para minha base de conhecimento de 1.800 horas. Cada vez, achei que estava tornando-o perfeito.
Nunca funcionou bem.
Então adicionei suporte ao Model Context Protocol (MCP). Isso mudou tudo. O MCP torna o RAG complexo tradicional obsoleto para a maioria das pessoas.
Eu costumava enfrentar estes problemas:
- Escolher entre chunking semântico ou recursivo.
- Escolher entre embeddings da OpenAI, Cohere ou Nomic.
- Decidir entre Pinecone, Weaviate ou Chroma.
- Gerenciar a recuperação top-k e o reranking.
Meu sistema RAG chegou a 2.000 linhas de código. Era impressionante, mas falhou. Eu estava tentando tornar meus dados inteligentes quando a IA já era inteligente.
Mudei para uma abordagem MCP. Construí um servidor com apenas 150 linhas de código.
Dei apenas duas ferramentas à IA:
- search_notes: Usa correspondência de texto simples para encontrar notas.
- get_note_content: Retorna o texto completo de uma nota.
Sem chunks. Sem embeddings complexos. Sem bancos de dados vetoriais.
Esta abordagem simples vence meu sistema RAG sofisticado 9 de cada 10 vezes. Aqui está o porquê:
- A IA cuida da lógica. A IA é melhor em decidir o que é relevante do que um chunker pré-definido.
- Contexto completo. O RAG tradicional divide as notas em pequenos pedaços. Isso frequentemente faz com que se perca a resposta. Com o MCP, a IA lê a nota inteira. Ela vê a ideia completa.
- Previsibilidade. A busca de texto é simples. Se a palavra-chave existir, funciona. Você evita o embedding drift e erros de dimensão.
Você ainda deve usar o RAG tradicional se:
- Você tiver mais de 100.000 documentos grandes.
- Você precisar de produção em alta escala com baixa latência.
Mas para bases de conhecimento pessoais, projetos paralelos ou ferramentas internas, você não precisa dele.
Os benefícios do MCP:
- Fácil de manter: 150 linhas em vez de 2.000.
- Sem custos de embedding: Você não precisa re-embedar os dados quando os modelos mudam.
- Melhor precisão: A IA recebe o contexto completo.
- Fácil de depurar: Você pode ver exatamente por que uma busca falhou.
Pare de complicar demais (over-engineering). Deixe a IA fazer o trabalho pesado. Dê a ela acesso aos seus dados e deixe-a ler.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
