O que é RAG?
Retrieval Augmented Generation: o sistema de recuperação de informação que entrega contexto correto para o modelo de IA no momento da geração.
🎯 A Analogia do Dentista
Você vai ao dentista com dor...
O dentista não pergunta "o que você lembra da última vez?". Ele abre seu prontuário, olha seu histórico, verifica especificamente o que aconteceu na última consulta.
O mesmo vale para IA: em vez de "decorar" todas as respostas (fine-tuning), o RAG "abre o prontuário" na hora.
= decorar tudo (caro, lento, desatualiza)
= abrir o prontuário na hora (barato, rápido, sempre atualizado)
🔗 Arquitetura Fundamental — 5 Etapas
Cada etapa tem decisões técnicas que determinam se o RAG funciona ou não. Entenda o fluxo completo:
Texto original
Divisão em partes
Vetores numéricos
Banco vetorial
Busca semântica
Contexto + Pergunta
Resposta fundamentada
💡 Por que RAG funciona?
✅ Vantagens
- ✓Atualização em tempo real (sem re-treino)
- ✓Custo baixo (~$0.01/query)
- ✓Precisão alta em fatos
- ✓Contexto sempre свежий (fresco)
- ✓可控 (controlável) — você escolhe o que retorna
⚠️ Quando RAG é necessário
- →Base de conhecimento grande
- →Documentos atualizam frequentemente
- →Respostas precisam de rastreabilidade
- →Contexto específico do domínio
- →Compliance (auditoria de fontes)
⚖️ RAG vs Fine-tuning
| Critério | RAG | Fine-tuning |
|---|---|---|
| Custo | Baixo (~$0.01/query) | Alto ($100-1000/train) |
| Atualização | Em tempo real | Re-treino necessário |
| Latência | Média (busca + LLM) | Baixa (só LLM) |
| Precisão em fatos | Alta (contexto свежий) | Média (pode hallucinar) |
| Estilo/Tom | Médio (prompt eng.) | Alto (training data) |
| Quando usar | Base grande, atualiza sempre | Padrão de comportamento |
📋 Regra Prática
Se sua base muda frequentemente → RAG
Se você quer ensinar "como pensar" → Fine-tuning
Se você tem ambos → RAG + Fine-tuning (caro, só em produção)