Capítulo 1

O que é RAG?

Retrieval Augmented Generation: o sistema de recuperação de informação que entrega contexto correto para o modelo de IA no momento da geração.

🎯 A Analogia do Dentista

Você vai ao dentista com dor...

O dentista não pergunta "o que você lembra da última vez?". Ele abre seu prontuário, olha seu histórico, verifica especificamente o que aconteceu na última consulta.

O mesmo vale para IA: em vez de "decorar" todas as respostas (fine-tuning), o RAG "abre o prontuário" na hora.

🧠Fine-tuning

= decorar tudo (caro, lento, desatualiza)

🦷RAG

= abrir o prontuário na hora (barato, rápido, sempre atualizado)

🔗 Arquitetura Fundamental — 5 Etapas

Cada etapa tem decisões técnicas que determinam se o RAG funciona ou não. Entenda o fluxo completo:

DOCUMENTO

Texto original

CHUNKING

Divisão em partes

EMBEDDINGS

Vetores numéricos

STORAGE

Banco vetorial

RETRIEVAL

Busca semântica

PROMPT

Contexto + Pergunta

LLM

Resposta fundamentada

💡 Por que RAG funciona?

✅ Vantagens

✓Atualização em tempo real (sem re-treino)
✓Custo baixo (~$0.01/query)
✓Precisão alta em fatos
✓Contexto sempre свежий (fresco)
✓可控 (controlável) — você escolhe o que retorna

⚠️ Quando RAG é necessário

→Base de conhecimento grande
→Documentos atualizam frequentemente
→Respostas precisam de rastreabilidade
→Contexto específico do domínio
→Compliance (auditoria de fontes)

⚖️ RAG vs Fine-tuning

Critério	RAG	Fine-tuning
Custo	Baixo (~$0.01/query)	Alto ($100-1000/train)
Atualização	Em tempo real	Re-treino necessário
Latência	Média (busca + LLM)	Baixa (só LLM)
Precisão em fatos	Alta (contexto свежий)	Média (pode hallucinar)
Estilo/Tom	Médio (prompt eng.)	Alto (training data)
Quando usar	Base grande, atualiza sempre	Padrão de comportamento

📋 Regra Prática

✓

Se sua base muda frequentemente → RAG

✓

Se você quer ensinar "como pensar" → Fine-tuning

⚡

Se você tem ambos → RAG + Fine-tuning (caro, só em produção)

🔄 Fluxo Completo de uma Pergunta

👤

USER"Como funciona o chunking em RAG?"

🔢

1Gerar embedding da query

🔍

2Buscar chunks similares no pgvector

📦

3Montar contexto com chunks recuperados

📤

4Enviar prompt com contexto para LLM

🤖

LLMResposta fundamentada no contexto

← IntroduçãoPróximo: Chunking →