Guides

Converse com seus Documentos usando Ollama e RAG: IA Local Gratuita para PDFs, Word e Artigos

Hai Nguyen
Hai Nguyen
· ·
Askimo RAG with Ollama - Chat with your documents using local AI models

Voce ja quis fazer perguntas sobre seus documentos, artigos de pesquisa ou arquivos de projeto sem precisar fazer upload para a nuvem? O RAG (Recuperacao Aumentada por Geracao) com Ollama no Askimo torna isso possivel. Modelos de IA locais como Llama, Mistral ou Phi podem responder perguntas sobre seus PDFs, documentos Word, notas e qualquer arquivo de texto - tudo rodando completamente na sua maquina.

TL;DR: Instale o Ollama, baixe um modelo como llama3 ou mistral, baixe o Askimo, crie um projeto apontando para sua pasta de documentos e comece a fazer perguntas. Seus arquivos sao indexados localmente e a IA recupera informacoes relevantes para responder suas perguntas. Sem internet apos a configuracao.

Novo no Ollama? Leia nosso guia sobre por que o Askimo e o melhor app de desktop para Ollama.


Por que usar RAG com Ollama para seus documentos?

O problema: a IA nao conhece seus arquivos

Quando o ChatGPT surgiu, era revolucionario para perguntas gerais. Mas ao tentar aplicar IA ao trabalho real, os usuarios encontraram limitacoes:

  • Artigos de pesquisa: Voce nao tem um artigo - tem 20, 50 ou 100+ para sintetizar
  • Politicas da empresa: Dezenas de documentos de politica, manuais e guias
  • Documentacao de projetos: Notas de reuniao, requisitos, especificacoes dispersas
  • Conhecimento pessoal: Anos de notas e pesquisas acumuladas

A IA responde com base em dados de treinamento da internet, nao do que esta nos seus arquivos. Pode inventar informacoes plausively incorretas (alucinacoes), nao consegue buscar em multiplos arquivos simultaneamente, e exige upload de documentos sensiveis para a nuvem.

A solucao: RAG torna a IA local consciente dos documentos

Com RAG, os modelos Ollama se tornam seu assistente de pesquisa pessoal que realmente conhece seus arquivos:

  • Respostas fundamentadas: Referenciam seus documentos reais, nao informacoes genericas
  • Memoria de arquivos: A IA “lembra” de todos os seus documentos e seu conteudo
  • Contexto instantaneo: Recupera automaticamente informacoes relevantes
  • Privacidade completa: Tudo roda localmente - seus arquivos nunca saem da sua maquina

Como o RAG funciona com Ollama

  1. Indexacao: Seus arquivos sao lidos, divididos em pedacos e organizados para busca rapida
  2. Armazenamento: O indice fica na sua maquina (geralmente 10-30% do tamanho dos arquivos)
  3. Recuperacao: Quando voce faz uma pergunta, informacoes relevantes sao encontradas automaticamente
  4. Injecao: Esses trechos sao mostrados a IA antes de ela responder
  5. Geracao: Os modelos Ollama usam esse contexto para dar respostas precisas e especificas

Tudo acontece localmente - sem chamadas a APIs externas.


Casos de uso do mundo real

Pesquisa: Sintese de multiplos artigos

You: "What are the main findings across all my climate research papers?"
Llama 3: Based on your papers, three key findings emerge:
1. Temperature increases correlate with CO2 levels (mentioned in 12 papers)
2. Ocean acidification is accelerating faster than predicted (7 papers)
3. Renewable energy adoption is cost-effective (15 papers with economic data)
Sources: climate-change-2023.pdf, renewable-study.docx, ocean-research.pdf [and 9 more]

Escrita: Gerenciamento de projetos de formato longo

You: "Has Elena ever mentioned being afraid of water in any chapter?"
Mistral: Yes, in chapter 7 Elena mentions she nearly drowned as a child. She also
avoids the harbor scene in chapter 12 saying "I don't do boats." Your character
notes list this as a key personality trait stemming from her childhood incident.
Sources: chapter-07.docx, chapter-12.docx, character-profiles.md

Trabalho: Acesso rapido ao conhecimento da empresa

You: "What's our policy on remote work expenses?"
Llama 3: According to the HR Policy Handbook (updated Jan 2026), employees can
expense up to $500/month for home office equipment and $150/month for internet.
Receipts must be submitted within 30 days. See section 4.2 for full details.
Source: HR-Policies-2026.pdf (page 23)

Configurando RAG com Ollama

Passo 1: Instalar o Ollama

macOS:

Terminal window
brew install ollama

Linux:

Terminal window
curl -fsSL https://ollama.com/install.sh | sh

Windows: Baixe o instalador em ollama.com/download/windows

Teste a instalacao:

Terminal window
ollama run llama3

Passo 2: Baixar um modelo de embeddings

Terminal window
ollama pull nomic-embed-text

Passo 3: Baixar um modelo de chat

Terminal window
# Para 8GB+ de RAM - Rapido e capaz
ollama pull llama3
# Para 16GB+ de RAM - Excelente para perguntas complexas
ollama pull mistral
# Para 4-8GB de RAM - Leve
ollama pull phi3

Passo 4: Instalar o Askimo

Passo 5: Configurar Ollama no Askimo

  1. Abra o Askimo
  2. Va para Configuracoes > Provedores
  3. Ative Ollama
  4. Defina o endpoint como http://localhost:11434
  5. Selecione seu modelo de chat (ex. llama3)
  6. Defina o modelo de embeddings como nomic-embed-text

Passo 6: Criar um projeto com RAG

  1. Clique no icone “Projetos” na barra lateral ou use Cmd/Ctrl + P
  2. Clique em ”+ Novo Projeto”, insira um nome, selecione sua pasta de documentos
  3. Aguarde a indexacao automatica (10-60 segundos)
  4. Crie um novo chat no projeto e comece a fazer perguntas

Dica profissional: Crie multiplos projetos para diferentes propositos - trabalho, pesquisa pessoal, materiais de estudo, etc.


O que e indexado

Formatos incluidos: .pdf, .docx, .doc, .odt, .xlsx, .xls, .ods, .pptx, .ppt, .txt, .md, .rtf, .eml, .msg, .js, .py, .java, .html, .css, .json, .yaml, .xml

Excluidos automaticamente: Arquivos ocultos/temporarios, arquivos maiores de 5 MB, imagens/videos/audio, arquivos comprimidos (.zip, .rar, .tar)


Funcionalidades avancadas do RAG

Multiplos projetos para diferentes topicos

Askimo sidebar showing multiple RAG projects organized by topic: Work Documents, Personal Research, Academic Work, and Creative Projects
  • Documentos de trabalho: Relatorios, notas de reuniao, arquivos de clientes
  • Pesquisa pessoal: Hobbies, interesses, materiais de aprendizado
  • Trabalho academico: Materiais de estudo, artigos de pesquisa, notas de tese
  • Projetos criativos: Escrita, notas de arte, documentos de brainstorming

Atualizacoes automaticas

  • Arquivo modificado: Re-indexa apenas esse arquivo
  • Arquivo adicionado: Adicionado ao indice
  • Arquivo excluido: Removido do indice

Modelos de embeddings personalizados

Terminal window
ollama pull mxbai-embed-large
# Em Configuracoes > Provedores > Ollama, altere o modelo de embeddings

Dicas de desempenho

Memoria do seu computadorModelo recomendadoMelhor para
4-8 GBphi3Perguntas rapidas, documentos simples
8-16 GBllama3Uso geral, pesquisa, escrita
16+ GBmistralAnalise complexa, documentos longos
32+ GBdeepseek-coderGrandes colecoes de documentos

RAG vs. busca tradicional de documentos

FuncionalidadeExplorador de ArquivosLeitor de PDFAskimo RAG com Ollama
Busca por palavra-chaveBasicaRapidaInstantanea em todos os arquivos
Busca semanticaNaoNaoEntende o significado
Linguagem naturalNaoNaoPerguntas em linguagem natural
Entre documentosUm por vezUm por vezBusca em todos os documentos
Geracao de respostasNaoNaoExplica e resume
PrivacidadeLocalLocalTotalmente local

Privacidade e seguranca

  • Indexacao: Feita na sua maquina com Lucene
  • Embeddings: Gerados localmente pelo Ollama
  • Chat: Modelos Ollama rodam no seu hardware
  • Armazenamento: Arquivos de indice ficam em ~/.askimo/

Funciona completamente offline. Nenhum dado sai da sua maquina.


Solucao de problemas

”A IA nao parece conhecer meus documentos”

  1. Verifique se a indexacao foi concluida
  2. Tente re-indexar: Configuracoes do projeto > “Re-indexar Projeto”
  3. Verifique se o tipo de arquivo e compativel (arquivos maiores de 5 MB sao ignorados)
Askimo project settings showing the Re-index Project button to trigger manual re-indexing of documents

Indexacao lenta

  1. Tenha paciencia - a indexacao inicial leva tempo mas ocorre apenas uma vez
  2. Atualizacoes futuras sao muito mais rapidas
  3. Considere organizar em projetos menores se tiver 10.000+ arquivos

Sem memoria suficiente

  1. Use um modelo menor (phi3 em vez de mistral)
  2. Feche outros aplicativos que consomem muita memoria
  3. Reinicie o computador para liberar memoria

Precisa de mais ajuda? Pergunte em nossas discussoes no GitHub.


O que voce pode fazer com RAG

  • Pesquisa: Encontrar informacoes rapidamente em dezenas de artigos
  • Escrita: Acompanhar personagens, enredos e pesquisas para seus livros
  • Aprendizado: Estudar mais efetivamente fazendo perguntas sobre suas notas
  • Trabalho: Encontrar informacoes em relatorios, notas de reuniao e documentacao
  • Pessoal: Organizar receitas, pesquisas de viagem, notas de hobbies

Tudo mantendo seus documentos privados e locais.


Perguntas frequentes

O RAG com Ollama funciona offline? Sim, completamente. Apos baixar os modelos e indexar o projeto, tudo funciona sem internet. Nao ha chamadas a APIs externas em nenhuma etapa.

Meus dados sao privados com RAG e Ollama? Sim. Seus documentos nunca saem da maquina. A indexacao e feita localmente com Apache Lucene, os embeddings sao gerados por um modelo Ollama local e o modelo de chat roda no seu proprio hardware. Nada e enviado a nenhum servico em nuvem.

Quais tipos de arquivo o Askimo RAG suporta? PDFs, documentos Word (.docx, .doc), planilhas (.xlsx, .xls), apresentacoes (.pptx), texto simples, Markdown, RTF, emails e arquivos de codigo-fonte. Arquivos maiores de 5 MB e arquivos binarios sao excluidos automaticamente.

Como o RAG com Ollama difere do upload de um documento no ChatGPT? Tres diferencas-chave: privacidade (arquivos nunca saem da maquina), escala (RAG busca em centenas de documentos simultaneamente) e precisao (respostas baseadas em seus documentos reais, nao em dados de treinamento, reduzindo significativamente alucinacoes).

Quanto tempo leva a indexacao? Para 50-100 documentos, a indexacao inicial leva 10-60 segundos. Depois, apenas arquivos alterados ou novos sao re-indexados automaticamente.

Qual modelo Ollama funciona melhor para RAG? Para a maioria dos usuarios, Llama ou Mistral oferece o melhor equilibrio entre velocidade e qualidade. Com menos de 8 GB de RAM, use Phi. Para embeddings, nomic-embed-text e o padrao recomendado.


Saiba mais sobre Askimo e Ollama


Experimente o Askimo hoje: 👉 https://askimo.chat

Deixe uma estrela no projeto: 👉 https://github.com/askimo-ai/askimo

Perguntas ou comentarios? Abra um issue no GitHub ou participe das nossas discussoes da comunidade.

Postagens Relacionadas

Guides

Como analisar qualquer ação com IA em 2026 (passo a passo)

Um único prompt do ChatGPT para pesquisa de ações produz resultados rasos e genéricos. Este guia mostra um workflow de IA passo a passo que reflete como os analistas profissionais realmente pensam: perfil da empresa, stress test financeiro, avaliação de risco e redação do relatório. Cada etapa se apoia na anterior para produzir um resultado específico, rastreável e pronto para exportar como PDF ou Word.

Guides

Personalização de Currículo com IA: adapte seu CV para cada vaga em minutos

Um currículo genérico é ignorado. Recrutadores e sistemas ATS filtram por correspondências exatas de palavras-chave, linguagem específica do cargo e apresentação adaptada de experiência. Este guia mostra como usar o Askimo Plans como ferramenta de personalização de CV: analisar automaticamente a vaga, mapear sua experiência, reescrever as seções relevantes e produzir um currículo pronto para enviar. Nenhum conhecimento de prompt engineering necessário.

Askimo Updates

Atualização do App Askimo: Suporte Multilíngue, Novos Temas e Ferramentas para Desenvolvedores

A grande atualização do App Askimo adiciona suporte multilíngue para mais de 10 idiomas, incluindo inglês, vietnamita, chinês, japonês, coreano, francês, alemão, espanhol, português e italiano. Introduz 18 temas com opções claras, escuras e adaptativas ao sistema. As novas ferramentas para desenvolvedores incluem monitoramento de recursos em tempo real, depuração aprimorada e controles de logs granulares. Melhorias significativas de desempenho, especialmente no Windows, além de melhor tratamento de erros em todas as plataformas.