O LLaVA (Large Language and Vision Assistant) traz a IA multimodal — a capacidade de entender e discutir imagens — para a sua máquina local via Ollama. Ele abre toda uma nova classe de fluxos de trabalho de IA além do texto.
O Askimo App oferece ao LLaVA um espaço de trabalho de desktop completo: histórico de chat persistente, pesquisa de arquivos locais (RAG), AI Plans de várias etapas, integrações de ferramentas MCP e a capacidade de combinar tarefas de visão com provedores de nuvem, tudo em um aplicativo nativo.
O LLaVA é um modelo de linguagem grande multimodal de código aberto que combina um codificador de visão com uma espinha dorsal de modelo de linguagem para entender e raciocinar sobre imagens. Originalmente desenvolvido por pesquisadores da University of Wisconsin-Madison e da Microsoft Research, o LLaVA está disponível gratuitamente e roda localmente por meio do Ollama, trazendo recursos de IA de visão para hardware de consumidor.
Desenvolvedor
University of Wisconsin-Madison / Microsoft Research
Licença
Apache 2.0
Melhor para
Compreensão de imagem multimodal
O Askimo não é um invólucro fino. É um espaço de trabalho de IA local completo que permite combinar os recursos de visão do LLaVA com RAG, fluxos de trabalho e alternância de vários provedores.
Construído como um verdadeiro app desktop para macOS, Windows e Linux. Rápido, responsivo e funciona totalmente offline, sem necessidade de navegador ou servidor.
Seleção contínua de modelos, configuração de endpoints e troca. Veja o guia de configuração do provedor Ollama para todos os detalhes.
Indexe os arquivos do seu projeto, PDFs e documentos com Apache Lucene + jvector. O modelo responde a perguntas fundamentadas na sua própria base de conhecimento.
Use a interface visual para o trabalho diário e a Askimo CLI para scripts e automação. Mesma configuração de provedor, troca contínua.
Encadeie vários prompts em fluxos de trabalho automatizados (pesquisar, resumir, escrever) com um clique. Sem ficar copiando e colando entre janelas.
Todas as conversas e arquivos permanecem no seu dispositivo. Sem telemetria, sem sincronização na nuvem, sem coleta de dados. Saiba mais sobre a segurança do Askimo.
Executar o LLaVA através do Askimo leva menos de 5 minutos.
Baixe e execute o Ollama em sua máquina. Ele lida com downloads e fornecimento de modelos.
Execute ollama pull llava no seu terminal.
Inicie o Askimo App e escolha o Ollama como seu provedor. Defina o endpoint como http://localhost:11434.
Selecione o LLaVA na lista de modelos e comece a usar a IA de visão localmente. Combine com o RAG para indexar documentos e obter respostas fundamentadas e conscientes da imagem.
Exemplo de CLI:
askimo --provider ollama --model llava -p "What is in this image?" Uma comparação justa de recursos das três maneiras mais comuns de executar o LLaVA localmente em 2026.
| Recurso | Askimo App | Ollama CLI | Open WebUI |
|---|---|---|---|
| Interface visual de chat | |||
| RAG (converse com seus próprios arquivos) | |||
| Suporte multiprovedor (Ollama + nuvem) | |||
| Histórico de conversas e pesquisa | |||
| Código aberto (licença aprovada pela OSI) | |||
| Execute modelos totalmente local (100% privado) | |||
| App desktop nativo (sem servidor ou navegador) | |||
| Funciona totalmente offline (sem processo de servidor) | |||
| Interface CLI para scripts | |||
| Execução local de bloco de código (Python, Bash) | |||
| Ferramentas MCP (arquivo, git, web, APIs) | Parcial | ||
| AI Plans (prompts encadeados em várias etapas) | |||
| Pipelines do lado do servidor / automação | Edição de equipe (em breve) | ||
| Recursos multiusuário / equipe | Edição de equipe (em breve) | ||
| Acesso via navegador web (sem instalar app) |
marca de seleção = incluído · x = não disponível · texto = suporte parcial. Baseado em recursos documentados publicamente a partir de 2026. Open WebUI usa uma licença proprietária (não OSI open source). Ollama CLI é open source (MIT).
Fluxos de trabalho reais que se beneficiam da execução local de IA multimodal.
Analise capturas de tela, fotos de produtos, diagramas e documentos digitalizados sem enviar nada para uma API de visão em nuvem. Tudo fica na sua máquina.
Combine o LLaVA com o Askimo RAG para fazer perguntas sobre PDFs com muitas imagens, diagramas técnicos e relatórios visuais, totalmente offline.
Use AI Plans para encadear a análise de visão com a geração de texto. Descreva uma imagem, resuma as descobertas e rascunhe um relatório — tudo automatizado em um plano.
Perguntas comuns sobre a execução do LLaVA localmente com uma GUI de desktop.
O Askimo App é o cliente de desktop com mais recursos para LLaVA em 2026. Ele fornece um aplicativo nativo para macOS, Windows e Linux com RAG local, ferramentas MCP, AI Plans, histórico de chat persistente e alternância entre vários provedores — tudo isso mantendo suas imagens e dados completamente offline.
O LLaVA pode descrever imagens, responder a perguntas sobre fotos e capturas de tela, analisar diagramas, ler texto em imagens (estilo OCR), identificar objetos e cenas e raciocinar sobre conteúdo visual em linguagem natural.
O LLaVA rodando localmente via Ollama é um pouco menos capaz que o mais recente GPT-4 Vision ou Gemini Vision, mas é gratuito, totalmente privado e funciona offline. Para a maioria das tarefas de análise de documentos e imagens, é mais do que suficiente.
Sim, o LLaVA pode ler e transcrever o texto visível em imagens com precisão razoável. Para cargas de trabalho pesadas de OCR, uma ferramenta de OCR dedicada pode ser melhor, mas para ler rótulos, captchas, capturas de tela e digitalizações de documentos, o LLaVA funciona bem.
Sim. O LLaVA é executado inteiramente em sua máquina por meio do Ollama. Suas fotos nunca são enviadas para lugar nenhum. O Askimo não adiciona sincronização de nuvem ou telemetria, para que suas imagens permaneçam totalmente privadas.
Instruções passo a passo para conectar o Ollama ao Askimo App.
Execute os modelos Llama da Meta localmente com Ollama e Askimo App.
Execute os modelos Gemma do Google localmente com Ollama e Askimo App.
Compare Askimo, LM Studio e Open WebUI para executar o Ollama localmente.
Gratuito • Open Source • Privacidade em primeiro lugar • Funciona offline