LLaVA × Askimo

最适合 LLaVA 的桌面 GUI

LLaVA (Large Language and Vision Assistant) 通过 Ollama 将多模态 AI —— 理解和讨论图像的能力 —— 带入您的本地计算机。它开启了超越文本的全新 AI 工作流。

Askimo App 为 LLaVA 提供了一个完整的桌面工作区:持久的聊天历史记录、本地文件搜索 (RAG)、多步骤 AI Plans、MCP 工具集成,以及将视觉任务与云提供商相结合的能力,所有这些都在一个原生应用程序中。

关于 LLaVA

LLaVA 是一个开源的多模态大型语言模型,它将视觉编码器与语言模型主干相结合,以理解和推理图像。LLaVA 最初由 University of Wisconsin-Madison 和 Microsoft Research 的研究人员开发,它是免费提供的,并通过 Ollama 在本地运行,将视觉 AI 功能引入消费者硬件。

开发者

University of Wisconsin-Madison / Microsoft Research

许可证

Apache 2.0

最适合

多模态图像理解

主要优势

  • 理解并推理图像和屏幕截图
  • 回答有关照片、图表和文档的问题
  • 通过 Ollama 在本地运行 — 无需云视觉 API
  • 在 Apache 2.0 下开源
  • 从 7B 到 34B 的多种模型尺寸

为什么使用 Askimo App 运行 LLaVA?

Askimo 不是一个简单的封装。它是一个完整的本地 AI 工作区,允许您将 LLaVA 的视觉功能与 RAG、工作流和多提供商切换相结合。

原生桌面体验

专为 macOS、Windows 和 Linux 打造的真正桌面应用。快速、响应灵敏,无需浏览器或服务器即可完全离线工作。

一流的 Ollama 支持

无缝的模型选择、端点配置和切换。有关完整详细信息,请参阅 Ollama 提供商设置指南

内置本地 RAG

使用 Apache Lucene + jvector 索引您的项目文件、PDFs 和文档。模型基于您自己的知识库回答问题。

CLI + GUI 结合

使用可视化界面进行日常工作,使用 Askimo CLI 进行脚本编写和自动化。相同的提供商配置,无缝切换。

AI Plans:多步工作流

一键将多个提示链接到自动化的工作流中(研究、总结、写作)。无需在窗口之间复制粘贴。

隐私至上的架构

所有的对话和文件都保留在您的设备上。没有遥测,没有云同步,没有数据收集。了解更多关于 Askimo 的安全信息

开始使用:LLaVA + Askimo

通过 Askimo 运行 LLaVA 不到 5 分钟。

1

安装 Ollama

在您的机器上下载并运行 Ollama。它处理模型下载和提供服务。

2

拉取 LLaVA

在您的终端中运行 ollama pull llava

3

打开 Askimo

启动 Askimo App 并选择 Ollama 作为您的提供商。将端点设置为 http://localhost:11434

4

开始工作

从模型列表中选择 LLaVA 并开始在本地使用视觉 AI。结合 RAG 对文档进行索引并获得基于事实的、具有图像意识的答案。

CLI 示例:

askimo --provider ollama --model llava -p "What is in this image?"

Askimo vs Ollama CLI vs Open WebUI(针对 LLaVA)

对 2026 年在本地运行 LLaVA 的三种最常见方法进行的公平功能比较。

功能 Askimo App Ollama CLI Open WebUI
可视化聊天界面
RAG(与您自己的文件对话)
多提供商支持(Ollama + 云)
对话历史记录与搜索
开源(OSI 批准的许可证)
完全在本地运行模型(100% 隐私)
原生桌面应用(无需服务器或浏览器)
完全离线工作(无服务器进程)
用于脚本编写的 CLI 界面
本地代码块执行(Python、Bash)
MCP 工具(文件、git、网络、APIs) 部分支持
AI Plans(链式多步提示)
服务器端流水线 / 自动化 团队版(即将推出)
多用户 / 团队功能 团队版(即将推出)
网页浏览器访问(无需安装应用)

复选标记 = 包含 · x = 不可用 · 文本 = 部分支持。基于截至 2026 年的公开文档功能。Open WebUI 使用专有许可证(非 OSI 开源)。Ollama CLI 是开源的(MIT)。

人们用 LLaVA + Askimo 做什么

受益于在本地运行多模态 AI 的真实工作流。

私密图像分析

分析屏幕截图、产品照片、图表和扫描的文档,而无需将任何内容发送到云视觉 API。一切都保留在您的机器上。

视觉文档理解

将 LLaVA 与 Askimo RAG 结合使用,提出有关图像密集的 PDF、技术图表和视觉报告的问题,完全离线。

多模态 AI 工作流

使用 AI Plans 将视觉分析与文本生成链接起来。描述一张图片,总结发现,然后起草一份报告 —— 一切都在一个计划中自动化完成。

常见问题

关于使用桌面 GUI 在本地运行 LLaVA 的常见问题。

2026 年最适合 LLaVA 的桌面 GUI 是什么?

Askimo App 是 2026 年针对 LLaVA 功能最全的桌面客户端。它提供适用于 macOS、Windows 和 Linux 的原生应用程序,具有本地 RAG、MCP 工具、AI Plans、持久的聊天历史记录和多提供商切换功能 —— 同时保持您的图像和数据完全离线。

LLaVA 能对图像做什么?

LLaVA 可以描述图像,回答有关照片和屏幕截图的问题,分析图表,读取图像中的文本(类似 OCR),识别对象和场景,并使用自然语言对视觉内容进行推理。

LLaVA 与云视觉 API 相比如何?

通过 Ollama 在本地运行的 LLaVA 能力略低于最新的 GPT-4 Vision 或 Gemini Vision,但它是免费的、完全私密的并且离线运行。对于大多数文档和图像分析任务,它已经绰绰有余了。

LLaVA 能读取图像中的文本吗?

是的,LLaVA 可以以合理的准确度读取并转录图像中可见的文本。对于繁重的 OCR 工作负载,专用的 OCR 工具可能会更好,但对于读取标签、验证码、屏幕截图和文档扫描,LLaVA 运行良好。

我可以使用 LLaVA 来分析我自己的照片而不上传它们吗?

是的。LLaVA 通过 Ollama 完全在您的机器上运行。您的照片永远不会上传到任何地方。Askimo 没有添加云同步或遥测,因此您的图像保持完全私密。

免费 • 开源 • 隐私优先 • 离线工作