LLaVA 是一个开源的多模态大型语言模型,它将视觉编码器与语言模型主干相结合,以理解和推理图像。LLaVA 最初由 University of Wisconsin-Madison 和 Microsoft Research 的研究人员开发,它是免费提供的,并通过 Ollama 在本地运行,将视觉 AI 功能引入消费者硬件。
开发者
University of Wisconsin-Madison / Microsoft Research
许可证
Apache 2.0
最适合
多模态图像理解
Askimo 不是一个简单的封装。它是一个完整的本地 AI 工作区,允许您将 LLaVA 的视觉功能与 RAG、工作流和多提供商切换相结合。
专为 macOS、Windows 和 Linux 打造的真正桌面应用。快速、响应灵敏,无需浏览器或服务器即可完全离线工作。
无缝的模型选择、端点配置和切换。有关完整详细信息,请参阅 Ollama 提供商设置指南。
使用 Apache Lucene + jvector 索引您的项目文件、PDFs 和文档。模型基于您自己的知识库回答问题。
使用可视化界面进行日常工作,使用 Askimo CLI 进行脚本编写和自动化。相同的提供商配置,无缝切换。
一键将多个提示链接到自动化的工作流中(研究、总结、写作)。无需在窗口之间复制粘贴。
所有的对话和文件都保留在您的设备上。没有遥测,没有云同步,没有数据收集。了解更多关于 Askimo 的安全信息。
通过 Askimo 运行 LLaVA 不到 5 分钟。
在您的终端中运行 ollama pull llava。
启动 Askimo App 并选择 Ollama 作为您的提供商。将端点设置为 http://localhost:11434。
从模型列表中选择 LLaVA 并开始在本地使用视觉 AI。结合 RAG 对文档进行索引并获得基于事实的、具有图像意识的答案。
CLI 示例:
askimo --provider ollama --model llava -p "What is in this image?" 对 2026 年在本地运行 LLaVA 的三种最常见方法进行的公平功能比较。
| 功能 | Askimo App | Ollama CLI | Open WebUI |
|---|---|---|---|
| 可视化聊天界面 | |||
| RAG(与您自己的文件对话) | |||
| 多提供商支持(Ollama + 云) | |||
| 对话历史记录与搜索 | |||
| 开源(OSI 批准的许可证) | |||
| 完全在本地运行模型(100% 隐私) | |||
| 原生桌面应用(无需服务器或浏览器) | |||
| 完全离线工作(无服务器进程) | |||
| 用于脚本编写的 CLI 界面 | |||
| 本地代码块执行(Python、Bash) | |||
| MCP 工具(文件、git、网络、APIs) | 部分支持 | ||
| AI Plans(链式多步提示) | |||
| 服务器端流水线 / 自动化 | 团队版(即将推出) | ||
| 多用户 / 团队功能 | 团队版(即将推出) | ||
| 网页浏览器访问(无需安装应用) |
复选标记 = 包含 · x = 不可用 · 文本 = 部分支持。基于截至 2026 年的公开文档功能。Open WebUI 使用专有许可证(非 OSI 开源)。Ollama CLI 是开源的(MIT)。
受益于在本地运行多模态 AI 的真实工作流。
分析屏幕截图、产品照片、图表和扫描的文档,而无需将任何内容发送到云视觉 API。一切都保留在您的机器上。
将 LLaVA 与 Askimo RAG 结合使用,提出有关图像密集的 PDF、技术图表和视觉报告的问题,完全离线。
使用 AI Plans 将视觉分析与文本生成链接起来。描述一张图片,总结发现,然后起草一份报告 —— 一切都在一个计划中自动化完成。
关于使用桌面 GUI 在本地运行 LLaVA 的常见问题。
Askimo App 是 2026 年针对 LLaVA 功能最全的桌面客户端。它提供适用于 macOS、Windows 和 Linux 的原生应用程序,具有本地 RAG、MCP 工具、AI Plans、持久的聊天历史记录和多提供商切换功能 —— 同时保持您的图像和数据完全离线。
LLaVA 可以描述图像,回答有关照片和屏幕截图的问题,分析图表,读取图像中的文本(类似 OCR),识别对象和场景,并使用自然语言对视觉内容进行推理。
通过 Ollama 在本地运行的 LLaVA 能力略低于最新的 GPT-4 Vision 或 Gemini Vision,但它是免费的、完全私密的并且离线运行。对于大多数文档和图像分析任务,它已经绰绰有余了。
是的,LLaVA 可以以合理的准确度读取并转录图像中可见的文本。对于繁重的 OCR 工作负载,专用的 OCR 工具可能会更好,但对于读取标签、验证码、屏幕截图和文档扫描,LLaVA 运行良好。
是的。LLaVA 通过 Ollama 完全在您的机器上运行。您的照片永远不会上传到任何地方。Askimo 没有添加云同步或遥测,因此您的图像保持完全私密。
免费 • 开源 • 隐私优先 • 离线工作