LLaVA (Large Language and Vision Assistant) mang AI đa phương thức — khả năng hiểu và thảo luận về hình ảnh — đến máy tính cục bộ của bạn thông qua Ollama. Nó mở ra một lớp quy trình làm việc AI hoàn toàn mới vượt ra ngoài văn bản.
Askimo App cung cấp cho LLaVA một không gian làm việc desktop hoàn chỉnh: lịch sử trò chuyện được lưu trữ, tìm kiếm tệp cục bộ (RAG), AI Plans nhiều bước, tích hợp công cụ MCP, và khả năng kết hợp các tác vụ thị giác với các nhà cung cấp đám mây, tất cả trong một ứng dụng native.
LLaVA là một mô hình ngôn ngữ lớn đa phương thức mã nguồn mở kết hợp một bộ mã hóa thị giác với một bộ khung mô hình ngôn ngữ để hiểu và suy luận về hình ảnh. Ban đầu được phát triển bởi các nhà nghiên cứu tại University of Wisconsin-Madison và Microsoft Research, LLaVA hoàn toàn miễn phí và chạy cục bộ thông qua Ollama, mang khả năng AI thị giác đến với các phần cứng tiêu dùng.
Nhà phát triển
University of Wisconsin-Madison / Microsoft Research
Giấy phép
Apache 2.0
Tốt nhất cho
Hiểu hình ảnh đa phương thức
Askimo không chỉ là một lớp bọc mỏng. Đó là một không gian làm việc AI cục bộ đầy đủ cho phép bạn kết hợp khả năng thị giác của LLaVA với RAG, quy trình làm việc, và khả năng chuyển đổi nhiều nhà cung cấp.
Được xây dựng như một ứng dụng desktop thực sự cho macOS, Windows và Linux. Nhanh chóng, phản hồi tốt và hoạt động hoàn toàn ngoại tuyến không cần trình duyệt hay máy chủ.
Lựa chọn mô hình, cấu hình endpoint và chuyển đổi liền mạch. Xem hướng dẫn thiết lập nhà cung cấp Ollama để biết thông tin chi tiết.
Lập chỉ mục các tệp dự án, PDFs và tài liệu của bạn với Apache Lucene + jvector. Mô hình trả lời các câu hỏi dựa trên cơ sở kiến thức của riêng bạn.
Sử dụng giao diện trực quan cho công việc hàng ngày và Askimo CLI để viết kịch bản và tự động hóa. Cùng một cấu hình nhà cung cấp, chuyển đổi liền mạch.
Liên kết nhiều prompt thành các quy trình tự động (nghiên cứu, tóm tắt, viết) chỉ bằng một cú nhấp chuột. Không cần sao chép-dán giữa các cửa sổ.
Tất cả các cuộc trò chuyện và tệp đều lưu trên thiết bị của bạn. Không có đo lường từ xa, không đồng bộ hóa đám mây, không thu thập dữ liệu. Tìm hiểu thêm về bảo mật Askimo.
Chạy LLaVA thông qua Askimo chỉ mất dưới 5 phút.
Chạy ollama pull llava trong terminal của bạn.
Khởi chạy Askimo App và chọn Ollama làm nhà cung cấp của bạn. Đặt endpoint là http://localhost:11434.
Chọn LLaVA từ danh sách mô hình và bắt đầu sử dụng AI thị giác cục bộ. Kết hợp với RAG để lập chỉ mục các tài liệu và nhận được các câu trả lời thực tế, nhận thức hình ảnh.
Ví dụ CLI:
askimo --provider ollama --model llava -p "What is in this image?" Sự so sánh tính năng công bằng của ba cách phổ biến nhất để chạy LLaVA cục bộ vào năm 2026.
| Tính năng | Askimo App | Ollama CLI | Open WebUI |
|---|---|---|---|
| Giao diện chat trực quan | |||
| RAG (chat với tệp của riêng bạn) | |||
| Hỗ trợ đa nhà cung cấp (Ollama + cloud) | |||
| Lịch sử trò chuyện và tìm kiếm | |||
| Mã nguồn mở (giấy phép được OSI phê duyệt) | |||
| Chạy các mô hình hoàn toàn cục bộ (riêng tư 100%) | |||
| Ứng dụng desktop gốc (không có máy chủ hoặc trình duyệt) | |||
| Hoạt động hoàn toàn ngoại tuyến (không có quy trình máy chủ) | |||
| Giao diện CLI để viết mã | |||
| Thực thi khối mã cục bộ (Python, Bash) | |||
| Các công cụ MCP (tệp, git, web, APIs) | Một phần | ||
| AI Plans (các prompt nối tiếp nhiều bước) | |||
| Quy trình máy chủ / tự động hóa | Phiên bản Team (sắp ra mắt) | ||
| Các tính năng đa người dùng / nhóm | Phiên bản Team (sắp ra mắt) | ||
| Truy cập qua trình duyệt web (không cài đặt ứng dụng) |
dấu kiểm = bao gồm · x = không khả dụng · văn bản = hỗ trợ một phần. Dựa trên các tính năng được tài liệu hóa công khai tính đến năm 2026. Open WebUI sử dụng giấy phép độc quyền (không phải nguồn mở OSI). Ollama CLI là nguồn mở (MIT).
Các quy trình làm việc thực tế được hưởng lợi từ việc chạy AI đa phương thức cục bộ.
Phân tích ảnh chụp màn hình, ảnh sản phẩm, biểu đồ, và tài liệu quét mà không gửi bất cứ thứ gì đến API thị giác đám mây. Mọi thứ đều ở lại trên máy của bạn.
Kết hợp LLaVA với Askimo RAG để hỏi các câu hỏi về tệp PDF nhiều hình ảnh, biểu đồ kỹ thuật, và báo cáo trực quan, hoàn toàn ngoại tuyến.
Sử dụng AI Plans để liên kết phân tích thị giác với việc tạo văn bản. Mô tả một hình ảnh, tóm tắt các phát hiện, sau đó phác thảo một báo cáo — tất cả được tự động hóa trong một kế hoạch.
Các câu hỏi phổ biến về việc chạy LLaVA cục bộ với GUI desktop.
Askimo App là ứng dụng client desktop đầy đủ tính năng nhất cho LLaVA vào năm 2026. Nó cung cấp ứng dụng native cho macOS, Windows và Linux với RAG cục bộ, công cụ MCP, AI Plans, lịch sử trò chuyện liên tục và chuyển đổi đa nhà cung cấp — tất cả trong khi vẫn giữ hình ảnh và dữ liệu của bạn hoàn toàn ngoại tuyến.
LLaVA có thể mô tả hình ảnh, trả lời các câu hỏi về ảnh và ảnh chụp màn hình, phân tích biểu đồ, đọc văn bản trong hình ảnh (kiểu OCR), nhận dạng các đối tượng và cảnh quan, và suy luận về nội dung trực quan bằng ngôn ngữ tự nhiên.
LLaVA chạy cục bộ thông qua Ollama có khả năng kém hơn một chút so với GPT-4 Vision hay Gemini Vision mới nhất, nhưng nó miễn phí, hoàn toàn riêng tư và chạy ngoại tuyến. Đối với hầu hết các tác vụ phân tích tài liệu và hình ảnh, nó là quá đủ.
Có, LLaVA có thể đọc và sao chép văn bản hiển thị trong hình ảnh với độ chính xác hợp lý. Đối với các khối lượng công việc OCR nặng nề, một công cụ OCR chuyên dụng có thể tốt hơn, nhưng để đọc nhãn, mã captcha, ảnh chụp màn hình và quét tài liệu, LLaVA hoạt động rất tốt.
Có. LLaVA chạy hoàn toàn trên máy của bạn thông qua Ollama. Ảnh của bạn không bao giờ được tải lên bất cứ đâu. Askimo không thêm bất kỳ đồng bộ hóa đám mây hay đo từ xa nào, vì vậy hình ảnh của bạn hoàn toàn riêng tư.
Hướng dẫn từng bước để kết nối Ollama với Askimo App.
Chạy các mô hình Llama của Meta cục bộ với Ollama và Askimo App.
Chạy các mô hình Gemma của Google cục bộ với Ollama và Askimo App.
So sánh Askimo, LM Studio, và Open WebUI cho việc chạy Ollama cục bộ.
Miễn phí • Nguồn mở • Ưu tiên quyền riêng tư • Hoạt động ngoại tuyến