Ollama gần đây đã phát hành bản cập nhật giới thiệu khung học máy MLX của riêng Apple vào giải pháp chạy mô hình lớn tại địa phương, đạt được những cải tiến hiệu suất đáng kể trên máy Mac được trang bị chip Apple. Theo giới thiệu chính thức, tốc độ xử lý của phiên bản mới ở giai đoạn điền trước nhanh chóng (điền trước) tăng khoảng 1,6 lần và tốc độ ở giai đoạn tạo phản hồi (giải mã) gần như tăng gấp đôi, giúp phản hồi tổng thể của suy luận mô hình lớn cục bộ nhanh hơn. Trong đó, các model được trang bị chip dòng M5 sẽ được hưởng lợi nhiều nhất, nhờ GPU Neural Accelerator được Apple bổ sung vào thế hệ chip mới.

Bản cập nhật này cũng cải thiện chiến lược quản lý bộ nhớ, có thể sử dụng bộ nhớ hợp nhất của hệ thống hiệu quả hơn trong các tình huống sử dụng lâu dài, cho phép các công cụ mã hóa AI cục bộ và trợ lý trò chuyện dựa trên Ollama duy trì trải nghiệm tương tác mượt mà hơn trong các phiên liên tục. Ollama cho biết cải tiến hiệu suất này sẽ đặc biệt có lợi cho người dùng chạy các mô hình lớp trợ lý cá nhân (chẳng hạn như OpenClaw) và các tác nhân lớp trợ lý mã (chẳng hạn như Claude Code, OpenCode, Codex, v.v.) trên macOS, giúp các công cụ đó gần hơn với trải nghiệm "phản hồi tức thì".

Hiện tại, phiên bản tăng tốc dựa trên MLX này có sẵn để tải xuống dưới dạng phiên bản xem trước Ollama 0.19:

https://ollama.com/blog/mlx

Chính thức khuyến nghị người dùng định cấu hình trên 32GB Chạy trên máy Mac với bộ nhớ hợp nhất để có hiệu suất tốt hơn. Giai đoạn xem trước chỉ hỗ trợ mô hình Qwen3.5 của Alibaba, nhưng Ollama đã nói rõ rằng họ sẽ dần dần bổ sung hỗ trợ cho nhiều mô hình AI hơn trong tương lai.