Rapid-MLX: прискорюємо локальні LLM на Apple Silicon у 2-4 рази швидше за Ollama

Суть

На ринку локальних LLM-інструментів з’явився новий гравець — Rapid-MLX. Це відкритий фреймворк для запуску великих мовних моделей на Mac з Apple Silicon (M1–M4), який обіцяє в 2–4 рази вищу швидкодію порівняно з Ollama. Проєкт зібрав уже понад 2 600 зірок на GitHub та 590 комітів, що свідчить про активну розробку.

Rapid-MLX побудовано на фреймворку MLX від Apple, який максимально використовує архітектуру M-чипів — Unified Memory, GPU через Metal, Neural Engine. Це дає змогу досягти значно кращих показників, ніж у конкурентів, на тому самому обладнанні.

Контекст

Донедавна основними інструментами для локального запуску LLM були Ollama та llama.cpp. Вони працюють на будь-якому обладнанні, але не оптимізовані специфічно під Apple Silicon. Rapid-MLX заповнює цю нішу, пропонуючи рішення, яке “розуміє” M-чипи на апаратному рівні.

Ключові можливості Rapid-MLX:

  • Перший токен за 0.08 секунди — майже непомітна затримка в діалозі навіть при першій відповіді
  • 17 типів парсерів для Tool Calling — автоматична адаптація під Qwen, DeepSeek, Gemma, Llama та інші моделі, включно з відновленням зламаних квантувань
  • Повна сумісність з OpenAI API — Cursor, Claude Code, Aider, LangChain, Continue.dev, Hermes Agent та будь-який OpenAI-сумісний клієнт просто змінюють base_url на localhost:8000/v1
  • Підтримка мультимодальності — зображення (vision) та аудіо (TTS/STT) через додаткові пакети
  • Model-Harness Index (MHI) — власна система бенчмарків, що оцінює сумісність моделі з конкретним агентним фреймворком (Tool Calling 50% + HumanEval 30% + MMLU 20%)

Наприклад, Qwen3.5-4B на MacBook Air 16 ГБ видає 160 токенів/с, а DeepSeek V4 Flash 158B на Mac Studio з 128+ ГБ — 31–56 токенів/с з контекстом до 1 млн токенів.

Джерела

Залишити відповідь