Rapid-MLX: прискорюємо локальні LLM на Apple Silicon у 2-4 рази швидше за Ollama

30.05.2026 Admin Comments(0)

Суть

На ринку локальних LLM-інструментів з’явився новий гравець — Rapid-MLX. Це відкритий фреймворк для запуску великих мовних моделей на Mac з Apple Silicon (M1–M4), який обіцяє в 2–4 рази вищу швидкодію порівняно з Ollama. Проєкт зібрав уже понад 2 600 зірок на GitHub та 590 комітів, що свідчить про активну розробку.

Rapid-MLX побудовано на фреймворку MLX від Apple, який максимально використовує архітектуру M-чипів — Unified Memory, GPU через Metal, Neural Engine. Це дає змогу досягти значно кращих показників, ніж у конкурентів, на тому самому обладнанні.

Контекст

Донедавна основними інструментами для локального запуску LLM були Ollama та llama.cpp. Вони працюють на будь-якому обладнанні, але не оптимізовані специфічно під Apple Silicon. Rapid-MLX заповнює цю нішу, пропонуючи рішення, яке “розуміє” M-чипи на апаратному рівні.

Ключові можливості Rapid-MLX:

Перший токен за 0.08 секунди — майже непомітна затримка в діалозі навіть при першій відповіді
17 типів парсерів для Tool Calling — автоматична адаптація під Qwen, DeepSeek, Gemma, Llama та інші моделі, включно з відновленням зламаних квантувань
Повна сумісність з OpenAI API — Cursor, Claude Code, Aider, LangChain, Continue.dev, Hermes Agent та будь-який OpenAI-сумісний клієнт просто змінюють base_url на localhost:8000/v1
Підтримка мультимодальності — зображення (vision) та аудіо (TTS/STT) через додаткові пакети
Model-Harness Index (MHI) — власна система бенчмарків, що оцінює сумісність моделі з конкретним агентним фреймворком (Tool Calling 50% + HumanEval 30% + MMLU 20%)

Наприклад, Qwen3.5-4B на MacBook Air 16 ГБ видає 160 токенів/с, а DeepSeek V4 Flash 158B на Mac Studio з 128+ ГБ — 31–56 токенів/с з контекстом до 1 млн токенів.

Джерела

GitHub репозиторій Rapid-MLX — повний README з документацією, бенчмарками та інструкцією з встановлення
Оригінальний пост на X від GOLD (@Honcia13)

Stay Inspired with Instagram

Суть

Контекст

Джерела

PersonaLive: Як створити свого цифрового двійника, щоб не розчісуватися перед Zoom

Open Notebook — відкрита альтернатива Google Notebook LM з повним контролем даних

Залишити відповідь Скасувати коментар

Категорії

Останні дописи

ECC 2.0 — операційна система для AI-агентів: 262 навички, AgentShield

Open Notebook — відкрита альтернатива Google Notebook LM з повним