Суть
На ринку локальних LLM-інструментів з’явився новий гравець — Rapid-MLX. Це відкритий фреймворк для запуску великих мовних моделей на Mac з Apple Silicon (M1–M4), який обіцяє в 2–4 рази вищу швидкодію порівняно з Ollama. Проєкт зібрав уже понад 2 600 зірок на GitHub та 590 комітів, що свідчить про активну розробку.
Rapid-MLX побудовано на фреймворку MLX від Apple, який максимально використовує архітектуру M-чипів — Unified Memory, GPU через Metal, Neural Engine. Це дає змогу досягти значно кращих показників, ніж у конкурентів, на тому самому обладнанні.
Контекст
Донедавна основними інструментами для локального запуску LLM були Ollama та llama.cpp. Вони працюють на будь-якому обладнанні, але не оптимізовані специфічно під Apple Silicon. Rapid-MLX заповнює цю нішу, пропонуючи рішення, яке “розуміє” M-чипи на апаратному рівні.
Ключові можливості Rapid-MLX:
- Перший токен за 0.08 секунди — майже непомітна затримка в діалозі навіть при першій відповіді
- 17 типів парсерів для Tool Calling — автоматична адаптація під Qwen, DeepSeek, Gemma, Llama та інші моделі, включно з відновленням зламаних квантувань
- Повна сумісність з OpenAI API — Cursor, Claude Code, Aider, LangChain, Continue.dev, Hermes Agent та будь-який OpenAI-сумісний клієнт просто змінюють base_url на localhost:8000/v1
- Підтримка мультимодальності — зображення (vision) та аудіо (TTS/STT) через додаткові пакети
- Model-Harness Index (MHI) — власна система бенчмарків, що оцінює сумісність моделі з конкретним агентним фреймворком (Tool Calling 50% + HumanEval 30% + MMLU 20%)
Наприклад, Qwen3.5-4B на MacBook Air 16 ГБ видає 160 токенів/с, а DeepSeek V4 Flash 158B на Mac Studio з 128+ ГБ — 31–56 токенів/с з контекстом до 1 млн токенів.
Джерела
- GitHub репозиторій Rapid-MLX — повний README з документацією, бенчмарками та інструкцією з встановлення
- Оригінальний пост на X від GOLD (@Honcia13)