Gemma 4 QAT: Google стиснула ШІ-моделі для смартфонів

Pingvin Pro

2 місяці ago

Google випустила Gemma 4 QAT для оптимізації на пристроях

Компанія Google продовжує розширювати можливості своїх моделей штучного інтелекту. Нещодавно вона анонсувала нові версії сімейства Gemma 4, які тепер оптимізовані за допомогою QAT (Quantization-Aware Training — Навчання з урахуванням квантування). Ця модель Gemma 4 QAT суттєво зменшує вимоги до памʼяті та максимізує продуктивність безпосередньо на пристроях.

За словами Олівʼє Лакомба (Olivier Lacombe), директора з управління продуктами Google DeepMind, та Омара Сансевʼєро (Omar Sanseviero), члена технічного персоналу Google DeepMind, нові моделі призначені для локального запуску на повсякденних периферійних пристроях та споживчих графічних процесорах. Це важливий крок у напрямку доступності високопродуктивного ШІ для широкого кола користувачів та розробників.

Переваги QAT

Квантування є ключовою технологією для запуску моделей на споживчому обладнанні. Воно дозволяє зменшити обсяг памʼяті та прискорити швидкість декодування. Стандартне PTQ (Post-Training Quantization — Квантування після навчання) часто призводить до зниження якості моделі, оскільки квантування відбувається вже після завершення навчання.

Натомість QAT інтегрує процес квантування безпосередньо у навчання, симулюючи його ще на етапі тренування. Такий підхід мінімізує втрату якості при стисненні моделі. Результати QAT демонструють значно вищу загальну якість порівняно зі стандартними PTQ-базовими показниками. Розробники застосували цей метод до популярного формату Q4_0, щоб максимізувати продуктивність для всіх моделей Gemma 4. Для периферійних моделей E2B та E4B було переосмислено підхід до квантування, застосувавши спеціалізовану мобільну схему.

Gemma 4 QAT

Деталі мобільної оптимізації Gemma 4

Стандартні формати стиснення часто створюють труднощі для ефективної роботи мобільних процесорів. Щоб забезпечити безперебійну роботу Gemma 4 на мобільних пристроях, інженери Google розробили спеціальну схему мобільного квантування, призначену для периферійного обладнання. Така Gemma 4 QAT передбачає кілька ключових аспектів:

Статичні активації: Зазвичай моделі витрачають обчислювальну потужність на масштабування даних у реальному часі. Попереднє обчислення цих параметрів під час навчання зменшує навантаження на мобільні чипи та прискорює відповіді.
Квантування за каналами: Стиснені дані структуровані для відповідності дизайну мобільних прискорювачів. Це дозволяє телефону виконувати обчислення нативно, без використання повільних обхідних шляхів.
Цільове 2-бітне квантування: Сильне стиснення (до 2 біт) застосовано до конкретних частин моделі, що генерують токени, зберігаючи основні шари логіки з вищою точністю. Це економить місце для зберігання, не знижуючи «інтелекту» моделі.
Оптимізація вбудовування та KV-кешу: Зосереджено стиснення на словниковому списку моделі та її короткостроковій памʼяті. Це значно зменшує активне використання памʼяті, дозволяючи вести тривалі розмови без її вичерпання.

Оскільки аудіо- та відеокодери не потрібні у багатьох випадках використання, можна додатково оптимізувати памʼять, розгортаючи лише необхідні модальності. Наприклад, текстова модель Gemma 4 E2B (без Per-Layer Embeddings) вимагає менш як 1 ГБ памʼяті. Це справді помітно зменшує вимоги до ресурсів.

Доступність та інтеграція оптимізованих моделей

Щоб полегшити використання моделей Gemma 4 QAT у звичних робочих процесах, Google співпрацює з популярними інструментами розробників у всій екосистемі. Це забезпечує безперешкодну підтримку контрольних точок Gemma 4 QAT:

Завантаження: розмір моделей Q4_0 та мобільних версій доступні на Hugging Face. Формати GGUF готові для використання з llama.cpp, а стиснені тензори надаються для vLLM.
Інтеграція та навчання: Документація містить інформацію про найкращі способи розгортання контрольних точок QAT.
Випробування на компʼютері: Моделі Gemma 4 QAT легко завантажуються, керуються та запускаються локально на компʼютері за допомогою зручних інтерфейсів, як-от llama.cpp, Ollama та LM Studio.
Розгортання на пристроях: Для оптимізованого розгортання на периферійних пристроях використовується легке за розміром середовище виконання LiteRT-LM від Google. Також моделі можна запускати безпосередньо у вебі за допомогою Transformers.js.
Улюблені інструменти розробки: Більші моделі ефективно обслуговуються за допомогою SGLang та vLLM. Оптимізація для Apple Silicon можлива завдяки MLX. Більше про можливості ШІ від Google ви можете дізнатися, ознайомившись із ключових подій Google I/O 2026 або розглянувши можливості Gemini Omni ШІ.

Загалом, нова модель Gemma 4 QAT відкриває ширші можливості для розробників, дозволяючи створювати більш продуктивні та енергоефективні застосунки зі штучним інтелектом. Це також означає, що передові можливості ШІ стають доступнішими для виконання безпосередньо на користувацьких пристроях, зменшуючи залежність від хмарних обчислень.