Головна » Технології / Новини » Gemma 4 QAT: Google стиснула ШІ-моделі для смартфонів

Компанія Google продовжує розширювати можливості своїх моделей штучного інтелекту. Нещодавно вона анонсувала нові версії сімейства Gemma 4, які тепер оптимізовані за допомогою QAT (Quantization-Aware Training — Навчання з урахуванням квантування). Ця модель Gemma 4 QAT суттєво зменшує вимоги до памʼяті та максимізує продуктивність безпосередньо на пристроях.




За словами Олівʼє Лакомба (Olivier Lacombe), директора з управління продуктами Google DeepMind, та Омара Сансевʼєро (Omar Sanseviero), члена технічного персоналу Google DeepMind, нові моделі призначені для локального запуску на повсякденних периферійних пристроях та споживчих графічних процесорах. Це важливий крок у напрямку доступності високопродуктивного ШІ для широкого кола користувачів та розробників.

Переваги QAT

Квантування є ключовою технологією для запуску моделей на споживчому обладнанні. Воно дозволяє зменшити обсяг памʼяті та прискорити швидкість декодування. Стандартне PTQ (Post-Training Quantization — Квантування після навчання) часто призводить до зниження якості моделі, оскільки квантування відбувається вже після завершення навчання.

Натомість QAT інтегрує процес квантування безпосередньо у навчання, симулюючи його ще на етапі тренування. Такий підхід мінімізує втрату якості при стисненні моделі. Результати QAT демонструють значно вищу загальну якість порівняно зі стандартними PTQ-базовими показниками. Розробники застосували цей метод до популярного формату Q4_0, щоб максимізувати продуктивність для всіх моделей Gemma 4. Для периферійних моделей E2B та E4B було переосмислено підхід до квантування, застосувавши спеціалізовану мобільну схему.

Gemma 4 QAT

Деталі мобільної оптимізації Gemma 4

Стандартні формати стиснення часто створюють труднощі для ефективної роботи мобільних процесорів. Щоб забезпечити безперебійну роботу Gemma 4 на мобільних пристроях, інженери Google розробили спеціальну схему мобільного квантування, призначену для периферійного обладнання. Така Gemma 4 QAT передбачає кілька ключових аспектів:

  • Статичні активації: Зазвичай моделі витрачають обчислювальну потужність на масштабування даних у реальному часі. Попереднє обчислення цих параметрів під час навчання зменшує навантаження на мобільні чипи та прискорює відповіді.
  • Квантування за каналами: Стиснені дані структуровані для відповідності дизайну мобільних прискорювачів. Це дозволяє телефону виконувати обчислення нативно, без використання повільних обхідних шляхів.
  • Цільове 2-бітне квантування: Сильне стиснення (до 2 біт) застосовано до конкретних частин моделі, що генерують токени, зберігаючи основні шари логіки з вищою точністю. Це економить місце для зберігання, не знижуючи «інтелекту» моделі.
  • Оптимізація вбудовування та KV-кешу: Зосереджено стиснення на словниковому списку моделі та її короткостроковій памʼяті. Це значно зменшує активне використання памʼяті, дозволяючи вести тривалі розмови без її вичерпання.

Оскільки аудіо- та відеокодери не потрібні у багатьох випадках використання, можна додатково оптимізувати памʼять, розгортаючи лише необхідні модальності. Наприклад, текстова модель Gemma 4 E2B (без Per-Layer Embeddings) вимагає менш як 1 ГБ памʼяті. Це справді помітно зменшує вимоги до ресурсів.

Доступність та інтеграція оптимізованих моделей

Щоб полегшити використання моделей Gemma 4 QAT у звичних робочих процесах, Google співпрацює з популярними інструментами розробників у всій екосистемі. Це забезпечує безперешкодну підтримку контрольних точок Gemma 4 QAT:

  • Завантаження: розмір моделей Q4_0 та мобільних версій доступні на Hugging Face. Формати GGUF готові для використання з llama.cpp, а стиснені тензори надаються для vLLM.
  • Інтеграція та навчання: Документація містить інформацію про найкращі способи розгортання контрольних точок QAT.
  • Випробування на компʼютері: Моделі Gemma 4 QAT легко завантажуються, керуються та запускаються локально на компʼютері за допомогою зручних інтерфейсів, як-от llama.cpp, Ollama та LM Studio.
  • Розгортання на пристроях: Для оптимізованого розгортання на периферійних пристроях використовується легке за розміром середовище виконання LiteRT-LM від Google. Також моделі можна запускати безпосередньо у вебі за допомогою Transformers.js.
  • Улюблені інструменти розробки: Більші моделі ефективно обслуговуються за допомогою SGLang та vLLM. Оптимізація для Apple Silicon можлива завдяки MLX. Більше про можливості ШІ від Google ви можете дізнатися, ознайомившись із ключових подій Google I/O 2026 або розглянувши можливості Gemini Omni ШІ.

Загалом, нова модель Gemma 4 QAT відкриває ширші можливості для розробників, дозволяючи створювати більш продуктивні та енергоефективні застосунки зі штучним інтелектом. Це також означає, що передові можливості ШІ стають доступнішими для виконання безпосередньо на користувацьких пристроях, зменшуючи залежність від хмарних обчислень.

Поділитися:
Правила коментування

Вітаємо Вас на сайті Pingvin Pro. Ми докладаємо всіх зусиль, аби переконатися, що коментарі наших статей вільні від тролінгу, спаму та образ. Саме тому, на нашому сайті включена премодерація коментарів. Будь ласка, ознайомтеся з кількома правилами коментування.

  1. Перш за все, коментування відбувається через сторонній сервіс Disqus. Модератори сайту не несуть відповідальність за дії сервісу.
  2. На сайті ввімкнена премодерація. Тому ваш коментар може з’явитися не одразу. Нам теж інколи треба спати.
  3. Будьте ввічливими – ми не заохочуємо на сайті грубість та образи. Пам’ятайте, що слова мають вплив на людей! Саме тому, модератори сайту залишають за собою право не публікувати той чи інший коментар.
  4. Будь-які образи, відкриті чи завуальовані, у бік команди сайту, конкретного автора чи інших коментаторів, одразу видаляються. Агресивний коментатор може бути забанений без попереджень і пояснень з боку адміністрації сайту.
  5. Якщо вас забанили – на це були причини. Ми не пояснюємо причин ані тут, ані через інші канали зв’язку з редакторами сайту.
  6. Коментарі, які містять посилання на сторонні сайти чи ресурси можуть бути видалені без попереджень. Ми не рекламний майданчик для інших ресурсів.
  7. Якщо Ви виявили коментар, який порушує правила нашого сайту, обов’язково позначте його як спам – модератори цінують Вашу підтримку.

Схожі новини

NVIDIA розвиває робототехніку: від симуляцій до реальності
💬
📰 Новини

NVIDIA розвиває робототехніку: від симуляцій до реальності

NVIDIA Research демонструє, як перенести робототехніку із симуляцій у реальний світ. Це допомагає роботам краще сприймати та діяти у непередбачуваних умовах.


Google виділила 12 ключових моментів I/O 2026
💬
📰 Новини

Google виділила 12 ключових моментів I/O 2026

Конференція Google I/O 2026 вже завершилася, проте компанія Google нещодавно запропонувала згадати її головні події. Йдеться про 12 ключових моментів, які визначатимуть вектор розвитку технологій на найближчий рік.


⬆️