Site icon Pingvin.Pro

OpenAI навчила нейромережу генерувати зображення з тексту

Хочу на Марс лабораторія технології штучного інтелекту / штучним інтелектом / штучний інтелект / штучного інтелекту

Компанія OpenAI, співзасновником якої є Ілон Маск, створила нейромережу, яка здатна з тексту генерує зображення. Ви уявляєте якийсь пейзаж або дію, описуєте це за допомогою тексту, а потім ШІ генерує для вас зображення з нуля. Ця область все ще на почтакових етапах розвитку, проте нещодавно продемонстрований результат дослідниками OpenAI, просто приголомшує.




Щоб досягти фотореалізму за допомогою текстових підказок довільної форми, дослідники застосували моделі керованої дифузії. Моделі дифузії працюють, спотворюючи навчальні дані, поступово додаючи гаусів шум, повільно стираючи деталі в даних, поки вони не стануть чистим шумом, а потім навчають нейромережу звертати цей процес спотворення. Їхня перевага перед іншими моделями синтезу зображень полягає в їхній високій якості зразків, в результаті чого зображення або аудіофайли практично не відрізняються від традиційних версій для людей.

Хоча ці дифузійні моделі цілком здатні синтезувати високоякісні зображення з нуля, створення переконливих зображень з дуже складних описів може виявитися важким завданням. Ось чому ця модель була оснащена можливостями редагування на додачу до «генерації нульового кадру». Після введення текстового опису модель шукає наявне зображення, потім редагує та фарбує його. Правки відповідають стилю та освітленню навколишнього контенту, тому все виглядає як автоматизований Photoshop. Ця гібридна система відома як GLIDE, або керована мова для поширення зображень для створення та редагування.

Наприклад, введення текстового опису типу «дівчина, що обіймає коргі на п’єдесталі», спонукає GLIDE знайти наявне зображення дівчини, що обіймає собаку, потім ШІ прибере собаку з вихідного зображення і вставить коргі.