Imaginea Google AI Imagen depășește DALL-E 2


Imagine: Imagen/Google

Articolul poate fi afișat numai cu JavaScript activat. Activați JavaScript în browser și reîncărcați pagina.

Cu imaginea generativă AI Imagen, Google arată și după OpenAI că inteligența artificială poate genera imagini credibile și utile.

Imagen este răspunsul Google la imaginea recent introdusă de OpenAI AI DALL-E 2. Cu o singură diferență: OpenAI a dezvăluit DALL-E 2 direct ca produs care include un test beta, care ar trebui să fie disponibil pentru mai mulți oameni din vară.

Potrivit cercetătorilor Google, Imagen depășește DALL-E 2 în ceea ce privește precizia și calitatea, dar AI-ul generativ este în prezent disponibil doar ca o lucrare științifică. Din motive etice, probabil că acest lucru nu se va schimba în viitorul apropiat, despre asta mai târziu.

Imagen generează imagini care se potrivesc cu introducerea textului. | Imagine: Google AI

Textul devine imagine

Imagen se bazează pe un model de limbaj Transformer (T5) mare, pre-antrenat, care creează o reprezentare numerică a imaginii (încorporarea imaginii) din care un model de difuzie creează o imagine. Modelele de difuzie văd imagini care devin treptat zgomotoase în timpul antrenamentului. După antrenament, modelele pot inversa acest proces, adică să genereze o imagine din zgomot.

Procesul de generare a imaginii. Generarea imaginilor provine din înțelegerea textului unui model mare de limbaj Transformer. Teoretic, un model de limbaj diferit ar putea fi utilizat pentru intrare, care la rândul său ar trebui să afecteze calitatea imaginilor. | Imagine: Google AI

Imaginea originală de joasă rezoluție (64 x 64) este apoi mărită prin scalarea AI până la 1024 x 1024 pixeli – aceeași rezoluție ca DALL-E 2. Similar cu Nvidia DLSS, scalarea AI adaugă noi, adaugă detalii adecvate în ceea ce privește conținutul , astfel încât să ofere și o claritate ridicată în rezoluția țintă. Prin acest proces de upscaling, Imagen economisește multă putere de calcul care ar fi necesară dacă modelul ar scoate direct rezoluții înalte.

Imagen are performanțe mai bune decât DALL-E 2 la evaluarea umană

O constatare cheie a echipei Google AI este că un model mare de limbaj pre-antrenat este „surprinzător de eficient” pentru codificarea textului pentru sinteza ulterioară a imaginii. Pentru o generație de imagini mai realistă, aveți și Mărirea modelului lingvistic are un efect mai mare ca un antrenament mai extins al modelului de difuzie care creează imaginea reală.

Echipa a dezvoltat benchmark-ul DrawBench, în care oamenii evaluează calitatea unei reclame generate și cât de bine se potrivește reclamele cu textul introdus. Ei compară ieșirile mai multor sisteme în paralel.

În benchmark-ul DrawBench, imaginile umane generate de Imagen și DALL-E 2 au fost evaluate în ceea ce privește acuratețea potrivirii la intrare și calitatea motivului. Potrivit Google Imagen, testerii umani le-au preferat „în mod clar”. | Imagine: Google AI

În acest test, Imagen a avut rezultate semnificativ mai bune decât DALL-E 2, pe care cercetătorii o atribuie, printre altele, unei mai bune înțelegeri a limbii a modelului text. În cele mai multe cazuri, Imagen poate traduce instrucțiunea „A panda making latte art” în motivul potrivit: un panda care toarnă perfect lapte într-o ceașcă de cafea. DALL-E 2 creează în schimb o față de panda în spuma de lapte.

În stânga sunt imaginile generate de Imagen, care arată un motiv care se potrivește cu intrarea în trei din patru cazuri. În dreapta, interpretarea greșită a DALL-E 2 în patru din patru cazuri. | Imagine: Google

Imagen a atins, de asemenea, o nouă cea mai bună valoare (7,27) într-un benchmark utilizând setul de date COCO (Common Object in Context) și a avut performanțe mai bune decât DALL-E (17,89) și DALL-E 2 (10,39). Toate cele trei modele de imagine nu au fost instruite anterior cu datele Coco. Numai „Make-A-Scene” (7.55) de la Meta acționează la egalitate cu Imagen aici, dar AI-ul de imagine a lui Meta a fost antrenat cu datele Coco.

Mișcă-te încet și lasă lucrurile să se vindece

În prezent, o publicare a modelului nu este planificată din motive etice, deoarece modelul de text de bază conține „distorsiuni și restricții sociale”, motiv pentru care Imagen ar putea crea „stereotipuri dăunătoare”.

siglă

În plus, Imagen are în prezent „limitări semnificative” în generarea de imagini cu oameni în ele, inclusiv „o tendință generală de a genera imagini cu persoane cu tonuri de piele mai deschise și o tendință ca imaginile care reprezintă diferite ocupații să fie în concordanță cu stereotipurile de gen occidentale”.

Din acest motiv, Google nu dorește să lanseze Imagen sau tehnologie similară „fără măsuri de protecție suplimentare”. DALL-E 2 are si el aceste probleme. Prin urmare, OpenAI lansează foarte lent imaginea AI la aproximativ 1000 de testeri pe lună. O concluzie intermediară recentă după trei milioane de imagini generate a arătat că în prezent doar o fracțiune din motivele DALL-E încalcă regulile de conținut OpenAI.

Jeff Dean, cercetător senior AI la Google AI, vede potențialul AI de a stimula creativitatea în colaborarea om-calculator. Imagen este „o singură direcție” pe care o urmărește Google. decan împărtășește numeroase exemple de imagini pe Twitter. Mai multe informații și o demonstrație interactivă sunt disponibile pe pagina proiectului Imagen.

Surse: Modele fotorealiste de difuzare text-to-imagine cu înțelegere profundă a limbajului


Add Comment