DALL-E 101: Ce este și cum funcționează

Publicat: 2024-04-18

DALL-E este una dintre platformele inovatoare de inteligență artificială generativă, care estompează liniile dintre creativitatea generată de oameni și cea generată de computer. Iată o prezentare generală a DALL-E, cum să-l folosești și ce ar trebui să știi pentru ca acesta să funcționeze pentru tine.

Cuprins

Ce este DALL-E?
Cine a creat DALL-E?
Evoluția DALL-E
Cum funcționează DALL-E
DALL-E este gratuit?
Cum se utilizează DALL-E
Cazuri de utilizare și aplicații
Beneficiile DALL-E
Deficiențe ale DALL-E
Concluzie

Ce este DALL-E?

DALL-E este o platformă AI generativă care transformă solicitările de text în imagini. DALL-E poate procesa limbajul natural, așa că nu aveți nevoie de abilități speciale de codare sau de editare a imaginilor pentru a-l folosi. Puteți introduce solicitări care descriu subiectul, stilul, încadrarea și alte caracteristici ale imaginii dorite, iar DALL-E va produce o reprezentare vizuală care se potrivește cu descrierea dvs. De asemenea, poate edita imagini existente.

Numele DALL-E a fost inspirat de o combinație a numelor a două figuri cunoscute: artistul suprarealist spaniol Salvador Dali și WALL-E, robotul din filmul Pixar din 2008 cu același nume.

Lucrați mai inteligent cu Grammarly

Partenerul de scriere AI pentru oricine are de lucru

Cine a creat DALL-E?

OpenAI, aceeași companie din spatele ChatGPT, a creat DALL-E. OpenAI este o companie de cercetare AI fondată în 2015.

Open AI a lansat DALL-E în ianuarie 2021. A lansat DALL-E 2 în septembrie 2022 și DALL-E 3 în octombrie 2023.

Cum a evoluat DALL-E?

OpenAI a anunțat primul său instrument de generare de imagini în 2020, iar DALL-E a evoluat de acolo. Prima incursiune a OpenAI în generarea de imagini a fost numită Image GPT. Image GPT a oferit prima dovadă că modelul GPT ar putea crea imagini.

Apoi a venit DALL-E. Prima iterație a DALL-E s-a bazat pe o versiune a GPT-3 – modelul de limbaj mare (LLM) pe care OpenAI l-a lansat în 2020 – adaptată pentru generarea de imagini.

DALL-E creează imagini credibile și îndeplinește mai multe sarcini, dintre care unele includ:

Modificarea mai multor caracteristici ale unui obiect, cum ar fi culoarea și textura unei sfere
Înțelegerea încadrării, cum ar fi prim-planurile și unghiurile largi
Crearea de imagini ale aceluiași obiect din mai multe unghiuri
Înțelegerea informațiilor geografice și a perioadelor din istorie

Ce este DALL-E 2?

Următoarea versiune, DALL-E 2, generează imagini cu o rezoluție de patru ori mai mare decât imaginile generate de DALL-E. Gestionează mai eficient compoziția și plasarea obiectelor, făcând elemente precum umbrele și iluminarea să pară mai realiste. DALL-E 2 a introdus și două noi funcții pentru modificarea imaginilor existente: inpainting și outpainting.

Inpainting este atunci când ștergeți o porțiune a unei imagini și utilizați AI pentru a completa spațiul gol cu altceva. De exemplu, puteți elimina o clădire din fundalul unei fotografii și o puteți înlocui cu un copac.
Outpainting este atunci când extindeți granițele unei imagini cu AI. De exemplu, dacă aveți o imagine de prim-plan a câinelui dvs. într-un parc și doriți să o extindeți pentru a arăta orizontul orașului în depărtare, DALL-E 2 face asta cu desen.

Ce este DALL-E 3?

DALL-E 3 este o îmbunătățire semnificativă față de predecesorul său în mai multe moduri. Pentru început, este mai bine la interpretarea solicitărilor. Versiunile anterioare treceau peste cuvinte și descrieri. Trebuia să devii bun la inginerie promptă pentru a obține imaginea pe care o doreai. DALL-E 3 înțelege mai bine nuanțele și contextul și poate urma indicații mai complexe. Răspunsurile sale sunt mai precise, iar imaginile sale sunt mai coerente. În cele din urmă, producția sa se aliniază mai bine cu ceea ce își doresc oamenii.

DALL-E 3 include și măsuri de securitate mai sofisticate. De exemplu, previne imaginile explicite, agresive sau discriminatorii. Pentru a împiedica oamenii să creeze imagini care încalcă drepturile de autor și încalcă proprietatea intelectuală, DALL-E 3 nu generează imagini care seamănă cu personalități publice în viață sau care imită stilul artiștilor și mărcilor populare. DALL-E 3 le permite creatorilor să renunțe la utilizarea imaginilor lor pentru antrenarea viitoarelor modele.

Includerea cu instrumentele AI existente

DALL-E 3 este inclus nativ cu ChatGPT și Microsoft Image Creator de la Designer (fost Bing Image Generator).

Aceasta înseamnă că, dacă aveți un abonament ChatGPT premium, puteți genera imagini ca parte a conversației cu chatbot-ul. Cu această capacitate, nu trebuie doar să scrieți solicitări simple. Puteți pune întrebări sau oferi indicații, iar ChatGPT le poate înmâna lui DALL-E pentru a genera o imagine.

De exemplu, ați putea spune: „Tocmai m-am mutat în Arizona și toată lumea continuă să vorbească despre ceva numit haboob. Cum arată asta?” ChatGPT vă poate procesa întrebarea și genera o solicitare pentru DALL-E. DALL-E va crea apoi imagini cu un haboob, care este o furtună de praf care are loc în zone uscate precum Arizona.

ChatGPT va detalia, de asemenea, solicitările dvs. pentru a oferi DALL-E mai multe detalii. Dacă scrieți o solicitare care spune „Creați o imagine a două pisici așezate pe un scaun, într-un stil fotografic de epocă”, ChatGPT vă poate rafina solicitarea la următoarea: „Creați o fotografie de epocă alb-negru cu două pisici așezate pe un scaun de canapea verde. O pisică este un tabby, iar cealaltă este gri peste tot. Cele două pisici stau una lângă alta.”

Cum funcționează DALL-E

La un nivel de bază, DALL-E folosește învățarea profundă pentru a înțelege relațiile dintre imagini și text, permițând modelului să scoată imagini noi pentru un prompt text. Modelele specifice AI generative din spatele DALL-E evoluează constant.

DALL-E 1

DALL-E 1 (numit și DALL-E) folosește o versiune a GPT-3, LLM al OpenAI, care a fost antrenat pentru a genera imagini din descrierile de text. Acest model se bazează pe o arhitectură de transformator. Așa cum ChatGPT generează text prin predicția fiecărui cuvânt unul câte unul, versiunea originală a DALL-E generează imagini prin prezicerea fiecărui pixel.

DALL-E 1 generează multe ieșiri candidate pentru un singur prompt. Un al doilea sistem AI, numit CLIP (Contrastive Language-Image Pretraining), este utilizat pentru a-l selecta pe cel mai bun. CLIP, la fel ca DALL-E 1, este antrenat pe un set de date mare de imagini și subtitrări. Totuși, scopul CLIP este să înțeleagă cât de strâns sunt legate o anumită imagine și legenda text.

DALL-E 2

DALL-E 2 generează imagini folosind un model de difuzie mai degrabă decât un LLM pentru o calitate și acuratețe îmbunătățite a imaginii.

Această abordare antrenează un model să realizeze imagini zgomotoase, în care pixelii au fost distorsionați într-un mod aleatoriu și să elimine treptat zgomotul pentru a dezvălui o imagine clară. Apoi, puteți oferi unui model un set de pixeli plus zgomot – care reprezintă unele caracteristici subiacente ale imaginii, cum ar fi „o pisică într-o pălărie de culoare” – iar modelul va construi o nouă imagine de la zero.

DALL-E 2 folosește CLIP pentru a înțelege textul din promptul utilizatorului și pentru a-l mapa la caracteristicile imaginii. Aceste informații sunt transmise modelului de difuzie, permițându-i acestuia să genereze o ieșire care se potrivește promptului utilizatorului.

DALL-E 3

Se știu puține despre diferențele arhitecturale dintre DALL-E 2 și DALL-E 3. Acest lucru se datorează faptului că OpenAI nu a distribuit aceste informații în mod public. Cu toate acestea, DALL-E 3 utilizează aproape sigur un model de difuzie, deoarece acesta este larg acceptat ca tehnică de ultimă generație pentru generarea de imagini.

Există speculații că DALL-E 3 utilizează tehnici de difuzie mai avansate și poate folosi un LLM (mai degrabă decât un model mai mic precum CLIP) pentru a înțelege relațiile dintre imagini și text.

Este DALL-E de utilizat gratuit?

DALL-E este disponibil cu un abonament ChatGPT plătit, care este oferit în mai multe niveluri pentru persoane fizice și companii.

Puteți accesa DALL-E gratuit cu Microsoft Image Creator de la Designer (fost Bing Image Generator). Image Creator este disponibil și prin Copilot, care este chatbot-ul Microsoft.

Sfaturi pentru utilizarea DALL-E

Iată câteva sfaturi pentru a obține cele mai bune rezultate cu DALL-E:

Fii descriptiv

Cu cât solicitarea dvs. este mai precisă, cu atât rezultatul DALL-E va fi mai bun.

Oferiți o descriere clară a subiectului principal; de exemplu, „o canapea albastră din microfibră” în loc de doar „o canapea”.
Explicați decorul, cum ar fi „pe o plajă tropicală”, „într-o casă din anii 1970” sau „în interiorul unei săli de sport de școală elementară”.
Detaliați orice acțiune, cum ar fi „soarele apune”, „un câine dormea” sau „un zmeu zboară”.
Descrieți formatul imaginii, cum ar fi „fotorealist”, „pictură” sau „schiță în creion”.
Spune-i lui DALL-E ce stil vrei; de exemplu, „alb-negru”, „abstract” sau „art deco”.
Includeți unghiul camerei și distanța focală, cum ar fi „vedere aeriană”, „prim-plan” sau „unghi larg”.
Furnizați detalii de iluminare, cum ar fi „umbre profunde”, „bliț” sau „iluminat din spate”.
Descrieți starea de spirit; de exemplu, „romantic”, „acurat” sau „visător”.

Fii experimental

Nu există un manual sau o modalitate perfectă de a folosi DALL-E. Cel mai bun mod de a obține rezultatele dorite este să utilizați o abordare experimentală.

Faceți mici ajustări la solicitări pentru a vedea dacă obțineți rezultate mai bune. Încercați să utilizați variante ale acelorași cuvinte pentru a vedea dacă vă modifică rezultatele.
Găsiți echilibrul potrivit de detalii. Dacă solicitările dvs. sunt prea detaliate, DALL-E poate să nu știe care sunt cele mai importante. Joacă-te cu complexitatea solicitărilor tale pentru a-ți găsi locul ideal.
Pregătește-te pentru greșeli și eșecuri. DALL-E se poate deplasa. Luați fiecare răspuns eșuat ca pe o oportunitate de învățare. A afla ce nu funcționează este la fel de important ca și a afla ce funcționează.

Cazuri de utilizare și aplicații DALL-E

Oamenii folosesc DALL-E pentru multe aplicații în medii de afaceri și personale.

Marketing și comunicare de afaceri

Crearea de imagini pentru bloguri, postări pe rețelele sociale și site-uri web
Proiectarea de reclame, cum ar fi fluturași și afișe
Proiectarea logo-urilor și a elementelor de marcă
Crearea de fotografii de stoc unice
Proiectarea ambalajului produsului

Conceptualizarea

Proiectarea produselor fizice
Redarea modelelor arhitecturale
Idearea altor proiecte creative, cum ar fi animație, storyboard-uri și design interior
Testarea ideilor creative în diferite stiluri

Conținut educațional

Crearea de ajutoare vizuale, cum ar fi infografice și diagrame
Reprezentând evenimente istorice
Vizualizarea proceselor științifice pe care nu le puteți vedea cu ochiul liber, cum ar fi reacțiile chimice
Crearea de imagini adaptate nevoilor, intereselor sau stilului de învățare specifice ale unui elev

Artă și Design

Crearea de lucrări de artă personalizate pentru casa dvs. sau decorul petrecerii
Proiectarea copertelor pentru cărți, albume sau filme
Crearea de artă pentru a vinde pe produse precum tricouri, marcaje și imprimeuri
Crearea de imagini de referință pentru a le folosi ca inspirație pentru alte medii de artă, cum ar fi designul vestimentar
Proiectarea elementelor, cum ar fi texturile de fundal, pentru a le incorpora în alte forme de artă

Modificarea imaginilor existente

Adăugarea mai multor subiecte la o imagine
Reglarea fundalului
Schimbarea raportului de aspect
Sublinierea anumitor obiecte
Îndepărtarea unui obiect și înlocuirea lui cu altceva

Beneficiile utilizării DALL-E

DALL-E oferă numeroase avantaje, inclusiv abilitatea de a alege dintre mai multe răspunsuri, de a utiliza platforma alături de alte instrumente AI și de a elimina barierele din calea artei și a designului.

Generează mai multe imagini pentru fiecare prompt

DALL-E generează patru imagini per prompt, astfel încât să o puteți alege pe cea care se potrivește cel mai bine preferințelor dvs. Modifică ușor promptul pentru fiecare imagine și îl extinde pentru a adăuga mai multe detalii.

De exemplu, dacă introduceți o solicitare generică, cum ar fi „O imagine în stil de benzi desenate a unei alei întunecate”, DALL-E vă va reformula solicitarea și va adăuga detalii precum stilul clădirilor din scenă, încadrarea imaginii sau culorile predominante. Puteți vedea variațiile prompte ale DALL-E făcând clic pe fiecare imagine.

Se integrează cu ChatGPT și Microsoft Copilot

Puteți accesa DALL-E prin chatbot-uri pe care este posibil să îi utilizați deja. Este convenabil să generați text și imagini într-un singur instrument. De asemenea, deoarece aceștia sunt chatboți, imaginile pe care le generați pot face parte dintr-o conversație mai lungă.

De exemplu, să presupunem că ați folosit ChatGPT pentru a crea o agendă pentru un baby shower. În acest caz, puteți folosi și DALL-E pentru a realiza imaginile pentru invitații. Deoarece totul face parte dintr-o conversație, ChatGPT poate încorpora unele dintre detaliile agendei tale în invitație.

Face designul mai accesibil

Software-ul de proiectare și echipamentele fotografice pot fi costisitoare și dificil de învățat. DALL-E face generarea de imagini mai accesibilă pentru omul obișnuit.

Proprietarul unei mici afaceri poate crea elemente personalizate de marcă, cum ar fi fotografii și imagini ale produselor, care anterior nu ar fi fost accesibile.
Pasionații din domenii precum prelucrarea lemnului și sculptura pot crea vizualizări ale conceptelor lor fără să investească în software costisitor.
Oamenii și organizațiile din grupuri subreprezentate sau cu hobby-uri de nișă pot crea imagini care vorbesc cu interesele lor.

Deficiențe ale DALL-E

În ciuda capacităților sale, DALL-E are unele limitări.

Imprevizibilitate

Deoarece DALL-E generează fiecare imagine de la zero, aceasta poate fi imprevizibilă. Să presupunem că aveți cerințe specifice pentru plasarea obiectelor sau standardele mărcii. În acest caz, DALL-E poate să nu încorporeze întotdeauna acele standarde în rezultatele sale.

De asemenea, ajustarea ușoară a promptului poate duce la o ieșire semnificativ diferită. Acest lucru este deosebit de dificil atunci când schimbați o imagine deja creată de DALL-E.

Prejudecăți

Toate AI generative se ocupă de părtiniri, iar DALL-E nu este diferit. DALL-E este supus generării de răspunsuri care reflectă părtiniri legate de rasă, gen, clasă și chiar anumite limbi sau țări. DALL-E a fost instruit în principal pe date din SUA, deci reflectă adesea cultura, valorile și părtinirile americane.

Folosirea anumitor adjective poate duce la rezultate stereotipe. De exemplu, dacă solicitarea conține cuvinte precumemoționalsausensibil, rezultatul poate fi asociat cu o femeie. În același timp, cuvinte precumdursauintelectualpot duce la rezultate care prezintă bărbați.

Cost

DALL-E are un cost cu excepția cazului în care utilizați Microsoft Image Creator, ceea ce poate fi incomod, în funcție de preferințele dvs.

Dacă preferați să utilizați ChatGPT față de platformele Microsoft AI, va trebui să plătiți pentru a accesa DALL-E.

Ce urmează pentru generarea de imagini DALL-E și AI?

Puteți folosi DALL-E pentru a alimenta brainstormingul creativ, pentru a eficientiza procesele de proiectare sau pur și simplu pentru a vă distra. Este una dintre numeroasele platforme AI generative care vă permite să creați în moduri noi. Deoarece este integrat cu platformele AI existente, cum ar fi ChatGPT și Microsoft Image Creator, puteți crea imagini și genera text într-un singur instrument.

Când utilizați DALL-E, este important să aveți în vedere faptul că toate AI generative sunt predispuse să producă răspunsuri părtinitoare. Cunoașterea limitărilor DALL-E vă permite să găsiți cele mai bune modalități de a-l folosi și de a obține imaginile dorite.

Noi capabilități, caracteristici și concurenți apar în mod constant. Oricine dorește să folosească inteligența artificială generativă – fie în scopuri de afaceri, personale sau educaționale – ar trebui să țină cont de cele mai recente evoluții. Vom continua să acoperim schimbările semnificative din IA generativă, așa că ține pasul cu blogul Grammarly pentru a rămâne la curent.