DALL-E 101:它是什麼及其工作原理

已發表: 2024-04-18

DALL-E 是創新的生成式人工智慧平台之一,模糊了人類和電腦生成創造力之間的界線。 以下是 DALL-E 的概述、如何使用它以及如何讓它為您所用。

目錄

  • 什麼是 DALL-E?
  • 誰創造了 DALL-E?
  • DALL-E的演變
  • DALL-E 的工作原理
  • DALL-E 是免費的嗎?
  • 如何使用 DALL-E
  • 用例和應用
  • DALL-E 的好處
  • DALL-E的缺點
  • 結論

什麼是 DALL-E?

DALL-E 是一個生成式 AI 平台,可將文字提示轉換為圖像。 DALL-E 可以處理自然語言,因此您不需要任何特殊的編碼或影像編輯能力即可使用它。 您可以輸入描述所需圖像的主題、風格、框架和其他特徵的提示,DALL-E 將產生與您的描述相符的視覺表示。 它還可以編輯現有圖像。

DALL-E 這個名字的靈感來自兩個著名人物的名字的組合:西班牙超現實主義藝術家薩爾瓦多·達利和 2008 年皮克斯同名電影中的機器人瓦力。

使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴

誰創造了 DALL-E?

OpenAI(ChatGPT 背後的同一家公司)創建了 DALL-E。 OpenAI是一家成立於2015年的人工智慧研究公司。

Open AI於2021年1月發布了DALL-E。

DALL-E 是如何演變的?

OpenAI 於 2020 年發布了首款影像生成工具,DALL-E 就是從那裡發展而來的。 OpenAI 首次涉足影像生成領域,稱為 Image GPT。 圖像 GPT 提供了 GPT 模型可以創建圖像的第一個證據。

然後是 DALL-E。 DALL-E 的第一次迭代基於 GPT-3 版本(OpenAI 於 2020 年發布的大型語言模型 (LLM)),適用於影像生成。

DALL-E 創建可信任的圖像並完成多項任務,其中包括:

  • 修改物件的多個特徵,例如球體的顏色和紋理
  • 了解取景,例如特寫鏡頭和廣角鏡頭
  • 從多個角度建立相同物件的影像
  • 了解地理資訊與歷史時期

什麼是 DALL-E 2?

下一版 DALL-E 2 產生的影像解析度是 DALL-E 產生影像的四倍。 它可以更有效地處理構圖和物件放置,使陰影和燈光等元素顯得更加真實。 DALL-E 2 還引入了兩個用於修改現有影像的新功能:修復和修復。

  • 修復是指擦除圖像的一部分並使用人工智慧用其他東西填充空白區域。 例如,您可以從照片背景中刪除建築物並用樹替換它。
  • 外畫是指使用 AI 擴展影像的邊界。 例如,如果您有一張公園裡的狗的特寫圖像,並希望將其放大以顯示遠處的城市天際線,DALL-E 2 可以透過外畫來實現這一點。

什麼是 DALL-E 3?

DALL-E 3 在許多方面比其前身有了重大改進。 對於初學者來說,它更擅長解釋提示。 以前的版本會跳過文字和描述。 您必須擅長快速工程才能獲得您想要的影像。 DALL-E 3 可以更好地理解細微差別和上下文,並且可以遵循更複雜的提示。 它的反應更加準確,影像更加連貫。 最終,它的輸出更符合人們的需求。

DALL-E 3 還包括更複雜的安全措施。 例如,它可以防止露骨、攻擊性或歧視性圖像。 為了防止人們創建侵犯版權和智慧財產權的圖像,DALL-E 3 不會產生類似於活著的公眾人物或模仿流行藝術家和品牌風格的圖像。 DALL-E 3 還允許創作者選擇不將他們的圖像用於訓練未來的模型。

納入現有的人工智慧工具

DALL-E 3 本身包含在 ChatGPT 和 Designer 中的 Microsoft Image Creator(以前稱為 Bing Image Generator)。

這意味著,如果您擁有高級 ChatGPT 訂閱,您可以在與聊天機器人對話的過程中產生影像。 有了這個功能,您不必只編寫簡單的提示。 您可以提出問題或給予指示,ChatGPT 可以將它們交給 DALL-E 來產生影像。

例如,您可能會說:「我剛搬到亞利桑那州,每個人都在談論一種稱為 haboob 的東西。 那看起來像什麼? ChatGPT 可以處理您的問題並產生 DALL-E 提示。 然後,DALL-E 將創建哈布布圖像,這是發生在亞利桑那州等乾燥地區的沙塵暴。

ChatGPT 也會詳細說明您的提示,以便向 DALL-E 提供更多詳細資訊。 如果您編寫的提示是“以復古攝影風格創建兩隻貓坐在椅子上的圖像”,ChatGPT 可能會將您的提示改進為:“創建兩隻貓坐在椅子上的黑白復古照片”。椅。 一隻貓是虎斑貓,另一隻貓全身都是灰色的。 兩隻貓並排坐著。

DALL-E 的工作原理

在基礎層面上,DALL-E 使用深度學習來理解圖像和文字之間的關係,允許模型為文字提示輸出新圖像。 DALL-E 背後的特定生成人工智慧模型正在不斷發展。

達爾-E 1

DALL-E 1(也稱為 DALL-E)使用 OpenAI 的 LLM GPT-3 的一個版本,該版本經過訓練可以根據文字描述產生圖像。 該模型基於變壓器架構。 正如 ChatGPT 透過逐一預測每個單字來產生文字一樣,DALL-E 的原始版本透過預測每個像素來產生圖像。

DALL-E 1 為單一提示產生許多候選輸出。 第二個人工智慧系統稱為 CLIP(對比語言影像預訓練),用於選擇最佳系統。 CLIP 與 DALL-E 1 一樣,都是在大型的圖像和標題資料集上進行訓練。 然而,CLIP 的目標是了解給定圖像和文字標題的相關程度。

達爾-E 2

DALL-E 2 使用擴散模型而不是 LLM 生成影像,以提高影像品質和準確性。

這種方法訓練模型拍攝雜訊影像,其中像素以隨機方式扭曲,並逐漸消除雜訊以顯示清晰的影像。 然後,您可以為模型提供一組像素加雜訊(代表一些底層影像特徵,例如「戴高禮帽的貓」),模型將從頭開始建立新影像。

DALL-E 2 使用 CLIP 來理解使用者提示中的文字並將其對應到圖像特徵。 這些資訊被傳遞到擴散模型,使其能夠產生適合用戶提示的輸出。

達爾-E 3

人們對 DALL-E 2 和 DALL-E 3 之間的架構差異知之甚少。 然而,DALL-E 3 幾乎肯定使用擴散模型,因為這被廣泛認為是最先進的影像生成技術。

據推測,DALL-E 3 使用更先進的擴散技術,並且可能使用 LLM(而不是像 CLIP 這樣的較小模型)來理解圖像和文字之間的關係。

DALL-E 可以免費使用嗎?

DALL-E 可透過付費 ChatGPT 訂閱取得,該訂閱為個人和企業提供多個等級。

您可以使用 Designer 中的 Microsoft Image Creator(以前稱為 Bing Image Generator)免費存取 DALL-E。 Image Creator 也可以透過 Microsoft 的聊天機器人 Copilot 取得。

使用 DALL-E 的技巧

以下是使用 DALL-E 獲得最佳結果的一些技巧:

具有描述性

您的提示越精確,DALL-E 的輸出就越好。

  • 提供對主要主題的清晰描述; 例如,「藍色超細纖維沙發」而不僅僅是「沙發」。
  • 解釋場景,例如“在熱帶海灘上”、“在 1970 年代的房子裡”或“在小學體育館內”。
  • 詳細描述任何動作,例如「太陽正在落山」、「一隻狗正在打瞌睡」或「一隻風箏正在飛翔」。
  • 描述圖像格式,例如「真實感」、「繪畫」或「鉛筆素描」。
  • 告訴DALL-E你想要哪種風格; 例如,「黑白」、「抽象」或「裝飾藝術」。
  • 包括相機角度和焦距,例如“鳥瞰圖”、“特寫”或“廣角”。
  • 提供照明細節,例如“深度陰影”、“閃光燈”或“背光”。
  • 描述心情; 例如,「浪漫」、「堅韌」或「夢幻」。

進行實驗

沒有教科書或完美的方法來使用 DALL-E。 獲得所需結果的最佳方法是採用實驗方法來使用它。

  • 對提示進行細微調整,看看是否能獲得更好的結果。 嘗試使用相同單字的變體,看看它是否會改變您的結果。
  • 找到細節的適當平衡。 如果您的提示太詳細,DALL-E 可能不知道哪些是最重要的。 試試提示的複雜性,找到你的最佳點。
  • 為錯誤和失敗做好準備。 DALL-E 可能會偏離軌道。 將每一次失敗的回應視為學習的機會。 找出什麼不起作用與找出什麼起作用同樣重要。

DALL-E 用例和應用

人們將 DALL-E 用於商業和個人環境中的許多應用。

行銷和商業溝通

  • 為部落格、社交媒體貼文和網站創建圖像
  • 設計廣告,例如傳單和海報
  • 設計標誌和品牌元素
  • 創造獨一無二的照片
  • 設計產品包裝

概念化

  • 設計實體產品
  • 渲染建築模型
  • 構思其他創意項目,例如動畫、分鏡和室內設計
  • 測試不同風格的創意

教育內容

  • 創建資訊圖表和圖表等視覺輔助工具
  • 描繪歷史事件
  • 可視化肉眼無法看到的科學過程,例如化學反應
  • 創造適合個別學生的特定需求、興趣或學習風格的圖像

藝術與設計

  • 為您的家居或派對裝飾創作客製化藝術品
  • 為書籍、專輯或電影設計封面藝術
  • 創作藝術品並透過 T 卹、書籤和印刷品等產品進行銷售
  • 創建參考圖像以用作其他藝術媒介(例如時裝設計)的靈感
  • 設計元素(例如背景紋理)以融入其他形式的藝術品中

修改現有影像

  • 為圖像添加更多主題
  • 調整背景
  • 更改縱橫比
  • 強調某些物體
  • 刪除一個物件並用其他物件替換它

使用 DALL-E 的好處

DALL-E 提供了許多優勢,包括從多種回應中進行選擇的能力、將平台與其他人工智慧工具一起使用以及消除藝術和設計的障礙。

每個提示產生多個影像

DALL-E 每個提示都會產生四張影像,因此您可以選擇最適合您喜好的圖片。 它稍微修改了每個圖像的提示,並對其進行擴展以添加更多細節。

例如,如果您輸入「黑暗小巷的漫畫書風格圖像」之類的通用提示,DALL-E 將改寫您的提示並添加細節,例如場景中的建築物風格、圖像的框架或主要顏色。 您可以透過點擊每個圖像來查看 DALL-E 的提示變化。

與 ChatGPT 和 Microsoft Copilot 集成

您可以透過您可能已經在使用的聊天機器人存取 DALL-E。 在一個工具內產生文字和圖像非常方便。 此外,由於這些是聊天機器人,因此您生成的圖像可以成為較長對話的一部分。

例如,假設您一直在使用 ChatGPT 建立嬰兒送禮會的議程。 在這種情況下,您也可以使用 DALL-E 製作邀請函圖片。 由於這都是對話的一部分,ChatGPT 可以將您議程的一些詳細資訊合併到邀請中。

讓設計變得更觸手可及

設計軟體和攝影設備可能價格昂貴且學習起來具有挑戰性。 DALL-E 讓影像生成對普通人來說更容易。

  • 小型企業主可以創建自訂品牌資產,例如以前無法訪問的照片和產品圖像。
  • 木工和雕刻等領域的愛好者可以起草其概念的可視化效果,而無需投資昂貴的軟體。
  • 來自代表性不足群體或具有特殊愛好的個人和組織可以創建符合他們興趣的圖像。

DALL-E的缺點

儘管 DALL-E 具有多種功能,但它也有一些限制。

不可預測性

由於 DALL-E 從頭開始產生每個影像,因此它可能是不可預測的。 假設您對物件放置或品牌標準有特定要求。 在這種情況下,DALL-E 可能不會總是將這些標準納入其結果中。

此外,稍微調整提示可能會導致明顯不同的輸出。 當更改 DALL-E 已經創建的圖像時,這尤其具有挑戰性。

偏見

所有生成式人工智慧都會處理偏見,DALL-E 也不例外。 DALL-E 可能會產生反映種族、性別、階級甚至某些語言或國家/地區偏見的回應。 DALL-E 主要根據來自美國的數據進行訓練,因此它通常反映美國文化、價值觀和偏見。

使用某些形容詞可能會導致刻板的結果。 例如,如果提示包含情緒敏感等詞語,則輸出可能與女性相關聯。 同時, “強硬”“知識分子”等詞語可能會帶來以男性為特徵的結果。

成本

除非您使用 Microsoft Image Creator,否則 DALL-E 需要付費,這可能會很不方便,具體取決於您的偏好。

如果您喜歡使用 ChatGPT 而不是 Microsoft 的 AI 平台,則必須付費才能存取 DALL-E。

DALL-E 和 AI 影像生成的下一步是什麼?

您可以使用 DALL-E 激發創意腦力激盪、簡化設計流程,或只是享受樂趣。 它是眾多生成式人工智慧平台之一,可讓您以新的方式進行創作。 由於它與 ChatGPT 和 Microsoft Image Creator 等現有 AI 平台集成,因此您可以在一個工具中建立圖像並生成文字。

使用 DALL-E 時,請務必注意,所有生成式 AI 都容易產生有偏見的回應。 了解 DALL-E 的限制可以讓您找到使用它的最佳方法並獲得您想要的圖像。

新的功能、特性和競爭對手不斷湧現。 任何想要使用生成式人工智慧的人——無論是出於商業、個人還是教育目的——都應該密切關注最新的發展。 我們將繼續報導產生人工智慧的重大變化,因此請關注 Grammarly 部落格以了解最新動態。