ai畫手 Midjourney危,Sta
自從發(fā)布v5之后,在生成圖像的人物真實程度、手指細節(jié)等方面都有了顯著改善,并且在理解的準確性、審美多樣性和語言理解方面也都取得了進步。
相比之下, 雖然免費、開源,但每次都要寫一大長串的,想生成高質量的圖像全靠多次抽卡。
最近 AI的官宣,正在研發(fā)的 XL開始面向公眾測試,目前可以在平臺免費試用。
試用鏈接:
AI的創(chuàng)始人兼首席執(zhí)行官Emad 表示,目前該模型仍然處于訓練階段,等參數(shù)穩(wěn)定后將會開源;SD-XL在「握手」等圖像細節(jié)方面會表現(xiàn)更好,幾乎完全可控。
XL也并不是最終發(fā)布版的名字,并且也并非是v3,因為SD-XL的架構和SD-v2系列的模型架構非常相似。
home gym with , wall- TV, , ball, , yoga mats, high-tech , high , and .
簡約的家庭健身房,橡膠地板,壁掛式電視,舉重凳,藥球,啞鈴,瑜伽墊,高科技設備,高細節(jié),組織和效率
下面幾張SD-XL官方發(fā)布的例圖,可以看出圖像的質量已經(jīng)非常能打了。
不過有時候less并不代表more,有網(wǎng)友認為SD-XL為了擺脫「糟糕的品味」,設定了太多的規(guī)則,定制化空間越來越小,不符合大多數(shù)人的喜好。目前v1.5的 仍然是社區(qū)內最流行的基座模型。
網(wǎng)友表示希望新版SD能夠和SD 2.1版本的嵌入、和Lora模型保持兼容,再從零開始重訓的話就太難受了。
也有網(wǎng)友認為,SD-XL的表現(xiàn)和網(wǎng)站上網(wǎng)友分享的模型差不多,新模型的效果也并不是特別驚艷,也就是平均水平。
SD-XL:開源版
關于 XL模型的具體信息,官方并沒有透露太多,目前只知道是一個與v2模型架構相似、但規(guī)模和參數(shù)量更大的模型。
SD-v2.1包括9億參數(shù),SD-XL大約有23億參數(shù),Emad表示正式版可能會額外發(fā)布一個更小的蒸餾版本。
SD-XL相比之前版本的改進如下:
需要注意的是,SD-XL可能與之前版本的插件不兼容。
清晰可讀的文字
在v1系列和v2.1版本的 模型中,并不具備在圖片中生成可讀文本的能力。
雖然SD-XL生成的文本信息并不總是準確,但確實得到了巨大的提升。
of a in a a menu that says “Menu”
一個女人坐在餐館里拿著寫著「Menu」的菜單
of a man a sign that says “ ”
一個男人舉著寫著「 」的牌子
a a sign that says “ ”, in hair, , eyes, a , side
一個年輕的女性舉著一個牌子,上面寫著「 」,頭發(fā)高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈
更好的人體結構
在生成人體解剖結構方面一直存在諸多問題,多幾條腿、少個胳膊實在是太常見不過的問題,通常需要使用功能進一步對圖像細節(jié)進行修正;或者是使用的Open Pose功能從參考圖像中復制人體的姿態(tài)。
比如說SD-v1.5生成瑜伽的圖像,經(jīng)常會出現(xiàn)扭曲的人體。
of a in yoga , pose, in , rim
一個女人的照片在瑜伽服裝,三角形的姿勢,海灘在晚上,邊緣照明
SD-XL雖然生成的圖像并不完美,不過在人體姿態(tài)方面已經(jīng)有了顯著的進步。
更有美感(more )
比如同樣以屋子為主題,SD-XL可以生成更對稱、視覺效果更好的照片。
SD-XL在肖像照片上也有顯著改進。
shot of a
一個女人的照片
更貼合的圖像
SD-XL可以更好地理解輸入的,并生成更精確的圖像。
比如以(雙色)為例,SD-v1.5只會生成黑白圖像,而SD-XL則可以生成具有多種顏色的雙色調圖像。
與 v1模型相比,理解提示符的能力有所提高。
of a
一個女人的雙色調肖像
因為SD-XL同屬v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示詞。
比如下面的例子中,v1.5模型始終無法理解圖像中的兩個主題(機器人和人類),但SD-XL模型可以生成正常的圖像(雖然機器人還是不夠big)。
big next to a , in the ,
大機器人朋友坐在人類旁邊攻殼機動隊風格的動漫壁紙
a man, in hair, eyes, in and blue jean on a with a in
一個年輕人 ,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
藝術風格
在藝術風格上,SD-XL并沒有顯著改進,和之前的版本各有千秋。
比如兩個模型以不同的角度生成了 風格的圖像。
New York city by , 繪制的紐約
的風格中,SD-v1.5更準確,SD-XL缺少了不同顏色的筆刷( )。
New York city by , 繪制的紐約
- 風格中,V1.5和SDXL都可以生成一些類似的內容,其中SD-XL更接近創(chuàng)作的經(jīng)典學院派繪畫,并且面部細節(jié)更多。
of by - ,- 繪制的美女肖像
風格轉變問題
在添加一些無關緊要的關鍵字后,模型的風格可能會突然轉變。
比如先生成一張照片風格的圖像。
a man, in hair, eyes, in and blue jean on a with a in
一個年輕人,頭發(fā)染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
再添加一條黃色的圍巾后,圖像風格就變成了卡通風格。
a man, in hair, eyes, a ,in and blue jean on a with a in
一個年輕人,頭發(fā)染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍色牛仔褲,站在一個火山為背景的海灘上
問題的故障可能源于預覽問題,在正式發(fā)布后該問題不知能否得到解決。
參考資料
本文來自微信公眾號“新智元”(ID:),作者:LRS,36氪經(jīng)授權發(fā)布。