溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

用于生成文本到圖像的新框架TReCS是怎么樣的

發(fā)布時間:2021-12-16 18:13:02 來源:億速云 閱讀:157 作者:柒染 欄目:互聯(lián)網(wǎng)科技

用于生成文本到圖像的新框架TReCS是怎么樣的,相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

用于生成文本到圖像的新框架TReCS是怎么樣的

基于生成對抗網(wǎng)絡(luò)(GAN)的深度神經(jīng)網(wǎng)絡(luò)促進(jìn)了端到端可訓(xùn)練的照片級逼真的文本到圖像的生成。許多方法還使用中間場景圖表示法來改善圖像合成。使用基于對話的交互的方法允許用戶提供指令,以逐步改進(jìn)和調(diào)整生成的場景。通過指定背景中對象的相對位置,可以為用戶提供更好的控制。但是上述方法中使用的語言受到限制,并且生成的圖像僅限于合成3D可視化效果或卡通。

為了創(chuàng)建能夠在任何語言對之間進(jìn)行翻譯的通用神經(jīng)機(jī)器翻譯系統(tǒng),一組Google研究人員開發(fā)了一種新的框架,即標(biāo)簽檢索,合成綜合系統(tǒng)(TReCS)。所提出的方法通過改進(jìn)語言喚起圖像元素的方式以及跡線如何通知其位置,從而顯著增強(qiáng)了圖像生成過程。該系統(tǒng)接受了超過250億個示例的訓(xùn)練,具有處理103種語言的潛力。其功能使鼠標(biāo)軌跡與文本描述對齊,并為提供的短語創(chuàng)建可視標(biāo)簽。

  • 新框架利用可控的鼠標(biāo)軌跡作為細(xì)粒度的視覺基礎(chǔ),根據(jù)用戶的敘述生成高質(zhì)量的圖像。標(biāo)記器用于預(yù)測短語中每個單詞的對象標(biāo)簽。

  • 文本到圖像的雙重編碼器使用語義相關(guān)的掩碼檢索圖像。對于每個跡線序列,選擇一個遮罩以最大化空間重疊,從而克服了真實的文本到對象信息和更好的地面描述。

  • 選定的蒙版根據(jù)跟蹤順序組成,并為背景和前景對象使用單獨的畫布。將前景蒙版放置在背景蒙版上以創(chuàng)建完整的場景分割。

  • 最后,通過將整個分割輸入到蒙版到圖像的轉(zhuǎn)換模型中來合成逼真的圖像。

用于生成文本到圖像的新框架TReCS是怎么樣的

在評估方面,新系統(tǒng)在自動和人工判斷下均優(yōu)于SOTA文本圖像生成技術(shù)。它顯示了從日常演講中翻譯的嘈雜敘事中的復(fù)雜文本生成逼真的可控照片的可行性。TReCS系統(tǒng)解決了冗長而復(fù)雜的文本描述生成文本圖像的復(fù)雜性。所提出的方法表明,鼠標(biāo)跟蹤可以成為生成實際文本圖像的有用來源。

局限性:

該研究的局限性之一是缺乏合適的評估指標(biāo)來定量測量生成的圖像的質(zhì)量?,F(xiàn)有的度量標(biāo)準(zhǔn)不能合理地反映出真實圖像與機(jī)器生成的圖像之間的語義相似性。

在未來幾年中,提出的想法可以支持提供友好的人機(jī)界面的各種應(yīng)用程序。它可以幫助藝術(shù)家創(chuàng)建原型,從機(jī)器生成的照片中汲取見解并生成逼真的圖像。此外,它還可用于設(shè)計人在環(huán)評估系統(tǒng)以優(yōu)化網(wǎng)絡(luò)。

看完上述內(nèi)容,你們掌握用于生成文本到圖像的新框架TReCS是怎么樣的的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI