GauGAN是NVIDIA研發的人工智慧影像處理技術,它能在人工智慧的協助下,將使用者隨手塗鴉的草圖,轉換為逼真的「合成圖片」,不但操作相當簡單,而且效果相當自然,就算美術不及格的人也能輕鬆成為大畫家,而這套技術正是由來自台灣的劉洺堉等3人團隊所開發。
畫畫,真的很簡單的
還記得以爆炸頭造型聞名的《歡樂畫室》節目主持人鮑伯·魯斯(Bob Ross)的名言嗎?他常在示範繪畫的過程中,以「真的很簡單的!」這句話鼓勵觀眾,不但成為他的招牌特色,也成為大家常用的網路哏圖。
而由NVIDIA研發的GauGAN人工智慧影像處理技術,則是能將隨手塗鴉的草圖,轉變為相當逼真圖片的技術,至於它的效果如何,就先請各位讀者觀賞GauGAN的介紹影片,以及筆者小試身手所繪製的風景畫。
▲GauGAN是款操作簡易的工具軟體,可以產生極為逼真的人造合成圖片。
畫畫是人類的天性,畫具隨時代演進
來自台灣的劉洺堉,目前效力於位在美國聖塔克拉拉的NVIDIA總部,是NVIDIA深度想像研究團隊(Deep Imagination Research Team)的研究員與領袖,專精於電腦視覺(Computer Vision)與深度學習(Deep Learning)的他,認為這是人工智慧的關鍵技術,前者是電腦觀看世界的管道,而後者則是電腦理解世界的方式。
一般電腦視覺的應用在於辨識照片中的景物,並標註景物的類別,這個標註圖中各部分物件的結果我們稱為分割遮罩(Segmentation Mask)。而GauGAN的技術概念正巧與電腦視覺相反,它是將分割標籤還原成景物,藉此創造不存於世界上的「私房景點照片」。
劉洺堉也表示他覺得人腦是世界上最好的繪圖工具,我們只要閉上雙眼,想像溫暖沙灘與徐徐海風,就能在腦海中繪製出海邊的風景。
在繪畫的發展長河中,人類最先使用石頭在石壁上刻畫眼睛所見的景物,接著使用筆刷、顏料,在畫布上留下不朽名作。進入數位時代後,我們透過許多繪圖軟體創作,在電腦中盡情揮灑創意,而到了人工智慧革命的現在,電腦也開始能夠理解自然界的風景後,我們也能在GauGAN技術的協助下,簡單畫幾筆草圖,就能創造出美不勝收的合成風景圖片。
(下頁還有GauGAN說明與大家都可以玩玩看的線上GauGAN體驗區)
500萬張照片的訓練成果
GauGAN的技術核心為稱為Spade的演算法,並透過超過100萬張的照片資料庫進行深度學習訓練,並在Tensor Core特化運算單元的加持下,讓系統訓練的時間從原本的3週縮短到2週以內,讓訓練過後的系統能夠瞭解各種自然界景色的特徵,以利系統將分割標籤還原成景物。
如今GauGAN可以產生解析度為512 x 512的合成圖片,但劉洺堉表示,在各種景色的交界處還是會有些破綻與模糊產生,即便是透過其他人工智慧方式放大圖片,還是會有把破綻放大的疑慮。
目前GauGAN已經導入新的訓練用圖片資料庫,將資料庫照片總數提升至500萬張,雖然這樣會讓訓練時間爆增至超過1個月,但也讓系統能夠產生更加精細的圖片,讓解析度能夠提升到2048 x 2048還不致露出太多破綻。
劉洺堉表示,目前已經有概念設計師(Concept Artist)透過GauGAN尋覓創作靈感,由於GauGAN可以很產生多種地理環境的景觀,並自由套用不同的景色風格,能夠快速嘗試各種排列組合,此外用這種方式產生的圖片也帶有一點隨機性,因此也可能產生意料之外的圖片,更能激發創意,很適合電影、遊戲等創業工作者使用。另一方面,因為GauGAN的使用體驗相當療癒,因此也有些醫療院所將GauGAN提供給病患使用,作為舒解壓力的小道具。
由於GauGAN的技術細節相當艱澀,所以筆者不在此多作贅述,想要瞭解Spade或是GAN(Generative Adversarial Network,生成對抗網路)的讀者,可以點擊連結查閱詳細介紹。
GauGAN動手玩
GauGAN體驗網頁
http://nvidia-research-mingyuliu.com/gaugan
想要嘗試GauGAN的讀者,也可以到體驗網頁親自操作簡意繪圖工具,並選擇對應的風格圖片,產生個人專屬的GauGAN創作。
不過需要注意的是,使用GauGAN體驗網頁前,讀者需要先勾選同意條款,代表NVIDIA能在研究或商業用途下儲存、使用、重新發佈使用者上傳或產生的圖片。
目前GauGAN仍在發展中,除了持續提升輸出圖片的解析度與細節品質外,劉洺堉也透露未來會開發建立3D分割遮罩的功能,如此一來就能在輸出合成圖片的時0候自由改變視點,甚至能夠輸出動態影片,後續發展相當值得期待。
加入T客邦Facebook粉絲團
没有评论:
发表评论