youtuber社群: 台灣之光！看NVIDIA GauGAN AI技術如何把塗鴉變絕景

GauGAN是NVIDIA研發的人工智慧影像處理技術，它能在人工智慧的協助下，將使用者隨手塗鴉的草圖，轉換為逼真的「合成圖片」，不但操作相當簡單，而且效果相當自然，就算美術不及格的人也能輕鬆成為大畫家，而這套技術正是由來自台灣的劉洺堉等3人團隊所開發。

畫畫，真的很簡單的

還記得以爆炸頭造型聞名的《歡樂畫室》節目主持人鮑伯·魯斯（Bob Ross）的名言嗎？他常在示範繪畫的過程中，以「真的很簡單的！」這句話鼓勵觀眾，不但成為他的招牌特色，也成為大家常用的網路哏圖。

而由NVIDIA研發的GauGAN人工智慧影像處理技術，則是能將隨手塗鴉的草圖，轉變為相當逼真圖片的技術，至於它的效果如何，就先請各位讀者觀賞GauGAN的介紹影片，以及筆者小試身手所繪製的風景畫。

▲GauGAN是款操作簡易的工具軟體，可以產生極為逼真的人造合成圖片。

▲ 簡單幾筆塗鴉，就能變成網美打卡勝地的風景圖片。

▲ 使用者還能套用不同風格範本，為合成圖片營造獨特的迷人氛圍。

畫畫是人類的天性，畫具隨時代演進

來自台灣的劉洺堉，目前效力於位在美國聖塔克拉拉的NVIDIA總部，是NVIDIA深度想像研究團隊（Deep Imagination Research Team）的研究員與領袖，專精於電腦視覺（Computer Vision）與深度學習（Deep Learning）的他，認為這是人工智慧的關鍵技術，前者是電腦觀看世界的管道，而後者則是電腦理解世界的方式。

一般電腦視覺的應用在於辨識照片中的景物，並標註景物的類別，這個標註圖中各部分物件的結果我們稱為分割遮罩（Segmentation Mask）。而GauGAN的技術概念正巧與電腦視覺相反，它是將分割標籤還原成景物，藉此創造不存於世界上的「私房景點照片」。

劉洺堉也表示他覺得人腦是世界上最好的繪圖工具，我們只要閉上雙眼，想像溫暖沙灘與徐徐海風，就能在腦海中繪製出海邊的風景。

在繪畫的發展長河中，人類最先使用石頭在石壁上刻畫眼睛所見的景物，接著使用筆刷、顏料，在畫布上留下不朽名作。進入數位時代後，我們透過許多繪圖軟體創作，在電腦中盡情揮灑創意，而到了人工智慧革命的現在，電腦也開始能夠理解自然界的風景後，我們也能在GauGAN技術的協助下，簡單畫幾筆草圖，就能創造出美不勝收的合成風景圖片。

▲ 電腦視覺與GauGAN的功能正巧相反，前者是照片變成分割遮罩，後者則將分割遮罩還原成照片。

▲ GauGAN可以將分割遮罩套入不同風格檔案，創造出各種不同的成果圖片。

▲ 人類繪畫的工具隨時代演進，現在已經進入使用人工智慧畫圖的境界。

（下頁還有GauGAN說明與大家都可以玩玩看的線上GauGAN體驗區）

500萬張照片的訓練成果

GauGAN的技術核心為稱為Spade的演算法，並透過超過100萬張的照片資料庫進行深度學習訓練，並在Tensor Core特化運算單元的加持下，讓系統訓練的時間從原本的3週縮短到2週以內，讓訓練過後的系統能夠瞭解各種自然界景色的特徵，以利系統將分割標籤還原成景物。

如今GauGAN可以產生解析度為512 x 512的合成圖片，但劉洺堉表示，在各種景色的交界處還是會有些破綻與模糊產生，即便是透過其他人工智慧方式放大圖片，還是會有把破綻放大的疑慮。

目前GauGAN已經導入新的訓練用圖片資料庫，將資料庫照片總數提升至500萬張，雖然這樣會讓訓練時間爆增至超過1個月，但也讓系統能夠產生更加精細的圖片，讓解析度能夠提升到2048 x 2048還不致露出太多破綻。

劉洺堉表示，目前已經有概念設計師（Concept Artist）透過GauGAN尋覓創作靈感，由於GauGAN可以很產生多種地理環境的景觀，並自由套用不同的景色風格，能夠快速嘗試各種排列組合，此外用這種方式產生的圖片也帶有一點隨機性，因此也可能產生意料之外的圖片，更能激發創意，很適合電影、遊戲等創業工作者使用。另一方面，因為GauGAN的使用體驗相當療癒，因此也有些醫療院所將GauGAN提供給病患使用，作為舒解壓力的小道具。

由於GauGAN的技術細節相當艱澀，所以筆者不在此多作贅述，想要瞭解Spade或是GAN（Generative Adversarial Network，生成對抗網路）的讀者，可以點擊連結查閱詳細介紹。

▲ Spade演算法是GauGAN的技術核心。