クリエイティブ系Ai研究のザッピング（チームラボ勉強会 2016/12/22）

クリエイティブ系AI研究のザッピング山本遼

チームラボ勉強会 2016/12/22

AI系サーベイ

● クリエイティブ系AIのキュレーションサイト CreativeAIから、最近のものをランダムにピックアップ

‐ かなり荒いサンプリングです

‐ いわゆる「クリエイティブ系」に寄っています

2

目次

● CNNによる手続き型CGモデリングの高速化

● 画像からの高精度顔モデル推定

● 小ネタ：若干バズってる実験・サイトなど

● 表情を保った顔交換

● GANの最新事情

3

ニューラルネットによる手続き型CGモデリングの高速化

（よく知らない分野なので紹介）

4

手続き型モデリング（Procedural Modeling）● 植物・建物・山水などのCGの自動生成技術

● 生成ルールセットと確率的制約のもとで

マルコフ連鎖モンテカルロ(MCMC)法で良い解を探す

5

Wong, et.al. "Computer-Generated Floral Ornament", SIGGRAPH 1998

6

Muller, et.al. "Procedural Modeling of Buildings", SIGGRAPH 2006

7


8


9

Talton, et.al. "Metropolis Procedural Modeling" ACM Trans. Graph. 2011

10


11


12

ニューラルネットによる高速化

Ritchie, et.al. "Neurally-Guided Procedural Models: Amortized Inference for Procedural Graphics Programs using Neural Networks, NIPS 2016

● MCMC法はランダムウォークを繰り返して解を探す● あらかじめ良い解を学習データとして大量に生成し

好ましい乱数の傾向をニューラルネットで学習● 基礎的な検証実験では、生成時の速度は１０倍以上

● 扱う問題：ツタの生成

13

ツタの生成問題

14

ニューラルネット構造

入力：・現在のツタ先端の位置・角度・太さ・現在のツタ先端の周辺の対象画像・現在のツタ先端の周辺のツタ画像

出力：・その地点で枝が曲がる角度の平均・分散・その地点で枝が分岐する確率（Gaussian Mixture Modelの重みとして出力） 15

結果例

NNなし提案手法NNなしで同じ試行数

NNなしで同じ計算時間

16

画像からの高精度顔モデル推定（これもよく知らない分野なので紹介）

17

Blanz, et.al. "A Morphable Model for the Synthesis of 3D Faces", SIGGRAPH 1999

● ベースとなる研究

● ３次元顔形状をPCAでモデル化

‐ 各次元は、性別・顔の特徴・表情などに対応

● 顔画像からモデルと（低解像の）テクスチャを推定

18

http://www.youtube.com/watch?v=pSRA8GpWIrA

Saito, et.al. "Photorealistic Facial Texture Inference Using Deep Neural Networks", ArXiv 2016

● PCAで顔形状と低解像テクスチャを得た後で、

顔画像の高周波成分からテクスチャの高周波成分を抽出

‐ その部分に高解像顔画像DBとCNNを使うようだけど

よくわかりませんでした

20

http://www.youtube.com/watch?v=qX8AIRsFmTA

小ネタ

22

スペクトル画像からの楽曲ジャンル推定小ネタ①

DeepAudioClassificationhttps://github.com/despoisj/DeepAudioClassification

● 人は曲を３秒聴けばジャンルが分かるので

コンピュータにそれができないか実験

● 実験はとてもシンプルでわかりやすい

24

https://github.com/despoisj/DeepAudioClassification

https://github.com/despoisj/DeepAudioClassification

● 入力

‐ 曲をモノラル化し、スペクトログラムを計算し

‐ 2.56秒ぶんのスライスをいくつか抽出

‐ 各スライスは 128x128 グレースケール画像

● モデル

‐ シンプルなCNN、出力は楽曲ジャンル

モデル

25

モデル・データ詳細

● データセット

‐ 作者のiTunesライブラリの2000曲から、12000スライス

‐ Training:70%, Validation:20%, Testing:10%

● モデル

‐ CNN‐ 畳み込み層：カーネル:2x2、ストライド:2‐ オプティマイザ：RMSProp‐ 活性化関数：ELU（ReLUより良いらしい！）

‐ 重み初期化：Xavier（これも定番らしい）

‐ 正規化：確率0.5のDropout

26

結果

● 正解率は "スライスのレベルで" 90%

● 曲から複数のスライスを取り出して投票すれば

もっと性能が上がるという考察

27

ロゴの自動生成サイト小ネタ②

LOGOJOY: https://www.logojoy.com/

29

https://www.logojoy.com/

TAILOR BRANDS https://studio.tailorbrands.com/

30

https://studio.tailorbrands.com/

他にもいろいろ

https://www.abetterlemonadestand.com/logo-generator/

31



表情を保った顔変換

Korshunova, et.al. "Fast Face-swap Using Convolutional Neural Networks", CoRR 2016

● スタイル変換(Style Transfer)によって顔交換をする

‐ 入力画像＝元になる写真、スタイル画像＝交換対象の顔の写真

‐ どちらもdlibなどで顔の正規化をする

‐ その他に照明条件の一貫性などもロス関数に含めている

33


34

入力画像変換結果人力による変換


35


36

GANの最新事情

GANとは（復習）

Generative Adverserial Networks (GAN)

39

Generative Adversarial Networks (GAN)

● 本物の絵のデータセットを用意

● 贋作家G:n次元ベクトル z をもとに偽物の絵 x を生成 (generator)● 鑑定士D:絵 x を見て本物である確率を出力 (discriminator)

● 鑑定士Dは、本物の絵を見た時に1、偽物を見た時に0を出力するよう学習

● 贋作家Gは、鑑定士Dが本物だと誤判定する絵を描くように学習

● GとDのイタチごっこにより、Gはデータセットには含まれないが、データセッ

トに含まれそうなものを出力できるようになる

40

基本的なGAN（データセットに似た絵を生成）

● 贋作家Gは下記のようなDeconvolution層を重ねたモデル

● 鑑定士Dは通常のCNNで出力が1ニューロン

41

Conditional GANによるキャプションからの画像生成

（半年ほど前に勉強会で紹介）

Reed, et.al. "Generative Adversarial Text to Image Synthesis", ICML 2016

43

Reed, et.al. "Generative Adversarial Text to Image Synthesis", ICML 2016

● Conditional GAN (CGAN)‐ 贋作家Gは、一定条件のもとで贋作を生成

‐ 鑑定士Dも、その条件における真作か贋作かを識別

44

Conditional GANによるレイアウト＆属性からの画像生成

Karacan, et.al. "Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts", ArXiv 2016

46


47

● 条件として下記を与える Conditional GAN‐ 属性変数："晴れ", "雨", "朝", "夜" などを表すベクトル

‐ レイアウト：領域分割を定義する塗り絵

‐ Attribute Layout CGAN (AL-CGAN)

Karacan, et.al. "Learning to Generate Images of Outdoor Scenes from Attributes and Semantic Layouts", ArXiv 2016（属性は"晴れ"）

48


49


50


51


52

Conditional GANで絵を描く（ジョーク）

http://www.youtube.com/watch?v=U5QzguAolrE

Conditional GANによるImage-to-Image 変換

Isola, et.al. "Image-to-Image Translation with Conditional Adversarial Nets", ArXiv 2016

56

● 前述のCGANはレイアウト画像→写真という変換と見なせる

‐ この２つを入れ替えてもいいんじゃないか

‐ もっと別の入出力を入れてもいいんじゃないか

→ 一般の Image-to-Image の変換問題に適用


57

贋作家G のモデル左は通常のConvolution-Deconvolutionモデル右はU-Net という手法で、これを採用


58


59


60


61


62


63

Conditional GANによるImage-to-Image 変換その２

Taigman, et.al. "Unsupervised Cross-Domain Image Generation", ICLR 2017

● かなり似た研究（Facebook AI Research）

65


● 通常のImage-to-Image‐ 学習データとして、顔-イラストのペアが必要（イラスト変換の場合）

● この手法はペアデータが不要！

‐ 顔画像セットと、イラスト顔セットが別々にあればいい

‐ ただし、同じ人の顔画像またはイラストを入力した時に

近い値になる特徴抽出関数 f を与える

‐ ここではDeepFaceの特徴抽出関数を使用

66


67


68

写真イラスト

学習には使わない出力写真イラスト

学習には使わない出力写真イラスト

学習には使わない出力

Technology

クリエイティブ系Ai研究のザッピング（チームラボ勉強会 2016/12/22）