Grammar Variational Autoencoder [4] Presenter: Emanuele Rossi Authors: Kusner, Paige, Hernandez-Lobato University of Cambridge March 12, 2019

Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Download PDF Report

Upload
others
View
22
Download
0

Embed Size (px)

Citation preview

Page 1: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Grammar Variational Autoencoder [4]

Presenter: Emanuele RossiAuthors: Kusner, Paige, Hernandez-Lobato

University of Cambridge

March 12, 2019

Page 2: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Paper

I Published in March 2017

I 91 citations until now

Page 3: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Motivation

I Learning a meaningful latent space for discrete inputs

Page 4: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Previous Approaches: Char-VAE [1] [3]

Figure 1: Model from [1]

I Problem: decoder sometimes generates invalid strings

Page 5: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Insight

I Many discrete objects (including molecules) can be describedas a parse tree from a context free grammar

Page 6: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Insight(2)

I Encoding and decoding parse trees ensures that all outputsare valid

I It also frees the model from learning ‘syntactic’ rules

Encoder

Encoder: molecule to parse tree

Page 9: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Encoder: parse tree to production rules

Page 10: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Encoder: production rules to one-hot embeddings

Page 11: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Encoder: one-hot embeddings to latent representation

Page 12: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Decoder

Page 13: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Decoder: one-hot embeddings to latent representation

Page 14: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Decoder: latent representation to logits sequence

Page 15: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Decoder: from sequence of rules to a molecule

Page 16: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Evaluation

Page 17: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Evaluation 1: Latent Space Visualization

Page 18: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Evaluation 2: Predictive Performance of LatentRepresentation

Page 19: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Evaluation 3: Optimization in Latent Space

Figure 2: Fraction of valid molecules found by method

Figure 3: Scores obtained by bayesian optimization in latent space

Page 20: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Discussion

Page 21: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Discussion 1: What about Semantic constraint?

I GVAE makes sure the ouput is syntactically correct, but whatabout semantic constraints?

I [2] tries to extend GVAE to include semantic constraint

Page 22: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Discussion 2: Evaluation

The paper presents 3 evaluation techniques

I Evaluation on supervised task is standard and not veryinteresting

I Latent space visualization is just a nice picture

I Optimization in latent space is insightful: what aboutgradient-based optimization instead of bayesian optimization?

Page 23: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Discussion 3: Encoder vs Decoder

Their model consists of a 1D CNN encoder and a GRU for thedecoder.

I Most autoencoders seen so far have the same encoder anddecoder

I Does it make a difference whether encoder and decoder arethe same type of model, or are different?

Page 24: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

Questions?

Page 25: Grammar Variational Autoencoder pmlr-v70 …...Syntax-directed variational autoencoder for structured data. CoRR, abs/1802.08786, 2018. Rafael G omez-Bombarelli, David K. Duvenaud,

References

Samuel R. Bowman, Luke Vilnis, Oriol Vinyals, Andrew M.Dai, Rafal Jozefowicz, and Samy Bengio.Generating sentences from a continuous space.2016.

Hanjun Dai, Yingtao Tian, Bo Dai, Steven Skiena, andLe Song.Syntax-directed variational autoencoder for structured data.CoRR, abs/1802.08786, 2018.

Rafael Gomez-Bombarelli, David K. Duvenaud, Jose MiguelHernandez-Lobato, Jorge Aguilera-Iparraguirre, Timothy D.Hirzel, Ryan P. Adams, and Alan Aspuru-Guzik.Automatic chemical design using a data-driven continuousrepresentation of molecules.CoRR, abs/1610.02415, 2016.

Matt J. Kusner, Brooks Paige, and Jose MiguelHernandez-Lobato.Grammar variational autoencoder.In Doina Precup and Yee Whye Teh, editors, Proceedings ofthe 34th International Conference on Machine Learning,volume 70 of Proceedings of Machine Learning Research,pages 1945–1954, International Convention Centre, Sydney,Australia, 06–11 Aug 2017. PMLR.