31
Data driven life sciences The Pyramids meet the Tower of Babel Rajarshi Guha NIH Chemical Genomics Center 2010 ACS Na;onal Mee;ng, Boston, MA

Data driven life sciences   The Pyramids meet the Tower of Babel 

  • Upload
    rguha

  • View
    1.656

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data driven life sciences    The Pyramids meet the Tower of Babel 

Data driven life sciences  The Pyramids meet the Tower of Babel 

Rajarshi Guha NIH Chemical Genomics Center 

2010 ACS Na;onal Mee;ng, Boston, MA 

Page 2: Data driven life sciences    The Pyramids meet the Tower of Babel 

Characteris9cs 

•  Large sizes (but this is rela;ve) – Chemistry datasets are not really that big 

•  Mul;‐dimensional 

•  Mul;ple sources (and hence, types) 

•  Challenges – Handling and processing large datasets –  Integra;ng mul;ple data types / sources 

– Get a coherent story out of it all 

Page 3: Data driven life sciences    The Pyramids meet the Tower of Babel 

How Useful is More Data? 

•  Alterna;vely, can we stop doing science and just do paMern recogni;on on increasingly large datasets? 

•  According to Chris Anderson, yes. There is now a better way. Petabytes allow us to say: "Correlation is enough." We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

hMp://www.wired.com/science/discoveries/magazine/16‐07/pb_theory 

Page 4: Data driven life sciences    The Pyramids meet the Tower of Babel 

How Useful is More Data? 

•  The u;lity of more data is obvious in many scenarios – Sta;s;cal models on 10 observa;ons is not a good idea 

•  But can there be such a thing as too much data? – Sta;s;cal models on 106 observa;ons may not be a good idea 

Page 5: Data driven life sciences    The Pyramids meet the Tower of Babel 

Big Data for Some Problems 

•  Halevy et al discuss the effec;veness of extremely large datasets 

•  Their applica;on focuses on machine transla;on – see the Google n‐gram corpus 

•  They suggest that such extremely large datasets are useful because they effec;vely encompass all n‐grams (phrases) commonly used 

•  Domain is rela;vely constrained 

Halevy et al, IEEE Intelligent Systems, 2009, 24, 8‐12 

Page 6: Data driven life sciences    The Pyramids meet the Tower of Babel 

Google Scale in Chemistry? 

•  What would be the equivalent of an n‐gram corpus in chemistry? –  Fragments – A more direct analogy can be made by using LINGO’s 

•  It is possible to generate arbitrarily large (virtual) compound and  fragment collec;ons 

•  But would such a collec;on span all of “commonly used” chemistry? – Depending on the ini;al compound set, yes –  But we’re also interested in going beyond such a “commonly used” set 

Fink T, Reymond JL, J Chem Inf Model, 2007, 47, 342 

Page 7: Data driven life sciences    The Pyramids meet the Tower of Babel 

Fragment Diversity 

•  Consider a set of bioac;ves such as the LOPAC collec;on, 1280 compounds 

•  Using exhaus;ve  fragmenta;on we get  2,460 unique fragments 

•  On the MLSMR  (~ 400K compounds),  we get  164,583  fragments 

log Fragment Frequency

Pe

rce

nt

of

To

tal

0

10

20

30

40

0 1 2 3 4

Page 8: Data driven life sciences    The Pyramids meet the Tower of Babel 

PC 1

PC

2

-4

-2

0

2

4

-4 -2 0 2 4

Fragment Diversity 

•  Distribu;on of MLSMR fragments in BCUT space 

PC 1

PC

2

-4

-2

0

2

4

6

-4 -2 0 2

All fragments  Fragments occurring in  5 to 50 molecules 

Page 9: Data driven life sciences    The Pyramids meet the Tower of Babel 

What Do We Do with Fragments? 

•  Assuming we obtain fragments from a large enough collec;on what do we do? – Learning from fragments – QSARs, genera;ve models 

– Use fragments as  filters, alterna;ve  to clustering 

– Explore chemotypes and ac;vity 

White, D and Wilson, RC, J Chem Inf Model, 2010, ASAP 

Page 10: Data driven life sciences    The Pyramids meet the Tower of Babel 

Scaffold Ac9vity Diagrams 

•  Network oriented view of fragment (scaffold) collec;ons – Similar in idea to Scaffold Hunter etc 

– Not purely hierarchical •  Color by arbitrary  proper;es 

•  Quickly assess u;lity of a scaffold 

•  Try it online  

Page 11: Data driven life sciences    The Pyramids meet the Tower of Babel 

What Makes a Good Scaffold? 

•  What makes a good scaffold? – Size, complexity, … – Do the members represent an SAR or not? 

–  Intui;on and experience also play a role 

Page 12: Data driven life sciences    The Pyramids meet the Tower of Babel 

Scaffold QSAR 

!!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!

!8 !6 !4 !2 0

!8

!6

!4

!2

0

ObservedPredicted

Evaluate topological  and physicochemical  descriptors for the  R‐groups 

Fit PLS or ridge regression model 

Characterize the  SAR landscape 

Page 13: Data driven life sciences    The Pyramids meet the Tower of Babel 

Scaffold QSAR ‐ Drawbacks 

•  Many scaffolds have few (5 to 10) members •  Invariably, more features than observa;ons •  If the number of R‐groups is large, the feature matrix can be very sparse – Less of a problem for combinatorial libraries 

•  A linear fit may not be the best approach to correla;ng R‐groups to the ac;vi;es – Difficult to choose a model type a priori 

•  S;ll working on it … 

Page 14: Data driven life sciences    The Pyramids meet the Tower of Babel 

Fragments for Automa9on 

•  What is the mo;va;on for scaffold QSAR? •  Automate a high throughput screen 

•  Try and develop heuris;cs to automa;cally push  chemotypes into secondary  screening 

Page 15: Data driven life sciences    The Pyramids meet the Tower of Babel 

Big Data and Chemistry  

•  But in the end, the fundamental problem with big data is the issue of domain applicability 

•  Tradi;onal models are developed on small datasets and perform well within the training domain 

•  But models trained on very large datasets will not necessarily perform well, even though the training domain is now much larger 

Helgee et al, J Chem Inf Model, 2010, 50, 677‐689 

Page 16: Data driven life sciences    The Pyramids meet the Tower of Babel 

Processing Large Datasets 

•  Most cheminforma;cs tasks are not algorithmically parallel 

•  Rather, they are applied to large numbers of inputs and hence embarrassingly parallel –  Start up lots of jobs 

•  Hadoop is useful technology for those problems that follow the map/reduce paradigm – Not aware of cheminforma;cs methods that work in this manner 

–  But can also be used like a job submission system 

Page 17: Data driven life sciences    The Pyramids meet the Tower of Babel 

Common HTS Analysis Tasks 

How do we beMer automate such tasks? 

•  Iden;fica;on of Series and Singletons –  Clustering of ac;ves, iden;fica;on of top scaffolds –  Profiling of series across all assays –  Series and singleton priori;za;on 

•  Compound Selec;on for Followup –  Assessment of structure ac;vity rela;onships  –  Rapid iden;fica;on of key compounds to confirm, new compounds to test –  Mining of commercially available chemical libraries 

•  Analysis of Ac;vity –  Concentra;on response across mul;ple phenotypes, mul;ple assays –  Assay interference (differen;a;ng ac;vity from ar;facts) –  Assay ontology (biological rela;onships, assay plaqorms) –  Compound annota;ons, known ligand‐target network, prior art assessment –  Profile data (PubChem, BindingDB, ChEMBL, PDSP, etc, physical proper;es) 

Page 18: Data driven life sciences    The Pyramids meet the Tower of Babel 

A Smorgasbord of Data 

Page 19: Data driven life sciences    The Pyramids meet the Tower of Babel 

Data Integra9on 

•  It’s nice to simplify data, but we can s;ll be faced with a mul;tude of data types 

•  We want to explore these data in a linked fashion 

•  How we explore and what we explore is generally influenced by the task at hand 

•  At one point, make inferences over all the data 

Page 20: Data driven life sciences    The Pyramids meet the Tower of Babel 

Data Integra9on 

User’s Network 

Network of Public Data 

Content: ‐ Drugs ‐ Compounds ‐ Scaffolds ‐ Assays ‐ Genes ‐ Targets ‐ Pathways ‐ Diseases ‐ Clinical Trials ‐ Documents 

Links: ‐Manually curated ‐Derived from algorithms 

Page 21: Data driven life sciences    The Pyramids meet the Tower of Babel 

Record View of an Assay 

Page 22: Data driven life sciences    The Pyramids meet the Tower of Babel 

Access Disease Hierarchy & Network 

Page 23: Data driven life sciences    The Pyramids meet the Tower of Babel 

Ar9cles, Patents, Drug Labels, … 

Page 24: Data driven life sciences    The Pyramids meet the Tower of Babel 

Going Beyond Explora9on? 

•  Simply being able to explore data in an integrated manner is useful  as an idea generator 

•  Can we integrate heterogenous data types & sources to get a systems level view? – Current research problem in genomics and systems biology 

– Some aMempts have been made to merge chemical data with other data types 

Young, D.W. et al, Nat. Chem. Biol., 2008, 4, 59‐68 

Page 25: Data driven life sciences    The Pyramids meet the Tower of Babel 

RNAi & Compound Screens 

Goal: Develop systems level view of small molecule acDvity 

•  Reuse pre‐exis;ng MLI data •  Develop new annotated libraries 

TACGGGAACTACCATAATTTA 

CAGCATGAGTACTACAGGCCA 

•  Run parallel RNAi screen 

What targets mediate ac;vity of siRNA  and compound 

Pathway elucida;on, iden;fica;on of interac;ons 

Target ID and valida;on 

Link RNAi generated pathway peturba;ons to small molecule ac;vi;es. Could provide insight into polypharmacology 

Page 26: Data driven life sciences    The Pyramids meet the Tower of Babel 

Small Molecule HTS Summary 

•  2,899 FDA‐approved compounds screened 

•  55 compounds retested ac;ve •  Which components of the NF‐κB pathway do they hit? – 17 molecules have target/pathway informa;on in GeneGO 

– Literature searches list a few more 

!9 !8 !7 !6 !5

!60

!40

!20

0

log Concentration (uM)

Activity

!

!

!

!

! !

!

!

!

! !

!

!

!!

!9 !8 !7 !6 !5

!100

!60

!20

0

log Concentration (uM)

Activity

! ! !!

!

!

!

!

!

!! ! ! ! !

!9 !8 !7 !6 !5

!60

!40

!20

0

log Concentration (uM)

Activity

!

!

! !

!

!

! !

!

!!

!

!

!!

Most Potent AcDves Proscillaridin A 

Trabec;din 

Digoxin 

Miller, S.C. et al, Biochem. Pharmacol., 2010, ASAP 

Page 27: Data driven life sciences    The Pyramids meet the Tower of Babel 

RNAi HTS Summary 

•  Qiagen HDG library – 6886 genes, 4 siRNA’s per gene 

•  A total of 567 genes were knocked down by 1 or more siRNA’s – We consider >= 2 as a “reliable” hit 

– 16 reliable hits – Added in 66 genes for  follow up via triage procedure 

Page 28: Data driven life sciences    The Pyramids meet the Tower of Babel 

RNAi & Small Molecule 

•  Based on reporter assays, the only conclusions one can draw are the obvious ones 

•  Limited by 1‐D signal 

•  Going to high content gives us much richer data, but more complexity – Shown to be useful for compounds 

– Much more difficult when the phenotypic parameters come from different systems 

Page 29: Data driven life sciences    The Pyramids meet the Tower of Babel 

Summary 

•  Mul;ple data types are probably the most challenging aspect of data driven discovery 

•  Size issues can be addressed with more hardware or wai;ng (a bit) longer 

•  Integra;on issues require new approaches both at the presenta;on & algorithmic levels 

Page 30: Data driven life sciences    The Pyramids meet the Tower of Babel 

Acknowledgements 

•  Ruili Huang •  Ajit Jadhav •  Trung Ngyuen •  Noel Southall 

Page 31: Data driven life sciences    The Pyramids meet the Tower of Babel 

Job Openings at NCGC/NCTT 

•  Sowware development (focusing on Tripod) –  Java, Swing UI, algorithms 

•  Research Informa;cs Scien;st   – Generalist, cheminforma;cs, comp chem, med chem 

•  Collaborate with chemists, biologists •  Cuxng edge problems •  Lots of fresh data •  Fun!