TECHNOLOGYDRIVES
BUSINESS
Apache Solr –die Moderne Open Source Suchtechnologie und deren
Relevanz im Big-Data-Umfeld
Daniel Wrigley
> Consultant für Search & Big Data Technologies> Zertifizierter Apache Solr Trainer> Autor des Buchs „Einführung in Apache Solr“
> [email protected]> @wrigley_dan
Daniel Wrigley
@wrigley_dan
Wir realisieren Lösungen zur optimalen Nutzung von Daten.
> Commerce Search> Intranet Portal Search> Website Search> Search Knowledge Management> Explorative Datenanalyse> Social Media Monitoring Tools
WAS WIR TUN
SEIT 1994
HEUTE Herstellerunabhängiges Unternehmen. Lösungen für Suche, Navigation und Datenanalyse mit Fokus auf Open Source.
2014 Partnerschaft mit E-Commerce-Leitfaden
2013 Partnerschaft mit Smartlogic
2011 Partnerschaft mit LucidWorks
2000 Erste Projekte mit Open Source
1994 Unternehmensgründung und Entwicklung eines Produkts
Agenda
> Was ist Solr?
> Was kann Solr?
> Was spricht für Solr?
> Einsatzgebiete von Solr
> Solr + Big Data = ?
> SolrCloud – Solr's Skalierbarkeit
> Ein Blick über den Tellerrand
Was ist Solr?
> Open Source Framework für Suchapplikationen
> Skalierbarer Suchserver mit Apache Lucene als Kern
> REST-like HTTP/XML und JSON APIs
> Programmierfreie Integration durch Externe Konfiguration
> Plugin-Architektur für Erweiterte Anpassung
> Aktuelle Version: Solr 4.10.2
> Weltweit am meisten verbreitete Suchtechnologie
8M+ total downloads
Solr is both established & growing
250,000+monthly downloads
Largest community of developers.
2500+open Solr jobs.
Solrmost widely used search solution on the planet.
LucidworksUnmatched Solr expertise.
1/3of the active committers
70%of the open source code is committed
Lucene/Solr Revolution
world’s largest open source user conference dedicated to Lucene/Solr.
Solr has tens of thousandsof applications in production.
You use Solr everyday.
Was ist Solr?
Quelle: Infographic – The Solr Eclipse, http://lucidworks.com/blog/infographic-solr-eclipse/
Autosuggest
Facetten
Trefferliste
Sortierung
"Normale" Suche "Erweiterte" Suche
Warum Solr?
> Kein Vendor-Lock
> Voller Zugriff auf Source Code
> Aktive Community
> Kostenfreie Apache 2.0 Lizenz
> Performance
> Skalierbarkeit
> Beeinflussbare Relevanzberechnung (Basis: TF-IDF)
Einsatzgebiete von Solr
Data Acquisition
Solr
Application Users
Application Users
Application Users
Data Storage
Enrichment
Solr + Big Data = ?
SolrCloud – Solr's Skalierbarkeit
> Apache ZooKeeper als Verwaltungseinheit
> Zentrale Konfiguration des Clusters
> Load Balancing
> Ausfallsicherheit durch Replicas
> Verteilte Indexierung und Suche durch Aufteilung in Shards
> RealTimeGet und Near Real Time Search
> Automatismen zur Verteilung der Indexierungsrequests
SolrCloud – Solr's Skalierbarkeit
SolrCloud – Solr's Skalierbarkeit
Blick über den Tellerrand
> Machine Learning Apache Mahout
> Visualizing Analytics SiLK
> Linguistics Apache OpenNLP
> Semantic Enhancement Apache UIMA/Apache Stanbol/Apache OpenNLP
> Data Storage Apache Hadoop
> Data EnrichmentMapReduce/Apache Spark
> Data Acquisition Apache Flume
Links & Quellen
> Who is using Lucene/Solr: http://lucidworks.com/blog/who-uses-lucenesolr/
> Infographic – The Solr Eclipse: http://lucidworks.com/blog/infographic-solr-eclipse/
> Solr Reference Guide – SolrCloud: https://cwiki.apache.org/confluence/display/solr/SolrCloud
SHI GmbH & Co. KGCurt-Frenzel-Str. 12D - 86167 Augsburg
[email protected]+49.821.74 82 633 - 0@SHIEngineers
KONTAKT