70
Getting Data with import.io Kerstin Reichert – SEO CAMPIXX 2016

Getting Data with import.io | SEO CAMPIXX 2016

Embed Size (px)

Citation preview

Page 1: Getting Data with import.io | SEO CAMPIXX 2016

Getting Data with import.io

Kerstin Reichert – SEO CAMPIXX 2016

Page 2: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin ReichertSEO Consultant & Trainerin

Page 3: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Kontakt

Kerstin Reichert – Getting Data with import.io

Mail: [email protected]: www.kerstinreichert.com

Google+: https://plus.google.com/+KerstinReichertTwitter: @Frau_ReichertSnapchat: frau_reichert

Page 4: Getting Data with import.io | SEO CAMPIXX 2016

Before we get started

Page 5: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Disclaimer

Kerstin Reichert – Getting Data with import.io

Crawl responsibly!

http://support.import.io/knowledgebase/articles/265497-best-practice-in-web-crawling

Page 6: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Zielsetzung

Kerstin Reichert – Getting Data with import.io

Welche Informationen werden benötigt und wofür?

Page 7: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Wie erreiche ich mein Ziel?

Kerstin Reichert – Getting Data with import.io

Mit welcher Methode kann ich die relevanten Daten erheben, aufbereiten und in mein gewünschtes Format bringen?

Page 8: Getting Data with import.io | SEO CAMPIXX 2016

An intro to import.io

Page 9: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Web Scraping

https://en.wikipedia.org/wiki/Web_scraping

"Web scraping (web harvesting or web data extraction) is a computer software technique of extracting information from websites. Usually, such software programs simulate human exploration of the World Wide Web by either implementing low-level Hypertext Transfer Protocol (HTTP), or embedding a fully-fledged web browser, such as Mozilla Firefox.

Web scraping is closely related to web indexing, which indexes information on the web using a bot or web crawler and is a universal technique adopted by most search engines."

Page 10: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Import.io

Kerstin Reichert – Getting Data with import.io

Page 11: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Wie funktioniert import.io?

Kerstin Reichert – Getting Data with import.io

• Auslesen von Websites• Extrahieren von Daten• Point and Click UI zur Auswahl der Informationen• Algorithmus transferiert Auswahl in strukturiertes

Datenformat• Real-time API• No coding

• import.io ist kostenlos

Page 12: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Anwendung von import.io

Kerstin Reichert – Getting Data with import.io

• Daten analysieren• Informationen visualisieren• "Easier than copy and paste"

Page 13: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Download import.io

Kerstin Reichert – Getting Data with import.io

https://www.import.io/download/download-windows

Page 14: Getting Data with import.io | SEO CAMPIXX 2016

import.io Tools

Page 15: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

import.io Tool-Set

Kerstin Reichert – Getting Data with import.io

Page 16: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Magic

Kerstin Reichert – Getting Data with import.io

• Kein Setup notwendig• One-Click Funktion• Extrahiert Daten von angegebenen URLs• Erkennt Paginierung• Eingeschränkter Funktionsumfang

Page 17: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Magic – Crawl starten

Kerstin Reichert – Getting Data with import.io

• Per One-Click-Funktion werden Daten extrahiert• Paginierung wird erkannt und berücksichtigt

Page 18: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Magic – API speichern

Kerstin Reichert – Getting Data with import.io

• Abfrage kann nach Speichern im Dashboard durchgeführt werden• Single und Bulk Extract möglich

Page 19: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Magic – CSV Download

Kerstin Reichert – Getting Data with import.io

Download ist als CSV oder JSON verfügbar

Page 20: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor

Kerstin Reichert – Getting Data with import.io

• Tool-Download notwendig• Point and Click UI• Bulk-Extract möglich

Page 21: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor- URL Anagbe

Kerstin Reichert – Getting Data with import.io

Vom Browser zum Extractor (ON/OFF)

Page 22: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor - Formatwahl

Kerstin Reichert – Getting Data with import.io

Eine vs. viele Zeilen

Page 23: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor - Datenselektion

Kerstin Reichert – Getting Data with import.io

Datenauswahl per Click

Page 24: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor - XPath & RegEx

Kerstin Reichert – Getting Data with import.io

Advanced Settings – Xpath & RegEx

Page 25: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Datenselektion per XPath

Kerstin Reichert – Getting Data with import.io

z.B. bei Drop-Downs

Page 26: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Copy XPath

Kerstin Reichert – Getting Data with import.io

Genaue Pfadangabe der zu extrahierenden DatenBeispiel: //*[@id="listProductSizes"]

Page 27: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Learning XPath

Kerstin Reichert – Getting Data with import.io

http://www.w3schools.com/xsl/xpath_intro.asp

Page 28: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Datenauswahl per RegEx

Kerstin Reichert – Getting Data with import.io

Per XPath generierte Daten präzisieren / bereinigen

Page 29: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Learning RegEx

Kerstin Reichert – Getting Data with import.io

https://www.codeschool.com/courses/breaking-the-ice-with-regular-expressions

Page 30: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Xpath &RegEx Cheat Sheet

Kerstin Reichert – Getting Data with import.io

https://docs.google.com/document/d/1DJXHTqRMyaOwON_a7J9tQIFeKx5e-HNU5uyHS7GdYeE/edit#heading=h.gw71hsqkt4kw

Page 31: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Extractor - Bulk-Extract

Kerstin Reichert – Getting Data with import.io

Per Bulk Extract können URL-Listen für den Crawl hinterlegt werden

Page 32: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler

Kerstin Reichert – Getting Data with import.io

• Automatisierter Extractor• Falls URL nicht bekannt• Wird trainiert• Mindestens 5 Beispiele notwendig!

Page 33: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Training

Kerstin Reichert – Getting Data with import.io

Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)

Page 34: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Datenauswahl

Kerstin Reichert – Getting Data with import.io

• Eine vs. Mehrere Zeilen (z.B. Produkt- vs. Kategorieseite)• Markieren der zu extrahierenden Informationen• Der Vorgang muss mindestens 5 Mal wiederholt werden

Page 35: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Speichern

Kerstin Reichert – Getting Data with import.io

Nach abgeschlossenem Training speichern

Page 36: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Einstellungen

Kerstin Reichert – Getting Data with import.io

Simple vs. AdvancedZahlreiche Einstellungen möglich:• Start-Auswahl• Crawl-Tiefe• Crawl-Geschwindigkeit• Cookies• Ausschließen von Bereichen/URLs

Page 37: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Ausführen

Kerstin Reichert – Getting Data with import.io

Daten werden gemäß vorherigem Training extrahiert

Page 38: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Dashboard

Kerstin Reichert – Getting Data with import.io

Erneute Abfrage kann als Single oder Bulk Extract aus Dashboard erfolgen

Page 39: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – Detailseite

Kerstin Reichert – Getting Data with import.io

• Crawler kann wie zuvor beschrieben für Detailseiten trainiert werden• Vorgang muss auch hier mindestens 5 Mal wiederholt werden

Page 40: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Crawler – XPath/RegEx

Kerstin Reichert – Getting Data with import.io

Zu extrahierende Daten können per XPath und RegEx angegeben werden

Page 41: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Connector

Kerstin Reichert – Getting Data with import.io

• Macro• Zeichnet Klicks auf• Diese können anschliessend im Dashboard ausgeführt

werden (z.B. Suchanfragen)

Page 42: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Connector – Record

Kerstin Reichert – Getting Data with import.io

Suchanfrage ausführen und per Record aufzeichnen

Page 43: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Connector – Train rows

Kerstin Reichert – Getting Data with import.io

1. Gewünschte Zeilen markieren um Crawler zu trainieren2. Zu selektierende Daten anwählen und in Spalten anlegen

Page 44: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Connector – Dashboard

Kerstin Reichert – Getting Data with import.io

Suchanfrage kann anschließend im Dashboard ausgeführt werden

Page 45: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Tool-Auswahl

Kerstin Reichert – Getting Data with import.io

https://www.kumu.io/AlexGimson/importio-tool-chooser

Page 46: Getting Data with import.io | SEO CAMPIXX 2016

Use Cases

Page 47: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Beobachtung Wettbewerb

Kerstin Reichert – Getting Data with import.io

• Gibt es neue Einträge in meiner Branche/Stadt?• Wie entwickeln sich die Bewertungen?

Page 48: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Autoren-Outreach

Kerstin Reichert – Getting Data with import.io

Wer kann zu welchem Thema für mich schreiben?1. Daten von Online-Portalen sammeln2. Nach Themen sortieren3. Autoren für gewünschte Themen finden4. Kontaktdaten erheben

Page 49: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Influencer unter den Autoren

Kerstin Reichert – Getting Data with import.io

Welche Autoren haben die größte Reichweite?• Social Profile: Anzahl Follower/Fans • Interaktionen bei Veröffentlichungenhttp://www.sharedcount.com/

Page 50: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Media-Outreach

Kerstin Reichert – Getting Data with import.io

Wo kann ich meine Inhalte platzieren?• Welche Themen sind gefragt• Welches Format (Text/Infografik/Bild)• Welcher Redakteur ist für meinen Themenbereich der

richtige Ansprechpartner

Page 51: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Content-Marketing – Part 1

Kerstin Reichert – Getting Data with import.io

Beispiel: Data-Journalism

Äh, nein!

Page 52: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Content-Marketing – Part 2

Kerstin Reichert – Getting Data with import.io

Besser: 1. Interessante/Aktuelle Themen ausfindig machen

(z.B. mit Hilfe von Google Trends)2. Daten erheben3. Auswertung visualisieren4. Für Publikation aufbereiten

Data journalism is a journalism specialty reflecting the increased role that numerical data is used in the production and distribution of information in the digital era. It reflects the increased interaction between content producers (journalist) and several other fields such as design, computer science and statistics. From the point of view of journalists, it represents "an overlapping set of competencies drawn from disparate fields".

https://en.wikipedia.org/wiki/Data_journalism

Page 53: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Content-Marketing – Part 3

Kerstin Reichert – Getting Data with import.io

Import.io ermöglicht Visualisierung mit Hilfe von Drittanbietern:• https://www.silk.co/product• https://plot.ly/

Page 54: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Content-Marketing – Part 4

Kerstin Reichert – Getting Data with import.io

Beispiele: https://www.import.io/post/8-fantastic-examples-of-data-journalism/

Page 55: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Content-Marketing – Part 5

Kerstin Reichert – Getting Data with import.io

Kostenloser Service von import.io für Journalisten: http://import-io.github.io/enterprise-pages/data-journalism/

Page 56: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Produktvorstellung

Kerstin Reichert – Getting Data with import.io

Wo finde ich meine Zielgruppe? z.B. http://www.meetup.com/ 1. Plattform nach Themen/Ort auswerten2. Anhand von Mitgliedergröße priorisieren

Page 57: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Speaking Opportunities

Kerstin Reichert – Getting Data with import.io

Wo gibt es Veranstaltungen zu meinem Thema? z.B. http://www.meetup.com/ 1. Plattform nach Themen/Ort sortieren2. Anhand von Mitgliedergröße priorisieren3. URLs, Ort, Thema, Organisator und Termine extrahieren

Page 58: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Preis- & Sortimentstrategie

Kerstin Reichert – Getting Data with import.io

Wettbewerbsvergleich• Zu welchem Preis bieten Wettbewerber Produkte an?• Welche Artikel fehlen in meinem Sortiment?

(z.B. bestimmte Marken)

Page 59: Getting Data with import.io | SEO CAMPIXX 2016

Eure Ideen?

Page 60: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

import.io Integration

Kerstin Reichert – Getting Data with import.io

https://www.import.io/partners/our-partners/

Page 61: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Diskussionsrunde

Kerstin Reichert – Getting Data with import.io

Wie setzt ihr import.io ein?Welche weiteren Use Cases sind denkbar?

Page 62: Getting Data with import.io | SEO CAMPIXX 2016

Weitere Ressourcen

Page 63: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Import.io Knowledge Base

Kerstin Reichert – Getting Data with import.io

http://support.import.io/knowledgebase

Page 64: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

YouTube

Kerstin Reichert – Getting Data with import.io

https://www.youtube.com/user/importiovideos

Page 65: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Facebook

Kerstin Reichert – Getting Data with import.io

https://www.facebook.com/groups/333804556787487/

Page 66: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Stack Overflow

Kerstin Reichert – Getting Data with import.io

http://stackoverflow.com/questions/tagged/import.io

Page 67: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Udemy

Kerstin Reichert – Getting Data with import.io

https://www.udemy.com/learn-web-scraping-in-minutes/

Page 68: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Tipp: Extract Conference

Kerstin Reichert – Getting Data with import.io

https://www.import.io/extract-conference/

Page 69: Getting Data with import.io | SEO CAMPIXX 2016

Kerstin Reichert – Getting Data with import.io

Danke!

Page 70: Getting Data with import.io | SEO CAMPIXX 2016

[email protected]

Kontakt: