Captation Ic05 A09

  • View
    464

  • Download
    4

Embed Size (px)

DESCRIPTION

Ce cours d'ic05 (UTC compiègne) par Camille Maussang (linkfluence) décrit les principes de la captation de données web et les problèmes qui y sont rencontrés.

Text of Captation Ic05 A09

  • 1. Le web CrawlerAutres mthodes eExempleCaptation de donnes web e Camille Maussang camille.maussang@rtgi.fr RTGIIC05 - A09 Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe

2. Le web Crawler Autres mthodeseExempleQui suis-je ? Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 3. Le web Crawler Autres mthodeseExempleQui suis-je ?Camille Maussang (cmaussan) Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 4. Le webCrawlerAutres mthodeseExempleQui suis-je ?Camille Maussang (cmaussan)Chef du dev chez RTGI... Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 5. Le webCrawlerAutres mthodeseExempleQui suis-je ?Camille Maussang (cmaussan)Chef du dev chez RTGI...... qui fabrique des outils danalyse du web social Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 6. Le webCrawler Autres mthodes eExempleQui suis-je ?Camille Maussang (cmaussan)Chef du dev chez RTGI...... qui fabrique des outils danalyse du web social... en captant des donnes sur le web ;) e Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 7. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Le web est un corpus de documents Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 8. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Le web est un corpus de documentsouvert, Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 9. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Le web est un corpus de documentsouvert,htrog`ne, ee e Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 10. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Le web est un corpus de documentsouvert,htrog`ne, ee eet dynamique. Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 11. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseee Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 12. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : u Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 13. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : udes pages, Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 14. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : udes pages,des sites, Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 15. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : udes pages,des sites,des mots, Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 16. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : udes pages,des sites,des mots,ou des gens, Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 17. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Le web peut tre reprsent par des grapheseeeo` les noeuds sont : udes pages,des sites,des mots,ou des gens,et les arcs des liens. Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 18. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Capter des donnes sur le web requiert un certain nombre de eressources Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 19. Le webCrawlerAutres mthodeseExemple Quest-ce que le web et comment le saisir ? Capter des donnes sur le web requiert un certain nombre de eressourcesBande passante Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 20. Le webCrawlerAutres mthodeseExemple Quest-ce que le web et comment le saisir ? Capter des donnes sur le web requiert un certain nombre de eressourcesBande passanteStockage Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 21. Le webCrawlerAutres mthodeseExemple Quest-ce que le web et comment le saisir ? Capter des donnes sur le web requiert un certain nombre de eressourcesBande passanteStockageTemps machine Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 22. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Donc : Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 23. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ? Donc :Que cherchons-nous ? Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 24. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Donc :Que cherchons-nous ?Que faire pour rcuprer ce qui nous est important ?e e Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 25. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ? Donc :Que cherchons-nous ?Que faire pour rcuprer ce qui nous est important ?e eToujours penser heuristiques ... Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 26. Le webCrawlerAutres mthodeseExemple Quest-ce que le web et comment le saisir ? Donc :Que cherchons-nous ?Que faire pour rcuprer ce qui nous est important ?e eToujours penser heuristiques ...... et eets de bord ! Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 27. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Ne jamais oublier ! Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 28. Le web Crawler Autres mthodeseExemple Quest-ce que le web et comment le saisir ?Ne jamais oublier !Le web cest Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 29. Le webCrawlerAutres mthodeseExemple Quest-ce que le web et comment le saisir ?Ne jamais oublier !Le web cest nimporte qui (ouvert) Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 30. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ?Ne jamais oublier !Le web cest nimporte qui (ouvert) qui publie nimporte quoi(htrog`ne)ee e Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 31. Le webCrawler Autres mthodes eExemple Quest-ce que le web et comment le saisir ?Ne jamais oublier !Le web cest nimporte qui (ouvert) qui publie nimporte quoi(htrog`ne) nimporte quand (dynamique).ee e Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 32. Le web Crawler Autres mthodeseExemple DnitionseNormes, recommandations et standards Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 33. Le webCrawler Autres mthodes eExemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIME Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 34. Le webCrawler Autres mthodes eExemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIMERecommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOM Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 35. Le webCrawlerAutres mthodese Exemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIMERecommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOMStandards : PDF et Flash (Taux de pntration > 99%) e e Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 36. Le webCrawlerAutres mthodese Exemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIMERecommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOMStandards : PDF et Flash (Taux de pntration > 99%) e e Web dynamique Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 37. Le web Crawler Autres mthodeseExemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIMERecommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOMStandards : PDF et Flash (Taux de pntration > 99%) e e Web dynamiqueserver-side : CGI, PHP, Perl, Python, Ruby, JSP, ASP Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 38. Le webCrawlerAutres mthodeseExemple DnitionseNormes, recommandations et standardsNorme (ISO/RFC) : HTTP, URL, SGML, HTML 1-2, MIMERecommandation W3C : HTML 3-4-5, XHTML 1, CSS, DOMStandards : PDF et Flash (Taux de pntration > 99%) e e Web dynamiqueserver-side : CGI, PHP, Perl, Python, Ruby, JSP, ASPclient-side : Javascript, Flash, ActiveX, Applet Java Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 39. Le web Crawler Autres mthodeseExemple Prologue Principe Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 40. Le webCrawler Autres mthodes eExemple Prologue PrincipeTlcharger une page ee Camille Maussangcamille.maussang@rtgi.fr RTGI Captation de donnes webe 41. Le web Crawler Autres mthodeseExemple Prologue Principe Tlcharger une pageee $ wget http ::// www . example . org / -O page . html$ curl http ::// www . example . org / > page . html$ perl - MLWP :: Simple -e print get ( " http :// www . example . org / " ) > page . html Camille Maussang camille.maussang@rtgi.fr RTGI Captation de donnes webe 42. Le web Crawler Autres mthodeseExemple Prologue Principe Tlcharger une pageee $ wget http ::// www . example . org / -O page . html$ curl http ::// www . example . org / > page . html$ perl - MLWP :: Simpl