第3回Webスクレイピング勉強会@東京 happyou.info

Preview:

DESCRIPTION

Crawling and scraping tool to retrieve information from website.

Citation preview

Webスクレイピング勉強会

2014/10/26

私が開発してるhappyou.infoに

ついて

岡本将吾 @shogookamoto

フリーランス

今回はRSSフィードに偏り

自己紹介

FeedBeatera

Feed43

myrss.jp

RSSクリエイター

gooRSS生成

XpathFeed

Feedity.com

Page2FeedAPI

Page2RSS

Google Reader track change

はてなアンテナ

なんでもRSS

Needlebase

Open-dapper

Kimonolabs

Import.io

ScraperWiki

OutWit Hub

Grepsr

Mozenda

●a.k.a web scraping, web wrapper.

マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンク)

様々なスクレイピングツール

RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。

マニュアル指定 サイトごとに手作業

が発生。規模拡大できない。

オートマティック 結果の精度が低い

。結局人間が読まなければならない。

スクレイピングは大変

高精度

低精度

マニュアル指定 自動抽出

Page2FeedAPI

なんでもRSS

Page2RSS

Google Reader track change

FeedBeater

Feed43

myrss.jp

XpathFeed

Needlebase

Open-dapper

Kimonolabs

Import.io

ScraperWiki

OutWit Hub

スクレイピングは大変

ウェブからマシンリーダブルな情報を抽出するのに、人手が必要

現状の人類の限界

●はなしをおおきく

高精度

低精度

マニュアル指定 自動抽出

Page2FeedAPI

はてなアンテナ

Page2RSS

Google Reader track change

FeedBeater

Feed43

myrss.jp

XpathFeed

scrapingHub

80legs

Kimonolabs

Import.io

ScraperWiki

OutWit Hub Final Scraper

スクレイピングは大変

Final Scraperのウェブ版

実際の自動スクレイピング(1)

●http://www.happyou.info/fs/ja/sample.php

実際の自動スクレイピング(2)

●http://www.happyou.info/fs/ja/sample.php

●政府機関はリストがなくコンプリートできない。地方自治体は出来る。

政府機関と全上場企業をスクレイピングhttp://www.happyou.info/ja/site/fps

タグをつけて分類WebAPIhttps://zaisoft.sakura.ne.jp/happyou/webappv1/index.php

Happyou.infoとは何か

最後までお聞きいただきありがとうございました

もしご興味があれば使ってください

happyou.info

●まだ完全にできてない