12
Webスクレイピング勉強会 2014/10/26 私が開発してるhappyou.infoついて

第3回Webスクレイピング勉強会@東京 happyou.info

Embed Size (px)

DESCRIPTION

Crawling and scraping tool to retrieve information from website.

Citation preview

Page 1: 第3回Webスクレイピング勉強会@東京 happyou.info

Webスクレイピング勉強会

2014/10/26

私が開発してるhappyou.infoに

ついて

Page 2: 第3回Webスクレイピング勉強会@東京 happyou.info

岡本将吾 @shogookamoto

フリーランス

今回はRSSフィードに偏り

自己紹介

Page 3: 第3回Webスクレイピング勉強会@東京 happyou.info

FeedBeatera

Feed43

myrss.jp

RSSクリエイター

gooRSS生成

XpathFeed

Feedity.com

Page2FeedAPI

Page2RSS

Google Reader track change

はてなアンテナ

なんでもRSS

Needlebase

Open-dapper

Kimonolabs

Import.io

ScraperWiki

OutWit Hub

Grepsr

Mozenda

●a.k.a web scraping, web wrapper.

マニュアル指定型(XPath, マウス指定) オートマチック(差分、繰り返し、日付、リンク)

様々なスクレイピングツール

Page 4: 第3回Webスクレイピング勉強会@東京 happyou.info

RSSリーダーを使って好みのサイトを読むレベルではオートマでもいい。

マニュアル指定 サイトごとに手作業

が発生。規模拡大できない。

オートマティック 結果の精度が低い

。結局人間が読まなければならない。

スクレイピングは大変

Page 5: 第3回Webスクレイピング勉強会@東京 happyou.info

高精度

低精度

マニュアル指定 自動抽出

Page2FeedAPI

なんでもRSS

Page2RSS

Google Reader track change

FeedBeater

Feed43

myrss.jp

XpathFeed

Needlebase

Open-dapper

Kimonolabs

Import.io

ScraperWiki

OutWit Hub

スクレイピングは大変

Page 6: 第3回Webスクレイピング勉強会@東京 happyou.info

ウェブからマシンリーダブルな情報を抽出するのに、人手が必要

現状の人類の限界

●はなしをおおきく

Page 7: 第3回Webスクレイピング勉強会@東京 happyou.info

高精度

低精度

マニュアル指定 自動抽出

Page2FeedAPI

はてなアンテナ

Page2RSS

Google Reader track change

FeedBeater

Feed43

myrss.jp

XpathFeed

scrapingHub

80legs

Kimonolabs

Import.io

ScraperWiki

OutWit Hub Final Scraper

スクレイピングは大変

Page 8: 第3回Webスクレイピング勉強会@東京 happyou.info

Final Scraperのウェブ版

Page 9: 第3回Webスクレイピング勉強会@東京 happyou.info

実際の自動スクレイピング(1)

●http://www.happyou.info/fs/ja/sample.php

Page 10: 第3回Webスクレイピング勉強会@東京 happyou.info

実際の自動スクレイピング(2)

●http://www.happyou.info/fs/ja/sample.php

Page 11: 第3回Webスクレイピング勉強会@東京 happyou.info

●政府機関はリストがなくコンプリートできない。地方自治体は出来る。

政府機関と全上場企業をスクレイピングhttp://www.happyou.info/ja/site/fps

タグをつけて分類WebAPIhttps://zaisoft.sakura.ne.jp/happyou/webappv1/index.php

Happyou.infoとは何か

Page 12: 第3回Webスクレイピング勉強会@東京 happyou.info

最後までお聞きいただきありがとうございました

もしご興味があれば使ってください

happyou.info

●まだ完全にできてない