Upload
masayoshi-takahashi
View
500
Download
0
Embed Size (px)
Citation preview
私と青空文庫● aozora4reader (2010-)
● 青空文庫形式テキストファイルをSonyReader向けのPDFに変換する– https://github.com/takahashim/aozora
4reader● フォーマットの仕様がよく分からず難
儀した● Code for 青空文庫の運営に参加
http://www.aozora.gr.jp/guide/aozora_bunko_hayawakari.html
青空文庫とは
「青空文庫は、誰にでもアクセスできる自由な電子本を、図書館のようにインターネット上に集めようとする活動です。」
青空文庫と図書館の関係
● 読者にとっては図書館であっても、それだけではない
● 入力をする人がいる● 校正をする人がいる● 書誌情報とURLをリンクさせる● ⇒一種の「出版(者|社)」でもあるのでは
● 新しいコンテンツを「創作」していなくてもpublishingはしている
● 新しい翻訳作品が公開されたりもする
青空文庫≒図書館+出版(者|社)
● 図書館的な機能● 著作権保護期間完了済み等の自由に配布できるコン
テンツを公開する● ⇒静的ファイルの配信サービス的なもの
● 出版(者|社)的な機能● 入力・校正の状態を管理する● 入力済み・校正済みのファイルを管理する● ⇒機能としてはCMS的なもの
現状のしくみ公開コンテンツ
(静的ファイルツ)
入力・校正管理(CMS+状態管理)
配信Webサーバ・レンタルサーバ・静的ファイル
管理用Webサーバ・自前物理サーバ・DB内蔵
図書館部分
出版部分
↑こちらが移転する
管理用Webサーバ● 入力校正管理サーバ
● DB+Webアプリ+バッチ● 入力・校正のステータス管理● 原稿と変換済みファイルの保管
● 現在は物理サーバで稼働中● データセンター内で運用されている(はず)● 現行機は2006年ごろに構築● OS: Turbolinux というレガシー感
移転にあたっての問題点
● やればできそう● 価格感も現実的なところに落とせそう● 管理サーバは頻繁なアクセスはないのでそれほどパ
フォーマンスもシビアではない● 古いところがあるのは頑張って対応する
● バージョンの更新については特に問題は言われていない
● ある程度は検証済● 単純な技術面ではないところが問題になりそう
現状の具体的な課題● サーバの代替機がない
● データ等のバックアップがあってもそこからリストアする先が確保されていない
● サーバの監視がない● 異常があるかどうかを検出するしく
み・事象発生時の一次対応等のワークフローがない
作家別作品一覧拡充版CSV● 青空文庫の書誌情報
● http://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip
● DBから毎日生成●ちょっと無理がある構成
–1作品に複数の著者等が関わっている場合、複数レコードになる
● doc/csv.md に説明
青空文庫形式テキストファイル● 青空文庫のテキストファイルのマークアップ● ルビなどをマークアップできる● 「注記一覧」「組版案内」に説明がある● HTMLへのコンバータは公開されている
● https://github.com/aozorahack/aozora2html● XHTML版はこれで生成されているとのこと
● 仕様は未整備● githubのaozorahack/specsにま
とめられるといいですね(願望)
青空文庫の文字コード● JIS X 0208で包摂
● JIS X 0213化は試験版のみ● テキストファイルはShift_JIS+注記記法
● JIS X 0208にない文字は注記記法で記載● aozora2htmlではUnicodeの数値実体参照に
変換するオプションがある● https://github.com/aozorahack/specs
/blob/master/aozora-text.md で説明
青空文庫サイトの構造● www.aozora.gr.jpのファイルそのものはg
ithubのaozorabuko/aozorabunkoから取得できる● 10GBくらいあるので結構時間がかかる
● 主な階層構造をRAML形式で記述したもの● https://gist.github.com/takahashim/b5c4efceb85a7defb1d572287a2da8d8に置いてみました