技術書同人誌博覧会
PythonとScrapyを使ったWebスクレイピング実践編〜あのサイトをスクレイピングするまで!〜
同人誌・59ページ・電子・500円
チェックする

この書籍ではWebスクレイピングを、PythonとScrapyフレームワークを利用して行うことをソースコードとともに解説します。

Webサイトには多くの情報があり、ブラウザの利用だけでも取得できますが、Webサイトを閲覧するという行為が能動的であり手間と時間を使うことになります。
普通のサイトからWebスクレイピングをはじめ、少しづつ難易度を高めていく実践編となります。

最後には、あのサイトをWebスクレイピングしていきます。

下のサイトをスクレイピングしていきます。
・Yahooニュース
・国土交通省の賃貸住宅管理業者検索
・Qiita
・Scrapbox
・技術書典オンラインマーケット

目次

前書き
情報を取得する意味
諸注意
metaタグに関する注意
 使われないnoodpとnoydir
robots.txtに関する注意
過剰なアクセスに関する注意
免責事項

第1章 環境構築
1.1 macOSでのPython
1.2 Windows10でのPython
1.3 環境を作る
1.4 Docker

第2章 最初のスクレイピング
2.1 Scrapy の構成について
2.2 プロジェクトの作成
2.3 アイテム設定
2.4 Scrapyの設定
2.5 Spider作成
2.5.1 解説
2.6 クローラーの実行
2.7 ソースコードについて

第3章 POST メソッドがあるサイトでスクレイピング
3.1 プロジェクトの作成
3.2 アイテム設定
3.3 Spider作成
3.3.1 解説
3.4 クローラーの実行
3.5 ソースコードについて

第4章 データベースを使用する
4.1 ORMの導入
4.2 データベースの準備
4.3 プロジェクトの作成
4.4 アイテム設定
4.5 Pipelineの設定
4.6 データベースの設定
4.7 テーブル情報の作成
4.8 Pipeline作成
4.9 Spider作成
4.9.1 解説
4.10 クローラーの実行
4.11 データベースの確認
4.12 ソースコードについて

第5章 動的画面のスクレイピング
5.1 JavaScriptレンダリングの導入
5.2 Splashの準備
5.3 プロジェクトの作成
5.4 アイテム設定
5.5 JavaScriptレンダリング用の設定
5.6 Spider作成
5.6.1 解説
5.7 クローラーの実行
5.8 ソースコードについて

第6章 Lazy loading 画面のスクレイピング
6.1 前準備
6.2 プロジェクトの作成
6.3 アイテム設定
6.4 Spider作成
6.4.1 解説
6.5 クローラーの実行
6.6 ソースコードについて

あとがき
謝辞
著者紹介
著作紹介

電子版を購入
ホーム
サークル
頒布物
マイページ