Webスクレイピング
Pythonによるインターネット情報活用術
著者 | 豊沢 聡 |
---|---|
判型 | B5変型、280頁 |
ISBN | 978-4-87783-541-5 |
価格 | 本体3,200円 |
発行日 | 2023年8月10日(初版 第1刷発行) |
備考 | ダウンロードサービス:学習に使えるサンプルファイル |
本書について
本書では、Webスクレイピングの方法を示します。
Webスクレイピングは、ネット上のさまざまな情報を取り込み、必要なものだけを抽出し、まとめを提示する技術です。総称であって、単一の技術ではありません。ネットに散在するデータの種類と形式、得たい情報と提示方法の多様さを考えればわかるように、1つの方法ですべてをカバーすることなどできないからです。本書では、目的とサイトのデータにあわせていろいろなスクリプティングの方法を説明します。
スクリプティングのベース言語はPythonです。上記に示した各種の外部パッケージは、それぞれそれ自体が1冊の書籍でもカバーしきれないほどの機能があるので、本書で紹介するのはごく一部です。もっとよい、もしくは効率的な方法を知りたい、あるいは違ったデータや表現を扱いたいという読者は、それぞれの書籍あるいはオリジナルのリファレンスマニュアルを参照してください。大半が英語なので最初は戸惑いますが、本書で取っ掛かりが得られたあとなら、それほど苦には感じないと思います。
ネットは膨大な量の情報で満ちています。あれこれ探索して活用していただければ幸いです。
目次
- 第1章 Webスクレイピングとは
- 1.1 Webスクレイピングとは
- 1.2 Webスクレイピングの手順
- 1.3 Webスクレイピングの注意
- 1.4 Webスクレイピングの問題点
- 第2章 登場人物のワードクラウドを生成する
- 2.1 目的
- 2.2 方法
- 2.3 スクリプト
- 2.4 スクリプトの説明
- 第3章 ストーリーラインを描く
- 3.1 目的
- 3.2 方法
- 3.3 スクリプト
- 3.4 スクリプトの説明
- 第4章 HTMLページからワードクラウドを生成する
- 4.1 目的
- 4.2 方法
- 4.3 スクリプト
- 4.4 スクリプトの説明
- 第5章 Zipテキストの小説からワードクラウドを生成する
- 5.1 目的
- 5.2 方法
- 5.3 スクリプト
- 5.4 スクリプトの説明
- 第6章 HTMLの表をグラフにする
- 6.1 目的
- 6.2 方法
- 6.3 スクリプト
- 6.4 スクリプトの説明
- 第7章 HTMLページから画像だけを抜き出す
- 7.1 目的
- 7.2 方法
- 7.3 スクリプト
- 7.4 スクリプトの説明
- 第8章 HTMLページの画像からアニメーションを生成する
- 8.1 目的
- 8.2 方法
- 8.3 スクリプト
- 8.4 スクリプトの説明
- 第9章 HTMLページの画像からサムネールを生成する
- 9.1 目的
- 9.2 方法
- 9.3 スクリプト
- 9.4 スクリプトの説明
- 第10章 HTMLページの画像から顔を抽出する
- 10.1 目的
- 10.2 方法
- 10.3 スクリプト
- 10.4 スクリプトの説明
- 第11章 RESTで取得した地理座標から地図を作成する
- 11.1 目的
- 11.2 方法
- 11.3 スクリプト
- 11.4 スクリプトの説明
- 第12章 CSVの地理座標から地図を作成する
- 12.1 目的
- 12.2 方法
- 12.3 スクリプト
- 12.4 スクリプトの説明
- 付 録
- 付録A やや高度な話題
- 付録B 参考文献
- 付録C スクリプトリスト