スクレイピング・ハッキング・ラボ
はじめに 今回はScrapyを使用してNPBの種類ごとの歴代最高記録のURLを取得してみた。 準備 Scrapyのインストール $ pip install scrapy Scrapyプロジェクトの作成 $ scrapy startproject npb $ cd npb $ tree . ├── npb │ ├── __init__.py │ ├── items.py │ …
はじめに 今回は巨人の藤田元司監督のWikiページを画像でコピーする処理を作成した。 準備 sele_headless.py from selenium import webdriver from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverMan…
はじめに 今回はseleniumでSlashdotを開いて、ブラウザを操作して結果を表示するプログラムを書いてみた。 準備 最初にpipで以下をインストールしておく。 $ pip install selenium $ pip install chromedriver $ pip install chromedriver-binary==90.0.4430…
はじめに 前回の続きでスクレイピングについて書いていく。 準備 これまた本通りだと芸がないので、はてなブログの「注目」のタイトルとURLを抽出してCSVに出力する処理を作成した。 entryTitle.py import requests from bs4 import BeautifulSoup import cs…
はじめに この本を買ったので、学習成果をまとめていく。 準備 スクレイピングでWikipediaの「今日は何の日」を取得するんだけど芸がないので、「新しい記事」のリンクのタイトルをすべて取得してみる。 newArticles.py import requests from bs4 import Bea…