Beautiful Soup4でWEBスクレイピングに挑戦

plus-loop Beautiful Soup4でWEBスクレイピングに挑戦

2021年08月26日

システム開発

とりあえず 「Python3エンジニア認定基礎試験」「Pythonデータ分析試験」 の資格試験も一段落したので忘れないように勉強を再開。
モチベーション維持に視覚的に楽しくできることを探しているとPythonはWEBスクレイピングも得意のようだったので、早速やってみました。

BeautifulSoup4というライブラリが非常に有名で使いやすいとの事なのでインストール。
手始めにwikiのWordPressリリースノートを取得。
取得結果を 「Pythonデータ分析試験」 で使用したpandas形式で出力。

from bs4 import BeautifulSoup
import pandas as pd

#wikiのWordPressのURL
url = “https://ja.wikipedia.org/wiki/WordPress”

#上記URLからTable情報を取得
df = pd.read_html(url)

これだけでtableでくくられたHTML情報が取得できる。
結果はリスト形式で出力されるので、2番目のリストを出力すると

たった4行で取得終了。
これは簡単!

お問い合わせ
ページトップへ