Membuat Web Scraper Sederhana dengan Python dan BeautifulSoup

Pendahuluan
Web scraping adalah teknik untuk mengekstrak data dari situs web secara otomatis. Salah satu pustaka populer di Python untuk web scraping adalah BeautifulSoup. Artikel ini membahas cara membuat web scraper sederhana menggunakan Python dan BeautifulSoup.
Persiapan
Sebelum memulai, pastikan Python telah terinstal di sistem. Kemudian, instal pustaka yang dibutuhkan dengan perintah berikut:
pip install requests beautifulsoup4
Membuat Web Scraper
Contoh web scraper ini mengambil data dari halaman Wikipedia tentang bahasa pemrograman Python.
1. Mengimpor Modul yang Diperlukan
Buat file Python baru (misalnya scraper.py
), lalu tambahkan kode berikut:
import requests
from bs4 import BeautifulSoup
2. Mengambil Halaman Web
Gunakan requests untuk mengambil halaman web:
URL = "https://id.wikipedia.org/wiki/Python_(bahasa_pemrograman)"
response = requests.get(URL)
if response.status_code == 200:
print("Sukses mengambil halaman!")
else:
print("Gagal mengambil halaman.")
3. Parsing HTML dengan BeautifulSoup
Setelah mendapatkan halaman web, proses dilakukan menggunakan BeautifulSoup:
soup = BeautifulSoup(response.text, "html.parser")
4. Mengambil Data Spesifik
Misalnya, ingin mengambil judul halaman dan isi paragraf pertama:
title = soup.find("h1").text
paragraph = soup.find("p").text
print("Judul Halaman:", title)
print("Paragraf Pertama:", paragraph)
5. Mengambil Semua Link
Semua tautan (link) yang ada di halaman tersebut dapat diambil dengan cara berikut:
links = soup.find_all("a")
for link in links:
href = link.get("href")
if href and href.startswith("/"):
href = "https://id.wikipedia.org" + href # Menyesuaikan dengan domain Wikipedia
print(href)
Kesimpulan
Artikel ini telah membahas cara membuat web scraper sederhana dengan Python dan BeautifulSoup. Scraper ini dapat dikembangkan untuk mengambil lebih banyak informasi sesuai kebutuhan. Namun, selalu periksa robots.txt situs web yang ingin di-scrape agar tidak melanggar ketentuan penggunaan mereka.