Membuat Web Scraper Sederhana dengan Python dan BeautifulSoup

Pendahuluan

Web scraping adalah teknik untuk mengekstrak data dari situs web secara otomatis. Salah satu pustaka populer di Python untuk web scraping adalah BeautifulSoup. Artikel ini membahas cara membuat web scraper sederhana menggunakan Python dan BeautifulSoup.

Persiapan

Sebelum memulai, pastikan Python telah terinstal di sistem. Kemudian, instal pustaka yang dibutuhkan dengan perintah berikut:

pip install requests beautifulsoup4

Membuat Web Scraper

Contoh web scraper ini mengambil data dari halaman Wikipedia tentang bahasa pemrograman Python.

1. Mengimpor Modul yang Diperlukan

Buat file Python baru (misalnya scraper.py), lalu tambahkan kode berikut:

import requests
from bs4 import BeautifulSoup

2. Mengambil Halaman Web

Gunakan requests untuk mengambil halaman web:

URL = "https://id.wikipedia.org/wiki/Python_(bahasa_pemrograman)"
response = requests.get(URL)

if response.status_code == 200:
    print("Sukses mengambil halaman!")
else:
    print("Gagal mengambil halaman.")

3. Parsing HTML dengan BeautifulSoup

Setelah mendapatkan halaman web, proses dilakukan menggunakan BeautifulSoup:

soup = BeautifulSoup(response.text, "html.parser")

4. Mengambil Data Spesifik

Misalnya, ingin mengambil judul halaman dan isi paragraf pertama:

title = soup.find("h1").text
paragraph = soup.find("p").text

print("Judul Halaman:", title)
print("Paragraf Pertama:", paragraph)

5. Mengambil Semua Link

Semua tautan (link) yang ada di halaman tersebut dapat diambil dengan cara berikut:

links = soup.find_all("a")

for link in links:
    href = link.get("href")
    if href and href.startswith("/"):
        href = "https://id.wikipedia.org" + href  # Menyesuaikan dengan domain Wikipedia
    print(href)

Kesimpulan

Artikel ini telah membahas cara membuat web scraper sederhana dengan Python dan BeautifulSoup. Scraper ini dapat dikembangkan untuk mengambil lebih banyak informasi sesuai kebutuhan. Namun, selalu periksa robots.txt situs web yang ingin di-scrape agar tidak melanggar ketentuan penggunaan mereka.

Categories:Python