Snoopy 实现模拟百度爬虫 PHP代码

封面图 • 2025-10-07 • PHP

Snoopy 是一个 PHP 类库，用于模拟 HTTP 请求（如爬虫），可以发送 GET 或 POST 请求，并获取响应内容。虽然 Snoopy 本身并不是专门用于“百度爬虫”，但你可以使用它来实现一个简单的爬虫程序，例如抓取百度搜索结果页面的内容。

下面是一个使用 **Snoopy** 实现的简单爬虫示例，用于模拟百度搜索请求并获取结果页面内容。

---

## ✅ 步骤一：下载 Snoopy 类库

你可以从 [https://sourceforge.net/projects/snoopy/](https://sourceforge.net/projects/snoopy/) 下载 Snoopy 的 PHP 类文件。

或者直接使用 Composer 安装（如果支持）：

```bash
composer require snoopy/snoopy
```

---

## ✅ 步骤二：PHP 示例代码（使用 Snoopy）

```php
<?php

// 引入 Snoopy 类
require_once 'Snoopy.class.php';

// 创建 Snoopy 对象
$snoopy = new Snoopy();

// 设置 User-Agent（模拟浏览器）
$snoopy->user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36";

// 模拟百度搜索请求
$keyword = "PHP 爬虫"; // 搜索关键词
$url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

// 发送 GET 请求
$snoopy->fetch($url);

// 输出返回的 HTML 内容
echo $snoopy->results;

// 如果需要提取特定信息（如标题、链接等），可以用正则表达式或 DOM 解析器处理
```

---

## ✅ 注意事项

- **反爬机制**：百度等搜索引擎对爬虫有严格的限制，可能返回 403 错误或验证码页面。
- **法律问题**：请确保你的爬虫行为符合网站的 `robots.txt` 文件和相关法律法规。
- **性能问题**：频繁请求可能会导致 IP 被封，建议添加延迟（`sleep()`）或使用代理。

---

## ✅ 可选改进：使用 DOM 解析提取数据

如果你想要解析百度搜索结果中的标题和链接，可以使用 `DOMDocument`：

```php
// 假设 $snoopy->results 包含了百度搜索结果的 HTML
$doc = new DOMDocument();
@$doc->loadHTML($snoopy->results);

$xpath = new DOMXPath($doc);
$items = $xpath->query('//div[@class="result"]');

foreach ($items as $item) {
    $titleNode = $xpath->query('.//h3/a', $item)->item(0);
    $linkNode = $xpath->query('.//h3/a/@href', $item)->item(0);
    
    if ($titleNode && $linkNode) {
        echo "标题: " . $titleNode->textContent . "<br>";
        echo "链接: " . $linkNode->value . "<br><br>";
    }
}
```

---

## ✅ 替代方案推荐

如果你不想使用 Snoopy，也可以考虑以下现代 PHP 爬虫库：

- **GuzzleHttp**（推荐）：更现代、功能强大，适合构建复杂的爬虫。
- **Symfony BrowserKit**：用于模拟浏览器行为。
- **PHP Simple HTML DOM Parser**：方便解析 HTML。

---

如果你需要我帮你写一个基于 **Guzzle** 的百度爬虫版本，也可以告诉我！