Postgre中什么是并行查询？

封面图 • 2025-09-02 • PostgreSQL

在 PostgreSQL（简称 Postgre）中，**并行查询（Parallel Query）** 是一种优化技术，它允许数据库在执行某些查询时利用多个 CPU 核心来并行处理任务，从而加快查询的执行速度。这种功能从 PostgreSQL 12 开始引入，并在后续版本中得到了进一步增强。

---

## ✅ 并行查询的定义

**并行查询**是指数据库系统在执行一个查询时，将查询任务分解成多个子任务，并由多个工作进程（worker processes）同时执行这些子任务，最终将结果合并返回给用户。

---

## 🧠 并行查询的原理

PostgreSQL 的并行查询主要通过以下机制实现：

1. **主进程（Main Process）**：负责解析查询、生成执行计划，并协调并行任务。
2. **工作进程（Worker Processes）**：由主进程启动，用于并行执行查询的一部分任务。
3. **并行操作符（Parallel Operators）**：如 `Parallel Seq Scan`、`Parallel Index Scan`、`Parallel Hash Join` 等，支持并行执行。

---

## 🔍 支持并行查询的常见操作

以下是一些可以被并行执行的操作：

| 操作类型 | 是否支持并行 |
|----------|----------------|
| `Seq Scan`（顺序扫描） | ✅ |
| `Index Scan`（索引扫描） | ✅ |
| `Hash Join`（哈希连接） | ✅ |
| `Merge Join`（排序合并连接） | ✅ |
| `Aggregate`（聚合） | ✅ |
| `Sort`（排序） | ✅ |
| `Window Agg`（窗口函数） | ✅ |

> 注意：并不是所有查询都可以并行执行，只有当查询涉及大量数据时，并行查询才会被启用。

---

## 📈 并行查询的优势

- **提高查询性能**：利用多核 CPU，加快大数据量的查询速度。
- **减少响应时间**：对于复杂查询或大数据集，可以显著缩短执行时间。
- **提升并发能力**：在高负载情况下，更有效地利用系统资源。

---

## 🛠️ 如何启用并行查询？

PostgreSQL 默认启用了并行查询功能，但可以通过以下参数进行控制：

| 参数名 | 说明 |
|--------|------|
| `max_parallel_workers_per_gather` | 控制每个 `Gather` 节点最多可以启动多少个 worker 进程。 |
| `max_parallel_workers` | 控制整个系统最多可以使用的并行 worker 数量。 |
| `parallel_setup_cost` | 控制并行查询的开销估计，影响是否选择并行执行。 |
| `parallel_tuple_cost` | 控制并行查询中每条元组的开销估计。 |

---

## 📌 示例：查看并行查询执行计划

你可以使用 `EXPLAIN` 来查看查询是否使用了并行执行：

```sql
EXPLAIN ANALYZE SELECT * FROM large_table WHERE some_column = 'value';
```

如果看到如下输出，则表示该查询使用了并行执行：

```
Parallel Seq Scan on large_table  (cost=0.00..12345.67 rows=12345 width=12) (actual time=12.345..123.456 rows=12345 loops=1)
```

---

## ⚠️ 注意事项

- 并行查询需要一定的系统资源（如内存和 CPU），过多的并行任务可能导致资源争用。
- 并行查询对小表或简单查询可能没有帮助，甚至可能降低性能。
- 在某些版本（如 PostgreSQL 11 及之前）中，并行查询功能有限，需升级到 12 或更高版本才能使用。

---

## ✅ 总结

**PostgreSQL 的并行查询**是一种利用多核 CPU 提升查询性能的技术，适用于大数据量的读取、聚合、连接等操作。通过合理配置参数，可以充分发挥其优势，提升数据库的响应速度和吞吐能力。

如果你有具体的查询或场景，我可以帮你分析是否适合使用并行查询。