并行 Python

快速简便

简便易用的并行 Python，满足您的需求

开始使用

Dask 能为您做什么

大数据 Pandas

Dask DataFrames 在底层使用 pandas，因此您现有的代码很可能可以直接使用。它比 Spark 更快，也更易用。

文档性能基准测试

import dask.dataframe as dd

df = dd.read_parquet("s3://data/uber/")

# How much did NYC pay Uber?
df.base_passenger_fare.sum().compute()

# And how much did drivers make?
df.driver_pay.sum().compute()

并行 For 循环

并行化您的 Python 代码，无论多么复杂。Dask 灵活多变，支持任意依赖和细粒度任务调度。

文档并行处理 5,000 个文件

from dask.distributed import Client

client = Client()

# Define your own code
def f(x):
    return x + 1

# Run your code in parallel
futures = client.map(f, range(100))
results = client.gather(futures)

大数据数组

结合使用 Dask 和 NumPy/Xarray 来处理 TB 级多维数组数据，支持 HDF、NetCDF、TIFF 或 Zarr 等格式。

文档聚合 250 TB 水模型数据

import xarray as xr

# Open image/array files natively
ds = xr.open_mfdataset("data/*.nc")

# Process across dimensions
ds.mean(dims=["lat", "lon"]).compute()

机器学习

结合 Dask 和常用机器学习库来训练或预测大型数据集，通过使用所有数据提高模型准确性。

文档示例：XGBoost 模型训练

import xgboost as xgb
import dask.dataframe as dd

df = dd.read_parquet("s3://my-data/")
dtrain = xgb.dask.DaskDMatrix(df)

model = xgb.dask.train(
    dtrain,
    {"tree_method": "hist", ...},
    ...
)

规模化性能

在机器上速度快

Dask 轻量级，直接在您的机器上运行原始代码，不会带来额外负担。无需虚拟化或编译器。

随着 Python 技术栈的成熟，您的代码也随之成熟。如今，在标准基准测试中，Dask 比 Spark 快 50%。

 import pandas as pd df = pd.read_parquet("s3://mybucket/myfile.parquet/") df = df[df.value >= 0] df.groupby("account")["value"].sum()

 import dask.dataframe as dd df = dd.read_parquet("s3://mybucket/myfile.*.parquet/") df = df[df.value >= 0] df.groupby("account")["value"].sum().compute()

为人设计

计算机很便宜。人类很昂贵。

幸运的是，人们已经知道如何使用 Dask。

它就是 Python。它就是 pandas。它就是 NumPy。

Dask 的仪表盘能指导您提高效率，快速让您成为分布式计算专家。

经济高效

快速的人类 + 快速的机器 = 经济的计算

计算的数据行数

1000000000000

成本

0.00

Dask 用户通常以每 TiB 0.10 美元的价格处理云数据

您可以在何处运行 Dask

开源部署

您可以在笔记本电脑上运行 Dask（非常简单），或将其部署在任何资源管理器上，如 Kubernetes、HPC 作业调度器、云 SaaS 服务，甚至是传统的 Hadoop/Spark 集群。

文档 Dask 部署视频

from dask.distributed import LocalCluster

cluster = LocalCluster(
    processes=False,
)       
client = cluster.get_client()

# Use Dask locally
import dask.dataframe as dd
df = dd.read_parquet("/path/to/data.parquet")
df.value.mean().compute()

您可以在何处运行 Dask

托管云

您可以通过开源 Kubernetes 或简便的 SaaS 解决方案在云端运行 Dask。 Coiled 对少量使用的个人用户免费，对拥有云账户的任何人来说都很容易使用。

文档视频：云端 Dask

from coiled import Cluster

cluster = Cluster(
    n_workers=100, region="us-east-2",
)
client = cluster.get_client()

# Use Dask on the cloud
import dask.dataframe as dd
df = dd.read_parquet("s3://data.*.parquet")
df.value.mean().compute()