在机器上速度快
Dask 轻量级,直接在您的机器上运行原始代码,不会带来额外负担。 无需虚拟化或编译器。
随着 Python 技术栈的成熟,您的代码也随之成熟。如今,在标准基准测试中,Dask 比 Spark 快 50%。
Dask DataFrames 在底层使用 pandas,因此您现有的代码很可能可以直接使用。它比 Spark 更快,也更易用。
并行化您的 Python 代码,无论多么复杂。Dask 灵活多变,支持任意依赖和细粒度任务调度。
结合使用 Dask 和 NumPy/Xarray 来处理 TB 级多维数组数据,支持 HDF、NetCDF、TIFF 或 Zarr 等格式。
结合 Dask 和常用机器学习库来训练或预测大型数据集,通过使用所有数据提高模型准确性。
Dask 轻量级,直接在您的机器上运行原始代码,不会带来额外负担。 无需虚拟化或编译器。
随着 Python 技术栈的成熟,您的代码也随之成熟。如今,在标准基准测试中,Dask 比 Spark 快 50%。
计算机很便宜。 人类很昂贵。
幸运的是,人们已经知道如何使用 Dask。
它就是 Python。它就是 pandas。它就是 NumPy。
Dask 的仪表盘能指导您提高效率,快速让您成为分布式计算专家。
您可以在笔记本电脑上运行 Dask(非常简单),或将其部署在任何资源管理器上,如 Kubernetes、HPC 作业调度器、云 SaaS 服务,甚至是传统的 Hadoop/Spark 集群。
您可以通过开源 Kubernetes 或简便的 SaaS 解决方案在云端运行 Dask。 Coiled 对少量使用的个人用户免费,对拥有云账户的任何人来说都很容易使用。