提交新活动

谢谢!您的提交已收到!
哎呀!提交表单时出现问题。

提交新闻报道

谢谢!您的提交已收到!
哎呀!提交表单时出现问题。

订阅新闻通讯

谢谢!您的提交已收到!
哎呀!提交表单时出现问题。
2020年7月17日

年度回顾

作者

今年,我们在自己家中舒适地参加了2020年SciPy大会。由于全球疫情,第19届年度Python科学计算大会今年以虚拟会议的形式举行。一年一度的SciPy大会汇集了来自工业界、学术界和政府的1500多名参与者,展示他们的最新项目,向熟练的用户和开发者学习,并协作进行代码开发。

作为维护者议程的一部分,我们介绍了Dask的最新进展。

视频

您可以在SciPy的YouTube频道上找到该视频。Dask的更新内容从0:00持续到19:30。

幻灯片

演讲总结

以下是演讲中涵盖的主要主题的总结。您还可以查看Twitter上的原始帖子

社区概况

最近我们一直在尝试衡量社区的规模。目前我们最好的衡量指标是Dask文档的每周访问量,目前约为10,000人次。

Dask documentation analytics showing growth to 10,000 weekly users over the last four years

Dask也在Jetbrains Python开发者调查中被提及。我们很高兴看到填写调查的Python开发者中有5%表示他们使用Dask。这表明PyData社区和Dask都很健康。

Jetbrains survey results showing Dask used by 5% of Python users, beaten only by the Spark/hadoop ecosystem

我们目前正在进行我们自己的调查。如果您是Dask用户,请花几分钟填写。我们将非常感激。

Link to the Dask survey

社区活动

二月份,我们举办了一场面对面的Dask峰会,开源维护者和机构用户齐聚一堂。我们通过讲座和研讨会来帮助确定我们的挑战并设定方向。

A room of attendees at the Dask summit

Dask社区还有一个每月会议!会议在每月第一个星期四的美国中部时间10:00举行。如果您是Dask用户,欢迎前来听取维护者的更新并分享您的工作。

社区项目

有许多基于Dask构建的项目。查看2020年Dask调查的初步结果显示,有一些项目特别受欢迎。

Graph showing the most popular projects built on Dask; Xarray, RAPIDS, XGBoost, Prefect and Iris

让我们逐一看看这些项目。

Xarray

Xarray允许您以类似Pandas的方式处理包含支持元数据数组的多维数据集。

Slide showing xarray code example

RAPIDS

RAPIDS是一个开源的GPU加速Python库套件。使用这些工具,您可以在GPU上完整执行端到端的数据科学和分析流水线。所有操作都使用熟悉的PyData API。

Slide showing RAPIDS dataframe code example

BlazingSQL

BlazingSQL基于RAPIDS和Dask构建,提供了一个开源的分布式、GPU加速的SQL引擎。

Slide showing BlazingSQL code example

XGBoost

虽然XGBoost已经存在很长时间了,但您现在可以在Dask集群上准备数据,然后在Dask之上引导XGBoost集群,并直接传递分布式数据帧。

Slide showing XGBoost code example

Prefect

Prefect是一个基于Dask调度引擎构建的工作流管理器。“用户将任务组织成流程(Flows),其余的交给Prefect处理。”

Slide showing Prefect code example

Iris

IrisSciTools工具套件的一部分,它使用CF数据模型,为您提供一个与格式无关的数据处理接口。在处理多维地球科学数据时,它表现出色,因为在这种情况下,表格表示方式会变得笨拙且效率低下。

Slide showing Iris code example

更多工具

这些是我们社区目前为止告诉我们他们喜欢的工具。但是,如果您使用的工具不在列表中,请前往我们的调查告诉我们!根据PyPI的数据,还有很多其他工具。

Screenshot of PyPI showing 239 packages with Dask in their name

用户组

有许多使用Dask的用户组。涵盖从生命科学、地球物理学、同步辐射线站到金融、零售和物流等各个领域。查看Matthew Rocklin关于“谁在使用Dask?”的精彩演讲,获取更多信息。

Screenshot 'Who uses Dask?' YouTube video

营利性公司

越来越多的营利性公司正在使用Dask构建工具。包括Coiled ComputingPrefectSaturn Cloud

Slide describing the for-profit companies Coiled, Prefect and Saturn Cloud

我们还看到像微软的Azure ML团队这样的大公司为Dask Cloudprovider贡献了一个集群管理器。这有助于用户在AzureML上更快、更轻松地启动和运行Dask。

最近的改进

通信

接下来谈谈最近的改进,我们做了大量工作来支持将Open UCX作为Dask中的协议。这使得支持InfiniBandNVLink硬件的worker之间的通信得以大幅加速。

Slide showing worker communication comparison between UCX/Infiniband and TCP with UCX being much faster

此外,最近还有一些公告显示,NVIDIA在TPCx-BB基准测试中取得了巨大突破,性能领先当前记录保持者20倍。这对所有参与的开源项目,包括Dask,都是一个巨大的成功。

Slide showing TPCx-BB benchmark results

Dask Gateway

我们看到Dask Gateway的使用率有所提高。许多机构正在使用它来为其员工提供按需的Dask集群。

Slide showing Dask Gateway overview

集群地图图(又称“biu biu biu”图)

在SciPy 2020参会者中获得最多👏反馈的更新是集群地图图(维护者称之为“biu biu biu”图)。此图提供了Dask集群调度器和worker之间及其通信的高级概览。

下一步计划

高级图优化

最后总结一下Dask接下来的工作重点,我们将继续致力于高级图优化。

Slide showing High Level Graph documentation page

调度器性能

根据社区的反馈,我们还将专注于提高Dask调度器的性能。目前正在进行一些工作,包括使用Rust实现调度器、动态任务创建以及持续的基准测试。

Scheduler performance tasks including a Rust implementation, benchmarking, dynamic tasks and Cython, PyPy and C experiments

陈·扎克伯格基金会维护者职位

最后,我很高兴地宣布,在陈·扎克伯格基金会的资助下,Dask将招聘一名维护者,专注于生物科学领域的使用推广。如果您对此感兴趣,请关注我们的Twitter账户以获取更多公告。