今年,我们在自己家中舒适地参加了2020年SciPy大会。由于全球疫情,第19届年度Python科学计算大会今年以虚拟会议的形式举行。一年一度的SciPy大会汇集了来自工业界、学术界和政府的1500多名参与者,展示他们的最新项目,向熟练的用户和开发者学习,并协作进行代码开发。
作为维护者议程的一部分,我们介绍了Dask的最新进展。
您可以在SciPy的YouTube频道上找到该视频。Dask的更新内容从0:00持续到19:30。
以下是演讲中涵盖的主要主题的总结。您还可以查看Twitter上的原始帖子。
最近我们一直在尝试衡量社区的规模。目前我们最好的衡量指标是Dask文档的每周访问量,目前约为10,000人次。
Dask也在Jetbrains Python开发者调查中被提及。我们很高兴看到填写调查的Python开发者中有5%表示他们使用Dask。这表明PyData社区和Dask都很健康。
我们目前正在进行我们自己的调查。如果您是Dask用户,请花几分钟填写。我们将非常感激。
二月份,我们举办了一场面对面的Dask峰会,开源维护者和机构用户齐聚一堂。我们通过讲座和研讨会来帮助确定我们的挑战并设定方向。
Dask社区还有一个每月会议!会议在每月第一个星期四的美国中部时间10:00举行。如果您是Dask用户,欢迎前来听取维护者的更新并分享您的工作。
有许多基于Dask构建的项目。查看2020年Dask调查的初步结果显示,有一些项目特别受欢迎。
让我们逐一看看这些项目。
Xarray允许您以类似Pandas的方式处理包含支持元数据数组的多维数据集。
RAPIDS是一个开源的GPU加速Python库套件。使用这些工具,您可以在GPU上完整执行端到端的数据科学和分析流水线。所有操作都使用熟悉的PyData API。
BlazingSQL基于RAPIDS和Dask构建,提供了一个开源的分布式、GPU加速的SQL引擎。
虽然XGBoost已经存在很长时间了,但您现在可以在Dask集群上准备数据,然后在Dask之上引导XGBoost集群,并直接传递分布式数据帧。
Prefect是一个基于Dask调度引擎构建的工作流管理器。“用户将任务组织成流程(Flows),其余的交给Prefect处理。”
Iris是SciTools工具套件的一部分,它使用CF数据模型,为您提供一个与格式无关的数据处理接口。在处理多维地球科学数据时,它表现出色,因为在这种情况下,表格表示方式会变得笨拙且效率低下。
这些是我们社区目前为止告诉我们他们喜欢的工具。但是,如果您使用的工具不在列表中,请前往我们的调查告诉我们!根据PyPI的数据,还有很多其他工具。
有许多使用Dask的用户组。涵盖从生命科学、地球物理学、同步辐射线站到金融、零售和物流等各个领域。查看Matthew Rocklin关于“谁在使用Dask?”的精彩演讲,获取更多信息。
越来越多的营利性公司正在使用Dask构建工具。包括Coiled Computing、Prefect和Saturn Cloud。
我们还看到像微软的Azure ML团队这样的大公司为Dask Cloudprovider贡献了一个集群管理器。这有助于用户在AzureML上更快、更轻松地启动和运行Dask。
接下来谈谈最近的改进,我们做了大量工作来支持将Open UCX作为Dask中的协议。这使得支持InfiniBand或NVLink硬件的worker之间的通信得以大幅加速。
此外,最近还有一些公告显示,NVIDIA在TPCx-BB基准测试中取得了巨大突破,性能领先当前记录保持者20倍。这对所有参与的开源项目,包括Dask,都是一个巨大的成功。
我们看到Dask Gateway的使用率有所提高。许多机构正在使用它来为其员工提供按需的Dask集群。
在SciPy 2020参会者中获得最多👏反馈的更新是集群地图图(维护者称之为“biu biu biu”图)。此图提供了Dask集群调度器和worker之间及其通信的高级概览。
最后总结一下Dask接下来的工作重点,我们将继续致力于高级图优化。
根据社区的反馈,我们还将专注于提高Dask调度器的性能。目前正在进行一些工作,包括使用Rust实现调度器、动态任务创建以及持续的基准测试。
最后,我很高兴地宣布,在陈·扎克伯格基金会的资助下,Dask将招聘一名维护者,专注于生物科学领域的使用推广。如果您对此感兴趣,请关注我们的Twitter账户以获取更多公告。