二月下旬,Dask 社区成员齐聚华盛顿特区。这次聚会汇集了开源项目维护者和来自各机构的活跃用户。本文分享了本次研讨会的总结,包括幻灯片、图片和经验教训。
注:本次活动恰逢 COVID-19 在美国和欧洲大规模爆发前夕。我们很高兴能见到彼此,但今天不建议这样做。
参会人员有哪些?
这是一场仅限邀请的活动,共有五十人参加,每个组织最多三人。我们有意邀请了人数均等的两类人群:自认为开源维护者的人,以及自认为机构用户的人。与会者来自学术界、小型初创企业、科技公司、政府机构和大型企业。令人惊讶的是,我们有很多共同点。与会者来自以下公司:
- Anaconda
- Berkeley Institute for Data Science
- Blue Yonder
- Brookhaven National Lab
- Capital One
- Chan Zuckerberg Initiative
- Coiled Computing
- Columbia University
- D. E. Shaw & Co.
- Flatiron Health
- Howard Hughes Medical Institute, Janelia Research Campus
- Inria
- Kitware
- Lawrence Berkeley National Lab
- Los Alamos National Laboratory
- MetroStar Systems
- Microsoft
- NIMH
- NVIDIA
- National Center for Atmospheric Research (NCAR)
- National Energy Research Scientific Computing (NERSC) Center
- Prefect
- Quansight
- Related Sciences
- Saturn Cloud
- Smithsonian Institution
- SymphonyRM
- The HDF Group
- USGS
- Ursa Labs
目标
Dask 社区成员来自不同的背景。这是一个有趣的群体,他们都在解决截然不同的问题,但都有着惊人相似的需求。我们在 GitHub 上认识多年,有着共同的历史,但许多人从未在线下见过面。
回想起来,本次研讨会主要有两个目的:
- 它帮助我们认识到大家都在努力解决相同的问题,从而明确了方向并激发了未来的工作动力
- 它帮助我们建立社会联系和合作关系,有助于应对跨组织构建和维护社区软件的日常挑战
结构
我们聚会了三天。
在第1-2天,我们先听取了与会者的简短发言,下午接着进行了工作会议。
发言时间很短,约10-15分钟(会议室里只有专家,意味着我们可以轻松跳过介绍性材料),并且总是有相同的结构
- 他们所在领域的简要描述及其重要性
- 示例:我们查看世界各地数千个测量设备的地震读数,以理解和预测灾难性地震
-
- 他们如何使用 Dask 解决这个问题
- 示例:这意味着我们需要对数千个非常长的时间序列进行互相关。我们在 AWS 上使用 Xarray 和一些自定义操作。
-
- Dask 有哪些问题,以及他们希望看到哪些改进
- 示例:事实证明,我们的坐标轴标签可能会比 Xarray 设计的更大。此外,Dask 的任务图大小也可能成为一个限制因素
-
这些发言分为六个部分
- 工作流程和管道
- 部署
- 图像处理
- 通用数据分析
- 性能和工具
- Xarray
我们没有录制视频,但下方有每次发言的幻灯片。
1:工作流程和管道
Blue Yonder
- 标题:用于机器学习的 ETL 管道
- 发言人:Florian Jetter
- 同时出席
- Nefta Kanilmaz
- Lucas Rademaker
-
-
Prefect
- 标题:Prefect + Dask:并行/分布式工作流
- 发言人:Chris White,CTO
Dask + Prefect from Chris White </div>
SymphonyRM
- 标题:在医疗保健领域使用 Dask 和 Prefect 进行数据科学研究
- 发言人:Joe Schmid,CTO
2:部署
Quansight
- 标题:使用 Dask 构建基于云的数据科学平台
- 发言人:Dharhas Pothina
- 同时出席:- James Bourbeau - Dhavide Aruliah
NVIDIA 和 Microsoft/Azure
- 标题:使用 Dask-Cloudprovider 进行原生云部署
- 发言人:Jacob Tomlinson、Tom Drabas 和 Code Peterson
Inria
- 标题:使用 Dask-Jobqueue 进行 HPC 部署
- 发言人:Loïc Esteve
Anaconda
- 标题:Dask Gateway
- 发言人:Jim Crist
- 同时出席:- Tom Augspurger - Eric Dill - Jonathan Helmus
3:图像处理
Kitware
- 标题:使用 ITK 进行科学图像分析和可视化
- 发言人:Matt McCormick
Kitware
- 标题:使用 X 射线和电子进行图像处理
- 发言人:Marcus Hanwell
National Institutes of Mental Health
Janelia / Howard Hughes Medical Institute
- 标题:Spark、Dask 和 FlyEM HPC
- 发言人:Stuart Berg
4:通用数据分析
Brookhaven National Labs
- 标题:Dask 在 DOE 光源中的应用
- 发言人:Dan Allan
D.E. Shaw Group
- 标题:Dask 在 D.E. Shaw 的应用
- 发言人:Akihiro Matsukawa
Anaconda
- 标题:Dask Dataframes 和 Dask-ML 总结
- 发言人:Tom Augspurger
5:性能和工具
Berkeley Institute for Data Science
- 标题:Numpy API
- 发言人:Sebastian Berg
Ursa Labs
- 标题:Arrow
- 发言人:Joris Van den Bossche
NVIDIA
- 标题:RAPIDS
- 发言人:Keith Kraus
- 同时出席:- Mike Beaumont - Richard Zamora
NVIDIA
6:Xarray
USGS 和 NCAR
- 标题:Dask 在 Pangeo 中的应用
- 发言人:Rich Signell 和 Anderson Banihirwe
LBNL
- 标题:使用 Dask 加速实验科学
- 发言人:Matt Henderson
- 幻灯片 - 文件太大,无法预览
LANL
- 标题:地震分析
- 发言人:Jonathan MacCarthy
开放讨论时间
上午的快速发言,接着是下午的开放讨论时间,这是一个富有成效的组合。下方您会看到地球科学家和量化分析师讨论相同挑战的照片,以及 Pandas/Arrow/RAPIDS/Dask 等库的维护者共同努力寻找联合解决方案的照片。
这种开放讨论时间是一种富有成效的组合,我们将来会推荐给其他技术背景多样的团队。整个研讨会期间的参与度和效率都非常高。
总结
Dask 的力量来自于这个由广泛的利益相关者组成的社区。
早期对简洁性和实用性的技术关注使得该项目能够在许多不同领域快速被采用。因此,这些领域内的实践者很大程度上是如今推动项目前进的人。这种社区驱动的开发带来了技术和文化挑战以及经验的惊人多样性,迫使项目以一种受实用主义约束的方式快速发展。
仍有大量工作要做。短期来看,本次研讨会提出了许多大家共同面临的技术挑战(更简单的部署、任务约束下的调度、主动内存管理)。长期来看,我们需要欢迎更多人加入这个社区,既要增加领域的 다양성多样性,也要增加个人的多样性(绝大多数与会者是来自美国和西欧的三十多岁的白人男性)。
我们处于一个有利位置来实现这一改变。Dask 近期的发展引起了许多不同机构的关注。现在是慎重规划项目发展的关键时刻,以确保项目和社区持续反映广泛而道德的原则体系。
致谢
赞助商
没有我们赞助商的支持,本次研讨会就不可能成功举办。感谢 Anaconda、Capital One 和 NVIDIA 对本次活动的支持和慷慨捐助。
组织者
非常感谢组织者们从繁忙的日程中抽出时间,并为本次活动付出了巨大的努力。
- Brittany Treadway (Capital One)
- Keith Kraus (NVIDIA)
- Matthew Rocklin (Coiled Computing)
- Mike Beaumont (NVIDIA)
- Mike McCarty (Capital One)
- Neia Woodson (Capital One)
- Jake Schmitt (Capital One)
- Jim Crist (Anaconda)