本文介绍了2020年Dask用户调查的结果,该调查于今年夏天早些时候进行。感谢所有抽出时间填写调查问卷的人!这些结果有助于我们更好地了解Dask社区,并将指导未来的开发工作。
原始数据以及分析的初步结果可以在此 binder 中找到
如果您在数据中发现任何内容,请告知我们。
大部分问题与2019年相同。我们增加了几个关于部署和仪表盘使用的问题。让我们先看看这些。
在使用Dask包部署集群的受访者中(约占受访者的53%),方法多种多样。
大多数人通过网页浏览器访问仪表盘。那些不使用仪表盘的人可能(希望是)只是在单机上使用带有线程调度器的Dask(尽管仪表盘在单机上也运行良好)。
受访者对学习材料的使用情况与去年非常相似。最显著的区别在于我们的调查表提供了更多选项(我们的YouTube频道和“Gitter聊天”)。除此之外,examples.dask.org 可能相对更受欢迎。
和去年一样,我们将按使用Dask的频率对资源使用情况进行分组。
几点观察
API使用情况与去年大致相同(请注意,今年参与调查的人数减少了约20人,并且人们可以选择多个选项,因此相对差异最值得关注)。我们增加了 RAPIDS、Prefect 和 XGBoost 的新选项,这些选项都有一定的受欢迎程度(与 dask.Bag 的受欢迎程度相近)。
大约65%的用户至少在某些时候在集群上使用Dask,这与去年相似。
受访者仍然认为,更多的文档和示例是对项目最有价值的改进。
一个有趣的变化来自查看按API组(dask.dataframe, dask.array 等)划分的“目前最能帮助您的是什么?”。去年显示,“我所在领域的更多示例”对所有API组来说是最重要的(见下面的第一个表格)。但在2020年,情况有所不同(见下面的第二个表格)。
2019年,按行归一化。颜色越深表示该API用户更倾向于该优先级。目前最能帮助您的是什么? 错误修复 更多文档 我所在领域的更多示例 新功能 性能提升 Dask APIs Array 10 24 62 15 25 Bag 3 11 16 10 7 DataFrame 16 32 71 39 26 Delayed 16 22 55 26 27 Futures 12 9 25 20 17 ML 5 11 23 11 7 Xarray 8 11 34 7 9 2020年,按行归一化。颜色越深表示该API用户更倾向于该优先级。目前最能帮助您的是什么? 错误修复 更多文档 我所在领域的更多示例 新功能 性能提升 Dask APIs Array 12 16 56 15 23 Bag 7 5 24 7 16 DataFrame 24 21 67 22 41 Delayed 15 19 46 17 34 Futures 9 10 21 13 24 ML 6 4 21 9 12 Xarray 3 4 25 9 13
示例再次成为最重要的因素(Futures之外的所有API组)。但“性能改进”现在是第二重要的改进(Futures除外,对Futures来说它是最重要的)。我们应该如何解释这一点?一种积极的解释是,Dask的用户正在扩展到更大的问题,并遇到了新的扩展挑战。一种消极的解释是,用户的流程没有改变,但Dask变慢了!
SSH仍然是最受欢迎的“集群资源管理器”。这是去年最大的惊喜,因此我们投入了一些工作使其变得更好用。除此之外,变化不大。
Dask用户对其稳定性的满意度与去年大致相同。
再次感谢所有受访者!