提交新活动

谢谢!您的提交已收到!
糟糕!提交表单时出现问题。

提交新闻报道

谢谢!您的提交已收到!
糟糕!提交表单时出现问题。

订阅新闻通讯

谢谢!您的提交已收到!
糟糕!提交表单时出现问题。
2020年9月22日

2020年Dask用户调查

作者

本文介绍了2020年Dask用户调查的结果,该调查于今年夏天早些时候进行。感谢所有抽出时间填写调查问卷的人!这些结果有助于我们更好地了解Dask社区,并将指导未来的开发工作。

原始数据以及分析的初步结果可以在此 binder 中找到

Binder

如果您在数据中发现任何内容,请告知我们。

亮点

  • 我们收到了240份调查问卷(略少于去年的260份)。
  • 总的来说,结果与去年大部分相似。
  • 我们的文档相对于去年可能有所改进
  • 受访者相对于去年更关心性能。

新问题

大部分问题与2019年相同。我们增加了几个关于部署和仪表盘使用的问题。让我们先看看这些。

在使用Dask包部署集群的受访者中(约占受访者的53%),方法多种多样。

大多数人通过网页浏览器访问仪表盘。那些不使用仪表盘的人可能(希望是)只是在单机上使用带有线程调度器的Dask(尽管仪表盘在单机上也运行良好)。

学习资源

受访者对学习材料的使用情况与去年非常相似。最显著的区别在于我们的调查表提供了更多选项(我们的YouTube频道和“Gitter聊天”)。除此之外,examples.dask.org 可能相对更受欢迎。

和去年一样,我们将按使用Dask的频率对资源使用情况进行分组。

几点观察

  • GitHub Issues 变得相对不那么受欢迎了,这可能反映了文档的改进或更高的稳定性(假设人们在文档中找不到答案或遇到bug时会去Issue跟踪器)。
  • https://examples.dask.org.cn 值得注意的是,现在在偶尔使用Dask的用户中更受欢迎。
  • 为了回应去年的调查,我们投入时间改进了 https://tutorial.dask.org.cn,之前我们认为它有所不足。它的使用情况与去年大致相同(相当受欢迎),因此不确定我们是否应该在那里投入更多精力。

您如何使用Dask?

API使用情况与去年大致相同(请注意,今年参与调查的人数减少了约20人,并且人们可以选择多个选项,因此相对差异最值得关注)。我们增加了 RAPIDS、Prefect 和 XGBoost 的新选项,这些选项都有一定的受欢迎程度(与 dask.Bag 的受欢迎程度相近)。

大约65%的用户至少在某些时候在集群上使用Dask,这与去年相似。

Dask如何改进?

受访者仍然认为,更多的文档和示例是对项目最有价值的改进。

一个有趣的变化来自查看按API组(dask.dataframe, dask.array 等)划分的“目前最能帮助您的是什么?”。去年显示,“我所在领域的更多示例”对所有API组来说是最重要的(见下面的第一个表格)。但在2020年,情况有所不同(见下面的第二个表格)。

2019年,按行归一化。颜色越深表示该API用户更倾向于该优先级。目前最能帮助您的是什么? 错误修复 更多文档 我所在领域的更多示例 新功能 性能提升 Dask APIs Array 10 24 62 15 25 Bag 3 11 16 10 7 DataFrame 16 32 71 39 26 Delayed 16 22 55 26 27 Futures 12 9 25 20 17 ML 5 11 23 11 7 Xarray 8 11 34 7 9 2020年,按行归一化。颜色越深表示该API用户更倾向于该优先级。目前最能帮助您的是什么? 错误修复 更多文档 我所在领域的更多示例 新功能 性能提升 Dask APIs Array 12 16 56 15 23 Bag 7 5 24 7 16 DataFrame 24 21 67 22 41 Delayed 15 19 46 17 34 Futures 9 10 21 13 24 ML 6 4 21 9 12 Xarray 3 4 25 9 13

示例再次成为最重要的因素(Futures之外的所有API组)。但“性能改进”现在是第二重要的改进(Futures除外,对Futures来说它是最重要的)。我们应该如何解释这一点?一种积极的解释是,Dask的用户正在扩展到更大的问题,并遇到了新的扩展挑战。一种消极的解释是,用户的流程没有改变,但Dask变慢了!

您还使用哪些其他系统?

SSH仍然是最受欢迎的“集群资源管理器”。这是去年最大的惊喜,因此我们投入了一些工作使其变得更好用。除此之外,变化不大。

Dask用户对其稳定性的满意度与去年大致相同。

要点总结

  1. 总的来说,大部分情况与去年相似。
  2. 文档,特别是领域特定的示例,仍然很重要。话虽如此,我们的文档可能比去年有所改进。
  3. 更多的用户正在将Dask推向更远。投入性能改进可能很有价值。

再次感谢所有受访者!