之前写过一篇文章来介绍如何构建 Spark 源码本地的 Debug 环境 (详情看这里),但是对于 PySpark 的调试环境略有不同,再来一篇文章介绍一下。
提起 Spark 调优,通常的目标都是如何让运行时间短,但最近看到一篇有趣的文章,它的调优目标却是如何让云服务费用越低,而做到了在保证不增加运行时间、不减少处理的数据的情况下,将云服务的费用降低了 60 %,很酷很新颖,来看看。
偶然发现Spark RDD 中的 sortBy 是个特殊的 transform 算子,它居然可以像 action 算子一样触发 job。 这是为什么呢?来了解了解。