在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码
rdd.foreach(println(_))
并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果
rdd.collect().foreach(println(_))
本文共 227 字,大约阅读时间需要 1 分钟。
在集群上运行spark程序时,rdd的操作都在worker机上,因此输出rdd的元素将在worker机的标准输出上进行,驱动节点上不会运行,故直接才程序中写如下代码
rdd.foreach(println(_))
并不能产生期望的结果。此时应该先收集数据,再进行打印,即可得到预期结果
rdd.collect().foreach(println(_))
转载于:https://www.cnblogs.com/timlong/p/9939460.html