V2EX kex0916 的所有回复第 1 页 / 共 3 页

你要找应用真正停止的原因，是正常执行完还是遇到了错误
ERROR scheduler.LiveListenerBus: SparkListenerBus has already stopped! 这个应该是 SparkContext 停止引起的，java.io.IOException: Broken pipe 这个要看看调用栈
数据的话你可以重新跑这个任务吗，计算一下条数什么的比较一下

2019-02-02 13:57:31 +08:00

回复了 qqq8724 创建的主题问与答问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了

看样子是 task 提交被拒绝了，你有开启 spark task 推测执行吗，具体的原因要看一下 driver 的日志
如果被拒绝的原因是因为已经执行完成的话对数据没有影响，如果是因为已经标记失败的话那可能对数据有影响，如果 task 重试成功可能会重复，如果重试失败可能丢数据

2019-02-02 11:34:35 +08:00

回复了 qqq8724 创建的主题问与答问个 Spark 的问题,为什么 stage 没跑完,整个 job 就已经完了

你点有 failed 的 stages，应该能看到失败的原因，或者去查看 executor 的日志应该也能找到失败原因
数据准确性这块你是保存文本数据，写出操作不是幂等的话在出错的时候是保证不了有且仅有一次的

2019-01-10 18:54:03 +08:00

回复了 trafficMGR 创建的主题 Hadoop 自建 5 个节点的 Hadoop 集群，以及完成 MapReduce 作业

看看 NameNode DataNode，NodeManager 等日志，有没有通信警告什么的

2019-01-04 10:11:21 +08:00

回复了 cirton 创建的主题 Hadoop /span> yarn 可以监控 hadoop 或者 spark 的服务吗？

yarn 是 hadoop 的资源管理调度器，可以监控在 yarn 上运行的任务，但是不能监控 hadoop 生态的其余的组件。
你说的这种集群监控可以使用 CM，或者 Ambari 这类工具。

2018-12-14 20:55:00 +08:00

回复了 qqq8724 创建的主题问与答新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件

@qqq8724

2018-12-14 13:49:24 +08:00

回复了 qqq8724 创建的主题问与答新手求问,用 spark 怎么读取 hdfs 上 zip 文件和 tar.gz 文件

要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据，但是压缩文件默认一般都是不 splitable 的，每个 partition 读取的时候也得完全解开后读取该分区的指定目录，这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录，多个压缩文件可以按文件路径下发 task 来分布式解压，得到解压后的临时目录后，自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD，按照临时目录下的目录来划分分区，执行完后把临时目录删除。
至于你说的不解压直接读，只要读还是得解压吧，可能只是在内存中完成解压而没有写到磁盘上。

2018-11-29 17:28:31 +08:00

回复了 zhuzhezhe 创建的主题生活 23 岁，得了癌症，人生无望

加油加油

2018-11-25 13:49:09 +08:00

回复了 dhairoot 创建的主题 Hadoop 有很多 xml 文件，如何按照文件去并行，而不是一个大文件切分成小块来做并行计算呢？

不能保证每台机器上都能至少起一个 executor，最好还是放到 hdfs 这种分布式文件系统上

2018-11-24 22:59:04 +08:00

回复了 dhairoot 创建的主题 Hadoop 有很多 xml 文件，如何按照文件去并行，而不是一个大文件切分成小块来做并行计算呢？

spark 读取的话可以自己实现分区切分的规则，也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false，然后使用 hadoop rdd api.

2018-10-09 17:34:49 +08:00

回复了 Nirlan 创建的主题 Hadoop 关于 Spark 读取预分区 Hbase 问题

@Nirlan ^_^

1 2 3