V2EX kex0916 的所有回复 第 1 页 / 共 3 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    kex0916    全部回复第 1 页 / 共 3 页
回复总数  53
1  2  3  
把文件合并下,或者把读取文件过程拆分成多个任务跑,最后再 union 起来
可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种
2019-11-11 11:25:44 +08:00
回复了 ccfoucs 创建的主题 推广 双十一东购物超强省钱方案来了,这样做直接返现!
邀请码:nlb4o8
2019-04-18 10:10:38 +08:00
回复了 blackcurrant 创建的主题 程序员 上百亿个键值对使用什么数据库好?
hbase
2019-03-06 11:34:50 +08:00
回复了 PingCAP 创建的主题 酷工作 这些「神秘」团队到底是做什么的?| PingCAP 招聘季
@qiuyesuifeng 我看官网上大数据岗位在北京,成都有岗位吗?
2019-02-27 15:51:41 +08:00
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
@leechow 好的,谢谢
2019-02-25 15:00:01 +08:00
回复了 leechow 创建的主题 成都 成都招银网络科技云平台(云计算)开发社招
老哥可以帮推大数据的吗
2019-02-20 15:20:50 +08:00
回复了 casillasyi 创建的主题 程序员 最近在准备弃了 Java ,入 Clojure 的坑
可以试试 scala 瑟
你要找应用真正停止的原因,是正常执行完还是遇到了错误
ERROR scheduler.LiveListenerBus: SparkListenerBus has already stopped! 这个应该是 SparkContext 停止引起的,java.io.IOException: Broken pipe 这个要看看调用栈
数据的话你可以重新跑这个任务吗,计算一下条数什么的比较一下
看样子是 task 提交被拒绝了,你有开启 spark task 推测执行吗,具体的原因要看一下 driver 的日志
如果被拒绝的原因是因为已经执行完成的话对数据没有影响,如果是因为已经标记失败的话那可能对数据有影响,如果 task 重试成功可能会重复,如果重试失败可能丢数据
你点有 failed 的 stages,应该能看到失败的原因,或者去查看 executor 的日志应该也能找到失败原因
数据准确性这块你是保存文本数据,写出操作不是幂等的话在出错的时候是保证不了有且仅有一次的
2019-01-10 18:54:03 +08:00
回复了 trafficMGR 创建的主题 Hadoop 自建 5 个节点的 Hadoop 集群,以及完成 MapReduce 作业
看看 NameNode DataNode,NodeManager 等日志,有没有通信警告什么的
2019-01-04 10:11:21 +08:00
回复了 cirton 创建的主题 Hadoop /span> yarn 可以监控 hadoop 或者 spark 的服务吗?
yarn 是 hadoop 的资源管理调度器,可以监控在 yarn 上运行的任务,但是不能监控 hadoop 生态的其余的组件。
你说的这种集群监控可以使用 CM,或者 Ambari 这类工具。
要按照压缩包文件目录分层分区要在 driver 侧就能拿到目录结构然后划分 partitions,然后每个 partition 读取该目录下的数据,但是压缩文件默认一般都是不 splitable 的,每个 partition 读取的时候也得完全解开后读取该分区的指定目录,这样各个分区都会有重复的工作。我建议是:
driver 侧将 tar.gz 先解压到临时目录,多个压缩文件可以按文件路径下发 task 来分布式解压,得到解压后的临时目录后,自己重写 FileInputFormat 来划分 split 然后采用 newAPIhadoopRDD 或者自己实现 RDD,按照临时目录下的目录来划分分区,执行完后把临时目录删除。
至于你说的不解压直接读,只要读还是得解压吧,可能只是在内存中完成解压而没有写到磁盘上。
2018-11-29 17:28:31 +08:00
回复了 zhuzhezhe 创建的主题 生活 23 岁,得了癌症,人生无望
加油加油
不能保证每台机器上都能至少起一个 executor,最好还是放到 hdfs 这种分布式文件系统上
spark 读取的话可以自己实现分区切分的规则,也可以采用自己实现 FileInputFormat 将 isSplitable 设置成 false,然后使用 hadoop rdd api.
2018-10-09 17:34:49 +08:00
回复了 Nirlan 创建的主题 Hadoop 关于 Spark 读取预分区 Hbase 问题
@Nirlan ^_^
1  2  3  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4628 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 34ms UTC 05:40 PVG 13:4 LAX 21:40 JFK 00:40
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86