
数据格式都是 gzip 压缩,都没法切分,只能一个线程读一个文件,很多时候小文件早就处理完了,但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable
1 alya Mar 11, 2020 换 snappy |
2 kex0916 Mar 12, 2020 可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种 |