
1 TheSe7en Aug 14, 2012 一! |
2 neildd Aug 14, 2012 其实文件名是流水号的话,用wget一个命令就完成了,根本用不着写脚本。 |
3 ouankou OP @neildd 问题就是网页参数是流水号,而且从-6开始,变态。pdf地址内尾部是随机的6位数字,至少我看不出什么规律,所以就手动提取了。 类似这样的,最后六位数字每页都不同。 <PARAM NAME="SRC" VALUE=/bjm/bjwh/zrdl/200711/P020071117503730461643.pdf> |
4 zern Aug 14, 2012 |
5 huihen &nbs; Aug 14, 2012 楼上不错 |
6 armoni Aug 14, 2012 curl提取pdf地址,然后wget,这事儿还是shell好使 |
7 twor2 Aug 14, 2012 赞一个 |
8 zhaobei92 Aug 17, 2012 pagesrc = str(fileHandle.read(), 'utf-8') 这句好像不能实现吧。 |
9 ouankou OP @zhaobei92 是的,那个编码选错了,这里贴的代码已经改了不少。这句改成了: pagesrc = str(fileHandle.read(), 'euc-jp', 'ignore') 请参见: https://github.com/ouankou/Caribrenamer |