如何用 Python 将若干 html 文件提取正文，并转换成 mobi 或 txt 格式？

如果不复杂的话，直接用HTMLPaser就可以了，可以提取指定标签

https://docs.python.org/2/library/htmlparser.html

栗子:
http://www.pythonclub.org/python-files/htmlparser

只要<body> 提取出来，随便你写成什么格式

icedx

2015-04-14 20:16:48 +08:00 via Android

Out=[]
Pass=0
for char in page:
if Pass=0:
if char=='<':
Pass=1
continue
else:
if char=='>'
Pass=0
continue
else:
Out.append(Char)
else:
pass
Fatch=''.join(Out)

既然楼主不是伸手党
补全缩进就可以用了

tinybvjk

2015-04-14 21:50:21 +08:00

readability提供了提取正文的api，返回的html可以使用amazon kindlegen生成mobi格式

icedx

2015-04-14 22:24:02 +08:00

不对我那个不能用...

icedx

2015-04-14 22:35:14 +08:00

https://gist.github.com/anonymous/bf0e27d046e3c5c90168

这个还有一点瑕疵但是已经接近完美

ztmark

2015-04-14 23:01:00 +08:00

http://blog.codinglabs.org/articles/convert-html-to-kindle-book.html

xiaoboost

2015-04-14 23:07:28 +08:00

mobi？想要在kindle上看的是吗？

我以前用正则提取的，最后程序把正文存成docx文件，发到自己kindle邮箱
mobi是亚马逊自己的格式，不开源的，貌似没有现成的制作方法吧

crccw

2015-04-15 01:42:07 +08:00 via Android

BeautifulSoup挺好用的啊。。

endoffight

2015-04-15 07:42:22 +08:00 via Android

更直观的话，我给楼主推荐
pyquery

endoffight

2015-04-15 07:47:04 +08:00 via Android

忘了给给文档了 )逃

https://pypi.python.org/pypi/pyquery

metrue

2015-04-15 08:47:32 +08:00

http://get.jobdeer.com/122.get 可以参考实现。

XcodeUser

2015-04-15 08:58:03 +08:00

学下xpath，然后用lxml不就挺好挺快吗

hatni

2015-04-15 09:34:54 +08:00

@icedx 感谢你的代码，刚刚试了下打开乱码，手动添加了网页编码可行。我经管系，自学python，看了点Html CSS,陆续几个月始终没入门Javascript。

hatni

2015-04-15 09:39:08 +08:00

@endoffight pyquery ,这个需要懂Jquery,计划准备学，

BOYPT

2015-04-15 09:41:28 +08:00

@hatni pyquery 和jquery可没什么关系，共同个的是，pyquery和jquery都实现了类似的css选择器的功能。

MayLava

2015-04-15 09:44:14 +08:00

pyquery+html2text 直接转成markdown格式

hatni

2015-04-15 09:47:39 +08:00

多谢各位的帮助，我只刚看完《Learn Python the Hard Way》。Beautiful Soup 、xpath 、xml 、 pyquery 、正则表达式，上面各种新手应该按照怎样的难易顺序来学。

icedx

2015-04-15 10:10:31 +08:00 via Android

@hatni 以后要从事开发么

Loop680

2015-04-15 10:15:14 +08:00

我之前做了一个提取PDF内容转换成TXT的小工具，用的是正则做的。

fburst

2015-04-15 16:27:53 +08:00

这个我试过很多种方案，
beautfulsoup虽然没用过，但是应该是效果最好的。
其他的那些库容错率太低了，少个引号什么的都不行。比如<body>标签，html5标准里是可以不闭合的，也解析不出。
有瑕疵的网页还是比较多的，就算163什么的也免不了。
目前方案是selenium直接对接firefox。通过firefox的解析器解析html，然后js直接提取词条。这样firefox解析成什么样，我得到的就是什么。