
1 GG668v26Fd55CP5W Feb 10, 2016 via iPhone 自己做个爬虫系统,教他们写正则表达式 |
2 xcodebuild Feb 10, 2016 @falcon05 正则表达式不适合处理爬下来的 HTML |
3 wdlth Feb 10, 2016 可以试试 XPath |
4 gamexg Feb 10, 2016 那么用 xpath ,有浏览器插件可以自动生成 xpath 表达式。 但是还是需要正则或* ? 做一些提取。 |
5 gaocegege OP 正则还是 Xpath ,都是需要教才能用的嘛,有什么教不会写代码的人用这样的技术的文档么 0;0 总不能来一个,教一个吧 |
6 WildCat Feb 10, 2016 via iPhone pyquery 比较适合? |
7 fengxiang Feb 10, 2016 via Android 直接用火车头得了 |
8 XadillaX Feb 10, 2016 via Android nodejs + cheerio |
9 scarlex Feb 10, 2016 试试 Nightmare.js |
10 ericls Feb 10, 2016 https://segmentfault.com/a/1190000002544142 写过一篇 面对入门的 |
11 ammzen Feb 10, 2016 看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨,我觉得他们需要的可能不是爬虫,而是快捷保存资料的工具。 Evernote 插件用好,完全可以保存重点内容与出处( URL )。 要么就去找选中即保存的那种工具,浏览完网页后,重要的东西都已经存下来了。 |
12 zog Feb 10, 2016 我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题. |
13 Tink PRO 其实主要还是要教他们处理 js 生成的内容 |
14 Jimrussell Feb 10, 2016 via Android 好的回答总是简单的,比如 7 楼。再加个按键精灵好了。 |
15 imn1 Feb 10, 2016 你需要搞清楚需求,你确定他们真的需要一个爬虫么? 他们可能更需要的是一个后台获取文档、前台截取主要部分(去除无关内容)的工具 个人觉得他们对文字阅读还是有必要的,但爬虫往往却是忽略“阅读” 可能一个离线浏览器+笔记类工具会更合适,文章采集器可能合适,不过我不太了解 同质(指 HTML 结构)少于 1000 都无必要学习爬虫,成本更高 先弄清需求吧 |
16 Exin Feb 10, 2016 via iPhone 仔细想了想,我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。 |
17 chemzqm Feb 10, 2016 学校里论文系统不一定是基于 http 的,渲染也未必是基于 html 。 就算是 html 页面抓出来格式化,选取段落才是真正麻烦的地方 |
18 C0VN Feb 10, 2016 |
19 lemonda Feb 10, 2016 |
20 kslr Feb 10, 2016 via Android 雇佣我 |
21 C0VN Feb 10, 2016 @lemonda 找到了!是 kimono https://www.kimonolabs.com/ |
22 sadscv Feb 10, 2016 @xavierskip 这个好 、完全图形化界面。 |
23 zacks Feb 10, 2016 同样推荐 pyspider 。可以通过点击网页或者代码进行爬虫。 |
24 ctrainr Feb 10, 2016 国内:火车头 八爪鱼;国外 import.io kimono visualscraper datascraping.co parsehub mozenda |
25 wizardforcel Feb 10, 2016 我现在用 node+cheerio ,但是也得懂选择器,它比起 xpath 来说对程序员更友好一点,但是对于非程序员来说还是天坑。 唯一的办法就是做个自动化的工具给他们。 |
26 C0VN Feb 16, 2016 |