爬虫管理平台 Crawlab v0.4.2 发布(文件管理) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
tikazyq
V2EX    程序员

爬虫管理平台 Crawlab v0.4.2 发布(文件管理)

  •  1
     
  •   tikazyq
    tikazyq 2019 年 12 月 30 日 3064 次点击
    这是一个创建于 2228 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    Crawlab 是由 Crawlab 开发组 开发和维护的分布式爬虫管理平台。由于是基于 Golang,具有很强的灵活性和高性能,可以适用于大量的爬虫管理和任务监控等爬虫部署执行场景。Crawlab 非常灵活,可以自由执行各种语言和框架的爬虫,例如 Python、Node.js 、Golang、Java、Scrapy、Selenium、Puppeteer 等等。Crawlab 目前支持的功能包括:节点注册发现、爬虫上传、任务调度、任务监控、日志管理、数据分析、定时任务等。从今年 3 月份上线以来,已经收获不少爬虫工程师以及开发者的好评,很多用户已经在企业中部署使用 Crawlab。现在 Crawlab 在 Github 上已经有近 4k stars,Dockerhub 上有近 8k pulls。另外,Crawlab 还收到了不少实际用户反馈的建议,在 Github 上已经解决了 147 个 issues,open 的还有 48 个。

    在一次用户调研中,用户反馈认为 Crawlab 提供主要价值是让爬虫变得更简单,所谓的 "Easy crawling"。因此,为了简化爬虫部署流程,我们在最近的一次更新 v0.4.2 版本中,我们上线了 文件管理 功能,让用户可以自由编辑、保存、添加、重命名爬虫文件,这样爬虫工程师就不需要因为改了一行代码而重新上传 zip 文件了。

    更新内容

    功能 /优化

    • 更高级的文件管理. 允许用户添加、删除、编辑、重命名爬虫文件。 #286
    • 优化爬虫创建流程. 允许用户创建空的自定义爬虫,然后上传 zip 文件。
    • 优化任务管理. 允许用户根据条件过滤任务列表。 #341
    • 免责声明. 加入免责声明页面。
    • 可以配置是否允许注册. #346
    • 可以添加用户.
    • 通过 API 获取版本号. #371

    Bug 修复

    • 重复节点. #391
    • "mongodb no reachable" 错误. #373

    文件管理

    文件编辑器是基于 CodeMirror,因此界面非常精美,而操作也非常容易,支持代码高亮功能,文件支持包括 .py.js.go.sh.php.mdSpiderfile(可配置爬虫的 yaml 抓取规则配置文件,参考《爬虫管理平台 Crawlab v0.4.1 发布(可配置爬虫)》)。

    以下是文件编辑器截图。

    同样,Crawlab 也有目录列表展示功能,能够展示指定目录下的文件和文件夹,并带有导航功能。

    文件管理功能旨在帮助爬虫工程师在线预览、修改爬虫文件,适合做一些一次性的、非长期性的文件修改。注意:Crawlab 暂时还不支持版本管理功能,因此每一次修改并不会被记录,要用版本管理系统( VCS )将爬虫文件管理起来最好的方式还是利用 Git/SVN 等工具,然后自己写脚本或手动打包上传爬虫文件。后期我们将优化部署流程,将整合 GitLab、Github 等代码仓库,这样会增强爬虫代码的可追溯性。

    如何更新

    如果您是直接部署,请拉最新 Github 代码,然后按照部署流程重新部署就可以了。

    如果您是 Docker 部署,请执行以下代码拉取最新镜像,然后重启容器。

    docker pull tikazyq/crawlab:latest 

    注意:升级前,请注意备份数据库。

    产品规划

    Crawlab 发展到现在已经有不少的功能了,而且随着用户的反馈,我们还将不断的加入新的实用功能。

    以下是 Crawlab 的初步产品规划。

    这些功能是根据用户的反馈( Github Issue、群反馈等)汇总而成的。不过本着敏捷的原则,这些规划也会根据进度和进一步反馈而做调整,因此并不绝对,发布日期也不会固定。如果大家能在 Github 主页底部给开发组成员打赏买几杯咖啡,开发组可能会更加有信心将 Crawlab 新功能更快的发布出来给大家使用。

    社区

    如果您觉得 Crawlab 对您的日常开发或公司有帮助,请加作者微信 tikazyq1 并注明 "Crawlab",作者会将你拉入群。欢迎在 Github 上进行 star,以及,如果遇到任何问题,请随时在 Github 上提 issue。另外,欢迎您对 Crawlab 做开发贡献。

    参考

    2 条回复    2020-01-03 09:36:51 +08:00
    yixiugegegege
        1
    yixiugegegege  
       2020 年 1 月 2 日
    Mark, 您好,按照教程搭建了,但是登录不进去,是什么问题呢
    tikazyq
        2
    tikazyq  
    OP
       2020 年 1 月 3 日
    @yixiugegegege 加微信 tikazyq1 拉群解决
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3944 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 09:49 PVG 17:49 LAX 01:49 JFK 04:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86