正则的一个问题,大侠帮忙啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
richiefans
V2EX    程序员

正则的一个问题,大侠帮忙啊

  •  
  •   richiefans
    iamued 2012-08-23 17:42:50 +08:00 4096 次点击
    这是一个创建于 4867 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前用的这个正则 <[a|A][^<>]href=\"([^\"]+)\"[^<>]>([^<>]+)<\/[a|A]>
    可以匹配出诸如

    <a href="url1.html">text1</a>
    <a href="url1.html" target="_blank">text1</a>
    <a class="c1" href="url1.html">text1</a>

    目前发现在获取text的时候 有以下问题
    如果是

    <a href="url.html"><span>链接1</span></a>

    就没办法获取了
    请大侠帮忙解决下
    或者有没有比较通用的提取链接的正则 目前在用python 不过正则应该没太大区别吧
    9 条回复    1970-01-01 08:00:00 +08:00
    yangg
        1
    yangg  
       2012-08-23 17:56:04 +08:00
    匹配所有的,非贪婪

    <[a|A][^<>]href=\"([^\"]+)\"[^<>]>([\s\S]*?)<\/[a|A]>
    kamal
        2
    kamal  
       2012-08-23 19:30:04 +08:00
    sivacohan
        3
    sivacohan  
    PRO
       2012-08-23 19:40:42 +08:00
    python有urllib2,用来提取很方便。不然总会因为标签包含问题
    或者你可以分为两部或者几步完成。第一步和一楼的一样。第二部,去查询之前第一步生成的结果集都保护哪些标签。

    正则有一个问题就是你必须明确你有处理的文本情况。个人建议是逐步细化。
    zxyzxy12321
        4
    zxyzxy12321  
       2012-08-23 20:56:50 +08:00
    ljbha007
        5
    ljbha007  
       2012-08-23 21:07:23 +08:00
    1楼正解 这个问题我以前也纠结了很久 用懒惰匹配到</a>为止即可,否则直接用[\s\S]的话会匹配到最后一个</a>为止
    rightgenius
        6
    rightgenius  
       2012-08-24 10:34:41 +08:00
    @zxyzxy12321 这链接太强大了!stackoverflow上的人真是大湿啊!
    reus
        7
    reus  
       2012-08-24 10:42:51 +08:00
    可以用lxml来解析html,比正则方便很多
    hyq
        8
    hyq  
       2012-08-24 10:44:50 +08:00
    可以用SGML理HTML
    hyq
        9
    hyq  
       2012-08-24 10:46:00 +08:00
    另外,正的候,加大小不敏感的flag,就不用判a|A
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2691 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 08:58 PVG 16:58 LAX 00:58 JFK 03:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86