关于论坛 rss 新主题源 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
s1xu
V2EX    V2EX

关于论坛 rss 新主题源

  •  
  •   s1xu 2024-06-03 10:51:51 +08:00 11365 次点击
    这是一个创建于 567 天前的主题,其中的信息可能已经有所发展或是发生改变。

    来了挺久了一直潜水,最近在写 tg 推送 rss 的东西,想追下论坛最新的帖子

    现在是抓取的 index.xml 这个地址,但是有新回复也会推送

    我的需求是,只要新主题,请问各位有没有这个源?

    27 条回复    2024-06-04 12:23:13 +08:00
    yesha
        1
    yesha  
       2024-06-03 11:05:10 +08:00
    s1xu
        2
    s1xu  
    OP
       2024-06-03 11:13:09 +08:00 via iPhone
    @yesha 多谢解答,但是我希望是 rss 源
    yesha
        3
    yesha  
       2024-06-03 11:18:18 +08:00
    帮不了你了. 你可以自己用 api 数据,自己做个 xml 源
    s1xu
        4
    s1xu  
    OP
       2024-06-03 11:19:15 +08:00 via iPhone
    有道理噢,新思路,多谢
    QUC062IzY3M1Y6dg
        5
    QUC062IzY3M1Y6dg  
       2024-06-03 11:25:03 +08:00
    可以尝试拉取 api/topics/latest.json
    sleepm
        6
    sleepm  
       2024-06-03 11:28:18 +08:00
    上数据库,新增记录前查找,存在就不新增
    s1xu
        7
    s1xu  
    OP
       2024-06-03 11:32:42 +08:00 via iPhone
    @sleepm 主要用的这个地址不是通用的 rss 格式,我用 py 的 feedparser 做了一个通用的,只提取 title 和 link ,index.xml 这个地址的 link 会显示回复的地址,所以不太好用
    elechi
        8
    elechi  
       2024-06-03 14:10:55 +08:00
    feed/tab/tech.xml
    我订阅的这个,没有回复
    Zaden
        9
    Zaden  
       2024-06-03 14:14:06 +08:00
    @elechi #8 请问哪里来的 xml ?这个地址只有技术的,有所有主题的吗?
    fixbugs
        10
    fixbugs  
       2024-06-03 14:17:43 +08:00
    可以使用 rsshub
    Zaden
        11
    Zaden  
       2024-06-03 14:19:35 +08:00
    @Zaden #9 发现就在右侧栏里 index.xml
    solodxg
        12
    solodxg  
       2024-06-03 14:22:37 +08:00
    s1xu
        13
    s1xu  
    OP
       2024-06-03 15:02:51 +08:00 via iPhone
    @Zaden 这个又回到了我前面讲的,会推送回复的帖子
    eaststarpen
        14
    eaststarpen  
       2024-06-03 17:35:01 +08:00
    https://fast.v2ex.com/t/1040682 里有站长的回复 " changes"

    该页面底部存在描述 "本页面是全站最新的 100 个主题......"

    我简单查看了里面的帖子,似乎也是根据回复时间刷新的

    或许你可以 at 站长问一下
    0o0O0o0O0o
        15
    0o0O0o0O0o  
       2024-06-03 17:41:24 +08:00 via iPhone
    我也一直觉得应该分为两个,最新发布的主题是一个,有最新回复的主题是另一个。我记得它会在后面带上#reply 并且没有唯一的 ID ,就会重复推送了。
    encro
        16
    encro  
       2024-06-03 17:41:53 +08:00
    不用了,直接 ID 加 1 解决。
    s1xu
        17
    s1xu  
    OP
       2024-06-03 17:48:53 +08:00 via iPhone
    @0o0O0o0O0o 是的,这里的主题和帖子是两个概念,rss 这个推送的是帖子,也就是最新的回复,我的想法是只监听最新的主题
    s1xu
        18
    s1xu  
    OP
       2024-06-03 17:49:13 +08:00 via iPhone
    @eaststarpen 这个帖子我搜索过,最后一条回复就是我
    fydss
        19
    fydss  
       2024-06-03 17:52:12 +08:00
    recent?p=1 这个最近的主题是不是
    s1xu
        20
    s1xu  
    OP
       2024-06-03 17:53:29 +08:00 via iPhone
    s1xu
        21
    s1xu  
    OP
       2024-06-03 17:54:37 +08:00 via iPhone
    @fydss 不是,点进去第一条,发布时间是 9 个小时 5 分钟前
    fydss
        22
    fydss  
       2024-06-03 17:58:56 +08:00
    @s1xu feed/tab/all.xml 我把楼上老哥的地址改了一下,还真是可以访问的 XML ,乐
    s1xu
        23
    s1xu  
    OP
       2024-06-03 18:06:59 +08:00 via iPhone
    @fydss 但是这个 table 推送的也不是最新发送的主题哈哈哈
    NewYear
        24
    NewYear  
       2024-06-03 21:13:06 +08:00
    这说明你抓取的不对,RSS 的<id>就是每个主题的唯一值。不会变化的,不要光靠 URL 来做判断,而且你自己抓取的话,也可以去掉#后面的内容。


    @s1xu
    @0o0O0o0O0o
    0o0O0o0O0o
        25
    0o0O0o0O0o  
       2024-06-03 21:40:00 +08:00
    @NewYear #24 #15 我看了下,v2ex 的 RSS 是有 ID 的,是我记错了

    遇到过有的 RSS 不带 ID ,RSS 工具就会自己算 id/guid , # 后面的内容也会被带进去计算
    s1xu
        26
    s1xu  
    OP
       2024-06-04 00:07:33 +08:00
    @NewYear 主要是想做一个通用的,直接解析 title 和 link
    NewYear
        27
    NewYear  
       2024-06-04 12:23:13 +08:00
    @s1xu

    这一块我之前也研究过,甚至报告过 feedly 错误处理的问题。加上后来自己想做个 rss 阅读器所以比较清楚。

    <id>就是最通用的,是规范。
    另外你要用自己的算法判断唯一,也可以用“标题”+“内容”做一个 hash 。
    关于     帮助文档     自助推广系统     博客   nbsp; API     FAQ     Solana     932 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 19:54 PVG 03:54 LAX 11:54 JFK 14:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86