有没有办法查找相似数据来判断用户是否在发布重复的内容 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kaiki
V2EX    问与答

有没有办法查找相似数据来判断用户是否在发布重复的内容

  •  
  •   kaiki 2021-01-24 05:48:36 +08:00 1951 次点击
    这是一个创建于 1790 天前的主题,其中的信息可能已经有所发展或是发生改变。
    为了防止无意义的灌水做反垃圾,但是现在灌垃圾的手段升级了,他会爬取正常的用户发言,然后灌进来。
    目的只是为了给我的服务器增压好让我每天能多支付一些服务器费用。

    特征大概是连续发布、复制已存在的内容、无法访问则自动换代理 IP 发布。

    不从账号入手,因为低门槛,想从用户行为来判断是否为灌垃圾。

    数据库是 mysql 。
    6 条回复    2021-01-24 17:55:34 +08:00
    kaiki
        1
    kaiki  
    OP
       2021-01-24 06:00:36 +08:00
    对了,我也想在用户的权重上做一些设定,比如有明显灌水行为的账号权重会急速下滑,对于正常账号在偶然触发检测也可以正常放行,有思路吗?
    jangit
        2
    jangit  
       2021-01-24 08:14:31 +08:00 via iPhone
    正常来说这些问题应该用验证码解决吧
    renmu123
        3
    renmu123  
       2021-01-24 10:17:26 +08:00 via Android
    设置账号发帖间隔,人工审核加举报,发现一次警告,二次封号封 IP 。
    想从行为入手,你首先得定义什么是灌水,如果是论坛还有不同板块那就更麻烦了。
    一般好像都是论坛各版主自己手动处理+封号
    oott123
        4
    oott123  
       2021-01-24 10:34:40 +08:00 via Android
    要解决楼主内容里的描述问题,前面几位的回复方法比较不错

    要解决楼主标题里提出的问题,可以用 simhash
    s2019
        5
    s2019  
       2021-01-24 16:07:04 +08:00 via iPhone
    考虑用文本相似度做比较,可以用机器学习的方式来实现
    kaiki
        6
    kaiki  
    OP
       2021-01-24 17:55:34 +08:00
    @renmu123 这个检测并不是严格的,对于连续发布相同内容的灌垃圾行为才需要处理。
    @jangit 的确有考虑在发布量发生明显变多的情况下启动验证码,但是对想搞破坏的人来说改变不了什么,这种人是单纯的太闲。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4179 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 00:13 PVG 08:13 LAX 16:13 JFK 19:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86