问一个心跳检测的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SparkMan
V2EX    Java

问一个心跳检测的问题

  •  
  •   SparkMan 2015-12-04 10:41:19 +08:00 4614 次点击
    这是一个创建于 3667 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在需要在 client 和 server 间做心跳检测,常见的方法是 server 提供一个方法, client 每隔一定时间去 call 一下,看返回状态,如果正常返回则说明成功。
    但是,假设我现在不能在 server 提供这个方法,我只能用 socket 去检测 server 是否还活着, 那么现在我用的是每次创建一个 socket ,然后发送 socket.sendUrgentData(0xff); 没报错我就认为 server 活着。
    我想问一下, 1 、如果每次都创建一个新的 socket ,性能有多大消耗?会不会每次都占用server 的连接数活着端口? 2 、大家一般这种情况下的心跳是怎么做的? 3 、如果维持一个长连接的 socket ,即设置 keepliave 为 true ,但是会报错 Broken pipe at java.net.PlainSocketImpl.socketSendUrgentData

    16 条回复    2015-12-04 13:51:50 +08:00
    xiamx
        1
    xiamx  
       2015-12-04 10:51:11 +08:00
    可以选择用一个成熟的 failure detection library ,省去造轮子的过程

    如果你需要去造这个轮子...那可以默认为 scalability 和 performence 不重要。创建 socket 性能消耗很小,反正你又不是每秒钟创建 100 个。
    > 会不会每次都占用 server 的连接数
    肯定会
    > 大家一般这种情况下的心跳是怎么做的
    用成熟的库
    > 如果维持一个长连接的 socket ,即设置 keepliave 为 true ,但是会报错 Broken pipe at java.net.PlainSocketImpl.socketSendUrgentData
    不建议单独维持一个 tcp connection 只用来做 heartbeat ,代价略高
    hao123yinlong
        2
    hao123yinlong  
       2015-12-04 10:59:36 +08:00
    心跳机制的两个目的:

    1. 保活
    2.检测断连

    所以你的第一个问题本身就是个问题,为了保持当前连接,创建一个新的连接?

    从你的问题描述还没搞明白你是客户端开发人员仅想知道如何开发心跳流程,还是作为整个心跳机制流程的设计者如何来设计
    odirus
        3
    odirus  
       2015-12-04 11:20:44 +08:00
    要不你简单点?在 server 端加个很简单的 HTTP 服务?
    SparkMan
        4
    SparkMan  
    OP
       2015-12-04 11:22:43 +08:00
    @xiamx 求推荐一个成熟的库
    SparkMan
        5
    SparkMan  
    OP
       2015-12-04 11:24:10 +08:00
    @hao123yinlong 做的是类似 负载均衡的一个东西,需要检测代理的 server 列表是不是有的挂了,挂了就从轮询列表中移除
    SparkMan
        6
    SparkMan  
    OP
       2015-12-04 11:25:35 +08:00
    @odirus 已经说过,不方便在 server 端加代码,我只想简单检测这个 server 在某个端口是不是还活着
    odirus
    7
    odirus  
       2015-12-04 11:36:09 +08:00
    @SparkMan 看你自己吧,想要客户端检测服务端就开始造轮子吧。

    以下是废话,可以不看。

    不过还是推荐一个服务端软件 haproxy ,检测到某台服务器不可用之后,自动移除。这样的软件很多,自己找。
    为啥我不推荐在客户端检测,( 1 )集群没法统一调度( 2 )客户端检测毕竟是有一个检测间隔的,容易造成这一小段时间间隙内的大量连接失败。
    luman
        8
    luman  
       2015-12-04 11:42:37 +08:00
    @odirus haproxy 我们也在用。。 可惜的是只能检测是否存活 无法检测可用性
    odirus
        9
    odirus  
       2015-12-04 11:45:04 +08:00
    @sunjiayao 恩。。。不错,头像很有个性
    nicktogo
        10
    nicktogo  
       2015-12-04 11:47:42 +08:00 via Android
    不知道 mqtt 这类消息服务适不适合?(我就随手回复下
    xiamx
        11
    xiamx  
       2015-12-04 12:17:34 +08:00
    客户端检查主要问题就是 not scalable (1 个客户端会每 N 秒发 1 个消息,那 100000 个客户端就是 100000 个消息)不过按照楼主目前的考虑,真的是可以用 socket.sendUrgentData(0xff)来 hack 出简单的 failure detection 。 Scalable failure detection 普遍的做法是用 gossip protocol ( https://www.cs.cornell.edu/~asdas/research/dsn02-swim.pdf),这样来说在不改变 server 代码的前提下是不可能的。
    hao123yinlong
        12
    hao123yinlong  
       2015-12-04 12:19:01 +08:00
    @SparkMan ” 只想简单检测这个 server 在某个端口是不是还活着 “

    个人理解你是要开发类似 zk 这类的注册中心,需要维护 server 列表 。

    推荐策略:

    zk - server 长连接, server 主动连接 zk 。
    zk 主动向 server 发心跳数据包 , server 接受到心跳后 回复心跳 数据包
    zk 监测读超时 ,读超时事件触发后移除该 server ,关闭连接。

    推荐 netty 框架 ,有相关读、写、读写超时监测 及事件回调可以满足
    mcfog
        13
    mcfog  
       2015-12-04 12:42:59 +08:00
    服务端改不了如果客户端能改的话也好办,做个中心节点(配合本地 agent 做 cache),客户端每次连接通过业务代码向中心节点请求服务器的 IP 端口,连接以后跑业务逻辑,如果连接/业务逻辑失败就上报失败给中心,如果成功也上报成功 /耗时,然后中心节点就可以统计、负载均衡、故障告警什么的了。发现谁慢就少分配活给他,失败率高过阈值就认为倒了 告警+踢出,也可以对被踢出的节点偶尔试一下来实现自动恢复什么的

    这套东西中心节点压力大(或者靠 agent 缓存的话, agent 和中心之间的逻辑复杂),但优点正是无视 server 到底是什么,无论是数据库, redis , mq ,还是自己的 server ,只要是拿 IP 端口去连的东西都一样用
    SparkMan
        14
    SparkMan  
    OP
       2015-12-04 13:06:00 +08:00
    @xiamx 可能是我没表述清楚,我所说的 clinet 其实是另外一个服务,并不是真的客户端,数量很少,只有几个
    SparkMan
        15
    SparkMan  
    OP
       2015-12-04 13:07:06 +08:00
    @hao123yinlong 恩, zk 、 netty 都在用。你是指 new IdleStateHandler(0, 0, 0) 这个吗?
    hao123yinlong
        16
    hao123yinlong  
       2015-12-04 13:51:50 +08:00
    @SparkMan 恩额
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1153 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 17:51 PVG 01:51 LAX 09:51 JFK 12:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86