跑模型的 server 很卡,但是判断不出问题的原因所在,有没有运维相关的老哥有偿看看? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rjagge
V2EX    问与答

跑模型的 server 很卡,但是判断不出问题的原因所在,有没有运维相关的老哥有偿看看?

  •  
  •   rjagge 2023-02-12 15:35:23 +08:00 2057 次点击
    这是一个创建于 1046 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,这个问题困扰了我很多天了,vscode 和 terminal 都能感知到明显的延迟。 基于知识付费的原则,小弟为您的知识付费,只为了解决小弟的困惑 wx: cmphZ2dl

    25 条回复    2023-02-15 15:14:28 +08:00
    xiri
        1
    xiri  
       2023-02-12 15:51:26 +08:00 via Android
    你这 CPU 占用 user time + system time 都 100%了,还问为什么卡,,,
    BanShe
        2
    BanShe  
       2023-02-12 16:13:37 +08:00
    27.7us ,72.3sy ,
    echoless
        3
    echoless  
       2023-02-12 16:15:20 +08:00 via Android
    你用 htop 会更明显
    des
        4
    des  
       2023-02-12 16:17:44 +08:00
    load 都 643 了你还问为什么卡
    imydou
        5
    imydou  
       2023-02-12 16:19:15 +08:00
    sy=剩余
    hsfzxjy
        6
    hsfzxjy  
       2023-02-12 16:22:34 +08:00 via Android
    几个核啊能这么跑
    rjagge
        7
    rjagge  
    OP
       2023-02-12 16:39:59 +08:00
    @imydou 笑死了,我一直以为 us 是 usage 的缩写,然后 sy 想必就是剩余了....
    rjagge
        8
    rjagge  
    OP
       2023-02-12 16:42:21 +08:00
    @hsfzxjy 有两块 Intel(R) Xeon(R) Gold 5215 CPU @ 2.50GHz
    rjagge
        9
    rjagge  
    OP
       2023-02-12 16:43:23 +08:00
    @wuhaoecho 不是 root 没有权限....
    rjagge
        10
    rjagge  
    OP
       2023-02-12 16:43:51 +08:00
    @xiri 了解了一下,是我无知了把 us 当作占用率...
    rjagge
        11
    rjagge  
    OP
       2023-02-12 16:47:07 +08:00
    @des 了解了一下 load ,发现问题很严重..............
    rjagge
        12
    rjagge  
    OP
       2023-02-12 16:52:15 +08:00
    @BanShe
    @xiri

    我看了一下 sy 过高是不是有问题啊大哥们
    idblife
        13
    idblife  
       2023-02-12 17:58:16 +08:00
    能放开 ssh 给网上的陌生人看一下吗?
    deorth
        14
    deorth  
       2023-02-12 18:38:23 +08:00 via Android
    把跑模型的进程加点负的 nice 就不卡了
    rjagge
        15
    rjagge  
    OP
       2023-02-12 20:03:33 +08:00
    @deorth 不是 root 。。。。nice 不了,有什么其他办法吗。。。
    des
        16
    des  
       2023-02-12 20:25:18 +08:00
    @rjagge 你这问题很多,首先 24users 是什么情况,然后 load 都六百多了,cpu 的 sys 到 72%也不正常,以及 72 个 zombie 也不正常。不知道你这太机器多少核心,跑这么多进程都是 RUNNING 状态
    des
        17
    des  
       2023-02-12 20:26:59 +08:00
    @rjagge 没啥好办法,就是跑的程序太多太卡了
    ETiV
        18
    ETiV  
       2023-02-12 20:28:48 +08:00 via iPhone
    装 docker 了没,你能用 docker ps 吗?
    ryd994
        19
    ryd994  
       2023-02-12 20:29:14 +08:00 via Android
    1. 不是 root 也能 nice ,但是只能从默认的 10 往上加。nice 越高优先级越低。root 可以减 nice ,也就是比默认更高。
    2. 你跑模型的程序需要调并行度。并行度太高、开太多进程只会更慢,因为增加了调度开销。基本原则是线程数等于 CPU 核心数(包括超线程)。一点往上加,刚好能稳定占满 CPU 就不必再加了。
    ETiV
        20
    ETiV  
       2023-02-12 20:29:59 +08:00 via iPhone
    (如果装了 docker 、并且你当前用户可以用 docker ,你就能把自己变成 root )
    muzuiget
        21
    muzuiget  
       2023-02-12 20:53:21 +08:00
    内存不足,SWAP 用满了,频繁虚拟内存切换。
    blackeeper
        22
    blackeeper  
       2023-02-12 21:25:21 +08:00
    你这个有几个问题:
    1 ,cpu 负载很高
    2 ,内存也有时候不足,SWAP 都用了一部分
    3 ,程序也有问题,有很多 zombie
    总结一下:是用户 user13 运行了命令 R 语言在跑模型,大概有四十多个进程,cpu 占用率非常大,基本全是他在占用,
    需要限制一下多用户使用系统资源,做一下任务队列
    kkkbbb
        23
    kkkbbb  
       2023-02-13 09:32:51 +08:00
    @xiri 你们能看到图片还是?
    kkkbbb
        24
    kkkbbb  
       2023-02-13 09:38:04 +08:00
    @kkkbbb 卡了,刚刷出来图片。。。
    rjagge
        25
    rjagge  
    OP
       2023-02-15 15:14:28 +08:00
    @ETiV 我的 user 能 docker ps ,咋搞啊大哥,我就想给 nice 减低一点
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2874 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 14:18 PVG 22:18 LAX 06:18 JFK 09:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86