你们都是怎么做大规模的 prometheus 服务方案的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
annoygaga
V2EX    程序员

你们都是怎么做大规模的 prometheus 服务方案的?

  •  1
     
  •   annoygaga 2024-05-23 00:54:37 +08:00 3385 次点击
    这是一个创建于 576 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,小弟想咨询一下大规模的 prometheus 的方案

    规模主要体现在:

    • 数据量较大
    • 查询量也比较多

    但目前 prometheus 主要是单机的方式,想问问分布式的扩展方法

    28 条回复    2024-05-28 09:51:59 +08:00
    duanzhanling
        1
    duanzhanling  
       2024-05-23 07:23:17 +08:00
    可以使用 vm 平滑替换 prometheus
    seers
        2
    seers  
       2024-05-23 07:44:47 +08:00 via Android
    k8s operator 直接放集群里面
    chankay
        3
    chankay  
       2024-05-23 08:43:29 +08:00
    vm 集群版
    F7TsdQL45E0jmoiG
        4
    F7TsdQL45E0jmoiG  
       2024-05-23 09:03:52 +08:00   1
    联邦,分层聚合
    YOOHUU
        5
    YOOHUU  
       2024-05-23 09:13:24 +08:00
    @duanzhanling #1 vm 的全称是?
    standchan
        6
    standchan  
       2024-05-23 09:25:06 +08:00   1
    @DAPTX4869 #5 VictoriaMetrics
    nicholasxuu
        7
    nicholasxuu  
       2024-05-23 09:27:53 +08:00
    thanos
    qW7bo2FbzbC0
        8
    qW7bo2FbzbC0  
       2024-05-23 09:28:34 +08:00
    VictoriaMetrics
    coyove
        9
    coyove  
       2024-05-23 09:34:24 +08:00
    关于数据量和 qps ,可以在 prometheus 或 influxdb 前做一层代理,在那里聚合 metrics 每 30s 上报一次
    arthurblake
        10
    arthurblake  
       2024-05-23 09:57:30 +08:00   1
    @DAPTX4869 #5 VictoriaMetrics
    ounxnpz
        11
    ounxnpz  
       2024-05-23 10:00:16 +08:00
    thanos ,长期数据存对象存储
    realpg
        12
    realpg  
    PRO
       2024-05-23 10:06:01 +08:00
    prometheus
    没必要搞很大规模的集群
    拆解开就完事 拆解成多个 prometheus 也不集群化 各自独立采集 每个 exporter 采集至少两份就好
    在可视化层, 比如 grafana 进行数据展现时带逻辑
    tramm
        13
    tramm  
       2024-05-23 10:12:46 +08:00
    数据量多大?
    说不定根本用不到集群...
    FlashEcho
        14
    FlashEcho  
       2024-05-23 11:53:24 +08:00
    首先对于 Prometheus 的前后,最好有一个 mq (比如 kafka )和持久化组件(比如 mimir )

    对于 Prometheus 本身,比较简单的方法就是在不同的机器(集群)上手动多建几个 Prometheus 实例,反正都是放到同一个远程的存储里
    如果单个集群就已经大到超过单 Prometheus 实例的抓取能力了,Prometheus 支持联邦: https://prometheus.io/docs/prometheus/latest/federation/,相当于有多个 Prometheus ,后面的 Prometheus 从前面的 Prometheus 抓取数据
    liuliancao
        15
    liuliancao  
       2024-05-23 13:37:57 +08:00
    目前我们是这样
    prometheus 1 抓取 federate1 federate2
    prometheus 2 抓取 federate1 federate2
    proemtheus 用负载均衡去读 alertmanager 配置成 cluster 的方式

    你也可以使用 remote_write 功能 这样你的 remote write 配置成 influxdb 两个 prometheus 用同一个数据源就可以了
    sampeng
        16
    sampeng  
       2024-05-23 18:06:40 +08:00
    唯一解 thanos

    prometheus 自带的联邦集群就是个玩具。。。。运维成本其实极其高。thanos 反正一个集群扔一个。反正都是汇总在 s3 的。查询就看你要求了。随便横向扩容。
    我以前线上 2000 多个 pod 。查 1 年随便查
    annoygaga
        17
    annoygaga  
    OP
       2024-05-24 00:37:35 +08:00
    @duanzhanling VM 本地存储,是不是很折腾?
    annoygaga
        18
    annoygaga  
    OP
       2024-05-24 00:37:55 +08:00
    @chankay VM 看上去是单机器存储,是不是很折腾?在 k8s
    annoygaga
        19
    annoygaga  
    OP
       2024-05-24 00:38:11 +08:00
    @nicholasxuu thanos 看上去不错,性能如何?多租户好做么?
    annoygaga
        20
    annoygaga  
    OP
       2024-05-24 00:38:19 +08:00
    @qW7bo2FbzbC0 VM 多租户如何?
    annoygaga
        21
    annoygaga  
    OP
       2024-05-24 00:38:37 +08:00
    @bluicezhen thanos 性能如何?多租户好做么?
    annoygaga
        22
    annoygaga  
    OP
       2024-05-24 00:38:50 +08:00
    @tramm 蛮大的。。。而且可能被滥用
    annoygaga
        23
    annoygaga  
    OP
       2024-05-24 00:39:07 +08:00
    @sampeng thanos 性能如何?以及多租户好做么?
    annoygaga
        24
    annoygaga  
    OP
       2024-05-24 00:39:28 +08:00
    @coyove 多租户的话呢?
    duanzhanling
        25
    duanzhanling  
       2024-05-24 07:32:51 +08:00
    @DAPTX4869 VictoriaMetrics
    duanzhanling
        26
    duanzhanling  
       2024-05-24 07:33:41 +08:00
    @annoygaga 没有吧,现在单节点 vm ,运行非常 OK
    sampeng
        27
    sampeng  
       2024-05-27 14:47:58 +08:00
    @annoygaga 性能尚可,解决 90%问题。多租户就是在每个集群的数据自动追加 label 。一目了然
    xueling
        28
    xueling  
       2024-05-28 09:51:59 +08:00
    了解一下我的开源项目,https://github.com/xl-xueling/xl-lighthouse ,定位不是纯粹的监控系统,统计计算方面的功能远超过 prometheus ,远算性能更强和支持的数据量级也更大。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2522 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 10:37 PVG 18:37 LAX 02:37 JFK 05:37
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86