较多的文本数据,存在什么数据库合适? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
letitbesqzr
V2EX    数据库

较多的文本数据,存在什么数据库合适?

  •  
  •   letitbesqzr 2018-10-12 13:32:49 +08:00 4058 次点击
    这是一个创建于 2624 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据特点

    1. 类似 "文章历史" 这样的记录,每次保存都会全文保存下,内容是全 html,单条数据会比较大,条数并不是很多
    2. 不需要对文本进行检索,只是需要能够查出记录就行。
    3. 数据量不算是特别大,大概 100g 左右,一个月 10g 的度增长

    目前方案以及遇到的问题

    目前数据都直接存放在 mysql 中,但是对 mysql 进行备份的时候非常不方便,这些历史数据不是特别的重要,其实不需要和其他业务数据一起进行备份。

    想问问各位 v 友,类似的需求,使用什么数据库保存会比较方便?

    15 条回复    2019-01-03 14:06:14 +08:00
    tuding
        1
    tuding  
       2018-10-12 13:38:10 +08:00
    存成本地文件, mysql 保存文件路径?
    weizhen199
        2
    weizhen199  
       2018-10-12 13:40:22 +08:00
    你要简单就 blob text,最好分下表
    a3mao
        3
    a3mao  
       2018-10-12 13:42:10 +08:00
    mongo 这个就是文档数据库
    mason961125
        4
    mason961125  
       2018-10-12 14:06:26 +08:00
    mongo + 1
    feloxx
        5
    feloxx  
       2018-10-12 14:14:17 +08:00
    mg 有单条 16mb 的限制
    注意一下这个就是,mg 也不错

    如果要做全文索引,也可以拿 es 来存
    letitbesqzr
        6
    letitbesqzr  
    OP
       2018-10-12 14:20:14 +08:00
    @mason961125 #4
    @a3mao #3
    @weizhen199 #2
    @tuding #1
    @feloxx #5


    感谢,我去尝试下 mongodb
    cloverii
        7
    cloverii  
       2018-10-12 14:24:22 +08:00
    我们是在 mysql 里存条记录,文本放 kv 数据库
    letitbesqzr
        8
    letitbesqzr  
    OP
       2018-10-12 14:28:13 +08:00
    @cloverii #7 是什么 kv 数据库呢?
    cloverii
        9
    cloverii  
       2018-10-12 14:32:02 +08:00
    @letitbesqzr 自研的……最近为了检索,准备上 ES 了
    boris1993
        10
    boris1993  
       2018-10-12 14:35:19 +08:00 via Android
    @letitbesqzr 8# 我记得就是 Key-Value 数据库,比如 Redis 这样的?
    letitbesqzr
        11
    letitbesqzr  
    OP
       2018-10-12 14:36:55 +08:00
    @cloverii #9 膜拜大厂,我们考虑过存储 es,有 es 大数据方面的一些经验,但是这数据不检索,存 es 有点浪费性能了。
    likuku
        12
    likuku  
       2018-10-12 19:40:59 +08:00   1
    看需求,MongoDB 是挺适合(就是吃硬盘比较猛),
    不求特别快的速度,且文件名可快检索(重名率低) hadoop 的 hdfs 也可以,直接按路径信息+文件名 存下,取的时候也一样。

    至少它们都可以集群化扩展,hadoop 也是需要一些学习成本。


    再者,可以参考图片型网站的存储方式:文档(html) 按目录保存成文件,路径信息保存在 DB 里 (mysql 就行)。文件可以保存在 带冗余的 ZFS / btrfs 等支持 snapshot 的高级文件系统,或者更高级的专业存储设备里。
    这样,你再备份就相对简单很多了,db 的路径信息相对就小的多,
    文件嘛,有了快照,就可以机器空闲时间把快照版本的文件 rsync 之类工具传输到专用备份设备上去。


    习惯了 SQL 的话,PostgreSQL 也可以考虑,它字符串类型可以支持到 1GB 大小(你一个文档有这么大么?):


    "In any case, the longest possible character string that can be stored is about 1 GB. "

    来源:
    PostgreSQL: Documentation: 10: 8.3.Character Types :
    https://www.postgresql.org/docs/10/static/datatype-character.html

    8.3. 字符类型 | PostgreSQL 中文文档 9.3 :
    https://wizardforcel.gitbooks.io/postgresql-doc/64.html
    letitbesqzr
        13
    letitbesqzr  
    OP
       2018-10-12 21:56:42 +08:00
    @likuku #12 感谢那么详细的回复,MongoDB 和 存文件数据库存路径 我们再考虑下业务上哪个更合适。
    mutalisk
        14
    mutalisk  
       2018-10-13 16:55:03 +08:00
    LevelDB
    RocksDB
    dezhou9
        15
    dezhou9  
       2019-01-03 14:06:14 +08:00 via Android
    s3
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1203 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 17:42 PVG 01:42 LAX 09:42 JFK 12:42
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86