This topic created in 4619 days ago, the information mentioned may be changed or developed.
最近在想RSS阅读器(web版,有用户,像google reader)的实现,有几个问题比较困惑,希望大家能帮忙解答一下:
1. 根据订阅的xml解析出文章以后是存到数据库中吗,未读和已读状态是更新数据库实现的吗?
2. 如果1成立,那么已读以后就要删掉吗?如果删掉并且怎么知道下次来的文章已经读过了,如果不删掉,那么数据量就会猛张,怎么解?
3. 用户数量到一定规模以后(比如google reader或鲜果阅读器)频繁的更新数据库怎么突破瓶颈,有必要用NoSQL吗?如果用关系型数据库能hold住吗?有啥方案?
4. 来自不同订阅的内容按日期排序问题,怎么实现?直接在库里desc?
先问这些吧,因为对rss还不是很了解,如果能有热心人整体描述一下工作原理就更好了。
先谢过!!!
4 replies 1970-01-01 08:00:00 +08:00  | | 1 orzfly Sep 6, 2013 我觉得你需要先考虑一下每个条目的 uuid 这个东西。 |
 | | 2 horsley Sep 6, 2013 1 不然呢 2 暴涨很正常啊,时间久了的dump出来放在冷库呗 3 我觉得痛点是抓取,现有有不少开源的方案的,你应该先看看 4 你是不了解rss还是不了解数据库…… |
 | | 3 Mutoo Sep 6, 2013 1 google:分表分库分布式,总之硬件能解决的都不叫瓶颈,硬件不值钱。 |