
咋搞?
1 Mithril 2020 年 3 月 26 日 这文件传到前端确定不会撑爆用户浏览器? |
2 hechuanhua OP @Mithril 不知道,题目就是这样的,可以多种代码实现,但是我希望是 JS,不知道能不能解决 |
3 wednesdayco 2020 年 3 月 26 日 老生常谈,先分片。再考虑找行的事情。 |
4 VDimos 2020 年 3 月 26 日 via Android 算哈希呗 |
5 123444a 2020 年 3 月 26 日 via Android bloom filter, 浏览器必备 |
6 luckyrayyy 2020 年 3 月 26 日 大流量查重请认准 bloom filter |
7 asAnotherJack 2020 年 3 月 26 日 先遍历每一行按哈希拆成一万份文件,再对每一个文件找出重复的,最后整合到一起? |
8 robinlovemaggie 2020 年 3 月 26 日 设计一款浏览器,自动实现文件实时逐行滚动读取,然后凭借一个强大的 AI 内核来完成记录分析,名字就叫:矩阵牌浏览器 |
9 reus 2020 年 3 月 26 日 for 循环不会写? |
10 xingyuc 2020 年 3 月 26 日 先搞定提出问题的人 |
11 whatsmyip 2020 年 3 月 26 日 分治,先哈希打散到文件,然后随便你怎么搞 |
12 dremy 2020 年 3 月 26 日 via iPhone 纯 hash 费空间,1000w 的 int key 每个需要至少 3 个字节,一共 28MB,bloom filter 省大量空间,估计可以不到 100k |
15 cella 2020 年 3 月 26 日 via Android 逐行算出哈希值,按哈希值的前几个字母,分类并存到各个文件,然后各个文件内在继续比较。 |
16 0bit 2020 年 3 月 26 日 HyperLogLog |