深海游弋的鱼 – 默默的点滴

本文大部分内容来源于Hollow官方文档

开发过程中会遇到这样的数据：体量算不上“大数据”，数据在变化，幅度也不大。处理这类数据的时候，一般是把数据放到内存中（容器、json、xml、RDBMS），隔断时间更新一次。

这样处理有很多局限性

内存限制
更新频率不能过快，造成延迟
频繁的读写造成I/O、GC等

世界陷入水火，一般的套路现在主角就该出场了

Netflix推出了Hollow，它是数据的利剑，内存的盾牌，它将不JSON、不XML、少GC、高效率的解决问题，总而言之，他是人民的大救星，下面请一起走进科学，走进Hollow的内心世界。

Hollow致力于解决内存数据问题，处理的量级（将数据转为JSON）一般在GB级别，TB/PB就爱莫能助了。

快照-增量

生产的数据有两种类型，Snapshot、Delta，即全量、增量数据。大多数情况下，我们处理的是增量数据。

生产-消费者模式

一个生产者服务多个消费者，生产者生产快照和增量数据更新至BLOB（二进制大数据）文件，消费者在内存中使用数据，只读属性保证了消费的高效。生产文件到内存对开发者是透明的。

数据模型

数据模型基于一个POJO，又相当于数据库的一行。开发者只需要定义一个POJO，Hollow的API-Generator会生产这个POJO相应的消费文件。

它适用于只读数据、单个生产者、可能多个消费者的情形。Hollow实现持久化的唯一机制是利用BLOB存储，它只是一个文件存储，可能是S3、NFS、甚至一台FTP服务器。启动的时候，消费者们读取整个数据集的快照，并将数据集引导到内存中。通过增量的方法，可以保证内存中的数据集是最新的。对于每个消费者，内存中的数据备份是临时性的，如果消费者重新启动，需要从BLOB存储中重新加载快照。

实际上BLOB快照文件的格式很简单，它在很大程度上和在内存布局的结构相同，因此数据初始化主要是将BLOB的内容直接复制到内存中，这一步可以快速完成，确保了初始化的时间很短。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Hollow导读

发表回复取消回复

发表回复 取消回复

发表回复取消回复