1、降低redis内存占用的优点
1、有助于减少创建快照和加载快照所用的时间
2、提升载入AOF文件和重写AOF文件时的效率
3、缩短从服务器进行同步所需的时间
4、无需添加额外的硬件就可以让redis存贮更多的数据
2、短结构
Redis为列表、集合、散列、有序集合提供了一组配置选项,这些选项可以让redis以更节约的方式存储较短的结构。
2.1、ziplist压缩列表(列表、散列、有续集和)
通常情况下使用的存储方式
当列表、散列、有序集合的长度较短或者体积较小的时候,redis将会采用一种名为ziplist的紧凑存储方式来存储这些结构。
ziplist是列表、散列、有序集合这三种不同类型的对象的一种非结构化表示,它会以序列化的方式存储数据,这些序列化的数据每次被读取的时候都需要进行解码,每次写入的时候也要进行编码。
双向列表与压缩列表的区别:
为了了解压缩列表比其他数据结构更加节约内存,我们以列表结构为例进行深入研究。
典型的双向列表
在典型双向列表里面,每个值都都会有一个节点表示。每个节点都会带有指向链表前一个节点和后一个节点的指针,以及一个指向节点包含的字符串值的指针。
每个节点包含的字符串值都会分为三部分进行存储。包括字符串长度、字符串值中剩余可用字节数量、以空字符结尾的字符串本身。
例子:
假若一个某个节点存储了’abc’字符串,在32位的平台下保守估计需要21个字节的额外开销(三个指针+两个int+空字符即:3*4+2*4+1=21)
由例子可知存储一个3字节字符串就需要付出至少21个字节的额外开销。
ziplist
压缩列表是由节点组成的序列,每个节点包含两个长度和一个字符串。第一个长度记录前一个节点的长度(用于对压缩列表从后向前遍历);第二个长度是记录本当前点的长度;被存储的字符串。
例子:
存储字符串’abc’,两个长度都可以用1字节来存储,因此所带来的额外开销为2字节(两个长度即1+1=2)
结论:
压缩列表是通过避免存储额外的指针和元数据,从而达到降低额外的开销。
配置:
1 #list2 list-max-ziplist-entries 512 #表示允许包含的最大元素数量3 list-max-ziplist-value 64 #表示压缩节点允许存储的最大体积4 #hash #当超过任一限制后,将不会使用ziplist方式进行存储5 hash-max-ziplist-entries 5126 hash-max-ziplist-value 647 #zset8 zset-max-ziplist-entries 1289 zset-max-ziplist-value 64
测试list:
1、建立test.php文件
1 #test.php2 connect('192.168.95.11','6379');5 for ($i=0; $i<512 ; $i++) 6 { 7 $redis->lpush('test-list',$i.'-test-list'); #往test-list推入512条数据8 }9 ?>
此时的test-list中含有512条数据,没有超除配置文件中的限制
2、往test-list中再推入一条数据
此时test-list含有513条数据,大于配置文件中限制的512条,索引将放弃ziplist存储方式,采用其原来的linkedlist存储方式
散列与有序集合同理。
2.2、intset整数集合(集合)
前提条件,集合中包含的所有member都可以被解析为十进制整数。
以有序数组的方式存储集合不仅可以降低内存消耗,还可以提升集合操作的执行速度。
配置:
1 set-max-intset-entries 512 #限制集合中member个数,超出则不采取intset存储
测试:
建立test.php文件
1 #test.php2 connect('192.168.95.11','6379');5 for ($i=0; $i<512 ; $i++) 6 { 7 $redis->sadd('test-set',$i); #给集合test-set插入512个member8 }9 ?>
2.3、性能问题
不管列表、散列、有序集合、集合,当超出限制的条件后,就会转换为更为典型的底层结构类型。因为随着紧凑结构的体积不断变大,操作这些结构的速度将会变得越来越慢。
测试:
#将采用list进行代表性测试
测试思路:
1、在默认配置下往test-list推入50000条数据,查看所需时间;接着在使用rpoplpush将test-list数据全部推入到新列表list-new中,查看所需时间
2、修改配置,list-max-ziplist-entries 100000,再执行上面的同样操作
3、对比时间,得出结论
默认配置下测试:
1、插入数据,查看时间
1 #test1.php 2 connect('192.168.95.11','6379'); 6 $start=time(); 7 for ($i=0; $i<50000 ; $i++) 8 { 9 $redis->lpush('test-list',$i.'-aaaassssssddddddkkk');10 }11 $end=time();12 echo "插入耗时为:".($end-$start).'s';13 ?>
结果耗时4秒
2、执行相应命令,查看耗时
1 #test2.php 2 connect('192.168.95.11','6379'); 6 $start=time(); 7 $num=0; 8 while($redis->rpoplpush('test-list','test-new')) 9 {10 $num+=1;11 }12 echo '执行次数为:'.$num."";13 $end=time();14 echo "耗时为:".($end-$start).'s';15 ?>
更改配置文件下测试
1、先修改配置文件
list-max-ziplist-entries 100000 #将这个值修改大一点,可以更好的凸显对性能的影响
list-max-ziplist-value 64 #此值可不做修改
2、插入数据
执行test1.php
结果为:耗时12s
3、执行相应命令,查看耗时
执行test2.php
结果为:执行次数:50000,耗时12s
结论:
在本机中执行测试50000条数据就相差8s,若在高并发下,长压缩列表和大整数集合将起不到任何的优化,反而使得性能降低。
3、片结构
分片的本质就是基于简单的规则将数据划分为更小的部分,然后根据数据所属的部分来决定将数据发送到哪个位置上。很多数据库使用这种技术来扩展存储空间,并提高自己所能处理的负载量。
结合前面讲到的,我们不难发现分片结构对于redis的重要意义。因此我们需要在配置文件中关于ziplist以及intset的相关配置做出适当的调整。
3.1、分片式散列
#ShardHash.class.php
1 redis=new Redis();14 $this->redis->connect($host,$port);15 } 16 17 /**18 * @desc 计算某key的分片ID19 *20 * @param $base string | 基础散列21 * @param $key string | 要存储到分片散列里的键名22 * @param $total int | 预计非数字分片总数23 * 24 * @return string | 返回分片键key25 */26 public function shardKey ($base,$key,$total)27 {28 if(is_numeric($key))29 {30 $shard_id=decbin(substr(bindec($key),0,5)); #取$key二进制高五位的十进制值31 }32 else33 {34 $shard_id=crc32($key)%$shards; #求余取模35 }36 return $base.'_'.$shard_id;37 }38 39 /**40 * @desc 分片式散列hset操作41 *42 * @param $base string | 基础散列43 * @param $key string | 要存储到分片散列里的键名44 * @param $total int | 预计元素总数45 * @param $value string/int | 值46 *47 * @return bool | 是否hset成功48 */49 public function shardHset($base,$key,$total,$value)50 {51 $shardKey=$this->shardKey($base,$key,$total);52 return $this->redis->hset($shardKey,$key,$value);53 }54 55 /**56 * @desc 分片式散列hget操作57 *58 * @param $base string | 基础散列59 * @param $key string | 要存储到分片散列里的键名60 * @param $total int | 预计元素总数61 *62 * @return string/false | 成功返回value63 */64 public function shardHget($base,$key,$total)65 {66 $shardKey=$this->shardKey($base,$key,$total);67 return $this->redis->hget($shardKey,$key);68 }69 70 } 71 72 $obj=new ShardHash('192.168.95.11');73 echo $obj->shardHget('hash-','key',500);74 ?>
散列分片主要是根据基础键以及散列包含的键计算出分片键ID,然后再与基础键拼接成一个完整的分片键。在执行hset与hget以及大部分hash命令时,都需要先将key(field)通过shardKey方法处理,得到分片键才能够进行下一步操作。
3.2、分片式集合
如何构造分片式集合才能够让它更节省内存,性能更加强大呢?主要的思路就是,将集合里面的存储的数据尽量在不改变其原有功能的情况下转换成可以被解析为十进制的数据。根据前面所讲到的,当集合中的所有成员都能够被解析为十进制数据时,将会采用intset存储方式,这不仅能够节省内存,而且还可以提高响应的性能。
例子:
假若要某个大型网站需要存储每一天的唯一用户访问量。那么就可以使用将用户的唯一标识符转化成十进制数字,再存入分片式set中。
#ShardSet.class.php
1 redis=new Redis();14 $this->redis->connect($host,$port);15 } 16 17 /**18 * @desc 根据基础键以及散列包含的键计算出分片键19 *20 * @param $base string | 基础散列21 * @param $key string | 要存储到分片散列里的键名22 * @param $total int | 预计分片总数23 * 24 * @return string | 返回分片键key25 */26 public function shardKey ($base,$member,$total=512)27 {28 $shard_id=crc32($member)%$shards; #求余取模29 return $base.'_'.$shard_id;30 }31 32 /**33 * @desc 计算唯一用户日访问量34 * 35 * @param $member int | 用户唯一标识符36 *37 * @return string | ok表示count加1 false表示用户今天已经访问过不加138 */39 public function count($member)40 {41 $shardKey=$this->shardKey('count',$member,$total=10); #$totla调小一点用于测试42 $exists=$this->redis->sismember($shardKey,$member); 43 if(!$exists) #判断member今天是否访问过44 {45 $this->redis->sadd($shardKey,$member);46 $this->redis->incr('count');47 $ttl1=$this->redis->ttl('count');48 if($ttl1===-1)49 $this->redis->expireat('count',strtotime(date('Y-m-d 23:59:59'))); #设置过期时间50 $ttl2=$this->redis->ttl($shardKey);51 if($ttl2===-1)52 {53 $this->redis->expireat("$shardKey",strtotime(date('Y-m-d 23:59:59'))); #设置过期时间54 #echo $shardKey; #测试使用55 }56 #echo $shardKey; #测试使用57 return 'ok';58 }59 return 'false';60 }61 62 63 }64 65 66 67 $str=substr(md5(uniqid()), 0, 8); #取出前八位68 #将$str作为客户的唯一标识符69 $str=hexdec($str); #将16进制转换为十进制70 $obj=new ShardSet('192.168.95.11');71 $obj->count($str);72 73 ?>
4、将信息打包转换成存储字节
结合前面所讲的分片技术,采用string分片结构为大量连续的ID用户存储信息。
使用定长字符串,为每一个ID分配n个字节进行存储相应的信息。
接下来我们将采用存储用户国家、省份的例子进行讲解:
假若某个用户需要存储中国、广东省这两个信息,采用utf8字符集,那么至少需要消耗5*3=15个字节。如果网站的用户量大的话,这样的做法将会占用很多资源。接下来我们采用的方法每个用户仅仅只需要占用两个字节就可以完成存储信息。
具体思路步骤:
1、首先我们为国家、以及各国家的省份信息建立相应的’信息表格’
2、将’信息表格’建好后,也意味着每个国家,省份都有相应的索引号
3、看到这里大家应该都想到了吧,对就是使用两个索引作为用户存储的信息,不过需要注意的是我们还需要对这两个索引进行相应的处理
4、将索引当做ASCII码,将其转换为对应ASCII(0~255)所指定的字符
5、使用前面所讲的分片技术,定长分片string结构,将用户的存储位置找出来(redis中一个string不能超过512M)
6、实现信息的写入以及取出(getrange、setrange)
实现代码:
#PackBytes.class.php
1 redis=new Redis(); 16 $this->redis->connect($host,$port); 17 } 18 19 /** 20 * @desc 处理并缓存国家省份数据 21 * @param $countries string | 第一类数据,国家字符串 22 * @param $provinces 二维array | 第二类数据,各国省份数组 23 * @param $cache 1/0 | 是否使用缓存,默认0不使用 24 * 25 * @return array | 返回总数据 26 */ 27 public function dealData($countries,$provinces,$cache=0) 28 { 29 if($cache) 30 { 31 $result=$this->redis->get('cache_data'); 32 if($result) 33 return unserialize($result); 34 } 35 $arr=explode(' ',$countries); 36 $areaArr[]=$arr; 37 $areaArr[]=$provinces; 38 $cache_data=serialize($areaArr); 39 $this->redis->set('cache_data',$cache_data); 40 return $areaArr; 41 } 42 43 /** 44 * @desc 将具体信息按表索引转换成编码信息 45 * 46 * @param $countries,$provinces,$cache| 参考dealData方法 47 * @param $country string | 具体信息--国家 48 * @param $province string | 具体信息--省份 49 * 50 * @return string | 返回转换的编码信息 51 */ 52 public function getCode($countries,$provinces,$country,$province,$cache=0) 53 { 54 $dataArr=$this->dealData($countries,$provinces,$cache=0); 55 56 $result=array_search($country, $dataArr[0]); #查找数组中是否含有data1 57 if($result===false) #判断是否存在 58 return chr(0).chr(0); #不存在则返回初始值 59 $code=chr($result); 60 $result=array_search($province, $dataArr[1][$country]); #查找数组中是否含有data2 61 if($result===false) 62 return $code.chr(0); 63 return $code.chr($result); #返回对应ASCII(0~255)所指定的字符 64 } 65 66 /** 67 * @desc 计算用户存储编码数据的相关位置信息 68 * 69 * @param $userID int | 用户的ID 70 * 71 * @return array | 返回一个数组 包含数据存储时的分片ID、以及属于用户的存储位置(偏移量) 72 */ 73 public function savePosition($userID) 74 { 75 $shardSize=pow(2, 3); #每个分片的大小 76 $position=$userID*2; #user的排位 77 $arr['shardID']=floor($position/$shardSize); #分片ID 78 $arr['offset']=$position%$shardSize; #偏移量 79 return $arr; 80 } 81 82 /** 83 * @desc | 整合方法,将编码信息存入redis中string相应的位置 84 * 85 * @param $userID int | 用户ID 86 * @param $countries string | 第一类数据,国家字符串 87 * @param $provinces 二维array | 第二类数据,各国省份数组 88 * @param $country string | 具体信息--国家 89 * @param $province string | 具体信息--省份 90 * @param $cache 1/0 | 是否使用缓存,默认0不使用 91 * 92 * @return 成功返回写入位置/失败false 93 */ 94 public function saveCode($userID,$countries,$provinces,$country,$province,$cache=0) 95 { 96 $code=$this->getCode($countries,$provinces,$country,$province,$cache=0); 97 $arr=$this->savePosition($userID); #存储相关位置信息 98 return $this->redis->setrange('save_code_'.$arr['shardID'],$arr['offset'],$code); 99 }100 101 /**102 * @desc 获取用户的具体国家与省份信息103 *104 * @param $userID int | 用户ID105 *106 * @return array | 返回包含国家和省份信息的数组107 */108 public function getMessage($userID)109 {110 $position=$this->savePosition($userID);111 $code=$this->redis->getrange('save_code_'.$position['shardID'],$position['offset'],$position['offset']+1);112 $arr=str_split($code);113 $areaArr=$this->dealData('', '',$cache=1); #使用缓存数据114 $message['country']=$areaArr[0][ord($arr[0])];115 $message['province']=$areaArr[1][$message['country']][ord($arr[1])];116 return $message;117 }118 119 }120 121 header("content-type: text/html;charset=utf8;");122 $countries="无 中国 日本 越南 朝鲜 俄罗斯 巴基斯坦 美国";123 $provinces=array(124 '无'=>array('无'),125 '中国'=>array('无','广东','湖南','湖北','广西','云南','湖南','河北'),126 '日本'=>array('无','龟孙子区','王八区','倭国鬼区','鬼子区','萝卜头区'),127 );128 $obj=new PackBytes('192.168.95.11');129 /*130 #数据处理,并将其缓存到redis中131 $b=$obj->dealData($countries,$provinces);132 echo "";133 print_r($b);134 echo "";die; 135 */136 /*137 #存储用户国家省份信息138 $country='中国';139 $province='广东';140 $result=$obj->saveCode(0,$countries,$provinces,$country,$province);141 echo "";142 print_r($result);143 echo "";144 */145 /*146 #取出用户国家省份信息147 $a=$obj->getMessage(15);148 echo "";149 print_r($a);150 echo "";die;151 */152 153 ?>
测试:
1、dealData处理后的信息,即为’信息表表格’
2、saveCode()
userID | 国家 | 省份 |
0 | 中国 | 广东 |
13 | 日本 | 龟孙子区 |
15 | 日本 | 王八区 |
、
3、getMessage()
参考书籍:
《Redis实战》 Josiah.Carlson 著
黄健宏 译
(以上是自己的一些见解,若有不足或者错误的地方请各位指出)
作者:
声明:本博客文章为原创,只代表本人在工作学习中某一时间内总结的观点或结论。转载时请在文章页面明显位置给出原文链接