【Redis】BigKey问题

2023-12-23 23:41 由小陈_winwah 发表于 #数据库

面试题

海量数据里查询某一固定前缀的key

生产上如何限制 keys * / flushdb / flushall 等危险命令以防止误删误用？

MEMORY USAGE 命令用过吗？

BigKey问题，多大算big？如何发现？如何删除？如何处理？

BigKey你做过调优吗？惰性释放lazyfree了解过吗？

MoreKey问题，生产上Redis数据库有1000万条记录，如何遍历？

MoreKey案例

大批量往Redis中插入100万条测试数据

# 生成100W条redis批量设置kv的语句(key=kn,value=vn)写入到/tmp目录下的redisTest.txt文件中
for((i=1;i<=100*10000;i++)); do echo "set k$i v$i" >> /tmp/redisTest.txt ;done;

试试keys * 遍历查询花费多少秒？试试就逝世，足足花费了二十几秒！

生产上如何限制 keys * / flushdb / flushall 等危险命令以防止误删误用？

通过redis.conf配置文件设置禁用

不用keys * 应该用什么？SCAN

详情见官方文档：Redis SCAN 命令递增地遍历key空间

SCAN cursor [MATCH pattern] [COUNT count]

cursor - 游标。
pattern - 匹配的模式。
count - 指定从数据集里返回多少元素，默认值为 10 。

什么是 Redis 增量遍历？SCAN 命令是一个基于游标的遍历器，每次被调用之后，都会向用户返回一个新的游标，用户在下次遍历时需要使用这个新游标作为 SCAN 命令的游标参数，以此来延续之前的遍历过程。

SCAN 返回一个包含两个元素的数组，第一个元素是用于进行下一次遍历的新游标，而第二个元素则是一个数组，这个数组中包含了所有被遍历的元素。当 SCAN 命令的游标参数被设置为 0 时，服务器将开始一次新的遍历，而当服务器向用户返回值为 0 的游标时，表示遍历已结束。

SCAN 命令是一个基于游标的迭代器，每次被调用之后，都会向用户返回一个新的游标，用户在下次迭代时需要使用这个新游标作为 SCAN 命令的游标参数，以此来延续之前的迭代过程。

非常特别，它不是从第一维数组的第零位一直遍历到末尾，而是采用了高位进位加法来遍历。之所以使用这样特殊的方式进行遍历，是考虑到字典的扩容和缩容时避免槽位的遍历重复和遗漏。

虽然 SCAN 命令不保证每次遍历所返回的元素数量，但我们可以使用 COUNT 选项，对命令的行为进行一定程度上的调整。 COUNT 选项的作用就是让用户告知遍历命令，在每次遍历中应该从数据集里返回多少元素。虽然这个选项只是对增量式遍历命令的一种提示，但是在大多数情况下，这种提示都是有效的。

SCAN 返回一个包含两个元素的数组：

第一个元素是用于进行下一次迭代的新游标，第二个元素则是一个数组，这个数组中包含了所有被迭代的元素。如果新游标返回零表示迭代已结束。

SCAN的遍历顺序

BigKey案例

多大算big

参考《阿里云Redisson开发规范》

string和二级结构

string是value，最大512MB，但是 ≥ 10KB 就是BigKey

list、hash、set、zset，个数超过5000就是BigKey（by the way，它们都可以存储超过40亿个元素）

危害

内存不均，集群迁移困难
大key导致超时删除
网络流量阻塞

如何产生

社交类：王心凌粉丝列表，典型案例粉丝逐步递增

汇总统计：某个报表，年月日经年累月的积累

如何发现

redis-cli --bigkeys

优点：给出每种数据结构Top 1 bigkey，同时给出每种数据类型的键值个数+平均大小

不足：想查询大于10kb的所有key，--bigkeys参数就无能为力了，需要用到memory usage来计算每个键值的字节数

redis-cli -h 127.0.0.1 -p 6379 -a 111111 --bigkeys

# 每隔 100 条 scan 指令就会休眠 0.1s，ops 就不会剧烈抬升，但是扫描的时间会变长

redis-cli -h 127.0.0.1 -p 7001 –-bigkeys -i 0.1

MEMORY USAGE key MEMORY USAGE key [SAMPLES count]

详情见官网：Redis MEMORY USAGE 命令估计key的内存使用情况

MEMORY USAGE 命令给出一个 key 和它的值在 RAM 中所占用的字节数。

返回的结果是 key 的值以及为管理该 key 分配的内存总字节数。

对于嵌套数据类型，可以使用选项 SAMPLES，其中 count 表示抽样的元素个数，默认值为 5 。当需要抽样所有元素时，使用 SAMPLES 0 。