百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程文章 > 正文

面试官:MySQL的数据行、行溢出机制,你知多少?

qiyuwang 2024-11-08 14:36 20 浏览 0 评论

InnoDB从磁盘中读取数据的最小单位是数据页。

而你想得到的id = xxx的数据,就是这个数据页众多行中的一行。

这篇文章我们就一起来看一下数据行设计的多么巧妙。

一、行 有哪些格式?

你可以像下面这样看一下你的MySQL行格式设置。

其实MySQL的数据行有两种格式,一种就是图中的 Compact格式,还有一种是Redundant格式。

Compact是一种紧凑的行格式,设计的初衷就是为了让一个数据页中可以存放更多的数据行。

你品一品,让一个数据页中可以存放更多的数据行是一个多么激动人心的事,MySQL以数据页为单位从磁盘中读数据,如果能做到让一个数据页中有更多的行,那岂不是使用的空间变少了,且整体的效率直线飙升?

官网介绍:Compact能比Redundant格式节约20%的存储。

Compact从MySQL5.0引入,MySQL5.1之后,行格式默认设置成 Compact 。所以本文描述的也是Compact格式。

二、紧凑的行格式长啥样?#

你肯定晓得表中有的列允许为null,有的列是变长的varchar类型。

那Compact行格式是如何组织描述这些信息的呢?如下图:

每部分包含的数据可能要比我上面标注的1、2、3还要多。

为了给大家更直观的感受和理解我只是挑了一部分展示给大家看。

三、MySQL单行能存多大体量的数据?

在MySQL的设定中,单行数据最大能存储65535byte的数据(注意是byte,而不是字符)

但是当你像下面这样创建一张数据表时却发生了错误:

MySQL不允许创建一个长度为65535byte的列,因为数据页中每一行中都有我们上图提到的隐藏列。

所以将varchar的长度降低到65532byte即可成功创建该表

注意这里的65535指的是字节,而不是字符。

所以如果你将charset换成utf8这种编码格式,那varchar(N)中的N其实指的N个字符,而不是N个byte。所以如果你像下面这样创建表就会报错。

假如encode=utf8时三个byte表示一个字符。那么65535 / 3 = 21845个字符。

四、Compact格式是如何做到紧凑的?

MySQL每次进行随机的IO读

默认情况下,数据页的大小为16KB。数据页中存储着数行。

那就意味着一个数据页中能存储越多的数据行,MySQL整体的进行的IO次数就越少?性能就越快?

Compact格式的实现思路是:当列的类型为VARCHAR、 VARBINARY、 BLOB、TEXT时,该列超过768byte的数据放到其他数据页中去。

如下图:

看到这里来龙去脉是不是很清晰了呢?

MySQL这样做,有效的防止了单个varchar列或者Text列太大导致单个数据页中存放的行记录过少而让IO飙升的窘境且占内存的。

五、什么是行溢出?

那什么是行溢出呢?

如果数据页默认大小为16KB,换算成byte: 16*1024 = 16384 byte

那你有没有发现,单页能存储的16384byte和单行最大能存储的 65535byte 差了好几倍呢?

也就是说,假如你要存储的数据行很大超过了65532byte那么你是写入不进去的。假如你要存储的单行数据小于65535byte但是大于16384byte,这时你可以成功insert,但是一个数据页又存储不了你插入的数据。这时肯定会行溢出!

其实在MySQL的设定中,发生行溢出并不是达到16384byte边缘才会发生。

对于varchar、text等类型的行。当这种列存储的长度达到几百byte时就会发生行溢。

六、行 如何溢出?

还是看这张图:

在MySQL设定中,当varchar列长度达到768byte后,会将该列的前768byte当作当作prefix存放在行中,多出来的数据溢出存放到溢出页中,然后通过一个偏移量指针将两者关联起来,这就是行溢出机制。

七、思考一个问题

不知道你有没有想过这样一个问题:

首先你肯定知道,MySQL使用的是B+Tree的聚簇索引,在这棵B+Tree中非叶子节点是只存索引不存数据,叶子节点中存储着真实的数据。同时叶子结点指向数据页。

那当单行存不下的时候,为啥不存储在两个数据页中呢?就像下图这样~。

单个节点存储下,我用多个节点存总行吧!说不定这样我的B+Tee还能变大长高(这其实是错误的想法)

这个错误的描述对应的脑图如下:

那MySQL不这样做的原因如下:

MySQL想让一个数据页中能存放更多的数据行,至少也得要存放两行数据。否则就失去了B+Tree的意义。B+Tree也退化成一个低效的链表。

你可以品一下这句蓝色的话,他说的每个数据页至少要存放两行数据的意思不是说 数据页不能只存一行。你确确实实可以只往里面写一行数据,然后去吃个饭,干点别的。一直让这个数据页中只有一行数据。

这句话的意思是,当你往这个数据页中写入一行数据时,即使它很大将达到了数据页的极限,但是通过行溢出机制。依然能保证你的下一条数据还能写入到这个数据页中。

正确的脑图如下:

作者:赐我白日梦

原文链接:https://www.cnblogs.com/ZhuChangwu/p/14035330.html

相关推荐

PPO 强化学习机械臂 IK 训练过程可视化利器 Tensorboard

视频讲解:PPO强化学习机械臂IK训练过程可视化利器Tensorboard_哔哩哔哩_bilibili...

免费定时运行Python程序并存储输出文档的服务推荐

免费定时运行Python程序并存储输出文档的服务推荐以下是几种可以免费定时运行Python程序并存储输出结果的云服务方案:1.PythonAnywhere特点:提供免费的Python托管环境...

实战搭建深度学习运行

一、准备环境ubuntu22.04nvidia显卡这里使用的是RTX3060已安装Python3.10二、安装pip3...

部署Django到阿里云服务器教程

基于Ubuntu16.04+Python3+nginx+mysql+Django接下来先安装这些必要的环境,这些操作都是在你已经购买了阿里云服务器。并且在本地你已经搭建好了Django...

Ubuntu 22.04安装MySQL : Qwen2.5 模型对话数据收集与微调教程

1安装MySQL首先来到(安装)根目录下,开启终端...

3D点云数据处理简明教程【Python】

近年来,在AR和空间计算技术的大力推动下,在Apple和Meta等大公司的支持下,最近推出了AppleVisionPro,3D理解领域受到越来越多的关注。...

Ubuntu22.04中定时执行任务(cron)设置

做这个实验,主要涉及内容如下:cronTest.py待执行的python文件,代码会读入本地文件内容,并打印当前时间cron_run.sh将执行cronTest.py的语句,包装成shellcro...

使用vllm部署DeepSeek

1、基础环境1.1、基础环境准备RTX3090*2卡ubuntu22.04python3.12cuda12.4pytorch2.5.1...

一键打包,随时运行,Python3项目虚拟环境一键整合包的制作(Venv)

之前我们介绍了如何使用嵌入式Python3环境给项目制作一键整合包,在使用嵌入式Python环境时,通常是作为另一个应用程序的一部分,而Python3虚拟环境是为了在开发过程中隔离项目所需的...

从零开始:Ubuntu Server中MySQL 8.0的安装与Django数据库配置详解

Ubuntu系统纯净安装MySQL8.01、安装Mysql8.0sudoaptinstallmysql-server...

同一台电脑如何共存多个版本Python?

同一台电脑可以安装多个版本Python吗?可以共存!当前电脑安装了Python3.8.832位,为了调用大漠插件dll,但是我又想安装较新版本的64位Python3.12.0,就涉及到多个Pytho...

我把 ML 模型编译成 C 后,速度竟提升了 1000 倍!

...

zabbix企业微信告警

zabbix企业微信告警的前提是用户有企业微信且创建了一个能够发送消息的应用,具体怎么创建可以协同用户侧企业微信的管理员。第一步:企业微信准备我们需要的内容包括企业ID,应用的AgentId和应用的S...

「2022 年」崔庆才 Python3 爬虫教程 - urllib 爬虫初体验

首先我们介绍一个Python库,叫做urllib,利用它我们可以实现HTTP请求的发送,而不用去关心HTTP协议本身甚至更低层的实现。我们只需要指定请求的URL、请求头、请求体等信息即...

手把手教你搭建深度学习环境Pytorch版-Ubuntu

引言很多搞人工智能的小伙伴,刚开始学习,往往摸不着头脑怎么跑代码。跑代码的前提是要有个环境。本篇结合自己的亲身经历,带你搭建环境。相关知识Ubuntu是Linux系统的一种...

取消回复欢迎 发表评论: