数据库设计：什么是范式什么是反范式设计数据库时该如何选择范式和反范式haunxiaoyx|水平分割_水平构造

在学习数据库设计的过程中，我们经常会遇到“范式”这个词，什么是范式呢？

有的时候，我们在设计数据库时，不仅需要知道怎么满足范式，还需要考虑是否要进行反范式的设计，为什么呢？

通俗理解，范式就是一种设计关系数据库的规范。

范式来自英文Normal form，简称NF。要想设计—个好的关系，必须使关系满足一定的约束条件，此约束已经形成了规范，分成几个等级，一级比一级要求得严格。满足这些规范的数据库是简洁的、结构明晰的，同时，不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟，不仅给数据库的编程人员制造麻烦，而且面目可憎，可能存储了大量不需要的冗余信息。

关系数据库有六种范式：第一范式（1NF）、第二范式（2NF）、第三范式（3NF）、巴斯-科德范式（BCNF）、第四范式(4NF）和第五范式（5NF，又称完美范式）。满足最低要求的范式是第一范式（1NF）。在第一范式的基础上进一步满足更多规范要求的称为第二范式（2NF），其余范式以次类推。一般来说，数据库只需满足第三范式(3NF）就行了。

下面，对各种范式进行详细的介绍。

要想知道什么是范式，需要先对数据库设计中一些基本的名词进行简单的了解：

单一的数据结构----关系（表文件）。关系数据库的表采用二维表格来存储数据，是一种按行与列排列的具有相关信息的逻辑组，它类似于Excel工作表。一个数据库可以包含任意多个数据表。在用户看来，一个关系模型的逻辑结构是一张二维表，由行和列组成。这个二维表就叫关系，通俗地说，一个关系对应一张表。

元组（记录）。表中的一行即为一个元组，或称为一条记录。

属性（字段）。数据表中的每一列称为一个字段，表是由其包含的各种字段定义的，每个字段描述了它所含有的数据的意义，数据表的设计实际上就是对字段的设计。创建数据表时，为每个字段分配一个数据类型，定义它们的数据长度和其他属性。字段可以包含各种字符、数字、甚至图形。如错误！未找到引用源。

属性值。行和列的交叉位置表示某个属性值，如“数据库原理”就是课程名称的属性值

主属性。一个属性只要在任何一个候选码中出现过，这个属性就是主属性。

非主属性。与上面相反，没有在任何候选码中出现过，这个属性就是非主属性。

主码。主码（也称主键或主关键字），是表中用于唯一确定一个元组的数据。关键字用来确保表中记录的唯一性，可以是一个字段或多个字段，常用作一个表的索引字段。每条记录的关键字都是不同的，因而可以唯一地标识一个记录，关键字也称为主关键字，或简称主键。如错误！未找到引用源。

全码。如果一个码包含了所有的属性，这个码就是全码。

关系模式。关系的描述称为关系模式。对关系的描述，一般表示为：关系名（属性1，属性2.....属性n）。例如上面的关系可描述为：课程(课程号、课程名称、学分、任课老师)。但是关系模型的这种简单的数据结构能够表达丰富的语义，描述出现实世界的实体以及实体间的各种关系。

第一范式（1NF）：属性不可分。

在前面已经介绍了属性值的概念，我们说，它是“不可分的”。而第一范式要求属性也不可分。那么它和属性值不可分有什么区别呢？给一个例子：

这两种情况都不满足第一范式。不满足第一范式的数据库，不是关系数据库！所以，我们在任何关系数据库管理系统中，做不出这样的“表”来。针对上述情况可以做成这样的表：这个表中，属性 “分”了。也就是“电话”分为了“手机”和“座机”两个属性。

第二范式（2NF）：符合1NF，并且，非主属性完全依赖于码。（注意是完全依赖不能是部分依赖，设有函数依赖W→A，若存在XW，有X→A成立，那么称W→A是局部依赖，否则就称W→A是完全函数依赖）

一个学生上一门课，一定是特定某个老师教。所以有（学生，课程）－>老师；

一个学生上一门课，一定在特定某个教室。所以有（学生，课程）－>教室；

一个学生上一门课，他老师的职称可以确定。所以有（学生，课程）－>老师职称；

一个学生上一门课，一定是特定某个教材。所以有（学生，课程）－>教材

因此（学生，课程）是一个码。

然而，一个课程，一定指定了某个教材，一年级语文肯定用的是《小学语文1》，那么就有课程－>教材。（学生，课程）是个码，课程却决定了教材，这就叫做不完全依赖，或者说部分依赖。出现这样的情况，就不满足第二范式！

有什么不好吗？你可以想想：

1、校长要新增加一门课程叫“微积分”，教材是《大学数学》，怎么办？学生还没选课，而学生又是主属性，主属性不能空，课程怎么记录呢，教材记到哪呢? ……郁闷了吧?(插入异常)

2、下学期没学生学一年级语文（上）了，学一年级语文（下）去了，那么表中将不存在一年级语文（上），也就没了《小学语文1》。这时候，校长问：一年级语文（上）用的什么教材啊？……郁闷了吧?(删除异常)

3、校长说：一年级语文（上）换教材，换成《大学语文》。有10000个学生选了这门课，改动好大啊！改累死了……郁闷了吧？（修改/更新异常，在这里你可能觉得直接把教材《小学语文1》替换成《大学语文》不就可以了，但是替换操作虽然计算机运行速度很快，但是毕竟也要替换10000次，造成了很大的时间开销）

那应该怎么解决呢？投影分解，将一个表分解成两个或若干个表。

第三范式（3NF）：符合2NF，并且，消除传递依赖（也就是每个非主属性都不传递依赖于候选键，判断传递函数依赖，指的是如果存在"A → B → C"的决定关系，则C传递函数依赖于A。）

上面的“学生上课新表”符合2NF，但是它有传递依赖！在哪呢？问题就出在“老师”和“老师职称”这里。一个老师一定能确定一个老师职称。（学生，课程）->老师->职称。

有什么问题吗？想想：

1、老师升级了，变教授了，要改数据库，表中有N条，改了N次……（修改异常）2、没人选这个老师的课了，老师的职称也没了记录……（删除异常）3、新来一个老师，还没分配教什么课，他的职称记到哪？……（插入异常）那应该怎么解决呢？和上面一样，投影分解：

BC范式（BCNF）：符合3NF，并且，主属性不依赖于主属性(也就是不存在任何字段对任一候选关键字段的传递函数依赖)

BC范式既检查非主属性，又检查主属性。当只检查非主属性时，就成了第三范式。满足BC范式的关系都必然满足第三范式。

还可以这么说：若一个关系达到了第三范式，并且它只有一个候选码，或者它的每个候选码都是单属性，则该关系自然达到BC范式。

给你举个例子：假设仓库管理关系表 (仓库ID, 存储物品ID, 管理员ID, 数量)，且有一个管理员只在一个仓库工作；一个仓库可以存储多种物品。

这个数据库表中存在如下决定关系：

(仓库ID, 存储物品ID) →(管理员ID, 数量)

(管理员ID, 存储物品ID) → (仓库ID, 数量)

所以，(仓库ID, 存储物品ID)和(管理员ID, 存储物品ID)都是StorehouseManage的候选关键字，表中的唯一非关键字段为数量，它是符合第三范式的。但是，由于存在如下决定关系：

(仓库ID) → (管理员ID)

(管理员ID) → (仓库ID)

即存在关键字段决定关键字段的情况，所以其不符合BCNF范式。它会出现如下异常情况：

当仓库被清空后，所有"存储物品ID"和"数量"信息被删除的同时，"仓库ID"和"管理员ID"信息也被删除了。

当仓库没有存储任何物品时，无法给仓库分配管理员。

如果仓库换了管理员，则表中所有行的管理员ID都要修改。

把仓库管理关系表分解为二个关系表：

仓库管理：StorehouseManage(仓库ID, 管理员ID)；

仓库：Storehouse(仓库ID, 存储物品ID, 数量)。

这样的数据库表是符合BCNF范式的，消除了删除异常、插入异常和更新异常。

一般，一个数据库设计符合3NF或BCNF就可以了。在BC范式以上还有第四范式、第五范式。

第四范式：要求把同一表内的多对多关系删除。

第五范式：从最终结构重新建立原始结构。

其实数据库设计范式这方面重点掌握的就是1NF、2NF、3NF、BCNF。

四种范式之间存在如下关系：

这里主要区别3NF和BCNF，一句话就是3NF是要满足不存在非主属性对候选码的传递函数依赖，BCNF是要满足不存在任一属性（包含非主属性和主属性）对候选码的传递函数依赖。

众所周知，数据规范化优点是减少了数据冗余，节约了存储空间，相应逻辑和物理的I/O次数减少，同时加快了增、删、改的速度。但是对完全规范的数据库查询，通常需要更多的连接操作，从而影响查询速度。因此，有时为了提高某些查询或应用的性能而破坏规范规则，即反规范化（非规范化处理）。

增加冗余列是指在多个表中具有相同的列，它常用来在查询时避免连接操作。例如：以规范化设计的理念，学生成绩表中不需要字段“姓名”，因为“姓名”字段可以通过学号查询到，但在反规范化设计中，会将“姓名”字段加入表中。这样查询一个学生的成绩时，不需要与学生表进行连接操作，便可得到对应的“姓名”。

增加派生列指增加的列可以通过表中其他数据计算生成。它的作用是在查询时减少计算量，从而加快查询速度。例如：订单表中，有商品号、商品单价、采购数量，我们需要订单总价时，可以通过计算得到总价，所以规范化设计的理念是无须在订单表中设计“订单总价”字段。但反规范化则不这样考虑，由于订单总价在每次查询都需要计算，这样会占用系统大量资源，所以在此表中增加派生列“订单总价”以提高查询效率。

重新组表指如果许多用户需要查看两个表连接出来的结果数据，则把这两个表重新组成一个表来减少连接而提高性能。

有时对表做分割可以提高性能。表分割有两种方式。

根据一列或多列数据的值把数据行放到两个独立的表中。水平分割通常在下面的情况下使用。

情况 1：表很大，分割后可以降低在查询时需要读的数据和索引的页数，同时也降低了索引的层数，提高查询效率。

情况 2：表中的数据本来就有独立性，例如表中分别记录各个地区的数据或不同时期的数据，特别是有些数据常用，而另外一些数据不常用。

情况 3：需要把数据存放到多个介质上。

把主码和一些列放到一个表，然后把主码和另外的列放到另一个表中。如果一个表中某些列常用，而另外一些列不常用，则可以采用垂直分割，另外垂直分割可以使得数据行变小，一个数据页就能存放更多的数据，在查询时就会减少I/O次数。其缺点是需要管理冗余列，查询所有数据需要连接操作。

在设计表中，需要根据实际情况灵活选择使用范式还是反范式设计表。

如果我们对查找的时效性要求比较高，而对空间占用要求比较低，可以采用反范式化设计。

THE END

数据库设计：什么是范式什么是反范式设计数据库时该如何选择范式和反范式haunxiaoyx

水平集分割opencv水平集分割代码mobca的技术博客

水平集python水平集图像分割原理mobcafaae的技术博客

水平集levelset算法原理介绍

将xcel单元格分割成两个水平方向的格子

upyter中markdown的操作小技巧上腾讯云开发者社区

路由协议的水平分割和触发更新hnrainll

web端表格设计，怎么做表头视图分页控件

图像分割基于水平集方法实现图像分割matlab源码博客

水平集是机器学习算法mobef的技术博客

软考架构

同花顺画线使用说明（最全操作手册）

动态路由协议之协议，最古老的距离矢量协议！腾讯云开发者社区

数据库的水平分割和垂直分割jimshi

了解和使用增强型内部网关路由协议

数据库设计：什么是范式什么是反范式设计数据库时该如何选择范式和反范式haunxiaoyx

qt如何设计好布局和漂亮的界面。腾讯云开发者社区