数据库设计:什么是范式什么是反范式设计数据库时该如何选择范式和反范式haunxiaoyx

在学习数据库设计的过程中,我们经常会遇到“范式”这个词,什么是范式呢?

有的时候,我们在设计数据库时,不仅需要知道怎么满足范式,还需要考虑是否要进行反范式的设计,为什么呢?

通俗理解,范式就是一种设计关系数据库的规范。

范式来自英文Normal form,简称NF。要想设计—个好的关系,必须使关系满足一定的约束条件,此约束已经形成了规范,分成几个等级,一级比一级要求得严格。满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟,不仅给数据库的编程人员制造麻烦,而且面目可憎,可能存储了大量不需要的冗余信息。

关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多规范要求的称为第二范式(2NF),其余范式以次类推。一般来说,数据库只需满足第三范式(3NF)就行了。

下面,对各种范式进行详细的介绍。

要想知道什么是范式,需要先对数据库设计中一些基本的名词进行简单的了解:

单一的数据结构----关系(表文件)。关系数据库的表采用二维表格来存储数据,是一种按行与列排列的具有相关信息的逻辑组,它类似于Excel工作表。一个数据库可以包含任意多个数据表。在用户看来,一个关系模型的逻辑结构是一张二维表,由行和列组成。这个二维表就叫关系,通俗地说,一个关系对应一张表。

元组(记录)。表中的一行即为一个元组,或称为一条记录。

属性(字段)。数据表中的每一列称为一个字段,表是由其包含的各种字段定义的,每个字段描述了它所含有的数据的意义,数据表的设计实际上就是对字段的设计。创建数据表时,为每个字段分配一个数据类型,定义它们的数据长度和其他属性。字段可以包含各种字符、数字、甚至图形。如错误!未找到引用源。

属性值。行和列的交叉位置表示某个属性值,如“数据库原理”就是课程名称的属性值

主属性。一个属性只要在任何一个候选码中出现过,这个属性就是主属性。

非主属性。与上面相反,没有在任何候选码中出现过,这个属性就是非主属性。

主码。主码(也称主键或主关键字),是表中用于唯一确定一个元组的数据。关键字用来确保表中记录的唯一性,可以是一个字段或多个字段,常用作一个表的索引字段。每条记录的关键字都是不同的,因而可以唯一地标识一个记录,关键字也称为主关键字,或简称主键。如错误!未找到引用源。

全码。如果一个码包含了所有的属性,这个码就是全码。

关系模式。关系的描述称为关系模式。对关系的描述,一般表示为:关系名(属性1,属性2.....属性n)。例如上面的关系可描述为:课程(课程号、课程名称、学分、任课老师)。但是关系模型的这种简单的数据结构能够表达丰富的语义,描述出现实世界的实体以及实体间的各种关系。

第一范式(1NF):属性不可分。

在前面已经介绍了属性值的概念,我们说,它是“不可分的”。而第一范式要求属性也不可分。那么它和属性值不可分有什么区别呢?给一个例子:

这两种情况都不满足第一范式。不满足第一范式的数据库,不是关系数据库!所以,我们在任何关系数据库管理系统中,做不出这样的“表”来。针对上述情况可以做成这样的表:这个表中,属性 “分”了。也就是“电话”分为了“手机”和“座机”两个属性。

第二范式(2NF):符合1NF,并且,非主属性完全依赖于码。(注意是完全依赖不能是部分依赖,设有函数依赖W→A,若存在XW,有X→A成立,那么称W→A是局部依赖,否则就称W→A是完全函数依赖)

一个学生上一门课,一定是特定某个老师教。所以有(学生,课程)->老师;

一个学生上一门课,一定在特定某个教室。所以有(学生,课程)->教室;

一个学生上一门课,他老师的职称可以确定。所以有(学生,课程)->老师职称;

一个学生上一门课,一定是特定某个教材。所以有(学生,课程)->教材

因此(学生,课程)是一个码。

然而,一个课程,一定指定了某个教材,一年级语文肯定用的是《小学语文1》,那么就有课程->教材。(学生,课程)是个码,课程却决定了教材,这就叫做不完全依赖,或者说部分依赖。出现这样的情况,就不满足第二范式!

有什么不好吗?你可以想想:

1、校长要新增加一门课程叫“微积分”,教材是《大学数学》,怎么办?学生还没选课,而学生又是主属性,主属性不能空,课程怎么记录呢,教材记到哪呢? ……郁闷了吧?(插入异常)

2、下学期没学生学一年级语文(上)了,学一年级语文(下)去了,那么表中将不存在一年级语文(上),也就没了《小学语文1》。这时候,校长问:一年级语文(上)用的什么教材啊?……郁闷了吧?(删除异常)

3、校长说:一年级语文(上)换教材,换成《大学语文》。有10000个学生选了这门课,改动好大啊!改累死了……郁闷了吧?(修改/更新异常,在这里你可能觉得直接把教材《小学语文1》替换成《大学语文》不就可以了,但是替换操作虽然计算机运行速度很快,但是毕竟也要替换10000次,造成了很大的时间开销)

那应该怎么解决呢?投影分解,将一个表分解成两个或若干个表。

第三范式(3NF):符合2NF,并且,消除传递依赖(也就是每个非主属性都不传递依赖于候选键,判断传递函数依赖,指的是如果存在"A → B → C"的决定关系,则C传递函数依赖于A。)

上面的“学生上课新表”符合2NF,但是它有传递依赖!在哪呢?问题就出在“老师”和“老师职称”这里。一个老师一定能确定一个老师职称。(学生,课程)->老师->职称。

有什么问题吗?想想:

1、老师升级了,变教授了,要改数据库,表中有N条,改了N次……(修改异常)2、没人选这个老师的课了,老师的职称也没了记录……(删除异常)3、新来一个老师,还没分配教什么课,他的职称记到哪?……(插入异常)那应该怎么解决呢?和上面一样,投影分解:

BC范式(BCNF):符合3NF,并且,主属性不依赖于主属性(也就是不存在任何字段对任一候选关键字段的传递函数依赖)

BC范式既检查非主属性,又检查主属性。当只检查非主属性时,就成了第三范式。满足BC范式的关系都必然满足第三范式。

还可以这么说:若一个关系达到了第三范式,并且它只有一个候选码,或者它的每个候选码都是单属性,则该关系自然达到BC范式。

给你举个例子:假设仓库管理关系表 (仓库ID, 存储物品ID, 管理员ID, 数量),且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。

这个数据库表中存在如下决定关系:

(仓库ID, 存储物品ID) →(管理员ID, 数量)

(管理员ID, 存储物品ID) → (仓库ID, 数量)

所以,(仓库ID, 存储物品ID)和(管理员ID, 存储物品ID)都是StorehouseManage的候选关键字,表中的唯一非关键字段为数量,它是符合第三范式的。但是,由于存在如下决定关系:

(仓库ID) → (管理员ID)

(管理员ID) → (仓库ID)

即存在关键字段决定关键字段的情况,所以其不符合BCNF范式。它会出现如下异常情况:

当仓库被清空后,所有"存储物品ID"和"数量"信息被删除的同时,"仓库ID"和"管理员ID"信息也被删除了。

当仓库没有存储任何物品时,无法给仓库分配管理员。

如果仓库换了管理员,则表中所有行的管理员ID都要修改。

把仓库管理关系表分解为二个关系表:

仓库管理:StorehouseManage(仓库ID, 管理员ID);

仓库:Storehouse(仓库ID, 存储物品ID, 数量)。

这样的数据库表是符合BCNF范式的,消除了删除异常、插入异常和更新异常。

一般,一个数据库设计符合3NF或BCNF就可以了。在BC范式以上还有第四范式、第五范式。

第四范式:要求把同一表内的多对多关系删除。

第五范式:从最终结构重新建立原始结构。

其实数据库设计范式这方面重点掌握的就是1NF、2NF、3NF、BCNF。

四种范式之间存在如下关系:

这里主要区别3NF和BCNF,一句话就是3NF是要满足不存在非主属性对候选码的传递函数依赖,BCNF是要满足不存在任一属性(包含非主属性和主属性)对候选码的传递函数依赖。

众所周知,数据规范化优点是减少了数据冗余,节约了存储空间,相应逻辑和物理的I/O次数减少,同时加快了增、删、改的速度。但是对完全规范的数据库查询,通常需要更多的连接操作,从而影响查询速度。因此,有时为了提高某些查询或应用的性能而破坏规范规则,即反规范化(非规范化处理)。

增加冗余列是指在多个表中具有相同的列,它常用来在查询时避免连接操作。例如:以规范化设计的理念,学生成绩表中不需要字段“姓名”,因为“姓名”字段可以通过学号查询到,但在反规范化设计中,会将“姓名”字段加入表中。这样查询一个学生的成绩时,不需要与学生表进行连接操作,便可得到对应的“姓名”。

增加派生列指增加的列可以通过表中其他数据计算生成。它的作用是在查询时减少计算量,从而加快查询速度。例如:订单表中,有商品号、商品单价、采购数量,我们需要订单总价时,可以通过计算得到总价,所以规范化设计的理念是无须在订单表中设计“订单总价”字段。但反规范化则不这样考虑,由于订单总价在每次查询都需要计算,这样会占用系统大量资源,所以在此表中增加派生列“订单总价”以提高查询效率。

重新组表指如果许多用户需要查看两个表连接出来的结果数据,则把这两个表重新组成一个表来减少连接而提高性能。

有时对表做分割可以提高性能。表分割有两种方式。

根据一列或多列数据的值把数据行放到两个独立的表中。水平分割通常在下面的情况下使用。

情况 1:表很大,分割后可以降低在查询时需要读的数据和索引的页数,同时也降低了索引的层数,提高查询效率。

情况 2:表中的数据本来就有独立性,例如表中分别记录各个地区的数据或不同时期的数据,特别是有些数据常用,而另外一些数据不常用。

情况 3:需要把数据存放到多个介质上。

把主码和一些列放到一个表,然后把主码和另外的列放到另一个表中。如果一个表中某些列常用,而另外一些列不常用,则可以采用垂直分割,另外垂直分割可以使得数据行变小,一个数据页就能存放更多的数据,在查询时就会减少I/O次数。其缺点是需要管理冗余列,查询所有数据需要连接操作。

在设计表中,需要根据实际情况灵活选择使用范式还是反范式设计表。

如果我们对查找的时效性要求比较高,而对空间占用要求比较低,可以采用反范式化设计。

THE END
0.图像分割—学习笔记图像分割是什么用水平集函数表示曲线 变分法得到欧拉-拉格朗日公式 迭代法解偏微分方程 图像导入 图像分割 图像分割(segmentation)是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程,就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。图像分割的jvzquC41dnuh0lxfp0tfv8xvwffdx~1ctzjeuj1fgzbkux1;4?94=82
1.pythonnumpy数组的组合和分割实例python数组的分割主要有: 1.水平分割:np.split(arr,n,axis=1) 或 np.hsplit(arr,n) 2.垂直分割:np.split(arr,n,axis=0) 或 np.vsplit(arr,n) 3.深度分割:np.dsplit(arr,n) 接下来一一举例 一、数组的组合 1.水平组合 语法: np.hstack(arr1,arr2) concatenate(arr1,arrjvzquC41yy}/lk:30pku1jwvkerf1:=3457/j}r
2.了解RIP路由防环水平分割(Split Horizon)的原理是,RIP路由设备从某个接口学到的路由不会从该接口再发回给邻居路由设备。这样不但减少了带宽消耗,还可以防止路由环路。 图11-7 按照接口进行水平分割原理图 如图11-7所示,DeviceA会向DeviceB发送到网络10.0.0.0/8的路由信息,如果没有配置水平分割,DeviceB会将从RouterA学习到的这条jvzquC41uwvqq{y0jwgxgr3eqo5fp}jtrtotg8j1fud1NIQE3712;<:49<03>>33:k
3.HCIE11.EVPN路由在CE多归接入到PE场景下,如果CE的链路为ALL-Active模式,CE发送一个PE的BUM报文可能被另一个PE环回,所以需要水平分割解决这个问题。 水平分割由所有PE通告携带ESI Label扩展团体属性的Ethernet A-D per ES route实现。 Ethernet A-D per EVI route(无扩展标签) jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:88358:
4.20210120104426.md·Mre/myimg[RTA-Serial6/0]undo rip split-horizon // 关闭水平分割功能 由以上输出可知,在水平分割功能关闭的情况下,RTA在接口Serial6/0上发送的路由更新包含了路由 2.2.2.2 。也就是说,路由器把从接口Serial6/0学到的路由 又从该接口发送了出去。这样容易造成路由环路另外一种避免环路的方法是毒性逆转。在RTA的接口SerijvzquC41ikzfg7hqo1ss/n4o{ksh1kqqd1sbu}jt1463396423656;;0of
5.采用变分水平集形式用于图像分割(Matlab代码实现)本文提出了一种基于区域的主动轮廓模型,采用变分水平集形式用于图像分割。在我们的模型中,局部图像强度由具有不同均值和方差的高斯分布描述。我们定义了一个局部高斯分布拟合能量,其中包含一个水平集函数和局部均值和方差作为变量。能量最小化通过交替进行水平集演化和估计局部强度均值和方差的迭代过程来实现。局部强度的均值jvzquC41dnuh0lxfp0tfv8|gkzooa=;25;=2;8ftvkimg8igvcomu86738=4::<
6.图像分割水平集算法水平集分割图像的原理知乎水平集关键 :曲线的演变 首先设置一个初始轮廓,也就是初始轮廓,通过将这个初始轮廓演变成图像中需要分割出来的形状,那具体是如何演变的呢 ?我用自己的理解来解释一下: 既然曲线在演变,那曲线的每一个点一定有一个演化的方向,如何确定演化方向? 用最优方向,也就是梯度方向的法线方向,因为曲线沿这个方向变化最快 jvzquC41dnuh0lxfp0tfv8vsa5=78A69;1gsvrhng1jfvjnnu1735<=6:4>
7.Markdown语法快速入门手册Horizontal Rules 水平分割线: *** *-- - Escape character 转义符(反斜杠): Markdown 可以利用反斜杠来插入一些在语法中有其它意义的符号,例如:如果你想要用星号加在文字旁边的方式来做出强调效果,你可以在星号的前面加上反斜杠: \*字面星号\* MarkjvzquC41yy}/y
8.LATE水平集图像分割模型的矩形窄带法①  E-mail: csa@iscas.ac.cn http://www.c-s-a.org.cn Tel: +86-10-62661041   LATE 水平集图像分割模型的矩形窄带法① 曾笑云1,  杨晟院1,  潘园园1,  刘 洋1,  左国才2 1(湘潭大学 信息工程学院, 湘潭 411105) 2(湖南软件职业学院 软件与信息工程学院,jvzquC41e/y.c7tti0io1lxc1cxuklqg1rjg1@638
9.我国草种业发展的问题及对策据证券日报网报道,2021年上半年蒙草公司研发投入8632.65万元,同比增长456.93%,占上半年营业额约8.80%,已达近年来的最高投入水平;而同年,德国拜耳研发投入占总收入约12.17%,2020年约占10.40%,均领先于国内草种企业研发投入最高水平。 2.4产业链条分割 不论是县域模式还是区域模式,产业链条的联系都不紧密,表现为育、jvzq<84yyy4junsnkp4dp8xha676H@I95:HF:=
10.智能数据分析研究团队3.图像分割的水平集方法研究 图像分割是近年来比较热门的方向,课题组探索并建立snake模型、基于图像边界特征(edge-based)的活动轮廓和基于图像区域特征(region-based)的活动轮廓等一系列活动轮廓图像分割方法,解决医学图像和自然光图像等复杂内容图像的分割问题。 jvzquC41oczi0qwdgw4ff~3ep1oohx4325:03A590jzn
11.产业发展的建议汇总十篇生物企业规模普遍较小,主要是中小型企业,缺少拥有国际领先技术水平和实力雄厚的龙头企业,研发投入严重不足,产品缺乏创新,技术含量低,特别是生物医药产品90%为仿制品。不仅如此,目前我国生物与医药园区分散、分割、低水平重复问题还比较突出,产业结构不合理,产业布局分散,大多数园区远未形成专业化分工的产业集聚效应。jvzquC41yy}/z~jujw4dqv3ep1nbq€jp16768:3jvor
12.python中opencv实现文字分割的实践python对文字图片作横向和纵向投影,即通过统计出每一行像素个数,和每一列像素个数,来分割文字。 分别在水平和垂直方向对预处理(二值化)的图像某一种像素进行统计,对于二值化图像非黑即白,我们通过对其中的白点或者黑点进行统计,根据统计结果就可以判断出每一行的上下边界以及每一列的左右边界,从而实现分割的目的。 jvzquC41yy}/lk:30pku1jwvkerf1;6633
13.OpenCV(python)版实现文本分割之水平投影法python在文本分割领域中有一种很优秀的算法:投影法,包括水平投影法和垂直投影法。本文主要讲述水平投影法,水平投影法可以理解为一束光线从图像的左侧向右边进行照射,每一条光线可以理解为图像的一行,计算每一行上图像的黑色像素点,从而可以对图像进行分割。 1 jvzquC41yy}/lk:30pku1jwvkerf1;:9:6?/j}r
14.华为、H3C、思科命令对比,思维导图形式从基础、交换、路由三大代码语言:txt AI代码解释 display 新华三 代码语言:txt AI代码解释 display 3.退回上级 思科 代码语言:txt AI代码解释 exit 华为 代码语言:txt AI代码解释 quit 新华三 代码语言:txt AI代码解释 quit 4.设置主机名 思科 代码语言:txt AI代码解释 hostname jvzquC41enuvf7ygpekov7hqo1jfxnqqrgx0c{ykenk04987469