关系型数据库的设计流程

约 5398 字大约 18 分钟

2025-10-04

规范设计的6个阶段

按照规范设计的方法，考虑数据库及其应用系统开发全过程，将数据库设计分为以下6个阶段：

需求分析：分析用户的需求，包括数据、功能和性能需求；
概要结构设计：主要采用E-R模型进行设计，包括画E-R图；
逻辑结构设计：通过将E-R图转换成表，实现从E-R模型到关系模型的转换；
数据库物理设计：主要是为所设计的数据库选择合适的存储结构和存取路径；
数据库的实施：包括编程、测试和试运行；
数据库运行与维护：系统的运行与数据库的日常维护

其中最为重要的是概念结构设计和逻辑结构设计。详见后续章节：E-R图和结构设计流程。

需求分析阶段（常用自顶向下）

进行数据库设计首先必须准确了解和分析项目需求(包括数据与处理)。需求分析是整个设计过程的基础，也是最困难，最耗时的一步。需求分析是否做得充分和准确，决定了在其上构建数据库大厦的速度与质量。需求分析做的不好，会导致整个数据库设计返工重做。

需求分析的任务，是通过详细调查现实世界需要处理的对象，充分了解系统工作概况，明确拥堵额各种需求，然后在此基础上确定新的系统功能，新系统还的充分考虑今后可能的扩展与改变，不仅仅能够按当前应用需求来设计。

调查的重点是，数据与处理。要达到信息要求，处理要求，安全性和完整性要求。

分析方法常用SA（Structured Analysis 结构化分析方法），从最上层的系统组织结构入手，采用自顶向下，逐层分解的方式分析系统。

常用工具：数据流图，判定表或判定树，数据字典

数据流图表达了数据和处理过程的关系，在SA方法中，处理过程的处理逻辑常常借助判定表或判定树来描述。在处理功能逐步分解的同时，系统中的数据也逐级分解，形成若干层次的数据流图。系统中的数据则借助数据字典（data dictionary，DD）来描述。数据字典是系统中各类数据描述的集合，数据字典通常包括数据项，数据结构，数据流，数据存储和处理5个阶段。

概要结构设计阶段（常用自底向上）

概念结构设计是整个数据库设计的关键，它通过对用户需求进行综合、归纳与抽象，形成了一个独立于具体DBMS的概念模型。

设计概念结构通常由四类方法：

自顶向下。即首先定义全局概念结构的框架，再逐步细化。
自底向上。即首先定义各局部应用的挂念结构，然后将他们集成起来，得到全局的概念结构。
逐步扩张。首先定义重要的核心概念结构，然后向外扩张，以滚雪球的方式逐步生成其他的概念结构，直至总体概念结构。
混合策略。即自顶向下和自底向上相结合。

逻辑结构设计阶段（E-R图）

逻辑结构设计是将概念结构转换为某个DBMS所支持的数据模型，并将其进行优化。

在这个阶段，E-R图显得非常重要。

首先根据各个实体定义的属性来画出总体的E-R图

各个分E-R图之间的冲突主要有三类：属性冲突，命名冲突，和结构冲突。

E-R图向关系模型的转换，要解决的问题是如何将实体性和实体间的联系转换为关系模式，如何确定这些关系模式的属性和码。

物理设计阶段

物理设计是为逻辑数据结构模型选取一个最适合应用环境的物理结构（包括存储结构和存取方法）。

首先要对运行的事务详细分析，获得选择物理数据库设计所需要的参数，其次，要充分了解所用的RDBMS的内部特征，特别是系统提供的存取方法和存储结构。

常用的存取方法有三类：

1.索引方法，目前主要是B+树索引方法。 2.聚簇方法（Clustering）方法。 3.HASH方法。

数据库实施阶段

数据库实施阶段，设计人员运营DBMS提供的数据库语言（如sql）及其宿主语言，根据逻辑设计和物理设计的结果建立数据库，编制和调试应用程序，组织数据入库，并进行试运行。

数据库运行和维护阶段

数据库应用系统经过试运行后，即可投入正式运行，在数据库系统运行过程中必须不断地对其进行评价，调整，修改。

E-R图

即 Entity-Relationship 实体关系模型，提供了表示实体类型、属性和关系的方法，用来描述现实世界的概念模型。

er 图是比较抽象的，图里面只说明了每个实体具有什么属性。比如用户名，但是它的数据类型、有无约束都不会在 er 图上出现。

如上图，含义如下：

矩形：表示实体
椭圆形：表示属性
主键：在字段上使用下划线
菱形：外键约束

ER图中的属性

复合属性：某个属性是多个属性的组合
工号 是由 公司 + 部门 + 数字序号 组成的
多值属性：某个属性可以有多个不同的取值，用双线椭圆表示
比如一个员工拥有多个角色，这个角色就是多值属性，使用双椭圆表示。再比如，一个员工有多个联系电话号码等类似的属性
派生属性：是不保存在实体中的属性；用虚线的椭圆表示
简单说，派生属性是运算的结果。比如分页中的总页数，是计算出来的。如下图中的人数：
可选属性：允许没有值的属性；在字段下用(0)表示：

实体的三种关系

一对一

一个员工可以领取一台办公电脑，使用棱形关联一对一关系

棱形上方的含义是：只要有员工编号，往左可以唯一确定员工，往右可以唯一确定此员工办公电脑。

为啥不在员工表创建电脑编号？原因是：员工可能领取多个物品，不可能都增加各种物品的编号

一对N

棱形上方的含义是：只要有班级编号，往左可以唯一确定班级信息，往右可以确定此班级对应的学生信息。

N对N

在多对多关系中，通常需要在关系表中单独存储两边实体的主键（这里是员工编号和角色编号），作为该联系的属性。

这些属性不会出现在“员工”或“角色”实体本身，而是专属于“属于”这个联系，用于实现多对多关系的映射

表现出多次的关系

一个实体在联系出现几次，就要用几条线连接。

下图表示一个课程的先修关系，先修关系出现两个 Course 实体，第一个是先修课程，后一个是后修课程，因此需要用两条线来表示这种关系。

联系的多向性

虽然老师可以开设多门课，并且可以教授多名学生，但是对于特定的学生和课程，只有一个老师教授，这就构成了一个三元联系。

一般只使用二元联系，可以把多元联系转换为二元联系。

表示子类

用一个三角形和两条线来连接类和子类，与子类有关的属性和联系都连到子类上，而与父类和子类都有关的连到父类上。

基于E-R图的数据库结构设计

这是一个实际重要的基于E-R图的数据库结构设计示例

确定Entities及Relationships

明确宏观行为。数据库是用来做什么的？比如，管理雇员的信息。
确定entities。对于一系列的行为，确定所管理信息所涉及到的主题范围。这将变成table。比如，雇用员工，指定具体部门，确定技能等级。
确定relationships。分析行为，确定tables之间有何种关系。比如，部门与雇员之间存在一种关系。给这种关系命名。
细化行为。从宏观行为开始，现在仔细检查这些行为，看有哪些行为能转为微观行为。比如，管理雇员的信息可细化为：
- 增加新员工
- 修改存在员工信息
- 删除调走的员工
确定业务规则。分析业务规则，确定你要采取哪种。比如，可能有这样一种规则，一个部门有且只能有一个部门领导。这些规则将被设计到数据库的结构中。

定义宏观行为

一些ACME公司的宏观行为包括：

招聘员工
解雇员工
管理员工个人信息
管理公司所需的技能信息
管理哪位员工有哪些技能
管理部门信息
管理办事处信息

确定entities及relationships

我们可以确定要存放信息的主题领域(表)及其关系，并创建一个基于宏观行为及描述的图表。我们用方框来代表table，用菱形代表relationship。我们可以确定哪些relationship是一对多，一对一，及多对多。这是一个E-R草图，以后会细化。

细化宏观行为

以下微观行为基于上面宏观行为而形成：

增加或删除一个员工
增加或删除一个办事处
列出一个部门中的所有员工
增加一项技能
增加一个员工的一项技能
确定一个员工的技能
确定一个员工每项技能的等级
确定所有拥有相同等级的某项技能的员工
修改员工的技能等级

这些微观行为可用来确定需要哪些table或relationship。

确定所需数据

要确定所需数据：

确定支持数据
列出所要跟踪的所有数据。描述table(主题)的数据回答这些问题：谁，什么，哪里，何时，以及为什么
为每个table建立数据
列出每个table目前看起来合适的可用数据
为每个relationship设置数据
如果有，为每个relationship列出适用的数据

确定支持数据

你所确定的支持数据将会成为table中的字段名。比如，下列数据将适用于表Employee，表Skill，表Expert In。

Empolyee	Skill	ExpertIn
ID	ID	Level
Last Name	Name	Date acquired
First Name	Description
Department
Office
Address

需要注意：

在确定支持数据时，请一定要参考你之前所确定的宏观行为，以清楚如何利用这些数据。
比如，如果你知道你需要所有员工的按姓氏排序的列表，确保你将支持数据分解为名字与姓氏，这比简单地提供一个名字会更好。
你所选择的名称最好保持一致性。这将更易于维护数据库，也更易于阅读所输出的报表。
比如，如果你在某些地方用了一个缩写名称Emp_status，你就不应该在另外一个地方使用全名(Empolyee_ID)。相反，这些名称应当是Emp_status及Emp_id。
数据是否与正确的table相对应无关紧要，你可以根据自己的喜好来定。在下节中，你会通过测试对此作出判断。

标准化数据

标准化是你用以消除数据冗余及确保数据与正确的table或relationship相关联的一系列测试。共有5个测试。本节中，我们将讨论经常使用的3个。

标准化格式

标准化格式是标准化数据的常用测试方式。你的数据通过第一遍测试后，就被认为是达到第一标准化格式；通过第二遍测试，达到第二标准化格式；通过第三遍测试，达到第三标准化格式。

如何标准格式：

1．列出数据 2．为每个表确定至少一个键。每个表必须有一个主键。 3．确定relationships的键。relationships的键是连接两个表的键。 4．检查支持数据列表中的计算数据。计算数据通常不保存在数据库中。 5．将数据放在第一遍的标准化格式中： 6．从tables及relationships除去重复的数据。 7．以你所除去数据创建一个或更多的tables及relationships。 8．将数据放在第二遍的标准化格式中： 9．用多于一个以上的键确定tables及relationships。 10．除去只依赖于键一部分的数据。 11．以你所除去数据创建一个或更多的tables及relationships。 12．将数据放在第三遍的标准化格式中。 13．除去那些依赖于tables或relationships中其他数据，并且不是键的数据。 14．以你所除去数据创建一个或更多的tables及relationships。

数据与键

在你开始标准化（测试数据）前，简单地列出数据，并为每张表确定一个唯一的主键。这个键可以由一个字段或几个字段（连锁键）组成。

主键是一张表中唯一区分各行的一组字段。Employee表的主键是Employee ID字段。Works In relationship中的主键包括Office Code及Employee ID字段。给数据库中每一relationship给出一个键，从其所连接的每一个table中抽取其键产生。

RelationShip	Key
Office	*Office code
	Office address
	Phone number
Works in	*Office code
	*Employee ID
Department	*Department ID
	Department name
Heads	*Department ID
	*Employee ID
Assoc with	*Department ID
	*Employee ID
Skill	*Skill ID
	Skill name
	Skill description
Expert In	*Skill ID
	*Employee ID
	Skill level
	Date acquired
Employee	*Employee ID
	Last name
	First name
	Social security number
	Employee street
	Employee city
	Employee state
	Employee phone
	Date of birth

将数据放在第一遍的标准化格式中

除去重复的组
要测试第一遍标准化格式，除去重复的组，并将它们放进他们各自的一张表中。
在下面的例子中，Phone Number可以重复。（一个工作人员可以有多于一个的电话号码。）将重复的组除去，创建一个名为Telephone的新表。在Telephone与Office创建一个名为Associated With的relationship。

将数据放在第二遍的标准化格式中

除去那些不依赖于整个键的数据。
只看那些有一个以上键的tables及relationships。要测试第二遍标准化格式，除去那些不依赖于整个键的任何数据（组成键的所有字段）。
在此例中，原Employee表有一个由两个字段组成的键。一些数据不依赖于整个键；例如，department name只依赖于其中一个键（Department ID）。因此，Department ID，其他Employee数据并不依赖于它，应移至一个名为Department的新表中，并为Employee及Department建立一个名为Assigned To的relationship。

将数据放在第三遍的标准化格式中

除去那些不直接依赖于键的数据。
要测试第三遍标准化格式，除去那些不是直接依赖于键，而是依赖于其他数据的数据。
在此例中，原Employee表有依赖于其键（Employee ID）的数据。然而，office location及office phone依赖于其他字段，即Office Code。它们不直接依赖于Employee ID键。将这组数据，包括Office Code，移至一个名为Office的新表中，并为Employee及Office建立一个名为Works In的relationship。