防不胜防的软件错误 —— 例： 1963 年 , 美国 , 飞往火星的火箭爆炸 , 损失 $ 10 million

防不胜防的软件错误 ——

例： 1963 年 , 美国 , 飞往火星的火箭爆炸 , 损失 $ 10 million.

原因 : FORTRAN 循环 DO 5 I = 1, 3 误写为 DO 5 I = 1.3

第六章实现测试 (Testing)

软件测试是保证软件质量的关键步骤，是对软件规格说明、设计和编码的最后复审，其工件量约占总工作量 40% 以上 .

（对于人命关天的情况，测试相当于其它部分总成本的 3 — 5 倍）。

§1. 基本概念

1 、定义：测试是为了发现程序中的错误而执行程序的过程。注意：① 只能尽可能查错，不能证明程序中没有错；

② 测试员与程序员不应是同一个人。2 、黑盒和白盒测试

黑盒测试 (black-box , or closed-box testing): 功能测试 ( 程序接口的测试 , 不关心内部结构 , I->O, 需求规格说明书 )Make sure that every kind of input is submitted, and the output observed matches the output expected. —— Functional testing

白盒测试 (white-box , or open-box, clear-box testing): 逻辑测试 ( 结构测试 , 内部 , 每条可能路径 ) Use the structure of the program to test.

—— Structural testing

§1. 基本概念

14161616 103222

若程序执行需 10-3 秒，则对于所有合法输入的测试大约需用一万年，而且还应测试输入非法数据的情况。

主要问题：穷尽测试 (complete test) 通常是不可能的。

例： (Black-box) 程序要求输入 3 个整形数据。若字

长 16 位，则各种可能输入的排列组合共有

（种）

例： (White-box)

§1. 基本概念

循环 20次

上图所示的程序中共有 5201014

条可能的执行通路，显然，每条通路都执行一遍是不现实的。

3 、测试步骤：(1) 模块 ( 单元 ) Component testing —— program design & coding bugs

(2) 子系统 Subsystem testing —— connections between modules

(3) 系统 System testing —— requirements & system design

(4) 验收 Acceptance testing —— customer joins in

(5) 平行运行 Parallel running —— compare the new system with the old one.

集成 Integration testing

§1. 基本概念

测试阶段的信息流：

测试评价调试

可靠性模型

软件配置

测试配置测试结果

可靠性预测

错误正确

错误率数据预期结果

§2. 单元测试（白盒）一、主要测试以下五个方面：1 、模块接口：内部检查：传输参数的数目、属性、单位、次序是否匹配；全程变量的定义是否一致；只做输入的变元有无被修改， ……. 外部检查：打开、结束、关闭文件的操作；文件和属性； I\O 错误处理；输出拼写， ……

2 、局部数据结构：数据说明 (declaration) ；初始化与缺省值的设置；变量名拼写；数据类型的相容性；上 \ 下溢出及地址异常， ……

§2. 单元测试

§2. 单元测试

3 、重要的执行通路：由于穷尽测试不可能，故通常针对最常见

的错误设计测试方案。较常见的错误有：• 计算次序问题• 不同类型混合运算（例：比较类型不同的量）• 初值设置错误• 精度问题（例：精度不够导致两变量不可能相等，而程序中等待相等条件的出现）

• 表达式错误• 循环终止条件错误（例：次数差 1 ，或陷入死循环）

4 、出错处理通路：预见出现错误的条件，设置处理。较常见的问题有：

输出的错误信息难以理解，不能确定错误位置描述的错误与实际错误不符处理之前系统已经干预处理不正确

§2. 单元测试

5 、边界条件 —— 单元测试中最后，也可能是最

重要的任务，因为软件常在其边界失效。

1 、代码审查 (code inspection)

从头到尾 (Walk-through): 例如 Lucent Technologies 的测试策略，是由三人一组 (包括 author, reader, 和 recorder) ，逐行检查源代码。

预演 (Rehearsal) ：由人扮演 computer ，模拟执行情况。

§2. 单元测试

优点 : 一次审查可发现多个错误，不必改一个测一个。

二、单元测试的主要手段：

2 、制做测试软件： Stub (存根 ) 和 Driver (驱动 ) 软件

Driver （驱动） : “ 主程序” ( 调用模块 ) Stub （存根） : “虚拟子程序” ( 被调用模块 ) 软件的编写，属额外开支。模块高内聚可简化这一过程。

§3. 集成测试 (Integration Testing)

1 、非渐增式测试 (Big-bang testing)

Test A,B, C, D

TestA

TestB

TestC

TestD

2 、渐增式测试 (Incremental testing)

Test A,B, C, D

TestA

B

C

D

Test A, B

Test A,B, C

§3.集成测试

两种方式的比较： Incremental testing 可以较早发现模块间的接口错误；

Big-bang testing 最后才组装，因此错误发现得晚。 Big-bang testing 中发现错误后难以诊断定位； Incre

mental testing 中，出现的错误往往跟最新加入的模块有关。

Incremental testing 在不断集成的过程中使模块不断在新的条件下受到新的检测，测试更彻底。

Incremental testing 较 Big-bang testing 费时。 Big-bang testing 可以同时并行测试所有模块，能充分利用人力。

⑴ 自顶向下 (Top-down testing)

第 1 步：测试顶端模块 ( 主控模块 ) ，用存根程序 (stub)代替直接附属的下层模块

Stub: to simulate the activity of the component which is not yet tested.

§3.集成测试

3 、 Incremental testing 的几种策略

M

S1 S2

第 2 步：根据深度优先 / 宽度优先的策略，每次用一个实际模块代换一个 stub 。

§3.集成测试

第 3 步：在结合进一个模块的同时进行测试。

M

S1 S2M1

S3 S4

M2S2

第 4 步：回归测试 (regression testing)—— 全部或部分地重复以前做过的测试。

⑵ 自底向上 (Bottom - up testing)

第 1 步：把低层模块组合成族，每族实现一个子功能。第 2 步：用驱动程序 (Driver)协调测试数据的 I\O ，

测试子功能族。

§3.集成测试

优点：在早期即对主要控制及关键的抉择进行检验。问题： Stub 只是对低层模块的模拟，测试时没有

重要的数据自下往上流，许多重要的测试须推迟进行，而且在早期不能充分展开人力。

Driver: to call a particular component and passes a test case to it.

D

M1 M2

第 3步：去掉 Driver，自下而上把子功能族合成更大的子功能族。

M M MM M

M

M M M

M M

M

D D D

D D

D

§3.集成测试

注意：两种策略的优、缺点刚好互补，但单用其中任一种都不实际，通常根据软件的特点将二者混用。

⑶ 混合法 (Sandwich testing)

§3.集成测试

Target layer

Top-down

Bottom-up

§4. 验收测试 (Acceptance testing)

任务：验收软件的有效性（功能和性能达标）。手段：黑盒测试；用户参与；主要用实际数据进行测试。内容：按合同规定审查软件配置；

设计测试计划，使通过测试保证软件能满足所有功能、性能要求；文档与程序一致，具有维护阶段所必须的细节；严格按用户手册操作，以检查手册的完整性和正确性。

§5. 设计测试方案 (Plan of testing)

主要技术：1 、逻辑覆盖 (Logical coverage) —— 适用于白盒测试覆盖程度由弱到强顺次为：⑴ 语句覆盖 (Statement coverage):

每个语句至少执行一次。

任务：①预定要测试的功能

② 设计输入的测试数据 (test cases)

③列出预期结果 (expected output)

§5. 设计测试方案例： P.140 图 7.6

问题：若 AND错写为 OR ，或X>1 错写为 X<1,则错误无法由上例测出。

入口

A > 1AND B=0

T

A=2OR X > 1

T

X = X / A

X = X + 1

返回

F

F

Test case : A=2 , B=0 , X=4.

⑵判定覆盖 (Branch coverage) ：在⑴的基础上，每个判定的每个分支至少执行一次。

§5. 设计测试方案

Test cases:

①A=3 , B=0 , X=3

问题：若 X>1错写为 X<1,仍然无法被测出。

入口

A > 1AND B=0

T

A=2OR X > 1

T

X = X / A

X = X + 1

返回

F

F

②A=2 , B=1 , X=1

⑶ 条件覆盖 (Condition coverage) ：在⑴的基础上，使每个判定表达式的每个条件都取到各种可能的结果。


Test cases:①A=2 , B=0 , X=4（满足 A>1, B=0; A=2, X>1)

问：条件覆盖？判定覆盖答 : 不一定。反例 : ①A=2, B=0, X=1 ②A=1, B=1, X=2 ⑷判定 / 条件覆盖：即判定覆盖条件覆盖

入口

A > 1AND B=0

T

A=2OR X > 1

T

X = X / A

X = X + 1

返回

F

F

②A=1, B=1, X=1(满足 A1, B0; A 2, X

1 ）

⑸ 条件组合覆盖：每个判定表达式中条件的各种可能组合都至少出现一次。


入口

A > 1AND B=0

T

A=2OR X > 1

T

X = X / A

X = X + 1

返回

F

F

全部可能的条件组合为： ① A>1, B=0 A>1, B② 0 ③ A1, B=0 A④ 1, B

0 ⑤ A=2, X>1 A=2, X⑥ 1 ⑦ A 2, X>1 A ⑧ 2,X

1 Test cases: ① A=2, B=0, X=4 (T T) ② A=2. B=1, X=1 (F T) ③ A=1, B=0, X=2 (F T) ④ A=1, B=1, X=1 (F F)

问题：没有测试到（ T F ）的情形

考察 control flow graph 的角度，还可考虑下述覆盖：⑹ 点覆盖


⑺ 边覆盖

= 语句覆盖

⑻ 路径覆盖 (Path coverage): 每条可能的路径都至少执行一次，若图中有环，则每个环至少经过一次。

=判定覆盖

Test cases: ① A=1 , B=1 , X=1 ② A=1 , B=1 , X=2 ③ A=2 , B=0 , X=1 ④ A=2 , B=0 , X=4

⑼ 路径覆盖条件组合覆盖

作业： P.162 #1 (3) , #2

⑴ 划分经验当规定了输入范围时：


2 、等价划分 (Equivalence Partitioning)

—— 适用于黑盒测试（所有输入数据：有效，无效） An equivalence class represents a set of valid or invalid states for input conditions , so that there is no particular reason to choose one element over another as a class representative.

无效类有效类无效类

当规定了输入的一组值，且对不同值做不同处理 ,每个允许值是一个有效类，每个不允许值是一个无效类。

例：教工分房方案中，按教授、副教授、讲师、助教分别计分有效类 4 个；无效类 1 个

当规定了输入的个数时：有效类 1 个；无效类 2 个当规定了输入的规则时：例： (PASCAL) 语言规定，每个语句以“ ；” 结束有效类 1 个；无效类若干（以“ ，”结束、以“ ：”结束、以空格结束等等）当输入为整型时：有效类可分为 Z+、 0 、 Z— 三种当处理表格时：有效类可分为空表、含一项的表、含多项的表等注：① 以上经验亦适用于输出数据； ② 不需要测试编译程序肯定能发现的错误。


⑵ 设计步骤

设计一个新方案，以尽可能多地覆盖尚未被覆盖的有效等价类；

重复这一步骤直到所有有效类都被覆盖为止。

设计一个新方案，以覆盖一个且仅一个尚未被覆盖的无效等价类；

重复这一步骤直到所有无效类都被覆盖为止。（通常程序执行一个错误后即不继续检测其它错误，故每次只测一个无效类）


例：考察一个把数字串转变成整数的函数。用二进制补码表示整数，机器字长 16 位，即整数范围最小为 - 32768 ，最大为 32767 。

函数及参数的 PASCAL 说明如下： function StrToInt (dstr : shortstr) : integer;

type shortstr = array [1..6] of char;

要求被处理的数字串是右对齐的，即在少于 6 个字符的串左边补空格。

负号在最高位数字左边一位。

试用等价划分法设计测试方案。


解：首先根据规格说明划分等价类。考虑到 PASCAL 编译器的固有检错功能，测试时不需要使用长度不等于6 的数组，也不需要用非字符数组类型的参数。

有效输入类： ①1~6 个数字字符组成的数字串（最高位非 0 ）； ②最高位为 0 的数字串； ③最高位左邻负号的数字串；无效输入类： ④空字符串（ 6 位空格）； ⑤左边补位的既非 0亦非空格； ⑥最高位右边含有空格； ⑦最高位右边含有其它非数字字符； ⑧负号与最高位间有空格；



①1~6 个数字字符组成的数字串，最高位非 0 ；输出为合法正整数。输入：预期输出： 1

②最高位为 0 的数字串，输出为合法正整数。

输入：预期输出： 1

有效输出类：⑨ 在合法范围内的负整数；10 0 ；11 在合法范围内的正整数；

无效输出类：

0 0 0 0 0 1

1

12 小于 - 32768 的负整数；13 大于 32767 正整数。

下面根据等价划分，设计出一套测试方案：

③负号与最高位数字相临；输出合法负整数。输入：预期输出： -1


- 0 0 0 0 1

④最高位为 0 ；输出 0 。

输入：预期输出：0

0 0 0 0 0 0

⑤太小的负整数。

输入：预期输出：“错误，无效输入”

- 3 2 7 6 9

⑥太大的正整数。

输入：预期输出：“错误，无效输入”

3 2 7 6 8

⑦空字符串。输入：预期输出：“错误：没有数字”


⑧左边补位的非 0也非空格。输入：预期输出：“错误：非法填充”

a a a a a 1

⑨最高位右边也含空格。输入：预期输出：“错误：无效输入”

1 2

⑩最高位右边含其它非数字字符。输入：预期输出：“错误：无效输入”

0 0 1 x x 2

负号与最高位间有空格。输入：预期输出：“错误：负号位置非法”

11

- 1 2

3 、边界值分析 (Boundary Value Analysis)

注意：① 程序最容易在边界发生错误； ② 通常与等价划分结合进行。 ③ 上例可以列出：有效类 2 个，

无效类 2 个4 、错误推测 (Failure Prediction)

思路：① 列出可能有的错误； ② 列出容易发生错误的特殊情况。以此为基础设计测试方案。根据：直觉、经验工具：常见错误清单、判定表等。


5 、实用策略 (Practical Strategies) 黑盒设计白盒补充

① 在任何情况下都应该使用边界值分析的方法；② 必要时用等价划分法补充；③ 必要时再用错误推测法补充；④ 对照程序逻辑，检查测试方案。可根据对程

序可靠性的要求采用不同的逻辑覆盖标准，必要时补充一些测试方案。

注 : 即使用上述综合策略设计测试方案，仍不能保证发现一切错误。例如 Lucent公司经过包括逐行检查源代码在内的多方面测试之后，其软件能达标运行的成功率为


80% 。

§6. 调试 (Debugging)

测试 —— 发现错误调试 —— 改正错误

第 1 步：确定错误的位置 (95% 工作量 ) ；第 2 步：改正错误。

Failure （外错误） is the departure of a system from its required behavior.

Fault （故障、内错误、 error 、 bug ） is resulted by human error in some software product.

Execution of casesTest

cases

Results

Debugging

Additional tests

Suspected causes

Identified causes

Corrections

Regression tests

Debugging

§6. 调试

1 、调试技术① 输出存储器内容 (memory dump):

以八进制或十六进制的形式印出存储器的内容。缺点：输出信息量极大，

不易解读且大多无用；输出的是程序在某一

时刻的静态情况，且往往不是出错时的状态。

§6. 调试

② 插入“ watch points”(或称“ spy points”)

人工插入打印缺点：改动源代码，增加了出错机会；打印信息可能太多。

自动调试工具 —— 无须打印额外信息，且不改动源代码

§6. 调试

2 、调试策略调试过程的关键不是调试技术，而是用来推断错误原因的基本策略。主要有：

① 试探法，凭经验猜测。 ② 回溯法：由症状 (symptom) 最先出现的地方，沿

control flow向回检查。适用于小型程序。 ③ 对分法：在关键点插入变量的正确值，则：

§6. 调试

输出正确错误在前半段

错误在后半段

N

Y

收集数据组织数据研究数据间的关系提出假设

证明假设

纠正错误

能

能

不能

不能

Yes No What Where

When

How

3W1H Table

§6. 调试

④ 归纳法：从错误症状中找出规律，推断根源。

例：学生考试评卷报告。要求输出成绩排名、平均分、试题分析报告。

§6. 调试

发现错误：对 51 个学生评分中间值为 26 （期望值 80 ）对 1 个学生评分中间值为 1

Yes No

What 第2号报告中打印的中间值有误平均值和标准偏差的计算Where 在第 2号报告中

When在对 51个和 1个学生评分的测试时发现

在其它报告中，学生分数计算似乎正确

How 51个学生中间值 = 26 1个学生中间值 = 1

对 2个和 200个学生计算时并无错误

观察分析：取奇数时出错？打印的是中间学生的编号而非分数？加测试来验证上述推测。

列举可能的原因

排除不正确的假设

精化余下的假设

证明假设

收集更多数据纠正错误

有剩余

能

不能无剩余

⑤ 演绎法：普通特殊从假设中逐步排除、精化，从而导出错误根源。

§6. 调试

§7. 软件可靠性 (Reliability)

1 、基本概念可靠性 (Reliability) ：程序在给定的时间间隔内，按照说明书的规定，成功地运行的概率。

可用性 (Usability) ：程序在给定的时间点，按照说明书的规定，成功地运行的概率。

正确性 (Correctness) ：程序的功能正确。

Reliability Correctness

Usability

§7. 软件可靠性

设系统故障停机时间为 td1, td2, …; 正常运行时间

为 tu1, tu2, … ; 则系统的“稳态可用性”为

Availability = (Shooman, 1983)

其中 MTTF = Mean Time To Failure =

MTTR = Mean Time To Repair =

MTTR MTTF

MTTF

n

1i uit

n

1

0 t

tu1 td1 tu2 td2

n

1i dit

n

1

2 、估算 MTTF ： MTTF =


))/I(τE/IK(E1

TCTT

其中： K 为经验常数（典型值约在 200左右）； ET 为测试前故障总数； IT 为程序长度（机器指令总数）；为测试（包括调试）时间； EC( ) 为时间从 0至期间改正的错误数。

前提假设： ① ET / IT Constant （通常为 0.5 ~ 2% ） ② 调试中没有引入新故障（即 ET 与时间无关） ③MTTF 与剩余故障成反比

换个角度看问题§7. 软件可靠性

MTTFK

IE)(τE T

TC

意义：可根据对软件平稳运行时间的要求，估算需改正多少个错误后才能结束测试。

还有一个问题 —— ET = ?

估算方法：① 植入故障法：人为植入 NS 个故障，测后发现 ns 个植入故障和 n 个原有故障，则设

TSS

S EnnN

N

nN

n

② Hyman 分别测试法：二人（组）分别独立测试同一程序，甲测得故障总数为 B1，乙测得为 B2，其中有 bc是相同的，设以甲的测试结果为基准（即相当于①中的植入故障），则设


T1c

22

1

c EBb

BB

B

B

Bb

一般多测几个取平均。B

3 、正确性证明目标：研究能证明程序正确性的自动系统。


…

p1

p2

p3

pn-1

pn

a(1) = input

a(2)

a(3)

a(n-1)

a(n) = output

a(i):断言 (assertion)证明：对任一个 i ，执行了pi到 pi+1之间的语句后，可将 a(i) 变为 a(i+1) ，则证明由 a(1) 可导出 a(n) 。若 a(1) 和 a(n) 正确，且程序确定可终止，则证明程序正确。

但是：即使有了正确性证明程序，软件测试也仍然是需要的。因为：①正确性证明只证明程序功能正确，但不能

验证动态特性； ② 证明过程本身也可能发生错误。

原理：

100%

50% 100%

测试用例完成率 = 已完成用例 / 全部用例

测试时间使用率 = 所用时间 / 总时间

第一阶段

第二阶段

第三阶段

§8.日立预测法日立预测法 —— 测试期间绘制并检查两种曲线1 、测试完成率曲线：

经验：工程的成败取决于第一阶段向第二阶段转移断点的位置，一般成功的工程其转折点位于 15% ；若超过 55% 则破产不可避免。

错误发现率 = 单位时间内发现的错误数

时间峰值时间

成功的工程

失败的工程

极坏的工程

§8.日立预测法

2 、错误发现率曲线：经验：

刚过峰值点后曲线的导数关系到工程的成败。若导数值大于 - 0.3 ，则失败不可避免。

其它可靠性预测模型 (reliability prediction model) ：

最早： Jelinski - Moranda model (1972)

最广泛应用： Musa model (1990)

最近： Fenton - Pfleeger model (1997)

§8.日立预测法

§9. 自动测试工具

1 、测试数据生成程序 (Test case generator) ：

功能：自动生成大量输入数据

主要用于：测试系统在实际环境中的性能（例如测试数据库管理系统）自动校核系统输出 ( 若输出数据的语法可以被形式地说明 )

缺点：不能自动生成预期的输出，因此用途有限。


2 、动态分析程序 (Dynamic analyzer)

功能：分析程序中每个语句的执行次数。组成：

检测部分：插入检测语句，负责收集、整理语句执行次数；显示部分：以容易理解的形式印出收集的信息。

用途：发现测试中没有执行的语句，以增加相应的测试用例；发现不按要求终结的循环；发现不应执行却执行了的代码，及应执行而未执行的代码。

3 、静态分析程序 (Static analyzer)

不执行程序，仅扫描程序的正文，从中寻找可能导致错误的异常情况。


4 、文件比较程序 (File inspector) 主要步骤： ⑴ 建立一个文件存放预期的正确结果； ⑵ 执行测试，将输出数据存进另一个文件； ⑶ 使用文件比较程序来比较上述两个文件，印出两者之差异。

Documents

防不胜防的软件错误 —— 例： 1963 年 , 美国 , 飞往火星的火箭爆炸 , 损失 $ 10 million