周志华《机器学习》 版本空间

第一章1.3节提出了一个概念“版本空间”,搞明白之后其实是蛮简单的一个东西,按书上说的西瓜问题的假设空间如下(Ø表示不存在好瓜坏瓜之分):

编号色泽根蒂敲声
1***
2青绿**
3乌黑**
4*蜷缩*
5*硬挺*
6*稍蜷*
7**浊响
8**清脆
9**沉闷
10青绿蜷缩*
11青绿硬挺*
12青绿稍蜷*
13乌黑蜷缩*
14乌黑硬挺*
15乌黑稍蜷*
16青绿*浊响
17青绿*清脆
18青绿*沉闷
19乌黑*浊响
20乌黑*清脆
21乌黑*沉闷
22*蜷缩浊响
23*蜷缩清脆
24*蜷缩沉闷
25*硬挺浊响
26*硬挺清脆
27*硬挺沉闷
28*稍蜷浊响
29*稍蜷清脆
30*稍蜷沉闷
31青绿蜷缩浊响
32青绿蜷缩清脆
33青绿蜷缩沉闷
34青绿硬挺浊响
35青绿硬挺清脆
36青绿硬挺沉闷
37青绿稍蜷浊响
38青绿稍蜷清脆
39青绿稍蜷沉闷
40乌黑蜷缩浊响
41乌黑蜷缩清脆
42乌黑蜷缩沉闷
43乌黑硬挺浊响
44乌黑硬挺清脆
45乌黑硬挺沉闷
46乌黑稍蜷浊响
47乌黑稍蜷清脆
48乌黑稍蜷沉闷
49Ø

西瓜数据集如下:

编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍蜷沉闷

书上说:

搜索过程可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确性判断)的假设,这就是我们学得的结果。

假设1与数据1,2一致,但是也与数据3,4一致,删除

假设2与数据1一致,但是也与数据3一致,删除

假设3与数据2一致,但是也与数据4一致,删除

假设4与仅数据1,2一致,不删

假设10虽然与数据1一致,但是与数据2不一致,删除

最终得到的西瓜问题的版本空间是:

编号色泽根蒂敲声
4*蜷缩*
7**浊响
22*蜷缩浊响

版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。

发表评论

电子邮件地址不会被公开。 必填项已用*标注