第一章1.3节提出了一个概念“版本空间”,搞明白之后其实是蛮简单的一个东西,按书上说的西瓜问题的假设空间如下(Ø表示不存在好瓜坏瓜之分):
| 编号 | 色泽 | 根蒂 | 敲声 |
|---|---|---|---|
| 1 | * | * | * |
| 2 | 青绿 | * | * |
| 3 | 乌黑 | * | * |
| 4 | * | 蜷缩 | * |
| 5 | * | 硬挺 | * |
| 6 | * | 稍蜷 | * |
| 7 | * | * | 浊响 |
| 8 | * | * | 清脆 |
| 9 | * | * | 沉闷 |
| 10 | 青绿 | 蜷缩 | * |
| 11 | 青绿 | 硬挺 | * |
| 12 | 青绿 | 稍蜷 | * |
| 13 | 乌黑 | 蜷缩 | * |
| 14 | 乌黑 | 硬挺 | * |
| 15 | 乌黑 | 稍蜷 | * |
| 16 | 青绿 | * | 浊响 |
| 17 | 青绿 | * | 清脆 |
| 18 | 青绿 | * | 沉闷 |
| 19 | 乌黑 | * | 浊响 |
| 20 | 乌黑 | * | 清脆 |
| 21 | 乌黑 | * | 沉闷 |
| 22 | * | 蜷缩 | 浊响 |
| 23 | * | 蜷缩 | 清脆 |
| 24 | * | 蜷缩 | 沉闷 |
| 25 | * | 硬挺 | 浊响 |
| 26 | * | 硬挺 | 清脆 |
| 27 | * | 硬挺 | 沉闷 |
| 28 | * | 稍蜷 | 浊响 |
| 29 | * | 稍蜷 | 清脆 |
| 30 | * | 稍蜷 | 沉闷 |
| 31 | 青绿 | 蜷缩 | 浊响 |
| 32 | 青绿 | 蜷缩 | 清脆 |
| 33 | 青绿 | 蜷缩 | 沉闷 |
| 34 | 青绿 | 硬挺 | 浊响 |
| 35 | 青绿 | 硬挺 | 清脆 |
| 36 | 青绿 | 硬挺 | 沉闷 |
| 37 | 青绿 | 稍蜷 | 浊响 |
| 38 | 青绿 | 稍蜷 | 清脆 |
| 39 | 青绿 | 稍蜷 | 沉闷 |
| 40 | 乌黑 | 蜷缩 | 浊响 |
| 41 | 乌黑 | 蜷缩 | 清脆 |
| 42 | 乌黑 | 蜷缩 | 沉闷 |
| 43 | 乌黑 | 硬挺 | 浊响 |
| 44 | 乌黑 | 硬挺 | 清脆 |
| 45 | 乌黑 | 硬挺 | 沉闷 |
| 46 | 乌黑 | 稍蜷 | 浊响 |
| 47 | 乌黑 | 稍蜷 | 清脆 |
| 48 | 乌黑 | 稍蜷 | 沉闷 |
| 49 | Ø |
西瓜数据集如下:
| 编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
|---|---|---|---|---|
| 1 | 青绿 | 蜷缩 | 浊响 | 是 |
| 2 | 乌黑 | 蜷缩 | 浊响 | 是 |
| 3 | 青绿 | 硬挺 | 清脆 | 否 |
| 4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
书上说:
搜索过程可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确性判断)的假设,这就是我们学得的结果。
假设1与数据1,2一致,但是也与数据3,4一致,删除
假设2与数据1一致,但是也与数据3一致,删除
假设3与数据2一致,但是也与数据4一致,删除
假设4与仅数据1,2一致,不删
假设10虽然与数据1一致,但是与数据2不一致,删除
最终得到的西瓜问题的版本空间是:
| 编号 | 色泽 | 根蒂 | 敲声 |
|---|---|---|---|
| 4 | * | 蜷缩 | * |
| 7 | * | * | 浊响 |
| 22 | * | 蜷缩 | 浊响 |
版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。
原创文章,作者:geekgao,如若转载,请注明出处:https://www.geekgao.cn/archives/103

微信
支付宝