离散特征处理

介绍有关离散特征的处理方法,如建立字典、向量化方法等
搜广推
王树森
Author

Hahabula

Published

2025-02-27

Modified

2025-02-27

离散特征的取值是实数域上间断的,可以通过建立字典和向量化两步进行处理。

1 建立字典

把类别映射成序号

2 向量化

把序号映射成向量,映射为向量的方式有两种:one-hot编码Embeding

2.1 One-hot编码

用2维向量表示性别,有多少取值就有多少维度。如下例:

One-hot编码示例

One-hot编码示例
注意

当类别数量过大时,不宜采用one-hot编码

2.2 Embeding嵌入

以国籍的Embeding嵌入为例:

国籍Embeding编码方式

国籍Embeding编码方式

参数数量为:向量维度 \(\times\) 类别数量

Embeding与one-hot编码的联系

Embedding = 参数矩阵 \(\times\) one-hot向量

Embeding与one-hot编码的联系图

Embeding与one-hot编码的联系图

类别数量较大时用Embeding,如Word Embeding和ID Embeding

Back to top