离散特征的取值是实数域上间断的,可以通过建立字典和向量化两步进行处理。
1 建立字典
把类别映射成序号
2 向量化
把序号映射成向量,映射为向量的方式有两种:one-hot编码
和Embeding
2.1 One-hot编码
用2维向量表示性别,有多少取值就有多少维度。如下例:
注意
当类别数量过大时,不宜采用one-hot编码
2.2 Embeding嵌入
以国籍的Embeding嵌入为例:
参数数量为:向量维度 \(\times\) 类别数量
Hahabula
2025-02-27
2025-02-27
离散特征的取值是实数域上间断的,可以通过建立字典和向量化两步进行处理。
把类别映射成序号
把序号映射成向量,映射为向量的方式有两种:one-hot编码
和Embeding
用2维向量表示性别,有多少取值就有多少维度。如下例:
当类别数量过大时,不宜采用one-hot编码
以国籍的Embeding嵌入为例:
参数数量为:向量维度 \(\times\) 类别数量