3.2 将分类数据和顺序数据转换为标志变量
“在数据建模中,算法通常无法直接处理非数值型的分类与顺序数据,直接用数字替换又会引入错误的距离或排序假设。因此,需将其转换为标志变量(独热编码),把单列多值转化为多列的0/1真值形态。Python实操中,可通过Pandas自定义逻辑或调用sklearn的OneHotEncoder方法完成转换,以满足矩阵计算与模型训练的需求。”
说明:本文是《Python 数据分析与数据化运营》中的“3.2 将分类数据和顺序数据转换为标志变量”。
-----------------------------下面是正文内容--------------------------
分类数据和顺序数据是常见的数据类型,这些值主要集中在围绕数据实体的属性和描述的相关字段和变量中。
3.2.1 分类数据和顺序数据是什么
在数据建模过程中,很多算法无法直接处理非数值型的变量。例如 KMeans 算法是基于距离的相似度计算,而字符串则无法直接计算距离。另外,即使算法本身支持,很多算法实现包也无法直接基于字符串做矩阵运算,例如 Numpy 以及基于 Numpy 的 sklearn,虽然这些库允许直接使用和存储字符串型变量,但却无法发挥矩阵计算的优势。这些类型的数据变量可以分为两类:
分类数据
分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别中的男、女就是分类数据。分类数据中的值没有明显的高、低、大、小等包含等级、顺序、排序、好坏等逻辑的划分,只是用来区分两个或多个具有相同或相当价值的属性。例如:性别中的男和女,颜色中的红、黄和蓝,他们都是相同衡量维度上不同的属性分类而已。
顺序数据
顺序数据是只能归于某一有序类别的非数值型数据,例如用户的价值度分为高、中、低,学历分为博士、研究生、学士,这些都属于顺序数据。在顺序数据中,有明显的排序规律和逻辑层次的划分。例如:高价值的用户就是比低价值的用户价值高(业务定义该分类时的已经赋予了这样的价值含义)。
3.2.2 运用标志方法处理分类和顺序变量
分类数据和顺序数据要参与模型计算,通常都会转化为数值型数据。当然,某些算法是允许这些数据直接参与计算的,例如分类算法中的决策树、关联规则等。要将非数值型数据转换为数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,其中的真值可通过 True、False 或 0、1 的方式来表示。这种标志转换的方法有时候也称为真值转换。以用户性别变量举例,原有的用户数据如表 3-2:
表 3-2 原有用户数据
| 用户 ID | 用户性别 |
|---|---|
| 3566841 | 男 |
| 6541227 | 女 |
| 3512441 | 女 |
经过转换后的数据如表 3-3:
表 3-3 标志转换后的用户数据
| 用户 ID | 用户性别-男 | 用户性别-女 |
|---|---|---|
| 3566841 | 1 | 0 |
| 6541227 | 0 | 1 |
| 3512441 | 0 | 1 |
为什么不能直接用数字来表示不同的分类和顺序数据,而一定要做标志转换?这是因为在用数字直接表示分类和顺序变量的过程中,无法准确还原不同类别信息之间的信息差异和相互关联性性。例如:
- 针对分类数据:性别变量的属性值是男和女,无论用什么值来表示都无法表达出两个值的价值相等且带有区分的含义。如果用 1-2 区分,那么 1 和 2 本身已经带有距离为 1 的差异,但实际上二者是不具有这种差异性的,其他任意数字都是如此;如果用相同的数字来表示,则无法达到区分的目的。
- 针对顺序数据:学历变量的属性值是博士、研究生和学士,可以用 3-2-1 来表示顺序和排列关系,那么如何三个值之间的差异是 3-2-1 而不是 30-20-10 或者 1000-100-2 呢?因此,任何一个有序数字的排序也都无法准确表达出顺序数据的差异性。
3.2.3 代码实操:Python 标志转换
在本示例中,将模拟有两列数据分别出现分类数据和顺序数据,通过自定义代码以及 sklearn 代码分别进行标志转换。
python
该代码段按空行分为 4 个部分:
第一部分导入库,本示例使用 pandas 库和 sklearn。
第二部分生成原始数据,数据为 3 行 3 列的数据框,分别包含 id、sex 和 level 列,其中的 id 为模拟的用户 ID,sex 为用户性别(英文),level 为用户等级(分别用 high、middle 和 low 代表三个等级)。该段代码输出原始数据框如下:
code
注意 虽然在 Python 中可以通过一定的方法来处理中文,但鉴于我们用到的库基本都是外国人开发,对中文的支持不太好,所以不建议在程序中直接使用中文进行计算和建模,除非是基于文本的自然语言和文本挖掘等直接面向中文的主题建模。
第三部分为自定义转换主过程。
步骤 1
创建数据框副本。通过 copy() 方法创建一个原始数据库的副本,用来存储转换后的数据。该步骤不能省略,原因是新的副本数据框和原始数据框在下面的步骤都要用到。
步骤 2
通过循环获得原始数据框的列索引和列名。
在 for 循环中使用 enumerate() 方法,返回可供迭代的列索引和列名。
然后获得每列数据和对应的 dtype 数据类型,用来做是否进行标志转换的条件判断。
在 if 表达式中,当数据类型为 object 时进行转换,转换的核心思路:
- 通过
drop()方法删除复制得到的数据框中要进行转换的列,并将结果赋值给df_new,这样每次df_new中就会通过循环不断删除要转换的列,避免数据重复。drop方法的第一个参数是要删除的列名,第二个参数是指定要删除的轴,1 表示按列删除。 - 通过
unique()方法获取分类和顺序变量的唯一值域,后续的判断主要针对值域列表进行。 - 通过
for循环遍历得到值域中的每个值。通过原始列名称+值的形式新建一个列名,这样得到的新列名能保留原始列的含义;由于df_new通过不断循环其本身的索引已经改变,因此需要使用iloc()方法获得原始数据框的列;通过将原始数据列与值域列表中的每个值进行比较,相同为True,否则为False,并将值赋值到df_new结果数据框中。 - 最后打印输出结果数据框。
上述代码执行后得到的结果如下:
code
结果数据框中的 True 和 False 可以参与后续数据建模和距离计算中,True 的值是 1 而 False 的值为 0。
第四部分为使用 sklearn.preprocessing 中的 OneHotEncoder 方法进行标志转换。
步骤 1
创建模拟数据。数据为 3 行 3 列的数据框。
提示 很多情况下,原始数据都不会以字符串(第一种方法中的示例)的形式存储,而是先将数据存储为数字进行存储,这些数字可通过维度表匹配出对应的字符串。当然,如果是这种数据存储方法,第一种自定义转换过程也可以实现,但需要改变对于分类或顺序数据的识别规则,此时的数据类型就不是
object,需要根据实际情况通过指定列名等方法转换。
步骤 2
获得 ID 列并指定要转换的列。获得 ID 列的目的是用于后续将 ID 列和转换后的列做拼接,便于数据格式的还原和对照。如果不需要做多个方法的对比或对转换后的数据列不作判别应用,则可以跳过本步骤,以及步骤 4 中的拼接过程。
步骤 3
建立模型对象并进行转换输出。该过程中,主要使用的是 OneHotEncoder 库中的 fit_transform 方法直接训练并应用转换,然后使用 toarray 方法输出为矩阵。如果不使用 toarray 进行转换,那么输出的数据是一个 3 行 5 列的稀疏矩阵。
步骤 4
将 ID 列和转换后的列拼接为完整主体,用于跟原始数据和通过方法 1 得到数据做比较。
得到的结果如下:
code
上述结果中,由于 sklearn 的转换算法是基于 Numpy 做矩阵计算的,因此无法直接使用字符串做转换。另外,输出的转换列的排序也不是按照预先的逻辑,笔者将通过自定义方法和 sklearn 方法得到的结果做比较,二者的数据是一致的,但是列的顺序却是不同的。如下图 3-1:

虽然列的顺序不同,但不会影响数据建模,因为列的顺序对建模不构成任何影响。只是在得到结果后,如果需要做基于特征的解读时,可能会导致无法对应到原始特征变量和转换值。如果是直接面向机器处理的应用则没有任何影响。
上述过程中,主要需要考虑的关键点是:
- 如何判断要转换的数据是分类或顺序变量
- 要在结果数据框中不断删除被转换的原始列并新增转换后的数据列,以防止数据列的重复
代码实操小结:本小节示例中,主要用了几个知识点:
- 通过
pd.DataFrame构建新的数据框 - 通过
pandas中的df[col_name]和iloc[]进行数据切片 - 通过
pandas中的drop()方法删除特定列,当然也可以用于删除行 - 通过
pandas的dtype获得对象的dtype类型,df.dtypes也能实现所有对象的类型 - 通过
unique()方法获得唯一值 - 通过字符串组合(示例中直接使用的
+)创建一个新的字符串 - 直接使用矩阵(
Series)对象而无需遍历每个值进行矩阵比较和数值计算 - 通过
pandas的df_new[col_name_new]方法直接新增列值