一、入门级别——np.split的基本用法
np.split是Python中numpy模块提供的一个函数,可以按照指定的轴将一个数组分割成多个子数组。它的基本用法是:
import numpy as np arr = np.arange(9) np.split(arr, 3)
这段代码可以将长度为9的一维数组分割成3个长度为3的子数组。
np.split的第一个参数是要分割的数组,第二个参数是分割的数量,如果不均分则会报错。如果要按照指定位置分割,则可以使用列表的方式传入第二个参数:
np.split(arr, [2, 6])
这里将会按照位置2和位置6进行分割。
需要注意的是,np.split默认是按照第0轴(行)分割数组,如果要按照列进行分割则需要设置axis参数为1:
arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) np.split(arr, 3, axis=1)
这里将会按照列将二维数组分成3个子数组。
二、进阶级别——np.split的高级用法
np.split还支持按照指定长度进行分割:
np.split(arr, [2, 4, 7, 9], axis=0)
这里将会按照长度为2、2、3、2的方式将数组分割成4个子数组。
如果想要按照相等的长度进行拆分,则可以使用np.array_split函数:
np.array_split(arr, 3, axis=0)
这里将会按照相等的长度将数组分成3个子数组,如果分割的长度不匹配则最后一个子数组的长度不同。
三、应用举例——数据分桶
np.split在数据处理中可以发挥很大作用,例如将一组数据分成多个桶:
score = np.array([67, 75, 92, 84, 89, 76, 88, 79, 67, 95, 86, 75, 89, 76, 92, 84, 79, 87]) np.split(score, [60, 70, 80, 90, 100])
这里将会把成绩分成[60, 70)、[70, 80)、[80, 90)、[90, 100)、[100, …)五个区间。
在实际应用中可以将区间作为标签,使用np.digitize将数据分桶:
bins = [60, 70, 80, 90, 100] labels = ['D', 'C', 'B', 'A'] np.digitize(score, bins=bins, right=False).astype(str) + labels
这里将会把70~79分的学生标记为’C’,80~89分的学生标记为’B’,90~99分的学生标记为’A’。
四、错误用法——注意参数的维度
需要注意的是,np.split的参数必须满足一定的维度要求,否则会报错。例如以下代码:
a = np.array([1, 2, 3]) np.split(a, 3, axis=1)
这里的a是一个一维数组,无法按照第1轴进行分割,因此会报错。
此外如果要在多维数组中按照指定长度进行分割,则需要保证分割的长度是合法的,否则会报错:
a = np.array([[1, 2], [3, 4]]) np.split(a, 3, axis=1)
这里将会报错,因为a的第1轴长度为2,无法分割成3个子数组。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/270087.html