一、基础
逻辑回归中的决策边界,本质上相当于在特征平面中找一条直线,用这条直线分割所有的样本对应的分类;
逻辑回归只可以解决二分类问题(包含线性和非线性问题),因此其决策边界只可以将特征平面分为两部分;
问题:使用直线分类太过简单,因为有很多情况样本的分类的决策边界并不是一条直线,如下图;因为这些样本点的分布是非线性的;
方案:引入多项式项,改变特征,进而更改样本的分布状态;
二、具体实现
1)模拟数据集
import numpy as np import matplotlib.pyplot as plt np.random.seed666) X = np.random.normal0, 1, size=200, 2)) y = np.arrayX[:,0]**2 + X[:,1]**2 < 1.5, dtype='int') plt.scatterX[y==0,0], X[y==0,1]) plt.scatterX[y==1,0], X[y==1,1]) plt.show)
2)使用逻辑回归算法(不添加多项式项)
from playML.LogisticRegression import LogisticRegression log_reg = LogisticRegression) log_reg.fitX, y) def plot_decision_boundarymodel, axis): x0, x1 = np.meshgrid np.linspaceaxis[0], axis[1], intaxis[1]-axis[0])*100)).reshape-1,1), np.linspaceaxis[2], axis[3], intaxis[3]-axis[2])*100)).reshape-1,1) ) X_new = np.c_[x0.ravel), x1.ravel)] y_predict = model.predictX_new) zz = y_predict.reshapex0.shape) from matplotlib.colors import ListedColormap custom_cmap = ListedColormap['#EF9A9A','#FFF59D','#90CAF9']) plt.contourfx0, x1, zz, linewidth=5, cmap=custom_cmap) plot_decision_boundarylog_reg, axis=[-4, 4, -4, 4]) plt.scatterX[y==0,0], X[y==0,1]) plt.scatterX[y==1,0], X[y==1,1]) plt.show)
问题:决策边界不能反应数据集样本的分布;
3)使用逻辑回归算法(添加多项式项)
使用管道(Pipeline)对特征添加多项式项
# 使用管道:Pipelinelist),list 内的每一个元素为为管道的一步,每一步是一个元组, # 元组的第一个元素是一个字符串,是一个实例对象,描述这一步的内容或功能,第二个元素是一个类的对象 from sklearn.pipeline import Pipeline from sklearn.preprocessing import PolynomialFeatures from sklearn.preprocessing import StandardScaler def PolynomialLogisticRegressiondegree): return Pipeline[ # 管道第一步:给样本特征添加多形式项; 'poly', PolynomialFeaturesdegree=degree)), # 管道第二步:数据归一化处理; 'std_scaler', StandardScaler)), 'log_reg', LogisticRegression)) ]) poly_log_reg = PolynomialLogisticRegressiondegree=2) poly_log_reg.fitX, y) plot_decision_boundarypoly_log_reg, axis=[-4, 4, -4, 4]) plt.scatterX[y==0,0], X[y==0,1]) plt.scatterX[y==1,0], X[y==1,1]) plt.show)
三、其它
1)管道(Pipeline)
Pipelinelist):list 内的每一个元素为为管道的一步,每一步是一个元组,
元组的第一个元素是一个字符串,是一个实例对象,描述这一步的内容或功能,第二个元素是一个类的对象;
管道第一步:给样本特征添加多形式项;
管道第二步:数据归一化处理;
2)scikit-learn 库的标准
管道中使用的逻辑回归算法模型:LogisticRegression) 是自己所写的算法,之所以能直接传入管道使用,因为自己所写的算法遵循了 scikit-learn 的标准;
scikit-learn 中每一个机器学习算法的标准:__init__)函数、fit)函数、predict)函、score)函数等;
如果在scikit-learn 的模块中使用了其它算法/模块,只要这些其它的模块遵循了 scikit-learn 中算法的标准,则 scikit-learn 的模块就认为这些模块也是 scikit-learn 本身的模块;
也就是说,如果其它算法想和scikit-learn中的模块衔接使用,该算法就要遵循scikit-learn中机器学习算法的标准;
3)其它
实习的应用中,需要对 degree 参数进行调整,选取最佳的参数;
scikit-learn 建议使用逻辑回归算法时都进行模型正则化;