本文共 1993 字,大约阅读时间需要 6 分钟。
1. 分类问题示例:信用卡
从x1:职业,x2:收入等等信用卡申请人不同的信息维度,来判断y:是否发放信用卡,发放哪一类信用卡2. 分类经典方法:logistic回归(二分类)
虽然名字里有回归二字,但logistic回归解决的是分类的问题如iris数据集中有三个类别,选择使用logistic回归进行分类,则需要训练三个分类器,根据每个样本隶属不同类的概率大小来进行分类
3. scikit learn 实现logistic回归
载入iris数据集
import pandas iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',header=None)iris.columns=['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm','Species']
实现logistic回归
import sklearnimport numpy as npfrom sklearn import linear_modellm=linear_model.LogisticRegression()features=['PetalLengthCm']X=iris[features]#需要讲Species这个字段由字符串类型转变为数值类型,以表示不同的类别from sklearn.preprocessing import LabelEncoder#初始化labelle=LabelEncoder()le.fit(iris['Species'])#用离散值转化标签值y=le.transform(iris['Species'])print(y)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
#通过交叉检验,得到分类准确率from sklearn.model_selection import cross_val_score#logistic中的scoring参数指定为accuracyscores=cross_val_score(lm,X,y,cv=5,scoring='accuracy')print(np.mean(scores))
0.786666666667
features=['PetalLengthCm','SepalWidthCm','PetalLengthCm']X=iris[features]#需要讲Species这个字段由字符串类型转变为数值类型,以表示不同的类别from sklearn.preprocessing import LabelEncoder#初始化labelle=LabelEncoder()le.fit(iris['Species'])#用离散值转化标签值y=le.transform(iris['Species'])##print(y)#通过交叉检验,得到分类准确率from sklearn.model_selection import cross_val_score#logistic中的scoring参数指定为accuracyscores=cross_val_score(lm,X,y,cv=5,scoring='accuracy')print(np.mean(scores))
0.906666666667
果然好了很多!
转载地址:http://uqmta.baihongyu.com/