Automl的全面分析

一、自动机器学习架构

自动机器学习(automl)是由一组自动化技术和技能组成的领域，可以为开发人员和专业分析人员提供自定义数学模型，并将其应用于大量的数据集中。automl是一个高级的人工智能(AI)技术，主要利用机器学习算法和工具来智能分析和识别数据模式、特征和趋势。

automl的工作原理是利用数据集分析算法来训练和测试模型，并将结果与先前训练的模型进行比较，以确定哪个模型最适合数据集和需求。这些算法可以是监督和非监督算法，如决策树、支持向量机(SVM)、深度神经网络和聚类等。

以下是使用Python的自动机器学习架构的示例代码：


from autosklearn.estimators import AutoSklearnClassifier
import numpy as np

X_train = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
y_train = np.array([0, 1, 0])

automl = AutoSklearnClassifier()
automl.fit(X_train, y_train)

X_test = np.array([[10, 11, 12], [13, 14, 15], [16, 17, 18]])
print(automl.predict(X_test))

二、自动特征工程

自动特征工程是指将原始数据转换为特征向量的过程，主要用于保留并突出原始数据的主要特征。自动特征工程由一组智能算法和技术组成，可将原始数据集转换为更具表现力和刻画性的特征集。

自动特征工程可以极大地减少开发人员和专家分析人员在特征工程方面的工作量和时间，并将他们的注意力集中于机器学习模型的训练和优化上。通常使用的自动特征工程技术是基于机器学习算法和深度学习神经网络的。

以下是使用Python的利用自动化特征工程库TPOT进行自动化特征工程的示例代码：


from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, train_size=0.75, test_size=0.25)

tpot = TPOTClassifier(generations=5, population_size=20, verbosity=2)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))

三、自动超参数优化

自动超参数优化是指通过对训练过程和模型参数进行智能调整，使得机器学习算法能够以更高、更稳定和更准确的方式解决问题。与手动优化超参数相比，自动超参数优化可以大大提高机器学习模型的性能和效率，同时降低专业知识要求和时间成本。

自动超参数优化常用的算法如网格搜索、随机搜索和贝叶斯优化等。其中，贝叶斯优化是目前应用较广泛的算法，可以自适应地探索和利用模型架构、学习率、正则化和初始化等超参数。

以下是使用Python的自动化超参数优化库Hyperopt进行自动超参数优化的示例代码：


from hyperopt import fmin, tpe, hp

def objective(params):
    return params['x']**2 + params['y']**2

space = {'x': hp.uniform('x', -10, 10),
         'y': hp.uniform('y', -10, 10)}

best = fmin(objective, space, algo=tpe.suggest, max_evals=100)
print(best)

四、自动模型选择

自动模型选择是指对所给定的数据集，从众多的机器学习模型中自动地选择出最适合该数据集的模型。自动模型选择不仅可以提高机器学习模型的解释能力和泛化能力，还可以自动化地选择和训练最优的模型，降低开发人员和专家分析人员的成本和时间。

自动模型选择一般采用准则评价法，例如基于训练集、验证集和测试集之间的准确率、F1值、精确率和召回率等评价方式，以求得最好的效果。

以下是使用Python的自动机器学习库MLBox进行自动化模型选择的示例代码：


from mlbox.preprocessing import Reader
from mlbox.optimisation import Optimiser
from mlbox.prediction import Predictor

reader = Reader(sep=',')
data = reader.train_test_split(['train.csv', 'test.csv'], 'target')

optimiser = Optimiser(scoring='accuracy', n_folds=5)
space = {'keras':
              {'lr': {'search': 'choice', 'space': [0.001, 0.01, 0.1]},
               'batch_size': {'search': 'choice', 'space': [16, 32, 64]},
               'epochs': {'search': 'choice', 'space': [10, 20, 30]}},
         'sklearn.ensemble.RandomForestClassifier':
              {'n_estimators': {'search': 'choice', 'space': [10, 20, 50]},
               'max_depth': {'search': 'choice', 'space': [5, 10, 20]}}}

best = optimiser.optimise(space, data)
predictor = Predictor()
predictor.fit_predict(best, data)

五、基于自动机器学习的应用

自动机器学习已经广泛应用于各种领域和应用中，例如面部识别、语音识别、医疗保健、金融风控、精准营销、自动驾驶、智能语音助手和智能搜索等。

预测气温的自动机器学习应用:


from sklearn.svm import SVR
import pandas as pd

data = pd.read_csv('temperature.csv')
train = data.iloc[:-500, :]
test = data.iloc[-500:, :]

model = SVR(kernel='linear', C=1e3, gamma=0.1)
model.fit(train[['Year', 'Month', 'Day']], train['Temperature'])

result = model.predict(test[['Year', 'Month', 'Day']])
test['Prediction'] = result
test.plot(x='Time', y=['Temperature', 'Prediction'], figsize=(15, 5))

自动化信用评估的机器学习应用：


from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd

data = pd.read_csv('credit.csv')
X = data.drop('default', axis=1).values
y = data['default'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier(n_estimators=1000, max_depth=8, random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

参考资料：

[1]Automated Machine Learning, https://en.wikipedia.org/wiki/Automated_machine_learning

[2]AutoML: a survey of the state-of-the-art, https://www.kdnuggets.com/2019/06/automl-survey-state-art.html

[3]Automated Feature Engineering in Python, https://towardsdatascience.com/automated-feature-engineering-in-python-99baf11cc219

[4]Hyperopt: Distributed Asynchronous Hyper-parameter Optimization, https://hyperopt.github.io/hyperopt/

[5]MLBox: A powerful Automated Machine Learning Python library, https://towardsdatascience.com/mlbox-a-powerful-automated-machine-learning-python-library-4ddc8acbaebd

原创文章，作者：JLWAA，如若转载，请注明出处：https://www.506064.com/n/370122.html