1.2 群智能算法与机器学习

1.2.1 群智能算法

1992年Holland提出的遗传算法(Genetic Algorithm,GA)[9]模拟了达尔文的进化论“适者生存,不适者淘汰”和1995年提出的粒子群优化(Particle Swarm Optimization,PSO)[10]算法模拟了鸟类觅食的行为。GA和PSO算法不断地进行改进并成功应用于多个方面,如复杂系统[11]、超塑性材料[12]、辐射探测器[13]、生物质热解反应动力学参数[14]、银行贷款决策[15]、易腐产品[16]、车辆路径问题[17]和混凝土拱桥[18]等。

自此,研究工作者不断地提出新的群智能算法,如差分进化算法(Differential Evolution Algorithm,DE)[19]、人工蜂群算法(Artificial Bee Colony Algorithm,ABCA)[20]、布谷鸟算法(Cuckoo Search Algorithm,CSA)[21]、烟花算法(Fireworks Algorithm,FA)[22]、入侵杂草优化(Invasive Weed Optimization,IWO)[23]、蝙蝠算法(Bat-Inspired Algorithm,BA)[24]、人工树算法(Artificial Tree Algorithm,AT)[25]、岛蝙蝠算法(Island Bat Algorithm,IBA)[26]、飞鼠搜索算法(Squirrel Search Algorithm,SSA)[27]和Harris鹰优化算法(Harris Harks’s Optimization,HHO)[28]。特别是澳大利亚的Seyedali Mirjalili自2014年以来,独自或与其他合作者提出了很多群智能算法:鲸优化算法(Whale Optimization Algorithm,WOA)[29]、蚁狮算法(Ant Lion Algorithm,ALO)[30]、蜻蜓算法(Dragonfly Algorithm,DA)[31]、灰狼算法(Grey Wolf Optimizer,GWO)[32]、飞蛾扑火优化算法(Moth-Flame Optimization Algorithm,MFO)[33]、多目标蚁狮算法(Multi-Objective Ant Lion Optimizer,MOALO)[34]、多宇宙优化器(Multi-Verse Optimizer,MVO)[35]、多目标灰狼优化器(Multi-objective Grey Wolf Optimizer,MOGWO)[36]、正余弦算法(Sine Cosine Algorithm,SCA)[37]等。这些算法为群智能算法的发展做出了很大的贡献,且应用于基准函数的极值寻优、工程问题、信号处理及其预测与分类中。

这些群智能算法的提出和改进以及多种群智能算法有机地结合在一起,能更好地解决实际问题,且应用于很多领域。例如,通过基于蚁群算法、粒子群优化算法和蜂群算法的端元提取和丰度反演方法实现高光谱图像混合像元分解[38],萤火虫算法和蝙蝠群智能算法实现了瑞雷波数据的反演[39],遗传算法和蚁群算法在物流配送路径规划方面的研究[40],粒子群优化算法在文本分类中的应用[41],改进的灰狼算法在社会网络中的应用[42]等。

1.2.2 机器学习

机器学习(Machine Learning)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,如线性回归(Linear Regression)[43]、主成分分析(Principal Component Analysis,PCA)[43]、K均值(K-Means)[44]、决策树(Decision Trees,DT)[44]、随机森林(Random Forest,RF)[44]、支持向量机(Support Vector Machine,SVM)[44]、人工神经网络(Artificial Neural Networks,ANN)[44-45]

近年来,国内外有关机器学习的研究发展较快,由于集成学习可以有效地提高模型的推广能力,因此从20世纪90年代开始,对集成学习理论和算法的研究成为机器学习的一个热点。1997年,机器学习理论界的国际著名专家Dietterich[46]大胆预测了机器学习的研究方向:符号信息学习、统计学习、集成学习和强化学习,并将集成学习列为机器学习四大研究方向之首。到目前为止,集成学习仍然是机器学习中最热门的研究领域之一。Robert与Yoav Freund提出了非常有效的AdaBoost机器学习算法[47],该算法成功地应用于人脸识别,并将AdaBoost人脸识别算法做到数码相机所用的视频图像芯片之中。此外,基于统计学习理论的快速发展,学者们提出了一种称为支持向量机的学习算法,富有优良的识别性能,尤其是出色的泛化能力,因此人们对这一研究领域表现出了广泛的兴趣。此项技术目前已成为现今机器学习领域的研究热点,并成功地应用于解决很多实际问题。

目前,人工神经网络,如BP神经网络(BPNN)[7][48]、Kohonen神经网络[49]、径向基(RBF)神经网络[50]、小波神经网络[51-52]和广义径向基函数(GRBF)神经网络[53],与生物、数学、信息融合技术、光学和其他理论结合在一起,在信号处理、模式识别、分析数据、预测和分类等方面取得了一定的成果。Tao Ji等人[54]提出了一种基于骨料到膏体、最小膏体含量、修正Tourfar模型和人工神经网络的混凝土配合比设计算法。郭凌云[55]对正常乳腺超图像和病变乳腺超图像进行小波分解,再进行小波去噪处理和小波特征提取,利用人工神经网络对图像的特征参数进行统计分析,判断是否患乳腺癌。Zahedi等人[56]应用ANN和主成分分析(Principle Componet Analysis,PCA)方法预测德黑兰证券交易所的股票价格。该方法能准确预测和识别股票价格的影响因素。Kumar Chandar等人[57]利用离散小波变换将金融时间序列数据分解为BPNN的输入变量,对未来股价进行预测。1989年,美国贝尔实验室的学者[58]教授等给出目前卷积神经网络(Convolutional Neural Network,CNN)最为流行的一种形式,推导出基于反向传播算法的高效的训练方法,成功应用于英语手写字体识别。近些年,伴随着深度学习的热潮,CNN再次受到学术界和工业界的关注和推崇,并提出了多种CNN[59-61]形式,广泛应用于关于语音识别和图像分类等问题。

1.2.3 机器学习与群智能优化算法的结合

迄今为止,已有大量的群智能算法被提出来解决各种实际问题,而人工神经网络初始化参数的任意性使得预测与分类具有一定的泛化性,目前已有很多群智能算法优化人工神经网络的这些参数以获得更高的准确率,降低预测误差。Qiu等人[7]利用GA优化ANN模型获得最优的权值和偏差预测日本股市指数的走向。彭司华[62]将遗传算法和LVQ神经网络相结合进行高维空间的特征选择,对白血病和大肠癌基因芯片数据进行了分类,还将遗传算法和支持向量机技术结合,并采用滤波策略,用来进行高维空间的特征选择,对多类别癌症基因芯片表达谱数据进行了分类研究。本书的大部分内容就是我们将群智能算法与机器学习相结合应用于预测,分类与识别。