2018年2月 中国粮油学报 Journal of the Chinese Cereals and Oils Association Vo1.33,No.2 Feb.2018 第33卷第2期 基于K—means聚类算法和BP神经网络 的稻米品种鉴别 秦淑芳 刘昌华 黄申奥 (武汉轻工大学数学与计算机学院,武汉430023) 摘 要 BP神经网络是利用误差逆向传播训练的前馈网络,具有自适应、实时学习的特点,在分类中广 泛应用。但当样本类别过多,BP神经网络的分类精度显著降低。基于此,本研究提出了一种K—means聚类 算法和BP神经网络相结合的方法作稻米品种鉴别。利用图像处理方法提取出11种稻米样品的灰度平均值、 长宽比和圆形度三项特征参数,利用K—means聚类算法对所得数据进行聚类,聚类的结果作为BP神经网络 的输入,训练得到分类器。实验结果表明,这种算法的分类效果要优于单一使用BP神经网络和K—means算 法,且分类准确率达到80%,可见本实验的方法用于稻米品种鉴别是可行的。 关键词 稻米K—means聚类算法BP神经网络 文章编号:1003—0174(2018)02—0128—05 中图分类号:210.7 文献标识码:A 稻米是我国的主要粮食作物之一。随着人们生 活水平的改善,对稻米种类和品质的要求也越来越 的稻米品种鉴别方法 J。该方法利用图像处理技 术提取出11种稻米样品的灰度平均值、长宽比和圆 高,快速准确的鉴别稻米成为日常生活中迫切的需 要。传统的稻米品种鉴别一般采用人工方法,主要 是抽样后通过目测手查法进行判定,这种方法主观 性大,速度慢,准确性不高,导致稻米品种鉴别具有 形度三项特征参数,利用K—means聚类算法对所得 数据进行粗聚类,将11种稻米样本分为3类。聚类 的结果作为BP神经网络的输入,训练得到分类器, 利用此分类器,可以将3类稻米样本进一步分类。 随机性,可信性不高。随着计算机技术的快速发展, 机器视觉技术已经广泛应用于多个学科,在农业领 域也取得了很多突破性的进展。目前利用近红外图 实验结果表明,这种算法的分类效果要优于单一使 用BP神经网络和K—means算法,且分类准确率达 到80%,可见本实验的方法用于稻米品种鉴别是可 行的。 像和电子鼻已经可以成功的鉴别出稻米品种,但是 这种设备造价高且复杂,使得很难大规模投入使 用 。。 。 1 K—means聚类算法 聚类,顾名思义,就是将相同或者相似的成员 集中在一起并进行分类。聚类技术就是一种发现 这种内在联系的技术,是数据挖掘学科中的一个 重要分支。聚类技术遵循的理念是同一个集合巾 的样本相似性最大,不同集合中的样本相异性最 由于稻米按粒形和粒质可分为籼米、粳米和糯 米3类,其中籼米和粳米的颜色相近,较透明,但籼 米粒形细长而稍扁平,粳米粒短而阔,较厚,呈椭圆 形或卵圆形;糯米的颜色偏白色而不透明,它又可分 为两种:籼糯米和粳糯米,其中籼糯米的粒型和籼米 相近,但颜色不同,粳糯米的粒型和粳米相近,但颜 色不同。本实验以稻米的数字图像为研究对象,基 于稻米图像的灰度平均值、长宽比和圆形度,提出了 一大。在数据挖掘领域中,聚类算法可大致分为五 种:基于层次、基于密度、基于划分、基于网络、基 于模型。K—means聚类是最著名的划分聚类算 种基于K—means聚类算法和BP神经网络相结合 基金项目:国家青年科学基金项目(61201452),湖北省教育厅科 研项目(B2015001) 收稿13期:2017—05—18 作者简介:秦淑芳,女,1995年出生,硕士,智能识别与食品安全 通信作者:刘昌华,男,1963年出生,教授、智能识别与食品安全 法 I9],由于简洁和效率使其成为最广泛应用的聚 类算法。 K—means聚类算法相关描述:设样本集X= l i=1,2,…,Ⅳ},K个类别为c ( =1,2,…,K),K 个聚类中心为 =1,2,…,K)。 第33卷第2期 秦淑芳等基于K—means聚类算法和BP神经网络的稻米品种鉴别 129 样本问的欧式距离公式: d(x ,xj)=√( 一 ) ( — f) 聚类中心: = (1) i xELi ∑ N (2) 输入层 隐含层 输出层 误差平方准则函数: E=∑∑d(x , ) (3) K—means聚类算法思想: 初始化:在样本集x中随机选取k个对象作为 初始聚类中心; 进行聚类:利用公式(1)计算每个对象与各个聚 类中心的欧式距离,把每个对象分配给距离聚类中 心最近的类别,然后利用公式(2)计算出每个类别新 的聚类中心; 终止条件:重复进行聚类步骤直到聚类中心不再 发生变化或者迭代次数达到预设的最大迭代次数。 K—means聚类算法在分类样本较少时,有很 好的聚类效果,样本类别过多,就会导致错分。通 常的K—means算法在初始化聚类中心时,是随机 选取的,这种随机性决定了每次聚类效果都不同, 当随机选取的聚类中心接近每一类样本数据中心 时,收敛速度快,分类效果好;当聚类中心处于每一 类样本数据边缘时,收敛速度很慢,甚至迭代结束, 仍没有收敛。 2 BP(Backing Propagation)神经网络 人工神经网络是用人造神经网络模仿脑 的神经网络,实现某种功能。BP神经网络是1986 年由Rumelharthe McClelland等科学家提出的,是 一种按照误差逆向传播算法训练的多层前馈网 络,具有自适应、实时学习的特点。在大部分人工 神经网络中都采用BP神经网络及其变化形式,是 前馈型神经网络的核心部分。由于BP神经网络 能学习和存储大量的输入输出模式映射关系,并 根据输入计算输出 。。 ],因此广泛应用于模式识 别和分类。 三层BP神经网络的结构如图1所示,它包括一 个输入层、一个隐含层和一个输出层,分别由 、P、q 个神经元组成。 隐含层神经元的输出为: ,v bj ∑tOij — )(4) i=l 图1三层BP神经网络结构 输出层神经元的输出为: p c =厂(∑v ̄jbj—r ) (5) 公式(4)中, 表示第i个输入层神经元与第 个隐含层神经元之间的连接权;公式(5)中 表示第 .7个隐含层神经元与第t个输出层神经元之间的连接 权; 、 表示相应神经元的阈值 ( )表示神经元的 激励函数,这里采用公式(6)来计算: )= 1 (6) 一般的,假设Y 表示第t个神经网络的期望输 出值;c 表示第t个神经网络的实际输出值;当训练 样本总数为K时,网络全局输出误差采用最小方差 计算,可定义公式(7) 1 K q 占=专∑∑(), ) (7) 本研究依据反向传播梯度下降法修正连接权值z, 隐含层和输出层神经元之间的连接权值 的修 正量d 为 d =(Y 一c )·C (1一C ) (8) 公式(8)中,t=1,2….,q。用d 、 、 和rt计算 下一次隐含层和输出层之间的新的连接权和阈值为: (N)= (N一1)+Ol·d ·bj (9) (N)=yt(N—i)+O/·d (10) 输入层到隐含层之间的连接权的修正量e 为 eJk:∑(d ·V0')· (1一hi) (iI) t=l 公式(11)中 =1,2,...,P。用B k、0 、 和oj计算 下一次输入层和中间层之间新的连接权和阈值为: (Ⅳ)= ·e,k· +甜 f(Ⅳ一1) (12) (Ⅳ)=卢·e + (N一1) (13) 公式(12)、公式(13)中i=1,2…., , 和 为学习系数;N为第Ⅳ次学习, 表示输入到网络 的第k个样本,i表示第i个神经元的输入量, 、P 和q分别表示神经网络输入层、中间层和输出层神 经元个数。 l30 中国粮油学报 2018年第2期 每个样本学习结束,利用公式(9)、公式(12) 调整相应的连接权值,直到 个样本都学习结束 时,判断全局输出误差函数是否达到设定的收敛限 定值,直到误差函数达到限定值时,网络训练结束; 如果网络训练达到最大学习次数时,误差仍然大于 设定的数值,网络训练也结束,同时证明网络训练 失败。 BP神经网络在分类中得到广泛的应用,但BP 神经网络仍存在一定的局限性,当样本的类别过 多,样本数目过少时,直接采用BP神经网络很难准 确的对样本进行分类。BP神经网络在训练过程 中,容易陷入误差性能函数的局部最小值,导致训 练结果不是很好。要解决这些问题,通常的做法是 增加神经元和网络层数,然而这也增加了网络的复 杂性 3 K—means算法和BP神经网络相结合 本研究基于K—means聚类算法和BP神经网络 的分类方法,构造分类模型如图2所示。 图2本研究的分类模型 分类模型算法可描述如下: 输入:l1种稻米图像; 输出:每一类样本的分类正确率。 本文的稻米品种分类方法的实现过程如下: 提取特征参数:对输入的图像分别提取灰度平 均值、长宽比、圆形度三个特征值; 聚类:选取分类类别为3,对图像的特征参数数 据利用K—means算法进行聚类,不断更新聚类中 心,直至聚类中心不再变化或迭代结束; 构建BP神经网络:定义BP神经网络的网络结 构,确定网络层数、创建函数、训练函数,输入训练数 据训练神经网络分类器; 测试:对训练完成的分类器输入测试数据,输出 分类正确率。 4结果与分析 4.1 实验数据 稻米在植物科学研究中通常被分为籼米和粳米 两个亚种 ;而在实际生活中,人们则更加习惯根据 籽粒形状和籽粒品质将稻米分为籼米、粳米和糯米 三大类。基于目前稻米品种鉴定中存在的问题,本 实验分别选用了湖北产籼米3种,泰国产籼米1 种,湖北产籼糯米1种,东北产粳米5种,东北产粳 糯米1种共11种稻米作为研究对象,选取11种稻 米各50粒(总共550粒)作为建立大类模型的实验 样品,利用选取的特征参数提取方法分别提取稻米 样品的灰度平均值、长宽比、和圆形度3个特征参 数。以550粒样品的特征参数为输入依据,将4种 籼米样品编号1~200,粳米样品编号201~450,糯 米样品编号451—550,其中每种稻米样品分别编 号,采用数字1~11分别代表11种稻米样品,其中 1—4为籼米,5—9为粳米,10、11为糯米,用于特征 参数提取。 4.2实验结果 对于K—means聚类算法,这550粒样本作为分 类的输入数据;对于BP神经网络,每种稻米选取30 粒作为训练样本,剩下的20粒作为测试样本。分别 统计利用每种算法处理,每种稻米的分类正确率。 将K—means聚类算法、BP神经网络与本文的算法 的分类正确率进行对比,以验证本研究所提算法的 性能,结果如表1所示。 分类正确率采用公式(14)来计算: m e: 丛 ; ×100% (14) sum【la 式中:fn表示输入数据的标签,labe ̄表示输 数据的标签,sum表示计算总和。 表1 每种稻米样本的分类效果对比结果 品种 编号范围 K—mews算法 BP神经网络 本文的算法 实际品种正确率实际品种正确率实际品种正确牢 从表1可以看出,利用K—means算法埘l 1个 样本分类时,籼米、粳米、糯米这三大类的样本彼此 没有混淆,但4种籼米之问、5种粳米之间、2种糯 米之间很容易错误分类,且每种样本分类的正确率 第33卷第2期 秦淑芳等基于K—means聚类算法和BP神经网络的稻米品种鉴别 131 大部分低于80%,总体的正确率是65%;利用BP 神经网络分类时,4种籼米经常分为第3类,5种粳 米经常分为第7类;2种糯米的分类效果很好,虽然 个别样本的正确率接近100%,但大部分样本的正 确率低于60%,总体的正确率为56.55%;利用本 relfection spectra[J].hffrared Millim Waves,2009(5): 353—356,391 [5]熊作周.基于人工嗅觉系统稻米品种鉴定方法的研究 [D].郑州:河南科技大学,2012 XIONG Z Z.The research of rice variety identiifcation method 研究的方法分类时,虽然个别样本的正确率低到 35%,但大部分的正确率都达到80%,总体的正确 率为80.64%。 based on artiifcial olfactory system[D].Zhengzhou:Henan University of Science and Technology,2012 [6]黄申奥.基于机器视觉的稻米品种鉴别[D].武汉:武汉轻 工大学,2017 由于本次实验所用的稻米品种较多,而每一品 种的样本数目较少,在选取样本作测试样本训练分 类器时,准确性不够,导致最终的分类识别率。因此 笔者下一步的研究重点是采集更多的稻米品种和样 本数目,建立样本库,提高分类精度。 5 结论 本研究在传统单一使用K—means算法和BP神 经网络的基础上,将这两种算法结合用于稻米品种 鉴别,克服了因样本类别过多、分类精度不高的局限 性。实验结果显示,利用本研究的方法有的单个样 本的分类正确率较低,但大部分样本的分类正确率 达到80%,总体的分类正确率达到80.64%。K— means算法总体的分类正确率为65%,BP神经网络 的分类正确率为56.55%。可见利用本试验的方法, 分类正确率最高,且具备一定稳定性。 参考文献 [1]郭文川,朱新华.机器视觉技术在谷物识别与分级中的研 究进展[J].粮食与饲料工业,2002(6):50—51 GUO W C,ZHU X H.Research progress of machine vision technology in grain identiifcation and classiifcation[J].Grmn And Feed Industires。2000(6):50—51 [2]CHURCHILL D B,BILSLAND D M,COOPER T M.Compari— son of machine vision with human measurement of seed di. mensions.Transactions of the ASAE.1992,35(1):61—64 l 3 l UU J。PAULSEN M R.Corn Whiteness measurement and classification using machine vision.Transaction of the ASAE, 2002,43(3):757—763 [4]梁亮,刘志霄,杨敏华,等.基于可见/近红外反射光谱的 稻米品种与真伪鉴别[J].红外与毫米波学报,2009(5): 353—356,391 LIANG L,LIU Z X,YANG M H,et a1.Discrimination of variety and authenticity for rice based on visual/near infrared HUANG S A.Discrimination method of varieties of rice based on machine vision technology[M].Wuhan:Wuhan Polytech— nic University,2017 [7]牛晓颖,夏立娅,张晓瑜,K均值和分层聚类法在大米产 地鉴别中的应用[J].农机化研究,2012,6:141—143 NIUX Y,XIA L Y,ZHANG X Y.Classification of riceaccord— ing to the geographic origin based on K—means cluster and hierarchinal cluster[J].Journal of A culturla Mechanization Research,2012,6:141—143 [8]HAND D J,VINCIOTrI V.Choosing k for two—class nearest neighbour classifiers with unbalanced classes.Elsevier Sci— ence Inc.,2003,24(9一i0):1555—1562 [9]GARCIA V,MOLLINEDA R A,SANCHEZ JS.On the K— NN performance in a challenging scenario of imbalance and O— verlapping.Pattern Analysis and Applications,2008,1 1(3): 269—280 [10]闻新,李新,张兴旺.应用MATLAB实现神经网络[M]. 北京:国防工业出版社,2015 WEN X,LI X,ZHANG X W,Application of MATLAB to Realize Neural Network[M].Beijing:National Defenee In— dustry Press,2015 [1 1]LIAO K,PAULSEN M R.Corn kernel breakage classiifcation by machine vision using a Neural Network classifier.Trans— actions of the ASAE,1993,36(6):1949—1953 [12]LIAO K,PAULSEN M R,REID JF,et 1a.Conr kenrel shape identiifcation by machine vision using a neural network clas— sitfer.ASAE Paper,No.927017,1992 [13]中华人民共和国国家技术监督局.GB 1350--2009.中华 人民共和国国家标准一稻谷.北京:中华标准出版社, 2009——03.—28 People’S Republic of China State Bureau of Technical Super— vision.GB 1350--2009.National Standard of thePeople’S Republic of China-Rice.Beijing:Standard Press of China. 2009—03—28. (下转第141页) 第33卷第2期 李延华等基于ESR光谱技术检测食品中自由基的研究进展 Research Progress of ESR Detection Technology in Predicting the Free Radicals in Food Li Yanhua Wang Weijun Chen Wanghua Lou Jinwel3 Zhang Zhonghui Yu Jiali (College of Food Science and Biotechnology, Zhejiang Gongshang University ,Hangzhou 3 1001 8) (Zhejiang Yiming Food Co.,Ltd. ,Wenzhou 325000) Abstract Free radicals are formed as the highly reactive intermediates during the proceSS of food 0xidati0n.. Theevaluation of free radicals is used to assess the oxidation intensity of food matixThe technology of Electron sDin rresonance(ESR)can provide the structural information of these free radicals.The paper introduced the applieation of ESR technology in different food systems.The effects of ESR were analyzed in detecting the free radicals and in predicting the oxidation stability of food.ESR technology could provide theory evidence for tracking and evaluating the free radical,and could be applied to predict the oxidation stabilitv of food,. Key words electron spin resonancefree radicals,detection,food matrix ··+” (上接第131页) Identiifcationon Rice Varieties Based on K·-—-means Clustering Algorithm and BP Neural Network Qin Shu ̄ng Liu Changhua Huang Shen ao (School of Mathematics&Computer Science,Wuhan Polytechnic University,Wuhan 430023) Abstract BP neural network is characterized by adaptability and real—time learningSO it is used widelv in .classification.The more complex samples classifythe lower the accuracy of BP neural network is.S0 a method Was ,purposed to identify rice varieties that combined K—means clustering algorithm with BP neural networkThe grav— .scale mean value,aspect ratio and circularitywhich were the three parameters of the ricewere extracted by image ,,processing.The K—means clustering algorithm was used to classify the data based on the fore—mentioned three pa- rameters and the classiication results were entered ifnto the BP neural network and train to get the classiierThe over- f.all results indicate that the method mentioned is more effective than using K—means clustering algorithm or BP neural network sin ̄y and the accuracy is up to 80%.Experimental results show that combination of K—means clustering aI. gorithm and BP neural network iS feasible for identifying the rice varieties. Key words rice,K—means clustering algorithmBP neural network .