您好,欢迎来到爱玩科技网。
搜索
您的当前位置:首页一种基于数据分布的SVM回归方法

一种基于数据分布的SVM回归方法

来源:爱玩科技网
:l: 一种基于数据分布的SVM回归方法 郭金玲 (山西大学商务学院信息学院 太原030031) 摘要 核函数参数选择是支撑向量(Support Vector Machine,SVM)研究的主要问题之一。提出了检验样本是否呈高斯分布的 方法,确定最优核参数选择的依据。采用人工数据集进行回归实验,验证了文中方法的有效性。 关键词 支撑向量机 回归 高斯分布 中图分类号G304 文献标识码A 文章编号5990 A Kind of SVM Regression Method based on Data Distribution Guo Jinling (School of Information,Business CoUege of Shanxi University,Shanxi Taiyuan 03003 1) Abstract The kernel parameter selection is one of the key problems for support vector machine(SVM).In this paper, a new way to select the kernel function and its parameter,is presented.It is based on the characteristics of data distribu- tion.The paper presents an approach to determine Gauss distribution.And then on the basis of determining Gauss distil- bution,this paper discusses how to select the kernel function and its parameter.The simulation experiments demonstrate the feasibility and the effectiveness of the presented approach. Keywords Suppo ̄vector machine Regression Gauss distribution 一采用最小二乘法求得a和b的值,回归函数如下: 、引言 支撑向量机主要用于解决大数据领域中的分类及预测 7 问题等f 1。今年来,许多学者将该技术应用于空气监测、金 融评测、医学分析、地质勘查等实际问题的解决过程中14-61。 f(x): k(xi,x)+b i=l (4) SVM方法通过引入核函数,将样本映射到高维空间实现预 测及分类,其预测最优化过程可描述为: 在实际问题的解决过程中,核函数的参数选取是最为 关键的,而核参数的选取是一直以来的研究热点【7.81。本文 min wII2 探讨了在样本基本符合高斯分布时,如何高效正确选取核 参数的过程,实验结果证明该方法的有效性。 st.Yi . 一6】 1 i=1 2一,,(1) 二、实验样本集 文中选取样本集D1进行实验,D1是人工构造的高斯 结合拉格朗日函数,以上模型转化为: 分布数据集,具体分布见图l。 (w 1(ww)一 I w)’一6 Fi-I}(2) 三、核参数选取方法 对于实验样本集{(x。,Y ),…,( Y.)},采用以下算法检 max rv(a =∑ ∑ r ,J 验其是否呈高斯分布,具体过程如下: i=l ,j=l 步骤1:取m=n,将实轴分为n+1个区间; 0,i=1,…,J『 步骤2:采用极大似然法计算出 , 的估计值 , ; 步骤3:计算出统计量 ∑ Y,=0 (3) VI= (Vf一, 一 一 ;lc基金项目:山西大学商务学院院基金(2016008) 办公自动化杂志 39‘ 图1高斯分布数据集D1 步骤4:若V 近似服从 分布,则断定该样本集呈高 斯分布,同时在以上判断过程中,可计算出形状分布参数。 结论:如果实验样本集基本呈高斯分布,采用高斯核进行 回归实验时,其最优核参数可以选取样本集的形状分布参数。 四、数值实验 采用文中的方法对样本集D1检测,通过以上四个步骤的 计算,可得到结论:D1呈高斯分布,且形状参数为0.7;采用 SVM方法对D1进行回归实验,具体实验结果图见图2、图3。 图2 D1回归图(高斯核。口=0。7) 通过比较以上数值实验,可以看到:数据集呈高斯分布时,采 用高斯核SVM,且核参数和其形状参数一致时,回归效果最好。 五、小结 本文探讨了数据集呈高斯分布时,如何高效选取核函 数及参数的过程。首先给出了判断数据呈高斯分布的方 法,采用人工构造的数据集进行了数值实验,实验结果表 明文中提出的方法的正确性及有效性。 ’40‘办公自动化杂志 总第359期 图3 D1回归图(高斯核,a=lO) 参考文献 [1]W.J.Wang,Z.B.Xu,W.Z.Lu and X.Y.Zhang. Determination of the spread parameter in the Gaussian kernel for classification and regression[J].Neurocomputing, 2003,55:643—663. 【2】K.B.Duan,S.Keethi,A.N.Poo Evaluation of simple performance measure for tuning SVM hyperparameters[J].Neurocomputing,2003,51:41—59. 【3]V.Cherkassky,Y.Q.Ma.Practical selection of SVM parameters and noise estimation for SVM regression[J].Neurla Networks,2004,17:113-126. [4]胡世前,姜倩雯,凌冰,尹伟东.基于改进支持向 量机的空气质量监测预警模型[J】.江苏大学学报(自然科学 版),2016,34(4):38—42. 【5]蔡丹莉,郭红.基于混合核函数SVM的蛋白质相 互作用预测方法【J].福州大学学报(自然科学版),2014,42 (6):834—840. 【6]SE奉伟,周世健,周清,池其才.局部均值分解结 合支持向量回归的大坝变形预测…-钡0绘科学,2016,34 (3):42—47. [7]B.Krawczyk,M.Wozniak,F.Herrera.On the usefulness of one—class classiifer ensembles for decomposition of multi-class problems[J].Pattenr Recognition,2015,48(12): 3969-3982. [8]WANG XIAOMING,CHUNG F L,WANG SHITONG. Theoretical analysis for solution of suppo ̄vector data description 【J].Neural Networks,2011,24(4):360-369. 作者简介 郭金玲(1982 ),女(汉族),山西子县人,山西大学 商务学院信息学院教师,副教授,硕士研究生,研究方向, 机器学习与数据挖掘。 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务