查找matlab源码分享的网站？matlab源代码网站

今天给各位分享查找matlab源码分享的网站的知识，其中也会对matlab源代码网站进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

数据分析

简介

每个数据分析都包含一些标准的活动

预处理-考虑离群值以及缺失值，并对数据进行平滑处理以便确定可能的模型。

汇总-计算基本的统计信息以描述数据的总体位置、规模及形状。

可视化-绘制数据以便确定模式和趋势。

建模-更全面地描述数据趋势，以便预测新数据值。

数据分析通过这些活动，以实现两个基本目标：

使用简单模型来描述数据中的模式，以便实现正确预测。

了解变量之间的关系，以便构建模型。

此部分说明如何在MATLAB?环境中执行基本数据分析。

数据的预处理

TryThisExample

此示例显示如何预处理分析用的数据。

概述

通过将数据加载到合适的MATLAB?容器变量并区分“正确”数据和“错误”数据，开始数据分析。这是初级步骤，可确保在后续的分析过程中得出有意义的结论。

加载数据

首先加载count.dat中的数据：

loadcount.dat

这个24×3数组count包含三个十字路口（列）在一天中的每小时流量统计（行）。

缺失数据

MATLABNaN（非数字）值通常用于表示缺失数据。通过NaN值，缺失数据的变量可以维护其结构体-在本示例中，即在所有三个十字路口中的索引都是一致的24×1向量。

使用isnan函数检查第三个十字路口的数据是否存在NaN值：

c3=count(:,3);%Dataatintersection3c3NaNCount=sum(isnan(c3))

c3NaNCount=0

isnan返回一个大小与c3相同的逻辑向量，并且通过相应条目指明数据中24个元素内的每个元素是存在(1)还是缺少(0)NaN值。在本示例中，逻辑值总和为0，因此数据中没有NaN值。

离群值部分的数据中引入了NaN值。

离群值

离群值是与其余数据中的模式明显不同的数据值。离群值可能由计算错误所致，也可能表示数据的重要特点。根据对数据及数据源的了解，确定离群值并决定其处理方法。

确定离群值的一种常用方法是查找比均值

大一定数目的标准差

的值。下面的代码绘制当

=1、2时第三个交点的数据直方图以及

和

的直线：

bin_counts=hist(c3);%HistogrambincountsN=max(bin_counts);%Maximumbincountmu3=mean(c3);%Datameansigma3=std(c3);%Datastandarddeviationhist(c3)%Plothistogramholdonplot([mu3mu3],[0N],’r’,’LineWidth’,2)%MeanX=repmat(mu3+(1:2)*sigma3,2,1);\nY=repmat([0;N],1,2);\nplot(X,Y,’g’,’LineWidth’,2)%Standarddeviationslegend(‘Data’,’Mean’,’Stds’)\nholdoff

此绘图表明某些数据比均值大两个标准差以上。如果将这些数据标识为错误（而非特点），请将其替换为NaN值，如下所示：

outliers=(c3-mu3)>2*sigma3;\nc3m=c3;%Copyc3toc3mc3m(outliers)=NaN;%AddNaNvalues

平滑和筛选

第三个十字路口的数据时序图（已在离群值中删除该离群值）生成以下绘图：

plot(c3m,’o-‘)\nholdon

在绘图中，第20个小时的NaN值出现间隔。这种对NaN值的处理方式是MATLAB绘图函数所特有的。

噪音数据围绕预期值显示随机变化。您可能希望在构建模型之前对数据进行平滑处理，以便显示其主要特点。平滑处理应当以下面两个基本假定为基础：

-预测变量（时间）和响应（流量）之间的关系平稳。

-由于已减少噪音，因此平滑算法生成比预期值更好的估计值。

使用MATLABconvn函数对数据应用简单移动平均平滑法：

span=3;%Sizeoftheaveragingwindowwindow=ones(span,1)/span;\nsmoothed_c3m=convn(c3m,window,’same’);\nh=plot(smoothed_c3m,’ro-‘);\nlegend(‘Data’,’SmoothedData’)

使用变量span控制平滑范围。当平滑窗口在数据中包含NaN值时，平均值计算返回NaN值，从而增大平滑数据中的间隔大小。

此外，还可以对平滑数据使用filter函数：

smoothed2_c3m=filter(window,1,c3m);\ndelete(h)\nplot(smoothed2_c3m,’ro-‘,’DisplayName’,’SmoothedData’);

平滑数据在以上绘图的基础上发生了偏移。带有’same’参数的convn返回卷积的中间部分，其长度与数据相同。filter返回卷积的开头，其长度与数据相同。否则算法相同。

平滑处理可估计预测变量的每个值的响应值分布的中心。它使许多拟合算法的基本假定无效，即预测器的每个值的错误彼此独立。相应地，您可以使用平滑数据确定模型，但应避免使用平滑数据拟合模型。

汇总数据

TryThisExample

此示例显示如何汇总数据。

概述

许多MATLAB?函数都可以用于汇总数据样本的总体位置、规模和形状。

使用MATLAB?的一大优点是：函数处理整个数据数组，而不是仅处理单一标量值。这些函数称为向量化函数。通过向量化可以进行有效的问题公式化（使用基于数组的数据）和有效计算（使用向量化统计函数）。

位置度量

通过定义“典型”值来汇总数据示例的位置。使用函数mean、median和mode计算常见位置度量或“集中趋势”：

loadcount.datx1=mean(count)

x1=\n32.000046.541765.5833

x2=median(count)

x2=\n23.500036.000039.0000

x3=mode(count)

x3=\n1199

与所有统计函数一样，上述MATLAB?函数汇总多个观测（行）中的数据，并保留变量（列）。这些函数在一次调用中计算三个十字路口中的每个十字路口的数据位置。

规模度量

度量数据示例的规模或“离散度”有多种方法。MATLAB?函数max、min、std和var计算某些常见度量：

dx1=max(count)-min(count)

dx1=\n107136250

dx2=std(count)

dx2=\n25.370341.405768.0281

dx3=var(count)

dx3=\n1.0e+03*\n0.64371.71444.6278

与所有统计函数一样，上述MATLAB?函数汇总多个观测（行）中的数据，并保留变量（列）。这些函数在一次调用中计算三个十字路口中的每个十字路口的数据规模。

分布形状

汇总分布的形状比汇总分布的位置或规模更难。MATLAB?hist函数绘制直方图，可视化显示汇总数据：

figure\nhist(count)\nlegend(‘Intersection1′,…\n’Intersection2′,…\n’Intersection3’)

参数模型提供分布形状的汇总分析。指数分布和数据均值指定的参数mu非常适用于流量数据：

c1=count(:,1);%Dataatintersection1[bin_counts,bin_locations]=hist(c1);\nbin_width=bin_locations(2)-bin_locations(1);\nhist_area=(bin_width)*(sum(bin_counts));\nfigure\nhist(c1)\nholdonmu1=mean(c1);\nexp_pdf=@(t)(1/mu1)*exp(-t/mu1);%Integrates\n%to1t=0:150;\ny=exp_pdf(t);\nplot(t,(hist_area)*y,’r’,’LineWidth’,2)\nlegend(‘Distribution’,’ExponentialFit’)

将常规参数模型与数据分布拟合的方法不在此部分的论述范围内。StatisticsandMachineLearningToolbox?软件提供用于计算分布参数的最大似然估计的函数。

可视化数据

概述

二维散点图

三维散点图

散点图数组

浏览图形中的数据

概述

您可以使用多种MATLAB图形来可视化数据模式和趋势。此部分介绍的散点图有助于可视化不同十字路口的流量数据之间的关系。数据浏览工具用于在图形上查询各个数据点，并与数据点进行交互。

注意

此部分继续执行汇总数据中的数据分析。

二维散点图

二维散点图使用scatter函数创建，用于显示前两个十字路口的流量之间的关系：

loadcount.datc1=count(:,1);%Dataatintersection1c2=count(:,2);%Dataatintersection2figure\nscatter(c1,c2,’filled’)\nxlabel(‘Intersection1’)\nylabel(‘Intersection2’)

使用cov函数计算的

协方差计算两个变量之间的线性关系强度（数据在散点图中沿着最小二乘直线排列的松紧度）：

C12=cov([c1c2])

C12=\n1.0e+03*\n0.64370.9802\n0.98021.7144

结果以对称的方阵形式显示，并在第(i,j)个位置中显示第i个和第j个变量的协方差。第i个对角线元素是第i个变量的方差。

协方差的缺点是：取决于度量各个变量所使用的单位。您可以将变量的协方差除以标准差，以将值归一化为介于+1和–1之间。corrcoef函数计算

查找matlab源码分享的网站？matlab源代码网站

Published by

风君子

近期文章

标签

书签