本文目录一览:

怎么用excel来做数据归一化处理

1、选择数据区域,在“插入”选项下的“图表”中,选择“散点图”;2、在图表位置,单击鼠标右键,“添加趋势线”;3、双击趋势线,在“设置趋势线格式”中,勾选“显示公式”“显示R的平方”,即可得到线性回归方程及相关系数的平方。

excel解释DESeq2归一化原理

这里有两种办法计算缩放因子sj

1.导入数据

2.制作cloData

3.构建dds对象

4.查看sj

怎样用Excel做数值归一化?

输入以下公式,得到每列位置上前30%的平均值

=AVERAGE(INDIRECT(ADDRESS(1,COLUMN(A1))":"ADDRESS(COUNT(A:A)*30%,COLUMN(A1))))

详见附图示例

数据归一化方法对比

地下水功能评价的要素指标多达30组项,彼此相互联系、相互补充,又具有层次性和结构性,是一个有机整体。但是,30多个要素指标中,类型多样,既有渐变规律的点源监测数据,又有斑块状高度均化的区片统计数据,还有通过地下水资源评价获取的分区成果数据,以及不连续、不全、无规律的数据。既有反映单一变量数据,又有抽象或相关分析数据,例如“比率”和“关联度”等。如何使这些复杂的数据服务于地下水功能评价,反映地下水功能及不同次属性的时空特征或状况,既要容纳较齐全的信息量,又要求最大限度地降低重叠度和减小混沌度,同时还要明显地反映出不同层次的状况等级特征,反映地下水的资源、生态、环境功能方面的30个指标量纲不一致,反映问题的角度不同。为使这些指标之间具有可比性,从而完整地组合到一起,实现对研究区各功能和属性较准确地描述或表达,唯一办法是将不同单位表示的指标作无量纲化处理,同时还不能改变原指标的数据排序和等级关系,保证变量的信息不失真。因此,需要对所有指标归一化[0,1]的标准化处理。

指标无量纲、归一化的方法很多,各有其特点。哪一种方法适宜地下水功能评价的数据归一化,这是一个需要重视的问题,否则会影响最终的评价结果。本节通过对不同类型的数据采用不用方法对比和分析,确定了比较适宜地下水功能评价数据最后合适的标准化方法。

(一)数据状况

地下水功能评价与区划指标体系是针对我国北方地区。在西北、华北或东北不同地区开展地下水功能评价与区划,需要根据工作区实际情况从34个指标选取或增补。包括地下水的补给资源占有率、储存资源占有率、可利用资源占有率、补储更新率、补给可用率、补采平衡率、降水补给率、水位变差补给比、水位变差开采比、水位变差降水比、可采资源模数、可用储量模数、资源质量指数、资源开采程度、天然植被变化与地下水关联度、绿洲变化与地下水关联度、土地盐渍化与地下水关联度、土地质量与地下水关联度、地面沉降与地下水关联度、海咸侵与地下水关联度、地下水质量与地下水关联度和地下水补给变率与水位变差比。涉及包含的变量有区内获取补给资源模数、储存资源模数、可动用地下水储存资源量、近5~12年年均开采量、近5~12年年均水位变差、近5~12年年均降水量、地面沉降量、实际开采量、天然植被变化(面积或其他指标)、绿洲变化(覆盖率或其他指标)、土地盐渍化程度情况和地下水质量等级共12组。

根据上述变量的表达形式,分为“数值型”和“非数值型”两类指标。“数值型”指标是具体的数据,“非数值型”是相对等级的指标。“数值型”指标能够直接代入“标准化公式”进行运算,然后比较和验证,“非数值型”指标只能凭借专家意见给出评分。

(二)标准化计算公式

1.统计标准化法

这是广泛使用的方法,公式为

区域地下水功能可持续性评价理论与方法研究

式中:Zi为标准化后数值;Xi为原始数据;

为Xi的均值;S为标准差。

2.极值标准化法

极值标准化方法是将一列数据的最小值和最大值作为[0,1]的界限值,然后通过式(5-2)转换,使该列所有数据转变成[0,1]之间数据,并保持原有的位置和相对大小等级特征。

区域地下水功能可持续性评价理论与方法研究

式中:min(Xi)和max(Xi)分别为指标Xi的最大值和最小值,其他同前。

3.定基转化法

定基转化法是一种比较简单的归一化方法,它采用最大值作为基值,通过式(5-3)公式将所有数据转化为[0,1]之间的数据。

区域地下水功能可持续性评价理论与方法研究

式中:X0是用于比较的基准值,其他同前。

4.环基转换法

环基转化法适合于处理指数型序列数据的归一化问题,计算公式为

区域地下水功能可持续性评价理论与方法研究

式中:Xi,Xi-1为原始数据,其他同前。

5.极值标准化修正法

极值标准化修正法是一种相对复杂的归一化方法,它需要求解a,b两个系数,主要优点是避免了“0”的出现。

计算公式为

区域地下水功能可持续性评价理论与方法研究

式中:a,b为一组数据的率定系数,不同组数据的系数各不相同。其他同前。

(三)各种方法对比与分析

归一化方法选用的是否合适,影响到确定指标的标准化数据的区间分布,进而影响到指标的等级划分。通过对式(5-1)至式(5-5)的适用范围和特点对比与分析,认为式(5-1)和式(5-4)不适宜地下水功能评价基础数据的归一化处理。

1.不适宜公式及依据

(1)排除式(5-1)的原因

考虑到多元指标的比较和指标等级划分,归一化后的数据要求介于[0,1]之间,同时还要求标准化后的数据的离散程度或等级不应出现本质性改变。而式(5-1)处理的数据不都在[0,1]间,而且还有负值(表5-15)。因此,式(5-1)被排除。

表5-15 利用统计标准化处理的单元沉降量数据结果

续表

(2)排除式(5-4)的原因

式(5-4)适合于构造时间序列指数的数据归一化处理,不适宜地下水功能所用的各种数据。

2.三类数据比较选择最佳公式

数据标准化方法有多种,包括统计标准化、极值标准化、定基转换、环比转化和修正极值标准化方法。根据上述公式的适用范围,排除统计标准化和环比转化公式。下面采用三类数据对极值标准化、定基转换和修正极值标准化公式进行验证和筛选分析,以期从中选择适合公式。

第三类数据为分类数据,没有具体数值,也就不可能代入公式进行检验和比较,此类变量直接根据专家组打分,在[0,1]之间赋值,然后划分到各等级。在这里重点对第一类和第二类数据进行验证和比较。

(1)利用剖分单元前数据的规律性分析结果

采用频数直方图法对在华北平原地下水功能评价示范研究中所用的10组D层要素指标数据(每组数据5645个)进行规律性分析,其中横轴表示数据的分组,纵轴表示频数。为了观察数据分布的特征和规律,应保持组数和组距的等距,避免数据分布过于集中或分散。

调整的方法是利用Sturges提出的公式,确定组数(K)和组距(K=1+lgn/lg2,n为数据的个数;组距=[最大值-最小值]/组数)。

调整步骤如下:

A.确定组数

组数的多少,一般与数据本身特点及数据多少有关。实际分组时,应按照Sturges公式确定组数。在此基础上,为避免出现部分组距间没有数据分布的局限,可作适当调整。

B.确定组距

根据全部数据的最大值和最小值及数据组数,确定组距。为了便于计算,组距应取整数。

依照上述步骤,绘制10组单元数据的频数直方图,如图5-9所示。

对比结果,8组直方图形状各不相同,差别较大,组距的数据变化明显。这表明地下水功能评价所用基础数据难以取得统一性规律。

图5-9 实际资料频数直方图

(2)按数据空间分布特征分类

在地下水功能评价中所有变量划分为两类:数值型数据和分类型数据。数值型数据通过标准化量化为评价所需要的数据,分类型数据没有具体数据表达,量化评价时由专家组根据经验在指标等级[0,1]区间直接赋值。示范研究过程中收集的资料有两种形式,即图件或源数据,图件如资源分布图、开采强度分布图、给水度分布图、水位变差图等,都是根据实际观测或调查的第一手数据资料绘制,在利用Excel绘制数据变化曲线时,需要反过来从图件中提取数据。以源数据形式存在的则直接应用,查找不同变量的规律性。

数值型数据是否具有同样的空间分布规律,能否可以根据资料数据再详细分类,究竟单元剖分前数据有规律,还是剖分后数据有规律,或者两者的数据分布都由一致的规律性,下面进一步分析。

A.利用单元剖分后数据找寻分布规律

在没有确定采用何种归一化方法之前,先总结10组变量的剖分单元数据分布规律,对其进行分类。通过数据分组后形成的频数分布表,初步寻找数据分布的一些特征和规律。为了探讨地下水功能区划多元指标之间的关系难题,首先基于单元水体的各变量之间的关系,提供单元系统的各“比率”、“关联度”以及某些单一指标数据。在考虑研究区面积大小的条件下,把整个研究区划分为5645个单元。因此,本次工作中首先绘制单元剖分后10组指标数据(每组数据5645个)的频数直方图,绘图时横轴表示数据分组,纵轴表示频数,为了观察数据分布的特征和规律,注意调整组数和组距(组距等距),不使数据分布得过于集中和分散。调整每一个直方图的组数和组距,在满足所有变量都在图中显示、每一组距都有数据的基础上,确定直方图最后的分布形状。Sturges提出的公式给出确定组数K(K=1+lgn/lg2,n为数据的个数)和组距(组距=(最大值-最小值)/组数)的经验,步骤如下:①确定组数。组数的多少一般与数据本身的特点及数据的多少有关。实际分组时按照公式确定组数,在此基础上为消除部分组距之间没有数据分布的影响,作了适当调整。②确定各组的组距。组距的确定根据全部数据的最大值和最小值及所分的组数来确定,为便于计算,组距取整数。依照上述步骤,绘制了剖分单元的10组变量频数直方图(图5-9),图5-9中曲线为GAUSS曲线,似乎变化趋势一致,观察和比较后发现8组变量的直方图形状各自都不相同,而且差别很大,直方图错落变化,组距中的数据变化大起大落。因此,单元剖分后的数据整理后利用频数直方图不能发现不同指标之间的规律。没有规律可言,也就无法进行分类,而且直方图调整到什么形状最为合理是个模糊概念。所以,利用剖分后数据对评价指标变量进行分类不可行。

B.利用单元剖分前数据找寻规律

项目研究过程中收集的资料图件,如资源分布图、开采强度分布图、给水度分布图、水位变差图等的表达形式只有两种:分区或等值线,现在反过来从图件提取数据,利用不同变量剖分前数据变化情况,查找不同变量的规律性。

指标变量剖分前数据分散性较强且量小,可以通过利用Excel软件分析数据点的分布特征来探究其中的分布规律。根据评价指标所受外界驱动力的来源不同,从评价体系的34个指标中,分别选取了受自然因素影响的典型指标,如晚更新世底板埋深、给水度和降水量,受人类活动驱动的指标,如开采强度、开采资源模数,还选取了受自然和人类综合因素影响的指标,如资源分布图、浅层地下水变差,囊括了地下水功能评价指标体系中的34个指标所受外界影响的三种类型。

这三种类型数据利用Excel绘制的效果图如图5-10所示。其中,资源分布图、晚更新世底板埋深、浅层地下水变差和给水度分布图数据几乎呈直线分布,而开采强度、降水量和开采资源模数数据趋势线转折点较多,弯曲变化很明显。主要原因是由于地层岩性从山前到中部平原依次为卵砾石、粗砂、细砂、粉砂,砂层厚度逐渐变薄。前一类数据的资源分布主要与砂层厚度和岩性有关。给水度数据主要受岩性、水文地质条件、地层埋藏条件等影响,曲线表现比较平缓。而浅层地下水变差虽然受开采的影响,但人为规定的数据变化等值线为等间距,所以数据变化趋势也呈直线。此类数据划为第一类变量数据。第二类数据中的开采强度和开采资源模数是描述与人类活动有关的数据,受自然条件、经济发展、文明程度、社会水平等综合因素的影响,数据变化没有规律性。降水量数据虽然只是受到自然条件影响,但项目组在整理现状资料时,只是收集到各县的年平均降水量资料。而各县在测降水量时程序、步骤、器材和观测人员认真程度不一样,所以即使邻县有的降水量数据也相差很多,表现在变化曲线上就为折线,弯曲点很多。因此,把受人为因素影响占主导的数据归为第二类变量。如果收集到的降水量资料为整个研究区的降水量分布图,表现形式为降水量等值线或降水量分区图,此时可以把降水量指标划归为第一类变量数据。

在下面数据变化趋势中只罗列了34组变量中的7组典型数值型变量,还有地下水质量分布、土壤盐渍化程度分区、矿化度分布等变量数据没有绘制数据变化曲线。这类变量为分类数据,只是划分等级,没有具体的数据表示。例如地下水质量分布按照国家地下水质量标准划分为Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ级,土壤盐渍化分区划分为极重度盐渍化、重度盐渍化、中度盐渍化和轻度盐渍化,地下水矿化度分布按照1g/L,1~3g/L,3~5g/L,﹥5g/L划分为淡水、半咸水、微咸水和咸水四类。此类分类数据划分为第三类变量。在地下水功能评价指标体系中还有一些变量属于分类数据,如土地沙化状况、土地质量(综合指标)等,也都划归为第三类变量数据。

综上所述,地下水功能评价与指标体系的指标变量数据分为三类数据:第一类为主要受自然影响的自然变化规律数据,第二类为主要受人类活动影响的变量数据,第三类为分类变量数据。

图5-10 地下水功能评价中指标的原始数据分析

所以,按数据空间分布特征将各类数据划分为连续渐变型数字数据(即规律性数据,记作CR类数据)、非规律性数字数据(记作NR类数据)和非数字性的定性数据(记作NF类数据)三类。

(3)利用单元剖分前数据规律性分析结果

地下水功能评价所用基础数据,主要有三类:第一类是主要受自然因素影响而呈现规律性变化数据,如降水量;第二类为主要受人类活动影响而呈现规律性变化数据,如开采量;第三类属于相对定性、依靠专家评价的数据,如地下水质量等级的数据。

对于上述三类数据,应用式(5-2)、(5-3)和(5-5)对比与分析,首先确定第三类数据只能依靠专家评分,建立[0,1]间值,直接进入单元数据库参加评价。对于第一类数据和第二类数据的分析结果,如下面所述。

A.第一类数据分析结果

采用极值标准化公式(5-2):采用该方法标准化处理第一类数据之前,首先要采用递增或递减序列模式对原始数据进行排序(表5-16),尽量采用一种方法处理各组数据的排列,便于标准化后各组数据的比较。

从表5-16可见,利用式(5-2)标准化处理的第一类数据,其特点是:所有数据组的第一个数据都是“1”,最后一个数据都是“0”,中间数据逐渐过渡,而且所有数据都归[0,1]间,基本符合地下水功能评价的技术要求。主要缺点是不管哪一组的第一个数据在该组中处于何种等级或重要性,都被归一化“1”,成为“强”级;同理,各组的最后一个数据都被归一化“0”,成为“弱”级。这样处理,不利于区域性之间成果对比,也难以合理调整评价平台的基数。

表5-16 利用极值标准化法处理第一类数据的结果

采用定基转换公式(5-3):采用该方法进行数据标准化,最重要的是每一组变量基准值的确定。表5-17为四组变量定基标准化处理后数据,其中所有变量的基准值都采用本系列的最大值。该方法的优点是所有数据标准化后全部集中在[0,1]之间,每组变量系列对应数据的顺序没有改变。基准值在取每组变量系列最大值的基础上,公式(5-3)既承接了公式(5-2)简捷、快速的特点,又没有使数据失真,尤其利用式(5-3)标准化处理后的数据,摆脱了在最小值区域出现大片“0”的问题。缺点是①基准值难以选取。处理相同问题,考虑的角度不同,采用的基准值就不同,由此定基标准转化后的数据反映到综合评价指数中就会得到不同的R值。②最小值没有确定性,数据分布区间不一致。在示范效验时,每组变量的基准值都采用变量系列中的最大值,这样,标准化后数据系列的最大封闭值都为1,最小值由本系列数据的最小数据决定,大小不一,易出现偏态现象。例如补给资源占有率的最小值就为0.334,在(0,0.334)之间没有数据过渡,难以克服原数据高度集中的局限性。另外,不同组的基准值无法统一。

采用式(5-3)标准化处理第一类数据的结果,如表5-17所示。

表5-17 利用定基转换法标准化处理第一类数据的结果

采用修正极值标准化公式(5-5):采用该方法对变量数据标准化处理,可以克服上述几种方法存在的问题,而且也不会出现最小值区域大片“0”问题(表5-18)。如果原始数据确实为“0”,标准化后数据也不会违背真实性,仍然为“0”,这种线性变换没有使原数据组性质发生质变,从而保证信息表达的真实客观性,同时修正了公式(5-2)的不足。相对于公式(5-3),该公式摆脱了基准值选取的不确定性,不会因基准值取值不同,得出不同的结果,而且,a,b值的求取简便、快捷,没有增加太大的工作量。所有变量标准化后都收敛到[0.99,0.01]区间,数据分布合理、有序,没有数据堆积和偏态现象,便于比较。这种线性变换没有使变量产生性质上的变形,从而保证信息没有失真,提供给上一级属性层合理真实信息,为属性层综合评价指数的计算结果提供准确的评价参数。

表5-18 利用式修正极值法标准化处理第一类数据的结果

a,b值的取值方法如下,对于地下水的补给资源变量,最大值为35,最小值为2.5,根据修正归一化公式,建立对应方程组:

区域地下水功能可持续性评价理论与方法研究

解此方程组得出a,b值分别为1.15和5.74。依次类推,其他变量都可轻松得到a,b值。

B.第二类数据分析结果

采用极值标准化公式(5-2)对第二类数据标准化处理的结果,如表5-19所示,结论与第一类数据标准后情况相同。

表5-19 利用极值标准化处理第二类数据的结果

续表

采用定基转换公式(5-3)标准化处理第二类数据的结果,如表5-20所示,结论与第一类数据标准后情况基本相同。

表5-20 利用定基转换标准化处理第二类数据的结果

采用修正极值标准化公式(5-5)处理第二类数据的结果,如表5-21所示,结论与第一类数据标准后情况基本相同。

表5-21 利用修正极值标准化处理第二类数据的结果

通过上述利用不同公式对不同数组标准化的对比与分析,可获得如下几点认识:

1)式(5-1)和式(5-4)转化功能及其转化后的数据都不适宜地下水功能评价的数据标准化处理,式(5-2)、式(5-3)和式(5-5)具有可用性,各有优缺点。

2)采用式(5-2)标准化,在第一类和第二类数据中都出现“0”现象,容易造成最小值全部为“0”的现象,难以区别原始数据为“0”的客观存在,因此,该法在地下水功能评价中应慎用或不用。

3)采用式(5-3)虽然可以排除“0”问题,但是“基准值”难统一,随意性较大,而且若“基准值”选取不合理,容易发生数据偏向堆积问题,所以该法也不宜在地下水功能评价中应用。

4)采用式(5-5)能够同时避免式(5-2)和(5-3)的不足,即最小值皆为“0”问题,也不会造成原始数据为“0”而标准化后非“0”问题,因此,式(5-5)可作为地下水功能评价基础数据归一化处理的首选公式。

数据标准化和数据归一化有什么区别吗?

归一化,就是为了限定你的输入向量的最大值跟最小值不超过你的隐层跟输出层函数的限定范围。比如,你的隐层的传递函数为logsig,那么你的输出就在0~1范围内,如果你的传递函数为tansig,你的隐层的输出在-1~·范围内,用归一化,这也是为了你的隐层传递函数的输出着想。

标准化,只是对数据进行了统一的标准,其大小可能已经超出了隐层传递函数的界定范围,在后续的运行时,容易出错。