地块面积统计过程中数值进位的误差分析

黎展荣1.2 杨如军2
(1 武汉大学遥感信息工程学院 武汉市珞瑜路129号 430079
2 南宁市国土资源局 南宁市东宝路3号 530022)

【摘 要】 在土地征地和土地调查工作中,经常会对将一个区域划分成多个子区进行面积汇总,由于对子区进行数值进位,会造成最后汇总数据与外围区域面积的不相等。这样的差异会有多大,会有怎样的特征,这就是本篇文章要讨论的问题。
【关键词】 进位误差 面积统计
【中图分类号】 P 231

  一、问题来源
  在进行城市道路建设过程中,经常会涉及面积统计的工作。由于规范上的需要或其他原因,数据会进行保留一定位数的进位处理,这会给最终的数据统计带来一些“不合理的结果”。
  例如:下图实线包围的区域被虚线划分为多个子区,计算机通过外围的边界点,可以计算出面积A,根据四舍五入的规则取整数数值。各个子区根据边界点的坐标,也可以计算出相应的面积,将子区面积取整后,再汇总得到面积A_Sum。实际的情况中,往往A_Sum≠A。

图1 区域划分

Fig.1 Divided Patches

  这类由于数值进位带来的误差,会给实际工作带来不小的麻烦。
  尽管在数值分析、误差处理等资料中,都提到进位误差的问题,但对本文所考虑的这种类型的具体案例,作者没有查找到详细分析的技术文章。而应用中,许多进行统计工作的技术员也知道数值进位带来了数据统计的误差,但这样的误差影响有多大,有怎样的特点,他们并不了解,为此,作者将在文章中对这个命题进行详细的讨论(注:本篇文章的面积单位默认为平方米,不专门标注,采用其他面积单位不影响文章内容的讨论)。
  二、地块面积的计算方法
  为精确计算计算地块面积,首先要获取每个地块的坐标。在本篇文章中,我们只考虑折线多边形的情况,在实际的工作中,曲线都可以通过插值拟和来转换成折线。
  折线多边形面积的计算是采用解析法。
  (1)假设多边形有n个顶点,多边形各顶点坐标为
  (2)多边形面积为:,其中
  三、随机现象分析
  1、随机现象
  对于给出整数面积为A的区域,被随机地划分成n个子区,子区的面积为Si(i=1,2…n),用Round(Si)来表示对Si进行四舍五入的取整处理,也就是对Si进行只保留整数的进位处理,那么是一个随机变量。
  2、X的取值范围
  由于每个子区的面积要经过四舍五入运算,如果小数部分被舍弃,就相当该子区丢失了一定数量的面积,而如果在小数部分获得进位,则看成是该子区获得了一定的面积增量。无论是“增量”还是“减量”,它的绝对值都小于0.5。n个子区经过取整汇总,其和X的取值是在一定范围的随机数。关于取值的范围,有如下的结论:

  结论证明:
  (1),当n个子面的面积相等时,每个子面的面积为:Si=A/n<A/(2A)<0.5,这时=0;
  ,令其中2A个子面的面积均为0.5,n-2A个子面的面积为0,这时=2A,X取得最大值;
  (2)结论显然,证明略
  (3)若将区域划分n+1个子面,将(0.5n-b)的面积均分给n个子面,b为一个极小微量,这时还剩余的面的面积为:A-(0.5n-b)=A-0.5n+b,将该面与前面一个均分的面合并,记为第n个子面
  Sn=A-0.5n+b+(0.5-b/n)=A-0.5(n-1)+b,因为n<2A,所以Sn>0.5
  Si(i=1,2…n-1)=(0.5n-b)/n<0.5
  那么,+Round(Sn)> Round(A-0.5(n-1)+b)= Round(A-0.5(n-1))
  若将区域划分为n+1个子面,将0.5n的面积均分给n个子面,这时还剩余的面的面积为:A-0.5n,将该面与前面均分的面合并,记为第n个子面
  Sn=A-0.5n+0.5,因为n<2A,所以Sn>0.5
  Si(i=1,2…n-1)=0.5n/n=0.5
  那么,+Round(Sn)< n-1+Round(A-0.5(n-1))= Round(T+0.5(n-1))
  3、X的分布特点
  对于本文中提到的问题,将区域分成n块,每块面积Si为一个随机量
  fraction(Si)表示Si的小数部分
  P(Fraction(Si)>0.5)表示Fraction(Si)>0.5的概率
  P(Fraction(Si)<0.5)表示Fraction(Si)<0.5的概率
  这里要强调两点:
  (1)每个Si并非完全独立的随机量
  (2)P(Fraction(Si)>0.5)< P(Fraction(Si)<0.5)
  就(1)点,可以举例说明,假设区域A=1,n=2,S2=A-S1,显然S2不是独立的随机量。
  就(2)点,可以转化成这样的命题:
  任意给定的实数a
  从取任意实数b<a
  求P(fraction(b)<0.5)
  有如下推导:
  Int(a)表示取得a的整数部分
  fraction(a)表示取得a得小数部分
  a=Int(a)+fraction(a)
  在条件0≤b≤Int(a)下,P(fraction(b)<0.5)=0.5
  在条件Int(a)<b≤Int(a)+fraction(a)下,考虑fraction(a)>0.5和fraction(a)<0.5两种情形:
  条件fraction(a)<0.5下P(fraction(b)<0.5)=1
  条件fraction(a)>0.5下P(fraction(b)<0.5)=0.5/fraction(a)
  从上面的过程,根据全概率公式,就可以推出P(fraction(b)<0.5),这里由于篇幅所限,不给出详细的推导。而实际的结果,P(fraction(b)<0.5)略大于0.5。
  由于只考虑Si小数部分的取值,尽管每个Si不是完全独立的随机量,但除了最后的Sn-1和Sn的取值具有关联性,其他Si是无关的。
  另外,虽然P(Fraction(Si)>0.5)< P(Fraction(Si)<0.5)
  但这两者的数值非常接近,具有近似正态分布特征。
  四、误差分布密度函数的参数估计
  1、试验设计
  为找到更准确的随机特征,我们进行X分布密度函数的参数估计。设计如下随机试验:
  (1)给出区域面积A
  (2)给出要分割的子区数量n,给出要获取样本的数量m
  (3)进行一次随机试验,随机取得n个子区的面积Si(i=1,2…n),计算,存到数组aa中
  (4)进行m次随机试验,获得不同的,存在aa(m),m=1,2…m
  (5)参数估计
  2、试验结果


表1 试验结果
Tab.1 Result of Experiment


图2 频度图
Fig.2 Frequency Chart

  从前面的结论上看,因为A/n>0.5 ,所以X∈[501,1500]
  采用参数的区间估计法,X~N,其中μ=999.66,σ=0.89043。这时:
  P(X=1000)=0.4005
  P(X=999)=0.3642
  P(X=1001)=0.1240
  P(X<998)=0.0381
  P(X>1002)=0.0032
  五、总结
  
从推理和试验表明,这种将大区域划分为小的子区,子区经过进位处理后,累加起来的和数是一个随机量,符合近似的正态分布。最后和数与大区域的整数面积不相等的可能性还是相当大的,文章的试验中这种可能性达到1-0.4005=0.5995。
  误差的大小的取值范围取决于划分的子区的数量。
  这里需要强调的一点,往往我们直观的判断,在上述的面积统计过程中,每个子区的小数部分向前进位和被舍弃的可能性是相等的,但事实上,被舍弃的概率要略大于进位的概率。
  文章只讨论了在整数上进位的情况,实际应用可能是保留两位小数,或者以亩为单位,保留3位小数等方式。但这些方式与文章讨论的内容是类似的,我们都可以参照本篇文章的方法来进行分析。

第一作者简介:黎展荣,工程师,博士生。现从事遥感和地理信息系统研究工作。
       籍贯,广西宾阳。Email:123win@126.com

参 考 文 献
[1] 现代数学手册编纂委员会.现代数学手册.武汉:华中科技大学出版社 2001
[2] 季夜眉、吴大贤、等.概率与数理统计.北京:电子工业出版社 2001
[3] 姜启源、邢文训、谢金星、杨顶辉.大学数学试验.北京:清华大学出版社 2004
[4] 罗光莲、廖铁军、周章银.建立土地利用现状数据库过程中的面积误差分析.西南农业大学学报,Vo1.25,No.1.2003

地址:广西南宁市建政路5号  邮编:530023  Tel:0771-5606397  Email:webmaster@digitalgx.com
广西基础地理信息中心版权所有 2005-2010 广西基础地理信息中心制作