一种新的汉字字频统计方法①②游荣彦华南师范大学计算机科学系广州510631【摘要】本文用 误差估计方法,在给定误差限和置信概率的条件下,解出了汉字字频统计的抽样规模,解出了一种 汉字字频统计的抽样规模,提出了一种汉字字频统计的新方法,该方法中所定义的汉字的统计频率 具有统计学上的无偏性且较之以前方法具有更小的方差,因而是汉字的使用频率的一种更为精确的 估计。关键词:使用频率统计频率抽样规模置信概率无偏性有效性一、前言我国分别在70年代和 80年代作过两次规模较大的汉字字频统计,第一次由手工进行且样本选取不尽合理,故所得的字 频统计值不够精确[1],第二次以北京航空学院(现为航天大学)牵头,多单位合作,使用了计 算机处理,借鉴了第一次字频统计的经验,所得的数据较为准确,具有相当的权威性。但是第二次 较大规模的字频统计在方法上也并非是尽善尽美的,似乎还存在别的更好的方法。从那时至今,十 年过去了,我国的面貌发了很大的变化,经济的发展,科技的进步,人民在观念方面的变化等等因 素,都促使字频渐渐作了改变,这种改变是微量的,缓慢的,但积累到一定程度,就是不可忽略的 了。虽然我们没有足够的证据断言有必要马上再作一次大规模的汉字字频统计,但可以相信,这只 不过是早晚的事。汉字字频分析是中文信息处理其中一项重要内容。社会是变化向前的,字频也会 随之而变,因此任何一次字频统计都不可能是一劳永逸的。一次大规模的字频统计要耗费大量时间 、人力和物力,决策者与参予人都应抱有谨慎和科学的态度,从抽样方案及实施细节以至到数据的 计算机处理等等问题,都应尽量做得合理。本文探讨在规定精度要求之下,如何决定字频统计的抽 样规模问题,此外还借助于全概率的思想,对一个汉字的使用频率作出另一种定义,并由此而提出 一种新的抽样方法,最后还证明了这种分类抽样的方法能提高字频统计值的精度。二、汉字的统计 频度与抽样规模的确定众所周知,中文是一个基于大字符集的语言系统,每个汉字都是该系统中的 一个基本字符,所有汉字字符的总量超过6万。使用汉字表示信息时,各个汉字被使用的机会参差 不等,有的机会很大(例如“的”字和“是”字),有的机会较大,有的机会一般,有的机会较小 ,还有的机会甚微(例如一些仅用作姓氏的字和一些将要成“死字”的字)。每个汉字被使用的机 会的大小由词法、语法和文化习惯以及社会环境所支配,是由客观所决定的量,这就是所谓的汉字
使用频率。但汉字的使用频率是无法确切掌握的,因此只能借助于统计的方法予以估计。由统计方 法估算出的使用频率值有时也称为流通频率,本文将按数理统计的习惯称为统计频率。我们没有能 力也没有必要统计每个汉字的统计频率。有意义的工作是在6万多汉字中,首先选出7~8千个令 各个领域都基本够用的汉字,然后再对这些汉字进行字频统计。以合理的方法选取了含N个汉字的 文字资料,这N个汉字构成了一组样本,N称为样本容量,也叫做抽样规模。以α表示一个特定的 汉字,设它的使用频率为P,上文指出,P值无法准确掌握而有待于估计。以Χ表示汉字α在N个 汉字中出现的次数,由概率论知,可以把Χ看作为一个随机变量,并且Χ服从于参数为N和P的二 项分布:Χ~B(N,P)[2],汉字α的统计频率就定义为ΧN[3],它也是一个随机变量 ,由大数定律知,当抽样规模N趋于无穷大,ΧN依概率收敛于汉字γ的使用频率P。但实际上, 抽样规模N不可能趋于无穷大,N必须是有限的,有待决定的,决定N值要同时兼顾两个相悖的要 求:为了让统计频率ΧN尽量接近使用频率P,应该让N尽量大;为了节省时间、人力和物力资源 ,应该尽量令N不那么大。设正数δ<1为一个给定的误差允许值,因为ΧN为一个随机变量,不 能要求它与p的绝对误差|ΧN-p|<δ永远成立。我们只能要求有很大的概率成立|ΧN-p |<δ这一误差要求。设O<q<1表示较大的概率值,于是我们实际上是要求PΧN-p<δ{ }≥q(1)决定抽样规模的问题的数学本质是,在给定允许误差δ和置信概率q的条件下,求出 上式的N的下界值。求解过程简介如下:随机变量Χ的数学期望E(Χ)=NP,方差D(Χ)= NP(1-p),作为汉字α的统计频率ΧN也是一个随机变量,根据概率论的有关理论,随机变 量ΧN的数学期望和方差分别是E(ΧN)=1NE(Χ)=p,D(ΧN)=1N2D(X)= 1Np(1-p)以上表明以统计频率ΧN估计使用频率p时,具有无偏性,因此以前所用的估计 方法是合理的(但下节指出,不是最优的);此外还表明,抽样规模N越大,ΧN的方差越小,围 绕P的平均变化幅度就越小。对汉字的字频统计已有以下的共识:第一,抽样规模N不应小于50 万;第二,资料的选取尽量保证独立性。根据中心极限定理可以认为Χ/N-pP(1-p)/N ~N(0,1)(2)此处N(0,1)为标准正态随机变量的记号,已有专门的标准正态分布表 就不同的x>0值供人查出标差正态随机变量落在区间(-10,X)中的值Ф(x)。对于某个 负数a,利用标准正态随机变量的性质可得Ф(a)=1-Ф(|a|)=1-Ф(-a),因此 标准正态随机变量落在区间(-x,x)的概率为Ф(x)-Ф(-x)=2Ф(x)-1(3) 注意反映误差要求的(1)式等价于下面各式:P|ΧN-p|p(1-p)N<Np-(1-p )≥q,P-δNp-(1-p)<ΧN-pp(1-p)N<δNp-(1-p)≥q,根据( 2)式,上式不等号左边是标准正态随机变量落在区间(-δN/p(1-p),δN/p(1- p))的概率,再根据(3)式,上式等价于2Ф(δNp(1-p))-1≥q,即Ф(δNp (1-p))≥1+q2。(4)对已知数(1+q)/2,可在标准正态分布表中查出Ф-1( 1+q2),因而(4)式又相当于δNp(1-p)≥Ф-1(1+q2)由此得到满足误差要 求(1)的抽样规模N的解为N≥p(1-p)δ2[Ф-11+q2]2(5)英文中的最高字 频值与最低字频值之比为145。但汉字字符集庞大无比,由人的认识能力与信息多样化决定了汉 字的最高频与极端低频值之比将会更大,经推算表明,此比值会超过5000。在字频值相差数千 倍的情况下,企图对一切汉字使用同一个误差允许值δ是不合理的。对字频值低的汉字应该把误差 允许值δ取得更小,这样才不会或不易导致今后按字频排序时的乱序现象。为此应该令δ=βp, 此处β为介于0与1之间的小数,β的值越小,表示要求的精度越高,不失一般性,在此取β=1 2,于是误差要求(1)就化作Pp2<ΧN<32p{}≥q这表示统计频率ΧN有很大的概率 与使用频率p的差异不超过p的一半,能定量地达到这一要求,特别是能对低频字达到这一要求, 应该是很理想的,选定某类低频字的估计频率(不必太准确)p0,则(5)式中的δ=12p0 ,于是得到由(5)式导出的抽样规模N≥4(1-p0)p0[Ф-1(1+q2)]2(6) 三、例子·相对误差的讨论参考已有的字频资料,《新华字典》所收入的8,000多个汉字中, 有一半汉字的字频值都低于26×10-6。令取p0=26×10-6,分别取置信概率q =09,095,099,按(6)式可算出下表q090095099Ф-1(1 +q2)165196258N≥41×10659×106102×106[4] 认为,若只关心常用字与通用字,N=106是大体足够的,但由本节算出的结果,无论按哪个置 信概率算,N=106的抽样规模是远不足够的。本文所列的表仅能作为例子,在真的作大规模的 字频统计时,应该至少顾及到前5,000个汉字的字频的统计值的可信程度,此时应该把(6) 式的P0值取得更小,从而推出抽样规模N更大,抽样规模由允许误差和置信概率所决定。统计频 率ΧN用以估计使用频率p的,ΧN-p是估计的绝对误差,而估计的相对误差则是ΧN-p/p ,当选定p0之后,δ=12p0,此时(1)式变为PΧNp0{}≥q此处q仍是给定的置信 概率,而p与(1)式的意义不同,它不再是某特定汉字的字频,而是可以是任一汉字的使用频率 ,上式等价于PΧN-pp<p02p{}≥q(7)这是研究所有选入汉字的统计频率的相对误 差的公式,设q=095,p0如前选为26×10-6,则对于字频为26×10-6类 别的汉字,它们所得的统计频率的相对误差有95%的机会保证在50%的范围内,例如对于最高 频的“的”字,尽管在统计前我们不知道它的真正使用频率p的值,不过可以根据以往的资料或目 前的数据粗略地估计而确定其使用频率p≥3×10-2,当获得“的”字的统计频率以后,根据 (7)式,我们可以下这样的结论:按最保守的估计,有95%的把握保证“的”字的相对误差不 超过p0/2p≤26×10-6/2×3×10-2=43×10-9(十亿分之43) 根据(7)式可得结论:使用频率越大的汉字的统计频率的相对误差越小。四、一种新的统计频率 一个汉字的统计频率本质上是该汉字的使用频率的估计。估计方法常常不唯一,第2节所述的只是 其中的一种,我们已指出,这种方法使统计频率对于使用频率具有无偏性,因此是合理的。在此提 出一种新的统计频率,它首先也具有无偏性,此外它还具有更小的方差;数理统计理论已表明,同 具无偏性的两个估计量,方差小者更能集中于被估量(此处是不能确切获知的使用频率)附近,因 此更为有效[5],于是本节提出的统计频率优于统计频率ΧN。我们可以把信息分为若干个类别 ,例如政治、军事、经济、文化、科技……姑且认为已分为l个类别,从社会宏观角度看,在一个较长的时期内,使用和用汉字表示各类信息的概率是由社会状况客观决定的,并且是稳定的,设各个概率值分别为p1,p2,…,pn,这组值构成一个概率向量;pi>0,ipi=1,i=1,…,l这l个客观存在的概率值虽然无法确切获知,但l值不会太大,充其量也仅为数十,
More reviews about the 一种新的汉字字频统计方法