Shvoong首页 > 艺术和人文学科 > 汉字的信息量大不利于中文信息处理——再谈汉字的熵

.

汉字的信息量大不利于中文信息处理——再谈汉字的熵

Summary by : TsingHua
浏览次数 : 21  词语: 300   出版日期: 三月 10, 1994
几年前我曾写过一篇文章叫做《汉字的随着汉宇容量的增加而增加,当统计样本中的嫡》。这篇文章 主要解决了下面两个问题。汉字容量达到12366个字时,包含在一个汉字第一,提出了“汉字 容量极限定律”。汉字总中的摘就不再增加了。这意味着,在测定汉字的数近六万个,要测定在汉 语书面语中包含在一嫡时,统计样本中的汉字的容量是有极限的,这个汉字中的摘,其计算是十分 繁复的。近20年个极限值就是12366,超出这个极限植,测出的来,国外学者已经陆续地测 出了一些使用拼音汉字的摘再也不会增加了。文字的语言如英语、法语、德语、俄语、意大利例如 戊康熙字典》收汉字47035个,用以测语、西班牙语、罗马尼亚语等包含在一个字母中定汉字 摘的最大汉字容量仅仅为12366个,其的摘。这些语言使用的字母数目非常有限,如俄余34 669个汉字,对于测定汉字中的摘已经没语只有32个字母,英语只有26个字母,要测出有影 响了,完全没有必要再继续扩大汉字容量这些语言中包含在一个字母中的嫡是比较容易进行测定; 再扩大汉字容量,只会造成毫无价值的,而要测出包含在一个汉字中的炳就困难得的浪费,是徒劳 无益的。多。“汉字容量极限定律”在理论上给汉字摘的我根据大量的统计材料发现,尽管在统计 测定奠定了基础,使得汉字嫡的测定工作的难样本中常用汉字的出现概率不尽相同,但随着度大大 地减少了。统计样本中汉宇容量的增大,样本中常用汉字第二,根据“汉字容量极限定律”,我在 的出现概率逐渐趋于稳定,不会再有明显的增12370个汉字容量的范围内,测出了包含在一大 ,因而包含在一个汉字中的摘也会增加得越个汉字中的摘为9.65比特。因此得出结论:从来越 迟缓。汉语书面语文章的总体来考虑,在浩如烟海的根据统计材料我又发现,汉语书面语中的全部 现代汉语书面文章中,包含在一个汉字中非常用汉字虽多,但它们的出现概率极低,随着的摘为9 .65比特。统计样本中汉字容量的增大,这些非常用汉字这个嫡的值,比之于采用拼音文字的语 言的出现概率还会有所减小,因而包含在一个汉包含在一个字母中的摘要大得多。法语的嫡为字中 的嫡也就会有所减小。而此时随着统计样3.98比特,意大利语的摘为4.00比特,西班牙本 中汉字容量的增大,样本中又增加了一些新语的摘为4.01比特,英语的嫡为4.03比特,德 的非常用字,从而使包含在一个汉字中的嫡有语的摘为4.10比特,罗马尼亚语的嫡为4.12 所增加,这便补偿了由于原来那些非常用汉字比特,俄语的嫡为4.35比特,而汉字的嫡为的出 现概率减少而减小的摘,使得从总体上看,9.65比特,等于使用拼音文字的语言的摘的两包含 在一个汉字中的嫡变动不大。倍多,可以说是独占鳌头。我使用严格的数学方法,证明了当统计样 嫡是反映语言数学面貌的一个重要的信息本的汉字容量不大时,包含在一个汉字中的嫡论参数。在 与汉语有关的通信技术和中文信息处理中,有必要测定汉字的嫡,这样才能做到胸一个汉字中所包 含的信息量是9·65比特。汉字中有数,把这些工作搞得更好。的嫡值大,说明汉字中所包含的 信息量大。从信息论的角度看来,用自然语言交际的现代信息论的创始人、美国著名数学家商过程 ,就是把信息通过语言的发送者发送出来,农(G.E.Shannon)曾经提出了“商农信道 编码通过通讯媒介,传输给语言的接收者的过程。语定理”。这个定理指出,在一个非扩展的无记 忆言的发送者连续地发出一个一个的语言符号,信源中,用二进制代码表示的码字的长度不能而语 言的接收者则连续地接收到一个一个的语小于信源的嫡。汉字的摘值大,其相应的二进制言符号。 如果我们把这些语言符号的发送或接码字的平均长度也就很大,即使是一个最优的收看成是一些随 机试验,把所发送或接收的语信道编码系统,其二进制码字的平均长度至少言符号看成是随机试验 的结局,那么,语言就可也应与汉字的嫡值相等,这就必然要影响到通以看作是一系列具有不同随 机试验结局的链。讯的效率。从这个意义上说,汉字的嫡值大对于如果语言中只有两个符号,而且 这两个符信道编码是不利的。号的出现概率有很大的区别,那么,在接收者接在中文信息处理中, 汉字的摘值大,也给它收到语言符号之前,他就能够满有把握地预言,在计算机上的输出和输入带 来很大的困难。尽他最可能接收到哪一个符号,而不大可能接收管现在汉字在计算机输出和输入已 经不成问到哪个符号,也就是说,这个随机试验的不肯定题,但汉字输出输入的效率比之于拼音字 母的性程度很小。而当语言的符号数目增大时,接收输出输入效率要差得多。中文信息处理不仅仅 者预言他所可能接收到的语言符号的把握性就只是进行汉字的输出和输入,还要开发人机对减小, 也就是说,这个随机试验的不肯定性程度话、机器翻译、中文自然语言理解等高技术的智增大了。 当还是这些数目的语言符号而这些符能系统,这些工作必须编写大量的程序。如果用号的出现概率 相等的时候,接收者不能对其中汉字来编写计算机程序,而不用拉丁字母来编的任何一个语言符号 寄予较多或较少的希望,写程序,这样的程序的运行效率肯定是不会很这样预言他所可能接收到的 语言符号的把握就高的。从这个意义上说,汉字的嫡值大对于中文更小,也就是说,这个随机试验 的不肯定性程度信息处理也是不利的。更大了。但是,不论在哪一种场合,当接收者一应该说明的 是,我们所说的“汉字中所包含旦接收到语言符号之后,这种不肯定性便随之的信息量大”,完全 是从信息论的角度来说的,消除。这时,我们可以说,接收者从所接收的语我们不希望对这个信息 论上的科学结论望文生言符号中获得了一定量的信息。不肯定性消除义地随便加以引申。比如,根 据“汉字的信息量的程度越大,获得的信息就越多。因此,我们可大”就随便引申出“汉字优越论 ”,等等。对科学以用在接收者接收到语言符号之前,随机试验结论的随意弓呻,可能会导致谬误 。这样的事情结局不肯定性程度的大小来表示语言符号所负在科学史上屡见不鲜,我们应该引以为 训。荷的信息量。另外,我们在上文中只是把汉字的摘同拼在信息论中,把随机试验结局不肯定性 程音文字的字母的摘作了类比,事实上,作为语言度的大小叫做墒。在接收到语言符号之前,嫡因 中负荷信息的单位而言,汉字这个单位显然比语言符号数目的多少和出现概率的不同而不拼音文字 中的字母这样的单位大得多,汉字似同;在接收到语言符号之后,不肯定性消除,嫡乎相当于拼音 文字中的语素。如果把汉字的嫡等于零。可见,信息量恰恰等于被消除的摘,我与拼音文字中语素 的嫡相类比,我估计不会悬们只要测出了语言符号的嫡,就可以了解到该殊很大。有兴趣的读者不 妨测定一下英语或法语言符号所负荷的信息量是多少。我们测出包语中包含在语素中的嫡,必然会 得出更加科学含在一个汉字中的摘是9.65比特,也就说明在的结论来。汉字的信息量大不利于 中文信息处理——再谈汉字的熵@冯志伟<正>几年前我曾写过一篇文章叫做《汉字的熵》.这篇 文章主要解决了下面两个问题.第一,提出了“汉字容量极限定律”.汉字总数近六万个,要测定 在汉语书面语中包含在一个汉字中的熵,其计算是十分繁复的.近20年来,国外学者已经陆续地 测出了一些使用拼音文字的语言如英语、法语、德语、俄语、意大利语、西班牙语、罗马尼亚语等 包含在一个字母中的熵.这些语言使用的字母数目非常有限,如俄语只有32个字母,英语只有2 6个字母,要测出这些语言中包含在一个字母中的熵是比较容易的,而要测出包含在一个汉字中的 熵就困难得多.文更小,也就是说,这个随机试验的不肯定性程度信息处理也是不利的。更大了。 但是,不论在哪一种场合,当接收者一应该说明的是,我们所说的“汉字中所包含旦接收到语言符 号之后,这种不肯定性便随之的信息量大”,完全是从信息论的角度来说的,消除。这时,我们可 以说,接收者从所接收的语我们不希望对这个信息论上的科学结论望文生言符号中获得了一定量的 信息。不肯定性消除义地随便加以引申。比如,根据“汉字的信息量的程度越大,获得的信息就越 多。因此,我们可大”就随便引申出“汉字优越论”,等等。对科学以用在接收者接收到语言符号 之前,随机试验结论的随意弓呻,可能会导致谬误。这样的事情结局不肯定性程度的大小来表示语 言符号所负在科学史上屡见不鲜,我们应该引以为训。荷的信息量。另外,我们在上文中只是把汉 字的摘同拼在信息论中,把随机试验结局不肯定性程音文字的字母的摘作了类比,事实上,作为语 言度的大小叫做墒。在接收到语言符号之前,嫡因中负荷信息的单位而言,汉字这个单位显然比语 言符号数目的多少和出现概率的不同而不拼音文字中的字母这样的单位大得多,汉字似同;在接收 到语言符号之后,不肯定性消除,嫡乎相当于拼音文字中的语素。如果把汉字的嫡等于零。可见, 信息量恰恰等于被消除的摘,我与拼音文字中语素的嫡相类比,我估计不会悬们只要测出了语言符 号的嫡,就可以了解到该殊很大。有兴趣的读者不妨测定一下英语或法语言符号所负荷的信息量是 多少。我们测出包语中包含在语素中的嫡,必然会得出更加科学含在一个汉字中的摘是9.65比 特,也就说明在的结论来。汉字的信息量大不利于中文信息处理——再谈汉字的熵@冯志伟<正> 几年前我曾写过一篇文章叫做《汉字的熵》.这篇文章主要解决了下面两个问题.第一,提出了“ 汉字容量极限定律”.汉字总数近六万个,要测定在汉语书面语中包含在一个汉字中的熵,其计算 是十分繁复的.近20年来,国外学者已经陆续地测出了一些使用拼音文字的语言如英语、法语、德语、俄语、意大利语、西班牙语、罗马尼亚语等包含在一个字母中的熵.这些语言使用的字母数目非常有限,如俄语只有32个字母,英语只有26个字母,要测出这些语言中包含在一个字母中的熵是比较容易的,而要测出包含在一个汉字中的熵就困难得多.

More summaries about the 汉字的信息量大不利于中文信息处理——再谈汉字的熵
请给本文打分 : 1 2 3 4 5


评论

Read Free Summaries - Write and Get Paid

Summarize Human Knowledge on Shvoong. Join us!

------