聚类分析(cluster analysis)又称为集群分析、点群分析、簇分析等〔1〕。该多变量分析方法根据实际的需 要和聚类对象是样品还是变量,可分为两种类型,一种是对样品聚类(称为Q-型聚类),另一种 是对变量聚类(称为R-型聚类)〔2,3〕。在数学上,又可根据不同的聚类思想和策略,分为系统聚类(hierarchicalcluster-ing method)和非系统聚类(nonhierarchical clusteringmethod)两大类;前者主要分为集结法(agglomerativemethod)及分解法(divisive method)。对于样品聚类,当聚类对象很多时,若采用系统聚类法,则计算量很大,统计软件 也需要计算很长时间,而且作出的聚类图(SPSS软件中为Dendrogram图或Icicle图)很复杂,难以解释,这时,我们可采用动态聚类法,也称为快速聚类法(quickcluster)来实现。本研究应用快速聚类法,利用SPSS12·0软件中K-means Cluster过程,对用于治疗慢性胃炎的汉代著名方剂半夏泻心汤的临床用药量进行了分析。资 料与方法1·资料的收集采用复方治疗,是中医治病的特色。半夏泻心汤是中医临床应用中一首重 要的方剂,也是现代研究中的热点方剂之一,主要用于消化系统疾病的治疗〔4〕。该方原载于汉 代医书,有半夏、黄连、黄芩、干姜、党参、大枣、甘草七味中药组成(汉代原著中记载,党参为 人参,现代临床大都用党参代人参)〔5〕,这七味中药组成的复方,在中医临床上治疗相应的病 证时,往往用药量的组合不一。有的案例中,黄连、黄芩用量大,有的案例中则其他中药用量高, 为了分析该方中七味中药用量在临床应用中是如何变化的,我们从1979年至2002年的半夏 泻心汤临床治疗性文献中,搜集了189个用半夏泻心汤治疗的临床案例,对其七味中药的用药组 合进行了分析。这189个案例中七味中药最小用药量、最大用药量及平均用药量见表1。2·统 计方法我们应用统计软件包SPSS12·0对189个案例进行快速聚类分析。首先,根据中医 理论及老中医临床用药经验,确定四个初始类中心,分别为Ⅰ类:用药剂量组合为汉代原书《伤寒 论》中原方比例(半夏∶黄芩∶干姜∶人参∶甘草∶黄连∶大枣=3·2∶3∶3∶3∶3∶1∶ 2)3倍〔6〕,党参用量采用案例中出现频率最高的药物剂量,即15克;Ⅱ类:是加大了黄连 、黄芩两味清热药的用量在全方中的比例;Ⅲ类:是加大了党参、大枣和甘草三味以补益脾胃为主 的中药的用量;Ⅳ类:用药量普遍为低剂量(如表2所示)。并将以上的初始类中心,输入SPS S中,建立SPSS数据库并保存为扩展名为·sav数据文件。表1189个案例中半夏泻心汤 七味中药的平均用药量半夏泻心汤组成-x±SD(g)最小量(g)最大量(g)半夏10·9 7±3·103·030干姜6·36±3·532·030黄连6·44±2·961·012 黄芩8·98±3·141·015党参12·44±5·835·030炙甘草5·45±3· 121·018大枣8·02±7·652·530表2初始类中心的制定表(克)中药初始类中 心Ⅰ类Ⅱ类Ⅲ类Ⅳ类半夏9·610·010·06·8干姜9·05·05·04·3黄连3· 012·06·02·7黄芩9·016·010·03·7党参15·010·030·08· 1甘草9·05·015·03·2大枣6·010·030·02·9然后,将189个临床应用案例所使用的七味中药的用药量输入SPSS12·0软件中,采用Analyze→Clas-sify→K-MeanCluster进行动态聚类分析〔7,8〕。在分析时,注意要指定并读入初始类中心,即可从刚 才建立的数据库中读入,否则计算机会自动指定初始类中心。结果与分析聚成四类后,Ⅰ、Ⅱ、Ⅲ 、Ⅳ类的样本量依次为:60、84、10、35。表3显示了最终分类结果:每类中每种中药的 平均用药量,其中Ⅰ类、Ⅱ类为一般用量,占病案数比例大部分(76·2%),在这两类中黄芩 、黄连、半夏用量与补益药比较相对较大,可以认为以和降胃气、清热燥湿为主,但两类间仍有细 微差别,I类中大枣的用量极低,平均为0·4克,而II为13·2克,这显示了II类的组方 ,其补益脾胃之气作用较强;Ⅲ类中药物用量普遍较大,但以半夏和补益脾胃药为主;Ⅳ类各药物 用量一致偏低,是否可以认为是低年龄病人或成人中半夏泻心汤证病情较轻者的用量;另外七味中 药在聚类过程中,对分类都有影响(P<0·01)。图1清晰地显示了以上各类七味药物的变化 规律。表3最终聚成四类及各类药物的平均用量(克)中药最终分类结果Ⅰ类Ⅱ类Ⅲ类Ⅳ类半夏* 11·111·416·08·2干姜*6·26·89·54·6黄连*7·86·28·14 ·2黄芩*9·49·312·06·5党参*14·012·524·56·3甘草*5·65 ·77·44·0大枣*0·813·214·33·4*:P<0·01。图1四类病案中半夏 泻心汤各味药的平均剂量变化的曲线表4显示了Ⅰ、Ⅱ、Ⅲ、Ⅳ四类病人中小于或等于12岁的年 龄构成,其中第Ⅳ类中小于12岁的年龄构成比其他类高得多,P<0·01,说明了第Ⅳ类低剂 量组,以低年龄病人为主,这符合中医临床实际。表4四类病案中年龄构成表最终分类年龄分组≤ 12岁(%)>12岁(%)Ⅰ类2(3·3)58(96·7)Ⅱ类2(2·4)82(97· 6)Ⅲ类0(0)10(100)Ⅳ类13(37·1)22(62·9)Fisher精确概率 法:P<0·01。讨论当作为聚类对象样品数量很大时,我们采用动态聚类法,对中医临床治疗 相应病证的复方中的中草药配伍规律进行了研究,在初始类中心的制定上,我们主要从专业上考虑 如何合理分类,同时结合只分类在软件中进行2类、3类、4类、5类的初步探索性聚类分析基础 上,最终确定四类,并给出初始类中心。在聚类分析过程中,我们还利用SPSS软件,对采用制 定四类初始类中心的经验分类法进行聚类所得的结果,和只分四类但不给出初始类中心,在SPS S软件中让其自动聚类,并对两种方法聚类分析结果进行比较,最后显示只要在聚类分析过程中迭 代次数足够大时,最终分类结果基本是一致的。这提示在以后的分析过程,当类间的界限较清晰时 ,我们可以根据专业知识和数据探索性分析确定大概分几类即可,不必一定要制定初始类中心,有 时初始类中心不易给定,可以让计算机自动搜索确定,只要迭代次数足够大时,结果几乎一致。在 SPSS操作中,可以设定迭代收敛标准(Convergencecriterion),但必 须大于0且小于1,如设定可为0·0001,软件的最大迭代次数限定为999〔7〕,根据收敛速度选择一个合适的迭代次数,软件默认迭代次数为10,往往偏小。SPSS菜单中K-meansCluster过程,是非系统聚类法中最常用的K-平均值法(K-means clustering),也称为逐步聚类法〔7〕,可对样品进行快速聚类,但必须知道明确所需 分出的类别,软件计算量小,可节约计算时间,因此能有效的处理多变量大样本资料,而不必担心 电脑死机。但该方法选择必须对分几类,事先要清楚,且大多用于样品聚类,资料类型必须是连续型变量,如果是分类变量必须选择系统聚类程序(hierarchi-calcluster analysis procedure),而且对变量的多元正态性、方差齐性要求较严格,因此该方法的应用范围受到一定的限制〔8-10〕,其样品间的接近程度是基于简单的欧氏距离(si mple euclidean distance)。在SPSS中聚类分析以后,还可对每一类的性质加以描述,软件会输出每一 类的算术平均数及标准差,并给出平均数的复式线性(或称轮廓图),使结论更加清晰。用该程序 聚类分析中,还有两个值得注意的问题:一是要慎重选择分类的变量,采用不同的分类标准,就会 产生不同的分类结果,因此在进行聚类分析之前,应先根据分析目的从专业上考虑该使用什么变量 当分类的依据;二是当变量的单位不一样时,一般要求进行标准化,聚类分析是根据变量来计算样 品间的相似或相异性,变量单位不一致,可能造成偏差,因此在分析过程中,可以先将变量分别加 以标准化,使其具有共同的单位,以避免不相等的加权;但是标准化的方法仍应留意,一般统计软 件标准化的方法是将所有样品视为一组进行标化,然而,多数统计学者则建议分类后的组别(下转 第67页)(下转第64页)为单位加以标化,这往往不切实际,也有学者建议先以原始资料分类 ,确定组别后,再分组标化;此外,也有部分软件提供了Mahalanobis距离(SAS、 SPSS没有提供),以将变量间单位差异加以消除,Mahalanobis距离所用的协方差 矩阵也有不同的考虑,一般采用合并组内的协方差矩阵较多,但是,其面临的困境也是和上面标准 化的过程相同。标准化也有可能使本来非常重要的变量丧失其重要性。因此,要不要标准化,仍须 考虑实际分析状况而定〔7,11〕。以上结果分四类时专业上能得到很好的解释,但当为三分类 时,小剂量组将消失,当分为五类时,119号样品将单独作为新的一类,这一特殊案例,干姜用 量相对于其他药物而言用量特别大,为30克,从中医理论上可以解释为这一病例比较特殊,可能 脾阳虚较重,故加大干姜用量来温脾阳。总之,通过以上的聚类分析,我们发现半夏泻心汤七味中 药在临床应用中,实际上每味中药的药量是有变化的,但这种变化是有规律的,有的药物组合以清 热作用为主,有的补益药为主,有的则清热补益并重,有的则药量偏小,这些不同的药物组合适用 于中医不同证候特征和病人群体,即有的病人胃热较重,则以清热为主,有的病人以脾胃虚为主,则以补益脾胃为主,而对于低年龄病人,则用药量又宜减量;这符合中医辨证论治独特的个体化
More abstracts about the 动态聚类分析在中医方剂药量组合规律中的应用