您现在的位置:首页 > 教育学 >

北京大学社会学系20周年系庆系列讲座之六-北大未名BBS


北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
北京大学社会学系建系 20 周年学术活动月
系列讲座之(六) 谢宇教授方法论系列讲座(四)
主题:忽略变量偏差和生态学分析
Omitted-variable bias and ecological analysis
主讲:谢宇教授(美国密西根大学社会学系教授)
主持:马戎教授(北京大学社会学系主任,博士生导师)
时间:2002 年 10 月 28 日晚 7:00-9:00
地点:五四体育馆体教报告厅
马戎主任:今天谢宇教授给我们讲方法论的第四讲,希望大家在讲座期间尽量少走动,以保 持安静。好,下面我们用掌声欢迎谢宇教授。
谢宇教授:谢谢大家!这是方法论的第四讲,上一讲我把社会学方法的基本概念介绍了一下, 今天我先把上次没有讲完的抽样理论讲完,然后会讲到忽略变量偏差与生态学分析。首先我 们讲抽样设计,这些你们都已经学过了,我在这里只是给你们做一个简单的复习。第一个是 简单随机抽样。它实际上是一个很简单的操作,先给总体中的每一个元素一个数值,然后随 机地抽取一部分作为样本,这个过程经常是由计算机来操作的。这种方法与抽奖是一个道理, 简单是指每个元素被抽到的概率是一样的。第二种抽样方法是系统抽样或叫等距抽样,步骤 是先根据总体的规模和样本的规模计算抽样间距,然后对总体的所有元素进行排序,根据抽 样间距把总体分成等距的若干部分,在第一个部分中随机抽取一个元素,然后按照抽样间距 依次在每个部分中抽取一个元素,这些元素的集合就构成了样本。这种方法比简单随机抽样 还简单,但是使用这种方法时要注意一点,就是在对总体进行排列时,排列顺序不能与自然 排列有关,否则抽出来的样本就不具有代表性。
我要强调的一种抽样方法是分层抽样,分层抽样要比简单随机抽样和系统抽样更复杂。 但是任何方法都是有得有失的,付出的代价越多得到的回报也越多。分层抽样虽然复杂,但 是它有它的好处,它保证了抽出来的样本对某些重要特征的代表性。比如我们要抽取一个样 本容量为 100 人的样本,假如用简单随机抽样的话,就无法保证样本的性别比。如果我们的 研究需要保证男女性别比例相同的话,就要用分层抽样的方法。我们先把总体分成两个子总 体,在这个例子中就是先把男性和女性分成两个不同的子总体,然后在每个子总体中随机抽 取 50 个人,这样就保证了样本中男女性别比为 1:1。这种抽样方法的应用很广,在研究不 同种族、不同地区、贫富差距等问题时,我们都可以用这个方法来进行抽样。有了分层抽样 的基础就可以作过度抽样。过度抽样是指当子总体比例不一致时,在一个子总体中抽样多, 在另一个子总体中抽样少,目的是使样本比例平衡或达到我们想要的比例,因为在总体中它 们的比例是不平衡的。比如研究贫困问题,贫困的人在总人口中是少数,如果我们要保证样
1

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
本中有相对平衡的贫困人和非贫困人,相对于贫困人的子总体而言,我们抽取的贫困人的概 率就要比在非贫困人子总体中抽取相应数量的样本的概率更大。这种方法还可以用于民族之 间的比较研究。比如汉族人口占中国人口的绝大多数,我们在抽样时可以用过度抽样的方法, 增加少数民族样本的人数,使各个组的比例比较平衡,这样就可以增加样本中任何一组的代 表性。分层抽样的应用很多,比如在美国做研究时要分成南方和北方,在中国分成城市和农 村,都是为了保证样本的代表性。
整群抽样与分层抽样是相对应的,它从经济的角度考虑,是为了省钱。但是要省钱就要 付出代价,整群抽样抽取的数据质量不高。比如我们对北大学生的经历很感兴趣,在抽样时, 非常经济的一种方法就是去随机抽取一个班级,这个班级的所有个体都进入样本,然后对他 们进行研究。因此整群抽样是把总体分成不同的组,然后以组为单位进行随机抽取,抽到的 组中的所有元素都进入样本。它跟分层抽样不同,分层抽样是先把总体有目的地分成不同的 子总体,然后在每一个子总体中随机抽取样本,这样就保证了样本的代表性,相比之下整群 抽样得到的数据的质量就不高。但是整群抽样比较实用,比如你要做一个乡村研究,你不可 能在全国各地都抽取一个村庄进行研究,而只能进行整群抽样,虽然样本质量不高,但比较 方便,也比较经济。整群抽样获得的样本的有效性较低,因为整群抽样抽得的样本的内部相 似性强,致使可用的样本数量降低。为了使整群抽样做得比较好,我们要假设各个群体之间 没有很大的差别;假如这个假设不成立,抽取的样本比简单随机抽样有效性低。比如就刚才 那个北大的例子,我们要使整群抽样做得比较好,就假设北大学生在班级与班级之间没有很 大的差别。他们的知识面、家庭经济条件、朋友关系程度等都比较相似。如果这个假设成立 的话,一个班与另一个班没有很大的差别,这时整群抽样就不会造成有效性的大幅降低,假 如班级与班级之间差别很大,那么整群抽样得到的样本的有效性就会很大丧失,这个问题我 在后面还会讲到。一般来说,整群抽样只会降低有效性,而不会增加有效性,降低多少,要 看具体的问题。
我现在更系统地来讲这个事情,探讨一下样本统计量中方差的来源。一个来源是总体差 异,一个总体中的各个元素之间是有差异的,总体差异是各元素之间差异的总和。我第一讲 讲的就是社会现象之间有差异性,而且这种差异性是必然存在的,我们社会学研究侧重对这 种差异的研究。我们之所以要抽样,就是因为总体内部各元素之间有差异,如果社会现象之 间没有差异的话我们就没必要抽样了。我第一讲讲过社会科学与自然科学的区别就在于社会 科学所研究的社会现象有差异,而自然科学可以通过一个典型现象得到真理性的规律,从而 举一反三。社会科学就不行,它必须关注社会现实的总体,而总体内部是有差异的,这就要 求我们在做研究的时候要进行抽样,从样本来推测总体。既然总体内部有差异,那么哪一个 元素被选择,哪一个元素不被选中就会影响到样本,从而影响你最后得到的样本参数,具体 的说是因为总体中的各元素的某一变量值不同,导致了元素之间的差异。因此我们要进行抽 样,而抽样是一种随机选择,这种随机选择必然会造成另一种差异。因为你对不同元素的选 择会直接影响到样本统计值。
可见,样本统计量中方差的来源主要有两个,一个是总体差异,这种差异是客观存在的, 另一个是抽样差异,是在对样本进行选择时造成的差异,这种差异其实是由总体差异决定的, 因为如果总体之间不存在差异的话,我们就不需要抽样,也就不存在抽样差异。我们可以把 总体方差分解成两部分,即组间差异和组内差异。组间差异是指各组平均值之间的差异,比 如一个班级和另一个班级差在什么地方,就差在平均值。组内差异是同一组中各元素相对于 组平均值的差异。方差分析就是组间差异加上组内差异。组间差异大的时候组内差异就比较 小,而组内差异大的话,组间差异就会比较小。也就是内部异质性越大,外部同质性越强; 内部同质性越强,外部异质性越大。因此分层在这个地方就有很大的作用,我们在做抽样的
2

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
时候,通过分层就可以减少抽样方差,因为在对总体进行分层之后再抽样就控制了组间方差, 抽样方差就只是组内方差。如果组内元素同质性较强,组内方差也会比较小。各层之间的异 质性越强,层内同质性越强,分层得到的精度越大。因此,假如层与层之间差异很大,或者 层内部各元素较均匀的时候,我们使用分层抽样得到的效果就会很好。相反假如层与层之间 没有什么差异,我们做分层抽样就没有什么意义。比如我们做城乡差别的研究,就必须进行 分层抽样,因为中国的城乡之间存在很大差异。另外美国的南方和北方也要分层,它们在经 济上、文化上都存在很大差异,如果你不分层的话就会损失很大的精度。
通过分层抽样,我们就引出了设计效应。设计效应就是复杂样本设计的抽样方差与同样 规模的简单随机抽样的抽样方差的比值,它是一个比值。那么分层抽样的设计效应会大于 1 还是小于 1 呢?因为我们做分层抽样的时候控制了组间差异,这就使得分层抽样的方差会小 于简单随机抽样的方差,因此分层抽样的设计效应会小于 1,仅当各层之间无差异时分层抽 样的设计效应会等于 1。而整群抽样的设计效应增大抽样方差,因为整群抽样的样本有效性 较差,整群抽样的抽样方差会大于简单随机抽样的方差。因此,整群抽样的设计效应会大于 1,仅当各群之间无差异时,设计效应会等于 1,整群抽样才不降低抽样的效率。我们比较 一下分层抽样和整群抽样就能看到,假如层间异质性很强,层内同质性很强时,用分层抽样 的效果会比较好,精度会比较大。这种情况下如果用整群抽样的话,就会大大降低抽样的有 效性。以上就是抽样的部分,这部分我们就讲到这里。
下面我们转入另一题目:分析因果推论的潜在危险。从一定程度上来讲,这一部分是第 二个讲座有关因果推理的一个延伸,只是我们在这里加入了生态学分析。真正的因果关系是 很难找到的,它有几个潜在的危险:一个是伪相关;一个是表面上的时间顺序,你不要以为 知道了事情发生的前后顺序就能找到因果关系,发生在前面的不一定是原因,发生在后面的 也不一定是结果;另外一个是忽略变量偏差,这个我们在上一讲中也讲到过,在这里我还要 强调一下;第四个是样本选择性偏差,我刚刚讲完了样本选择的问题,因此我们要到现在才 来讲样本选择性的偏差。
我们先讲伪相关。A 和 B 之间有关系,但是这种相关是通过 C 来实现的,假如 A 和 B 的关系是由 C 造成的,那么 A 和 B 在表面上的因果关系就是伪相关。比如有人认为数学成 绩取决于语言能力,语言能力越强,数学成绩越好,这里就忽略了一个智力因素,智力水平 高的人语言能力强,数学成绩也好,因此语言能力与数学成绩的相关是通过智力因素来实现 的。语言能力与数学成绩之间的因果关系就是伪相关。第二个就是表面上的时间顺序。我曾 有幸和一位社会学大师 Duncan 进行过一次座谈,他对我讲,社会科学要找到真正的因果关 系是很难的。当时我就提出来是不是能够根据事情发展的前后顺序来寻找因果关系,在前的 是原因,在后的是结果,因此我们通过纵向研究就可以找到这种因果关系。他立刻提出了反 对意见,他举了一个例子,圣诞节前会有一个购物高潮,那么是圣诞节造成了这种购物高潮, 还是购物高潮造成了圣诞节?我一想,这确实很有道理。人的行为是有目的性的,这种目的 性促使我们去预测事物的发展方向,从而提前做好某些准备,这就导致了有些事情结果在前, 而原因在后。人们做很多事情是为了将来,而不是为了现在,因此我们要侧重从理论上对它 进行分析,找出真正的因果关系。第三个威胁到因果推论的因素是忽略变量偏差,这一点我 们前面讲过了,这里我再强调一下。忽略变量偏差的产生要有两个条件,一个是忽略的变量 要与因变量相关,另一个是忽略的变量要与重要的自变量相关。这两个条件都要成立,缺少 其中一个都不会造成忽略变量偏差,下面讲生态学分析的时候我会再讲到这两个条件。 问题:谢教授,我想问一下忽略变量偏差和前面的伪相关有什么区别吗?它们都是因为忽略 了一个中间变量而造成的。
3

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
谢教授:这个问题问得很好,从统计上来讲,它们之间是没有区别的。这四个因素是概念上 的区分,在本质上都是一样的,我只是根据比较传统的方法把它们区分出来,但是在统计学 意义上,它们是一样的。我这里把忽略变量偏差单独列出来,其实其他几个因素都可以看作 忽略变量偏差的一种表现形式,其实从统计学意义上而言,它们在本质上是一样的,只是表 现方式不一样。
我再举一个例子,比如北京有两家医院,一家非常好,有先进的设备,一流的医生,管 理和服务也特别好,另一家是很差的医院,设备陈旧,技术落后,医生水平一般等等。假如 你以哪个医院死的人少来衡量医院的好坏的话,就会出现忽略变量偏差,因为肯定是好的医 院死人多。死亡是与病情有关的,病情越严重,死亡率越高,另外,病情越严重越容易被送 到好医院,因为差的医院看不了,所以好医院死的人会比差医院要多。如果你忽略了病情这 个变量的话,就会造成忽略变量偏差而得出死人少的医院是好医院的结论,因为病情严重与 否与死亡有直接关系,另外病情的严重程度也会影响到对医院的选择。
第四个是抽样选择性偏差。假如你所得到的样本对总体没有很好的代表性,就会造成抽 样选择性偏差。比如有一个给予物理学研究生的奖学金,这个奖学金需考虑研究生入学考试 GRE 的三个部分:一个部分是语言,一个部分是数学,一个部分是分析。结果社会学家发 现这个奖学金给了语言能力好的人。为什么物理学的奖学金要由语言能力来决定?因为申请 这个奖学金的人都是数学和分析能力很强的人,他们的差异就在于语言能力。这个问题的关 键在于样本的选择性,假如他这个奖学金是面向所有同学的话,就不会出现这样的结果,而 这一样本是来自于读物理学的研究生,所以才出现这样一个抽样选择性偏差的问题。
接下来,我举另外一个例子,这是一个模型,叫 Willis-Rosen 模型,讲的是高等教育的 经济回报问题。他们认为有些人通过接受高等教育能够增加他们的生产能力,这些人如果不 让他们去读大学而是去从事体力劳动的话,他们创造不了多大的社会价值。另外有些人你让 他们去接受高等教育反而不如让他们去接受生活技能的训练,读大学对他们没有什么收益。 这就是两组不同的人,一组人不读大学要比读大学要好,另一组人读大学要比不读大学好, 如果你让这两种不同的人去做他们不擅长的事情,他们就不会有很大的发展空间。这就是一 种自我选择,高等教育的经济回报有的人高,有的人低,去读大学的人正是因为回报高才去 读,而没有去读大学的正是那些回报低的人,他们选择了另外一种适于他们工作并且回报高 的职业。因此高等教育的回报率是因人而异的,如果你在抽样的时候不考虑到这种差异,就 会出现抽样选择性偏差。
下面我们要切入今天的正题,就是生态学谬误。生态学谬误是这样一个错误:对于汇总 层次上的信息判断到组成这个汇总层次的低一级分析单位上,这就可能犯了生态学谬误。就 是你把高层次的信息、经验、发现应用到低层次的分析单位上,你就可能犯了一个错误,我 要强调这只是一种可能的错误,这种错误就叫生态学谬误。也就是说假如你利用汇总层次的 证据或事实,把这种证据或事实作为对个体的推理,而你的理论是建立在个人层次上,你就 可能犯了生态学谬误。我举一个例子,有两个班级,A 班和 B 班,A 班学生学某门课的平 均时间是 10 小时,平均成绩是 90 分;B 班学生学这门课的平均时间是 15 小时,而平均成 绩是 80,由此我们得出结论:虽然 A 班学生比 B 班学生花的时间少,但成绩比 B 班学生好, 因此学习时间和成绩是负相关的。这个结论对不对,哪个地方有问题?问题就出在你的理论 假设是在个人层面上,花多少时间学习是个人的事情,而你的结论是以班级为单位的,统计 数据也是在班级层面上,这两个不吻合,就有可能造成生态学谬误,所以不能由此得出学习 时间会对成绩造成负面效应的结论。这里可能的现象是在一个班级里面,就个人而言,学习 时间对成绩是正相关的,但是由于两个班级学习起点不同,智力水平不同,一个班级学生花 的时间少,但是成绩提高较快,另一个班级学生花的时间较多,但是成绩提高较慢。但你平
4

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
均了以后,在班级的单位上就是负面关系。这就是一个很经典的生态学谬误。 我们讲生态学谬误就必须讲到 Mr. Robinson,他是一个很有才华的社会学家。他在 1950
年发表了一篇论文,这篇文章已经成为一篇经典,我现在都常教导学生去读这篇文章。他在 这篇文章里提出了生态学谬误的问题。这篇文章引发了社会科学的一个危机,对他自己也产 生了一个危机,在他写完这篇文章后就决定歇笔了,为什么呢?因为 1950 年以前,所有的 数据都是汇总的数据,都是以地区为单位的,Robinson 就说假如我们社会科学的目的是要 了解人类的行为的话,这种汇总数据是不能用来推论人的行为的。人们为什么结婚,为什么 生育,为什么上学等等,假如我们要研究这些的话,用汇总的材料是办不到。因此 Robinson 在写了这篇文章后,就决定不再做研究了。
这是对社会学的一个很大的挑战,同时也给下一代人带来了机会,这就是“调查革命”。 “调查革命”的发起就是为了回应 Robinson 提出的挑战。在研究中,我们不用政府提供的 汇总材料,而去做个体和家庭的研究,收集个体层面上的资料。密西根大学社会学系在那个 时候做出了很大的贡献,不仅在理论上,也在实践上做了很多事情,这些我会在星期五的关 于美国社会和美国社会学的讲座中详细讲到。调查革命提出来要收集以个人为单位的数据, 这种单位要与你的理论层次相一致。你们没有经历过那段只有汇总数据的日子,当时所有社 会学研究用的都是政府提供的汇总数据,正是因为调查革命,才有了密西根大学社会学系的 兴起。我再讲的另外一个人叫 Gary King,他是哈佛大学的一位政治学家,他最近出了一本 关于生态学谬误的热门书。他这本书里讲的是怎样解决生态学谬误,你们如果对这个感兴趣 的话,可以去看一下他这本书。
下面我们要讲一下为什么会产生生态学谬误,是因为未观察到差异性偏差或忽略变量偏 差。这就回到了刚才那位同学提的问题,其实这些原因在本质上是一致的,忽略变量偏差只 是其中的一种表现形式。这里我们就要回顾一下造成忽略变量偏差的两个条件,一个是忽略 的变量要和因变量有关系,另一个是忽略的变量要与自变量有关系。在那个学生成绩和花的 时间的关系的例子中,忽略的变量是什么?就是学生的个人学习能力,学习能力强的学生花 的时间少,学习成绩也好,学习能力较差的学生花的时间多,成绩还相对较差。也就是说学 生的学习能力既影响到学生的个人学习时间,也影响到学习成绩的好坏,因此当你忽略了学 习能力这个变量时就会造成忽略变量偏差。另外一个因素是这种差异是以班级为单位的,假 如班级与班级之间不存在能力的差异的话,也不会出现这种忽略变量偏差,因此你在寻找差 异的时候是应该找以班级为单位的原因,而不是找以个人为单位的。我先讲抽样,再讲生态 学谬误,然后才讲与忽略变量偏差的关系。但其实当我们在利用抽样获得的数据进行分析的 时候,可能出现的错误都是因为忽略了某些变量造成的。下面我们再来举一个例子,这是一 个忽略变量偏差的例子,不过这里也有生态学谬误的因素。这是一个真实的例子,佛罗里达 州是还保留有死刑的一个州,有一个社会学家做了一个调查,对 300 多个凶杀案进行了分析。 凶杀案是很容易被判死刑的,而在美国种族问题是很敏感的,在判刑上是不是有种族歧视, 是不是黑人更容易被判死刑?我们来看下面的数据:

佛罗里达州 20 个县的 326 位凶杀案被告的有关信息

被告人的种族

被判死刑

总计

比率%





白人

19

141

162

12

黑人

17

149

166

10

在 326 位被判有罪的被告人中,白人有 162 位,其中 19 位被判了死刑,所占比率为 12%。

黑人有 149 位被告犯了凶杀案,被判死刑的有 17 位,占 10%。这个数据和我们最初的想法

5

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
刚好是相反的,白人被判死刑的概率比黑人还要高。请问为什么? 学生一:可能白人和黑人犯的罪行不一样,白人犯的罪行更严重。 谢教授:你们想一下造成忽略变量偏差的两个条件,被忽略的这个变量是什么,在这里它既 要和种族有关系,又要和被判死刑有关系。如果这个变量是罪行的话,那么罪行和种族有什 么关系,是白人更容易犯严重的罪行吗? 学生二:这可能和法官的种族有关系,一般法官会偏袒自己种族的人。 谢教授:显然,美国社会的白人法官要大大多于黑人法官,按照你的说法白人法官会偏袒白 人的话,白人中被判死刑的人应该更少才对,怎么会更多呢?要注意被忽略的变量应该与因 变量有关系。 学生三:可能佛罗里达州的白人更多,黑人更少。 谢教授:这没有关系。我们的案例中被告凶杀案的白人和黑人的数量是差不多的。 学生四:是不是与被害者的种族有关系,如果被害者是白人就更容易被判死刑。 谢教授:对,讲的很好,原因就在这里。为什么呢,这里有两个条件,首先,被害者的种族 和犯罪者的种族是相关的,第二是杀了白人更容易判死刑。通过下面这个图表就可以看出来。

被告人的种族 被害者的种族

白人 黑人

白人 黑人 白人 黑人

被判死刑





19

132

0

9

11

52

6

97

比例%
12.6 0
17.5 5.8

可见,白人杀白人被判死刑的概率很高,黑人杀白人被判死刑的概率更高,而白人杀黑 人就几乎没有被判死刑的,黑人杀黑人被判死刑的概率也比较小。因此这里忽略的变量是被 害者的种族,当被害者是白人时,不管被告人是白人还是黑人,被判死刑的概率都较高,当 被害者是黑人时,被判死刑的概率就比较低。可见,在美国,种族歧视还是很严重的。我们 在这里犯错误的原因是认为罪行是与罪犯的种族有关,而实际上被判的罪行是与被害者的种 族有关的。因此,我们在考虑问题的时候,要把造成忽略变量的偏差的两个条件都考虑进去, 忽略的变量是否与因变量有关系,同时这个变量是否与自变量有关系,只有当这个变量满足 了这两个条件时,忽略它才会造成忽略变量偏差。上面这个案例其实也是一个生态学谬误的 问题,因为我们从第一个表中得到的结论是被判的罪行与罪犯的种族有关系,而实际上被判 的罪行是和他所犯的罪行有关的,如果被害人是白人的话,被告人就更容易被判死刑。因此 从这个角度来看,这也是一个生态学谬误。我举这个例子的目的有两个,一个是要让你们明 确忽略变量偏差所需要的两个条件,另外一个是让你们明白忽略变量偏差和生态学谬误在本 质上是一样的。
接下来我要讲多层次数据处理手段,这部分是这一讲中比较新的东西,也比较难理解。 多层次数据就是说你的数据的来源是多层次的,既有团体层次的数据,也有个体层次的数据。 比如你的学习能力是个体的,家庭背景是个体的,但是教师水平、设备等都是以班级为单位 的。假如你的研究单位是个体,你就不能用班级层次的数据来汇总;假如你的研究单位是团 体,你则可以用个体层面的数据来汇总。
我这里先讲两个模型,一个是随机效应模型(random effects model),一个是固定效应 模型(fixed effects model),然后再讲多层次分析 (multi-level analysis)。我在讲到这两个模 型的时候,会讲到组内差异和组间差异的问题。我先讲第一个模型,随机效应模型,在这个

6

北京大学社会学系建系 20 周年学术活动月系列讲座(六) 忽略变量偏差和生态学分析
模型里,要引入组的概念,我们分析得到的数据时要分析两部分差异,组与组之间的差别和 组内的差别。组与组之间的差异是随机的,我们对两个组各取一个平均值,两个平均值相减 就得到了组间方差。假如各组之间没有选择性,那么既可以用组间方差,也可以用组内方差。 在这种情况下,如果你仅有组这一层的变量的话,就不会出现生态学谬误。在这里最好的方 法是两个方差都用,这样得到的数据会更加精确。但是如果你只有一个层次的变量,你就只 用这个也行,只是效度不如前者高。
由于随机变量模型无法完全解决忽略变量偏差或者生态学谬误的问题,这就引入了固定 效应模型,用来控制“非观察的异质性”。由于组间差异不一定符合统计模型,此手段就放 弃解释组间差异,把它看作是固定的、不可改变的差异,仅关注组内方差。它之所以被称为 固定效益模型,是因为总体的异质性所产生的共同特征已被各组的给定系数 α 所控制。这种 方法在方法论上很站得住脚的,但会牺牲很多统计的信息。
最后一个就是多层次分析,第一个随机效应模型讲的是组与组的差异,这种差异是随机 的,第二个固定效应模型就是把这种差异作为一个固定不变的东西,这种差异是不可以用统 计模型来进行分析的。前一种是不对差异进行考虑,只把它作为一个随机变量,第二种是考 虑这种差异,但把这种差异固定下来,不对其进行分析。这两者代表两个极端,它们折中的 一种方法就是多层分析方法。这种方法有一个很强的理论来源,就是人与人是有差异的,而 且人的表现、行为方式是随着环境的变化而变化的。那么我们就想知道人在不同环境下的表 现是怎样的,他的行为是怎样的,这是社会学研究的一个很重要的理论基础。涂尔干提出了 “社会事实”的概念,他认为人到了一个团体之中,就要受到环境的影响,行为方式也会发 生变化。当我们想知道人是怎样受到环境影响时,就要用到多层次分析方法,这就是多层次 分析方法的理论来源。在使用这个方法时,研究的因变量是个人层次的,但自变量(或解释 变量)既可以是个人层次上的,也可以是更高水平层次上的,比如社会环境、学校、班级等。 当你的数据具备这样的要求时,你就可以做多层次分析。多层次分析的关键在于环境层次和 个人层次的自变量的交互作用。自变量有两个层次,一个是个人的,一个是环境的。比如个 人的行为随着环境的变化而变化,这就是说个人作为自变量时,其参数是随着环境的改变而 改变的,这就是一种交互作用。因此,如果个人水平上的变量作用随着环境的变化而变化的 话,你就可以做多层次分析。我给你们举一个例子,这是我和我的一个学生做过的研究。我 们做这个研究实际上是为了批评市场转型模型。这种模型认为教育的回报率是与市场发展程 度成正比的,市场经济越发达的地方,教育回报率越高。我们做了一个地区差异比较,发现 在市场经济发达的地方平均受教育水平较高,但是教育的回报率并不高。而在市场经济不发 达的地方平均受教育水平较低,但是教育的回报率却比较高,而且市场经济发达的地方的教 育回报率甚至比市场经济相对不发达的地方要更低。这就反映出很多光靠市场经济不能解释 的问题。这种现象在单位中也存在,收益好的单位,大家得到的钱都比较多,但是差异并不 是很大,也就是回报率比较小,反而那些收益差的单位,其领导得到的报酬比一般员工得到 的要多得多,这是一个体制的问题。上面是我们利用地区差,用多层次分析的方法来反驳市 场转型理论的例子。好,我今天要讲的内容讲完了,大家有没有什么问题? 问题一:谢教授,您讲教育回报率随着市场发展而降低,这里您有没有考虑到教育对政治资 本的影响,是不是教育水平越高,政治资本越大,因此回报率也更高? 谢教授:我们考虑到了政治资本的因素,政治资本是不随经济发展而变化的,它确实会受到 教育水平的影响,但我们这里讲的回报率是指经济回报率,不考虑政治因素。
马戎主任:由于时间的关系,我们今天的讲座就到这里。
7



热文推荐
友情链接: 简历 面试求职范文 职业规划 自我管理 社交礼仪 76242百科