SPSS入门软件操作.ppt
SPSS软件操作 [实 验 室 机 房 版],用SPSS作数据集,Statistical package for the social science (简写spss)是美国spss公司在20世纪80年代开发的大型统计学软件包。在全世界的范围内的科研活动中应用十分广泛。Spss 与其它统计软件相比,spss不用记忆繁琐、枯燥的语句和命令,只要用户具有一般的计算机和统计学知识,就能运用鼠标进行操作,得到所需要的统计分析结果。以下简明扼要地介绍定的具体使用方法。,第1讲 SPSS软件简介,Spss的主窗口- Data view 数据浏览界面,,,,,,,,,,,,,,,SPSS的界面,,,,,,,,,,,Spss的主窗口- variable view变量浏览界面,,SPSS的界面,,File: 文件操作 完成文件的调入、存储、显示和打印等操作。,,SPSS的界面,edit: 文件编辑 完成文本或数据内容的选择、拷贝、剪贴、寻找 和替换等操作。,,,SPSS的界面,view: 浏览编辑 完成文本或数据内容的状态栏、工具栏、字体、网格线和数值标签等功能的操作。,,,SPSS的界面,data: 数据管理 完成数据变量名称和格式的定义,数据资料的选择、排序、加权、数据文件的转换、连接和汇总等操作。,,,SPSS的界面,transform: 数据转换 完成数据值的计算、重新编码和缺失值替代等操作。,,,SPSS的界面,analyze:统计分析 完成一系列统计分析的选择和应用。,,,SPSS的界面,graphs:统计图表 完成统计图表的建立和编辑。,,,SPSS的界面,utilities:实用程序 有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等。,,,SPSS的界面,window: 窗口控制 可进行窗口的排列、选择和显示等操作。,,,SPSS的界面,Help: 帮助 帮助文件的调用、查询和显示等。,,,SPSS的界面,Spss的结果输出窗口,输出Spss的统计分析程序的结果,,,SPSS的界面,三十名学生的身高与体重数据,,建立数据集,[数据集1],Spss的主窗口有两个界面:数据浏览界面(data view)与变量浏览界面(variable view)建立数据文件首先要定义变量。,,建立数据集,Name: 变量名 在该栏输入变量名(只能用字母) 本例定义5个变量: Number Sex Age Height weight,,建立数据集,type: 变量类型 系统默认为数值型 有8种类型可供选择: 1.Numeric:数值型变量 2.Comma:带逗号的数值型变量 3.Dot:带圆点的数值型变量 4.Scientific:科学记数法 5.Date:日期型变量 6.Dollar:货币型变量 7.Custom currency: 自定义型变量 8.String:字符型变量,为便于统计,本例全部定义为数值型。,,建立数据集,width: 宽度 本例中各变量的宽度: Number ——2 Sex ——1 Age ——2 Height ——5 Weight ——4,,建立数据集,decimals: 小数位数 本例中各变量的小数位数: Number ——0 Sex ——0 Age ——0 Height ——1 Weight ——1,,建立数据集,label: 变量标签 本例中各变量的标签: Number——编号 Sex ——性别 Age ——年龄 Height ——身高 Weight ——体重,,建立数据集,value: 数值标签 本例定义“sex”数值标签: “男”——“1” “女”——“0”,,建立数据集,missing: 缺失值 本例选择无缺值。,,建立数据集,columns: 列宽 本例中各变量数据管理器纵列宽全部定义为8。,,建立数据集,align: 字符排列方向 有三项选择: left ——左对齐 right ——右对齐 center ——居中 本例中全部选择右对齐。,,建立数据集,measure: 数据量度 有三项选择: scale ——连续型变量 ridinal ——有序分类变量 nominal —名义型变量 本例中除 “sex”选为名义型变量外,其余均选连续型变量。,,,建立数据集,,编辑数据集,1、插入变量,3、按体重排序,2、插入观测,4、行列互换,5、(按性别)数据拆分,6、分类汇总,,,编辑数据集,激活变量“age”→点击“data”菜单→点击子菜单“ insert variable” →系统自动插入一个默认名为“var00001”的新变量。,,编辑数据集,激活第3个观测→点击“data”菜单→点击子菜单“ insert case” →系统自动插入一个默认为第3的新观测。,,编辑数据集,,数据运算,1、计算:体重指数=体重/身高2,2、清点:身高160以下的人数,3、分组:按身高将观测分为4组,,数据运算,点击“transfom”菜单→点击子菜单“ compute”打开compute variable对话框→在target variable中指定一个变量(可以是新变量)→ 在type&lable中定义生成数据的类型或标签→在numeric expression框中键入公式→ok。,供选择的100余种函数,,,数据运算,点击“transfom”菜单→点击子菜单“ count”打开count occurrences of values within cases对话框→在target variable中指定一个变量(如h)→ 将height点入numeric variables框→再点击define values打开count values within cases:values to count对话框,来确定清点对象数值→ok本例选择range中lowest through160.0为清点范围→ok。,数据运算,,数据运算,,点击“transfom”菜单→点击子菜单“ categorize variables”打开categorize variables对话框→在target variable中指定一个变量(如h)→确定分组数(系统默认4组)→ok。,,数据运算,,第2讲 用SPSS作图表描述,频数统计,饼形图,盒形图,散点图,直方图,茎叶图,条形图,用SPSS作图表描述,,例1 5种软饮料购买频数原始记录,[数据集2],频数统计,,频数统计,,,,,选入分析变量,频数统计,,四分位数,将数据分为设定的相等分数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,本例选系统默认项,,频数统计,不输出图形,条形图,饼形图,直方图,本例选系统默认项,,频数统计,,频数统计,本例选系统默认项,,条形图,,,,条形图,,条形图,,条形图,,,,饼形图,,,,选入分析变量,饼形图,,饼形图,,饼形图,二百只灯泡样本的可使用小时数,例2,[数据集3],茎叶图,,,,,茎叶图,,,,茎叶图,,茎叶图,,,,,,盒形图,,,盒形图,盒形图,例3 11名学生各科成绩,盒形图,[数据集4],,,,盒形图,,,盒形图,,盒形图,,,,直方图,,直方图,,直方图,[数据集5],例4 12名大学生体重与沛活量,散点图,,,,散点图,,,,,散点图,,散点图,散点图,三十名学生的身高与体重数据,[数据集1],例5,散点图,,,,,散点图,散点图,,第3讲 用SPSS作统计量描述,由 Frequencies 计算,由 descriptive statistics 计算,由 Explore 计算,,用SPSS作统计量描述,三十名学生的身高与体重数据,[数据集1],由 descriptive statistics 计算,,由 descriptive statistics 计算,,,,选入分析变量,由 descriptive statistics 计算,均值,合计,偏度,峰度,标准差,方差,全距,最小观测值,最大观测值,均值标准误,离散趋势,分布形态,输出顺序,按均值升序显示统计量,按均值降序显示统计量,按变量名字母顺序显示统计量,按数据集中变量的排列顺序显示统计量,,由 descriptive statistics 计算,,由 descriptive statistics 计算,,由 Frequencies 计算,,,,,选入分析变量,由 Frequencies 计算,四分位数,百分位数,均值,中位数,众数,合计,偏度,峰度,标准差,方差,全距,最小值,最大值,均值标准误,,,由 Frequencies 计算,,,由 Frequencies 计算,由 Frequencies 计算,由 Frequencies 计算,,由 Frequencies 计算,由 Explore 计算,,,,,选入分析变量,由 Explore 计算,,由 Explore 计算,,由 Explore 计算,,第4讲 用SPSS作假设检验,两独立样本T检验,单样本T检验,两配对样本T检验,用SPSS作假设检验,,单样本T检验,为确认某市12—15岁青少年是否达到160.0厘米的标准身高 ,对该市同年龄段的青少年作了一次抽样调查 ,获样本数据如下 。试以0.05的显著性水平作出统计推断。,例1 三十名学生的身高与体重数据,[数据集1],由于总体方差未知,用样本方差替代总体方差可得T 统计量 ,故采用 T 检验方法。,调用此过程可完成样本均值与总体均值之间的比较。,,单样本T检验,,,,输入检验值,,选入分析变量,单样本T检验,均值差的置信区间,缺失值处理方法,剔除处理变量所含缺失值的观测,剔除所有含缺失值的观测,,单样本T检验,,P值为 0.653 > 0.05。 接受原假设。该市青少年身高符合160.0cm的标准。,单样本T检验,试以0.10的显著性水平,对该市男女青少年的身高进行比较。,两独立样本T检验,例2 三十名学生的身高与体重数据,[数据集1],调用此过程可完成两个两个独立样本数据的均值比较。,,两独立样本T检验,,,,,选入分析变量,选入分组变量,,,定义组别,两独立样本T检验,,两独立样本T检验,,两独立样本T检验,对数据的方差齐性检验,P值=0.144大于0.10,故接受假设,,方差相等条件下,方差不相等条件下,,,均值差的90%置信区间,,两独立样本T检验,为分析不同促销形式对商品销售额是否产生显著影响,分别搜集了7 种商品在不同促销形式下的销售额数据。试对两种促销效果作出统计推断。,例3 两种促销形式下销售额样本数据,[数据集6],两配对样本T检验,调用此过程可完成两个两个配对样本数据的均值比较,与独立样本不同,配对样本之间具有相关性。,,两配对样本T检验,,,,选入匹配的分析变量,两配对样本T检验,均值差的置信区间,,两种促销形式下的销售量具有显蓍的相关性,相关系数为0.624。,两配对样本T检验,P值= 0.002 < 0.05。 拒绝原假设。两种促销形式效果显著不同。,P值为 0.002,,两配对样本T检验,,,第5讲 用SPSS作方差分析,单因素方差分析,双因素方差分析,用SPSS作方差分析,,四种颜色饮料销售量样本数据,[数据集9],单因素方差分析,调用此过程可完成单因素方差分析,,单因素方差分析,单因素方差分析的基本过程可采纳系统的默认方式。,,各种 选项,多重比较,F统计量=10.544的P值 =0.000 <0.05。故拒绝原假设,接受备择假设,即不同颜色的饮料的销售量有显著差异。,单因素方差分析,对四种颜色下各总体的均值进行多重比较。,,,,最小显著性差异法,由于方差分析的前提是各水平下的总体服从方差相等的正态分布,因此须对方差分析的前提进行检验。,,,,输出不同水平下的描述性统计量,输出方差相等性的检验结果,输出各水平下均值的折线图。,计算中涉及的变量含有缺失值时暂时剔除观测,剔除所有含有缺失值的观测,检验统计量=0.255相伴P值=0.856 > 0.05故可以认为4种水平下各总体的方差无显著差异,满足单因素方差分析中的方差相等性要求。,单因素方差分析,样本数据所显示的四种颜色饮料销售量的差异。,,单因素方差分析,调用此过程可完成多因素方差分析。操作过程中涉及广义线性模型的内容,故在此从略。,,多因素方差分析,,第6讲 用SPSS作回归分析,三十名学生的身高与体重数据,[数据集1],相关分析,相关分析,双变量相关分析,偏相关分析,距离相关分析,点击 Bivariate进行双变量相关分析。,,相关分析,相关系数,非参数资料的相关系数,非正态分析资料的相关系数,相关系数,显著性检验,标识有显著意义的相关系数,单尾检验,双尾检验,,,输出变量的均值和标准差,输出两变量的积差和与协方差,,由输出结果可知,身高与体重的相关系数为0.618,P值为0.000,说明身高与体重有较高的相关性。,,相关分析,三岁儿童身高、体重、体表面积,线性回归分析,[数据集10],回归分析,线性回分析,点击 Linear进行简单或多重线性回归分析。,,线性回归分析,全部选入法,逐步法,强行剔除法,向后法,向前法,加权最小平方法,,,,,,回归系数,非标准化回归系数95%置信限,非标准化回归系数的方差-协方差,提供相关系数、复相关系数的平方、调整系数、估计标准误、ANOVA表,复相关系数的平方的变化,变量的描述性统计量,部分和偏相关,共线性诊断,德宾-沃森检验,观测值诊断,,,标准化预测值,标准化残差,剔除残差,调整预测值,学生化残差,学生化剔除残差,标准化残差图,产生一个标准化残差直方图,产生一个正态概率图,,,本对话框用来定义存储进入数据文件的新变量。,预测值,非标准化预测值,标准化预测值,调整预测值,预测值的标准误,距离,统计距离,库克距离,中心化杠杆值,预测区间,均值,个别值,置信区间,残差,非标准化残差,标准化残差,学生化残差,剔除残差,学生化剔除残差,影响统计,剔除一个特定的观测值所引起的回归系数值的变化,标准化的DfBeta值,剔除一个特定的观测值所引起的预测值的变化,标准化的DfFit值,带有剔除观测值的协方差矩阵与全部观测值的协方差矩阵的比率,存储到新的文件中,,,线性回归分析,逐步回归法变量取舍标准,用F值的显著性水平作为标准,用F值作为标准,在回归方程中包括常项,缺失值的处理方式,用均值代替缺值,剔除缺失值,剔除缺失值及其配对观测值,,,系统输出了回归分析的属性,以体表面积为因变量,以身高与体重为自变量,采用全部入选法进行分析。,线性回归分析,复相关系数为0.950,复相关系数的平方即多重判定决系数0.902,修正多重判定系数为0.874,说明体表面积的87.4%是由身高和体重决定的。,线性回归分析,P值为0.000,说明回归方程有效。,线性回归分析,体重回归系数为0.184,P值为0.014,说明在方程中体重变量的存在具有统计学意义。,体表面积= -2.856 +0.06870×身高+0.184 ×体重。,,线性回归分析,,第7讲 课内实验,建立数据集 “必修课选逃,选修课必逃”,如今像这样的话语在大学校园中极为流行。时下大学生逃课成了一种比较普遍的现象,对各高校来说这可是一个不容忽视的问题,它会影响到学校教学质量和学生专业知识的提高。正常的教学秩序会促进校风的建设,同时也可为学生的学习创造一个良好的环境。经历了“黑色”六月,千辛万苦,好不容易迈进梦寐以求的大学校园,背负着父母殷切希望的大学生本应珍惜学习机会,努力学习。可他们为什么要逃课呢?逃课后又在做些什么呢?逃课是否会影响到学习成绩呢?带着这些问题,由统计学院6名本科学生组成的“财园6人统计调研小组”,制定了一个调查研究方案。该方案以在校二年级本科生为研究总体,花费了一个多星期的课余时间,通过发放和回收调查问卷,随机采访了120名二年级本科生,获取了第一手数据资料。调查问卷的部分内容如下: 关于本科生逃课情况的调查亲爱的同学,现在逃课现象并非新鲜事,虽然是不正确的做法,但这是事实。我们在此就逃课现象做一个调查,试图进一步揭示一点情况。下面占用您一点时间,回答几个小问题。 1.您每周逃课的频率 2.您逃课后的主要活动 A.偶尔 B.一般 C.经常 D.从不 A.上网 B.睡觉 C.自习 D.其他3.您对逃课的看法 4.您认为逃课是否对学习成绩存在较大的影响 A.无所谓 B.有点在意 C.过后会自责 D.下不为例 A.会 B.不会再次感谢您的合作!财园6人统计调研小组这是一个小型的统计调研活动,可通过此例熟悉和掌握统计调研的基本方法、基本内容和基本步骤,培养一下从事实际统计工作的能力。调研方案要精心设计,中途回头重新修改是一件很麻烦的事情。数据搜集活动要身体力行。通过实际的数据采集活动,您会真切地体会到统计果真是一门艺术。获得原始数据之后的第一件事情就是要建立一个可用于进一步计算和分析的完整的SPSS数据集。参见数据集“数据集\data1-1.sav”。,,基础实验一,基础实验,数据集的预处理 前面的财园6人统计调研小组在研究中发现,关于本科生逃课情况的调查问卷设计得过于简单,由此所搜集上来的数据不能满足进一步深入和展开问题研究的需要。为此,他们又专门搜集了120位被访者英语、数学、经济学、统计学4门课程的期末考试成绩。所获取的数据文件是一个Excel格式的文件,参见数据集“data2-1.xls”。该文件包含5个变量和与原先120位被访者相对应的120个观测。5个变量的变量名分别为number、English、math、economics、statistics。现在需要将这个Excel格式的文件转换为SPSS数据集,再与实验一中的SPSS数据集“data1-1.sav”合并为一个完整的SPSS数据集,参见数据集“data2-2.sav”。在此基础上,进一步拓展研究范围,进而得出更为深刻的分析结论。此外,在针对合并后的SPSS数据集进行具体的统计分析之前,还有大量细致的数据预处理工作需要完成。,基础实验二,,品质型数据的图表描述 随着证券市场的发展,基金理财目前已成为一种非常普遍的投资方式。统计数据显示,目前基金持有人账户总数已超过1.1亿户,估计约有四分之一的城镇居民家庭参与了基金投资。投资者面对300多只基金,如何选择基金公司、投资何种类型的基金,需要在对基金作出全面了解的基础上进行决策。这里我们搜集到晨星开放式基金2007年业绩评级资料,供您分析使用。此数据以2007年12月28日最后一个交易日为截止日期,反映了317只开放式基金的综合数据。资料中包含24个变量,变量名从V1到V24,其中:V1、V2、V3分别代表基金代码、基金名称和基金公司;V4代表基金净值;V5和V6是晨星公司对基金两年和三年的表现所作的评级,评级标准为1~5个星,由于许多基金成立不足两年,所以两年和三年评级中缺失值众多;V7代表今年总回报率;V8代表今年排名,反映不同投资类型的基金排名;V9、V10、V11、V12、V13分别代表最近一周、最近一月、最近三月、最近六月和最近一年的总回报率,反映不同时间段的各家基金的经营状况;V14代表去年排名;V15代表最近两年年回报率;V16是最近两年各基金排名,由于新成立的基金有的不足两年,因此其排名的缺失值也很多;V17分别代表最近三年年回报率;V18代表基金设立以来的总回报率;V19代表最近两年的波动幅度;V20代表最近两年风险评价;V21代表最近两年晨星风险系数;V22代表最近两年晨星风险评价;V23代表最近两年夏普比率;V24代表各家基金的投资类型(参见数据集“数据集\data3-1.sav”)。24个变量中,V24是我们比较关心的一个定类型变量,V5、V6为比较典型的两个定序型变量。请针对这些变量的数据,制作频数分布表和频数分布图。,基础实验三,,数值型数据的图表描述 为帮助您了解和分析上海股市的综合状况,我们搜集到上海A股的一部分财务数据并建立了SPSS数据集。此数据集反映上海A股中32个行业840家上市公司2007年12月28日,即本年度最后一个交易日的资料(参见数据集“数据集\data4-1.sav”)。此数据集共有20个变量,其中:变量VAR1为市盈率高低次序;VAR2是公司名称;VAR3为总股本;VAR4为流通A股;VAR5为流通B股;VAR6为总资产;VAR7为净利润;VAR8为每股净资产;VAR9为每股收益;VAR10为中期收益;VAR11为净资产收益率;VAR12为公司所属行业;VAR13为股东权益;VAR14为公司资本金;VAR15为利润总额;VAR16为主营业务收入;VAR17为资产负债率;VAR18为成交价;VAR19为市盈率;VAR20为流通盘。关于VAR18(成交价)这一变量的数据,因2007年12月28日有一部分停盘的股票,所以出现了一些缺失值。对于这些缺失值的处理,采用该上市公司停盘前一交易日的收盘价来代替。变量VAR19(市盈率)也存在大量缺失值,这是由于上市公司经营业绩出现亏损,使每股税后利润出现负值,因而无法计算市盈率这一指标。数据集中的20个变量大多数为数值型变量。数据处理过程中可根据需要制作频数分布图表进行统计描述。,基础实验四,,统计量描述 绝大多数课程的期末考试成绩呈对称的钟形分布,但这也不是绝对的规律。“证券市场模拟实战”是一门深受学生喜爱的选修课程,课程性质有其特殊性。那么其期末考试成绩是否也有其分布规律的特殊性呢?这里有一份该课程2007年期末5个班级263名学生的考试成绩数据。请运用统计量描述手段对此数据做一个分析(参见数据集“数据集\data5-1.sav”)。此数据集包含number(序号)、class(班级)、pscj(平时成绩)、qmcj(期末成绩)、zcj(总成绩)5个变量的263个观测。,基础实验五,,单样本T检验 为全面了解大连市市内四区常住人口的住房现状和需求情况,在大连市政府统一组织和市国土资源和房屋管理局牵头协调下,国家统计局大连调查队从2006年4月份至9月初,历时5个月完成了大连市市内四区居民住房状况及需求的调查工作并获取了相关问题的第一手数据资料。该数据资料包含行政区域(QY)、住用状态(ZYZT)、家庭人口数(RKS)、现住房的建筑面积(JZMJ)4个变量的6 952个观测。其中,行政区域(QY)与住用状态(ZYZT)为定类型变量(参见数据集“数据集\data6-1.sav”)。大连市住房建设规划中明确提出:到2010年大连市市内四区常住人口的住房条件要达到人均居住建筑面积30平方米的目标。试根据此调查数据,判断大连市市内四区家庭的现住房面积是否已达到人均30平方米的建设目标,如果没有达到目标,计算距离目标还有多大差距。,基础实验六,,两个独立样本T检验某对外汉语教学中心进行了一项汉语教学实验,同一年级的两个平行班参与了该实验。两个班分别采用两种不同的教学方式学习40个生字,其中一班采用的是集中识字的方式,即安排外国留学生在学习课文以前集中学习生字,然后再学习课文;二班采用的是分散识字的方式,即安排留学生一边学习课文一边学习生字。为了考察两种教学方式对生字读音的记忆效果是否有影响,教学效果是否有差异,分别从一班和二班随机抽取了20名学生,要求他们对40个学过的汉字进行注音,每注对一个得1分,注错不得分。从而获得了两个独立样本的数据。此数据包含学生编号(NUM)、成绩(SCORE)、班级(CLASS)3个变量的40个观测。其中,班级为定类型变量,一班的取值标签为1,二班的取值标签为2(参见数据集“数据集\data7-1.sav”)。试根据此数据评价两种教学方式的优劣。,基础实验七,,配对样本T检验为研究某种减肥茶是否具有明显的减肥效果,某健身机构对35名肥胖志愿者进行了减肥效果跟踪调研。首先,将其喝减肥茶以前的体重记录下来,三个月后再依次将这35名志愿者喝茶后的体重记录下来。从而获得了一个配对样本数据集。该数据集包含喝茶前体重(hcq)、喝茶后体重(hch)两个变量的35个观测。每个观测的两个变量下的观测值都是出自同一个被测试者(参见数据集“数据集\data8-1.sav”)。试通过这两组数据的对比分析,推断减肥茶是否具有明显的减肥效果。,基础实验八,,单因素方差分析某企业新开发了一批商品,为了解不同的促销方式、有无售后服务对此产品的销售是否有影响,该企业在城市中随机抽取了24个规模、地理位置等条件相似的超市进行实验。其中,随机抽取8个超市采用主动促销的方式,在此8个超市中再随机抽取4个超市给该商品提供售后服务,其余4个超市不提供售后服务;另随机抽取8个超市采用被动促销方式,在此8个超市中再随机抽取4个超市给该商品提供售后服务,其余4个超市不提供售后服务;剩余8个超市不采取促销方式,在此8个超市中再随机抽取4个超市给该商品提供售后服务,其余4个超市不提供售后服务。经过3个月之后再来统计这24个超市销售此商品的销售额,从获得到了第一手的数据资料。该数据资料包含促销方式(promot)、售后服务(service)、销售额(sales)3个变量的24个观测,其中促销方式(promot)与售后服务(service)为定类型变量。促销方式(promot)取值为:0=无促销、1=被动促销、2=主动促销。售后服务(service)取值为:0=无售后服务、1=有售后服务。具体内容参见数据集“data10-1.sav”。该企业拿到这个实验数据之后,想确认促销方式对该商品的销售额是否有显著影响,如果有显著影响,又是哪几种促销方式之间的销售额具有显著性差异。,基础实验十,,相关分析“知屋漏者在宇下,知政失者在草野”,学者出身的市长深刻认同政府的好坏应该由人民说了算这一观点,提出了“让人民满意的政府才是好政府”,并于2006年委托东北财经大学进行了政府社会满意度调查活动,以调查结果作为政府绩效评价的重要依据。 东北财经大学调查小组接受委托以后,开始大量收集相关资料,进行调研设计。经过资料的收集和整理,调查小组发现从1998年至今,全国已经有十多个地方政府开展了社会满意度调查活动。如1998年沈阳市的“市民评议政府”,1999年珠海市的“万人评政府”,2000年广州市的“市民评政府形象”等活动。从评价指标上看,目前我国政府社会满意度调查最常用的指标包括“服务质量”、“党风廉政”、“执法形象”、 “政务公开”、“服务态度”、“办事效率”和“工作作风”等。在组织了多次焦点小组访谈并进行了试调查后,调查小组确定从政府工作效能、依法行政、工作作风、服务群众、廉洁自律五方面调查市政府的社会满意度,每一方面又据实际情况设置了若干二级指标。调查小组认为采用街头拦截法发放问卷是比较可行的,计划在两个月的调查时间内发放10000份调查问卷。本次调查共收回有效问卷8071份。经整理得出的有关变量的样本数据,参见数据集“数据集\data11-1.sav”。此数据集包含工作效能(efficiency)、依法行政(legal)、工作作风(workway)、服务群众(service)、廉洁自律(decipline)、总体满意度(total)6个变量的8 071个观测。这6个变量均为定序型变量。 要求:(1)根据上述内容,计算政府工作效能、依法行政、工作作风、服务群众、廉洁自律五方面满意度与总体满意度的相关性。 (2)在控制其他变量的情况下,分别计算工作效能、依法行政、工作作风、服务群众、廉洁自律与总体满意度的偏相关系数。,基础实验十一,,简单线性回归分析20世纪90年代以来,世界已经从工业时代进入了信息时代。工业时代的经济增长多依赖于资本、劳动的投入,而信息时代的经济增长则主要来自科技进步。经济产出函数表现为:Y=AF(K,H,N)。经济的增长不仅依赖于资本(K)、劳动投入(N),还在很大程度上依靠技术(A)的进步,而要取得技术进步,必须加大人力资本的投入。人才是提高生产率的关键。城市一方面为工业的发展提供基础设施,减少成本,另一方面又为工业的发展提供劳动力和智力支持。因此,城市化会相应增加对人力资本的投入,提高人的综合素质,促进科技进步,提高经济的产出。总之,城市化与经济发展能够相互促进、协调发展,两者具有极为密切的关系,这也是目前各国普遍重视城市化,城市化进程速度加快的根本原因。国内外很多学者对此作了大量研究,并依据不同变量建立了不同的数学模型进行分析。下面,选取我国1985-2002年的人均GDP和城市化率的时间序列数据,以城市化率作为自变量x,以人均GDP为因变量y,建立一元线性回归模型,得出人均GDP与城市化率之间的回归方程,定量分析两者的内在关系。本实验中的数据以1985年为可比价,其他年度人均GDP均为价格指数调整之后的真实值(参见数据集“数据集\data12-1.sav”)。此数据集中包含年度(n)、人均GDP(y)、城市化率(x)3个变量的21个观测。其中,人均GDP(y)、城市化率(x)均为数值型变量。,基础实验十二,,多元线性回归分析大家都知道,软饮料需求受价格、人均收入和季节的影响。因此,可以用经验数据(时间序列数据或截面数据)建立回归方程对需求进行估计,从而针对不同的收入人群、在不同的季节制定不同的生产和销售计划。数据集“数据集\data13-1.sav”列出的是美国48个邻近州的截面数据。此数据集包含州(z)、罐/(人•年)(Y)、6罐装饮料价格(P)、收入/人(I)、平均气温(T)5个变量的48条观测。罐/(人•年)(Y)是每年每人的软饮料需求量,6罐装饮料价格(P)是6罐装饮料的价格,收入/人(I)是人均年收入,平均气温(T)是平均气温,这4个变量均为数值型变量。下面以每年每人的软饮料需求量为因变量,以6罐装饮料的价格、人均收入、平均气温为自变量建立多元线性回归模型,来研究三种影响因素对因变量的影响程度,计算软饮料需求的价格弹性,估计解释变量发生变化时,软饮料需求的变动。,基础实验十三,,,综合实验一,实验内容某市场调查公司是一家独立的机构,主要面向各类厂商提供市场信息咨询服务。在一项研究中,某厂商为了能够预测用信用卡进行支付的数额,要求其对消费者的特点进行调查研究。为此这家市场调查公司专门就一个由50名消费者组成的随机样本,采集了有关年收入、家庭成员人数和年信用卡支付数额的数据(参见数据集“2-1-1.sav”)。作为一名数据分析人员,您应当如何着手分析这些数据,并从中挖掘尽可能多的有用信息,从而为厂商提供优质的信息咨询服务?,,综合实验,,综合实验一,实验步骤 [步骤一] 本实验中,应当首先对样本数据进行认真仔细的审核,注意异常值和缺失值。在确认数据准确无误的前提下,开始接下来的操作步骤。可首先选择和运用描述统计中的有关方法对样本数据加以尽可能全面的整理和描述。描述过程可围绕因变量信用卡支付数额进行,具体步骤如下: 1.对数据进行排序,以把握信用卡支付数额变动的大体范围 2.制作频数分布图形,以显示信用卡支付数额的频数分布状况 (1)频数分布直方图。在SPSS数据浏览界面中,运用“Graphs”菜单或其他菜单中的有关命令,制作频数分布直方图。 (2)频数分布盒形图。运用“Graphs”菜单或其他菜单中的有关命令,制作频数分布盒形图。 3.计算有关的描述性统计量运用“Analyze”下拉菜单“Descriptive statistics”中的“Frequencies”命令或其他有关命令,计算有关描述性统计量。计算结果如图3所示。 4.观察和分析上述描述结果,得出初步的分析结论。 [步骤二]在实验步骤一的基础上,可利用样本数据对信用卡支付数额的总体均值做一个区间估计。但这还只是一种粗略的估计。因为单变量总体均值的区间估计实质是用被估计变量的样本数据来估计被估计变量本身的均值取值。如果能够掌握其他与其具有较高相关性的变量的样本数据,那么就可利用变量间的相关关系,对被估计变量的均值取值作出更高精度估计。本实验中包含三个变量的样本数据,应当充分利用这些数据所提供的有关信息。,,综合实验一,实验步骤 [步骤三]以年收入为自变量、信用卡支付数额为因变量进行回归分析,建立回归方程,用以通过年收入的取值来预测信用卡支付数额的取值。具体步骤如下: 1.制作散点图,对两变量间的相关关系作出初步观察和判断。 2.建立简单线性回归方程。 运用“Analyze”下拉菜单“Regression”中的“Linear”命令,进行简单线性回归分析。 3.观察和分析上述描述和分析结果,得出阶段性分析结论。 [步骤四]以家庭成员数为自变量、信用卡支付数额为因变量进行回归分析,建立回归方程,用以通过家庭成员数的取值来预测信用卡支付数额的取值。具体步骤如下: 1.制作散点图,对两变量间的相关关系作出初步观察和判断。 2.建立简单线性回归方程。 运用“Analyze”下拉菜单“Regression”中的“Linear”命令,进行简单线性回归分析。 3.观察和分析上述描述和分析结果,得出阶段性分析结论。 [步骤五]以年收入和家庭成员数为自变量、信用卡支付数额为因变量进行多元回归分析,建立回归方程,用以通过家庭成员数和年收入的取值来预测信用卡支付数额的取值。具体步骤如下: 1.制作散点图,对三个变量间的相关关系作出初步观察和判断。 2.建立多元线性回归方程, 运用“Analyze”下拉菜单“Regression”中的“Linear”命令,进行多元线性回归分析。 3.观察和分析上述描述和分析结果,得出阶段性分析结论。,,综合实验一,实验步骤 [步骤六]回归分析是建立在一系列理论假设的基础之上的,其中最重要的就是误差项随机变量的正态性假设和方差相等性假设。我们所掌握的样本数据如果违反了这些理论假设,那么上述的分析结果就全部是无效的。因此,本实验的最后一个步骤、也是最为关键的一个步骤,就是利用样本数据来证实模型假定,主要内容是观察和分析残差的分布状态。具体步骤如下: 1.残差分布直方图。运用“Analyze”下拉菜单“Regression”中的“Linear”命令,进入有关的对话框,通过有关选项,可得出残差分析的有关输出结果。 2.正态概率图。 3.标准化残差分布散点图。 4.异常值诊断。 5. 观察和分析上述输出结果,得出最终分析结论 。,,,综合实验一,问题思考 1.以95%的置信度,预测年收入为40 000元的3口之家,其年信用卡支付数额是多少? 2. 本实验中采取了强行进入法“Enter”进行多元线性回归分析,试采用逐步回归法“Stepwise”作一个多元线性回归分析,看结果如何。 3.出于严密性的考虑,还应当从哪几个方面来证实模型假定? 4.本实验中第36个观测为异常值,异常值一般会对回归分析的结果造成较大的影响,如何测定异常值这种影响的大小?,,综合实验一,实验总结结合实验内容参考上述操作步骤自主选择分析方法,并完成相关的SPSS操作,观察和整理输出结果,得出分析结论。查阅有关资料,撰写一份主题明确、论证充分的分析报告。分析报告中应包含以下要点: (1)问题的提出。 (2)变量设置的理由。 (3)数据搜集的基本方法和过程。 (4)数据的结构特点。 (5)分析方法的选择。 (6)分析过程中的主要步骤及其结果的评述。 (7)数据对有关模型理论假设的符合程度。 (8)分析结论。,,