学号 20111613210 姓名 吴代顶 学院 土木工程学院 专业 建筑与土木工程 成绩
重庆大学土木工程学院2011届建工9班毕业生出生地农村或
城市与毕业去向读研或工作的独立性假设检验
摘要:
文章通过对重庆大学土木工程学院2011届应届毕业的建筑工程9班学生调
查,研究学生家庭出生地(城市或农村)与学生毕业去向(读研或工作)是否相互独立,来说明假设检验里独立性假设检验(非参数假设检验)所用方法的原理以及在实际中的应用。文章对事件独立与否采用的是2检验法,通过实际数据计算其检验统计量n并以显著性水平为0.01和0.05分别确定拒绝域,从而确定家庭出生地(城市或农村)与学生毕业去向(读研或工作)是否相互独立,最终完成一个数学方法在实际中的应用。
一、问题提出,问题分析
重庆大学土木工程学院2011届应届毕业的建工9班共38人,通过对学生的出生地与毕业去向的调查,试以显著性水平为0.01和0.05分析该班学生的出生地(农村或城市)与毕业去向(读研或工作)是否相互独立?
该问题旨在确定事件之间是否相互独立,是一个非参数的独立性假设检验问题,该问题宜采用2检验法。
二、数据描述
重庆大学土木工程学院2011届应届毕业的建工9班学生信息表如下:
第 页 共 页
22011-2012年第一学期研究生“应用数理统计”课程课外作业
表1
来自农村工作或读研或城市刘芳语范 茂农村工作楚世芳向 黎城市读研张燕林隆发权农村读研陈舒闽刘 林农村工作刘海平罗 恒农村工作许科泽姚 冰城市读研叶祖军崔 杰农村读研张明阳王 印农村工作李海南陈 龙城市工作叶遇春陈 凡城市工作陈 林廖竟微城市读研吴代顶邓 然城市读研何 维董维佳城市读研郭忠建王峰铭城市工作沈琪雯何 鑫城市工作瞿 皓汪棪琛城市工作李军谊王海鹏城市工作钱少华袁承尧农村工作周国军农村工作 杨 洋
该表格信息由重庆大学土木工程学院2011届应届毕业的建工9班班长李军谊
姓名姓名提供,该表格为该班毕业时学生去向的统计表,真实可靠。
三、模型建立
(1)提出假设条件,明确概念,引进参数
设总体随机向量(X,Y),X表示学生毕业去向,取值为a1,a2,,ar(此问题取值有读研和工作);Y表示学生出生地,取值为a1,a2,,as(此问题取值有农村和城市);现在对(X,Y)做n次独立观测,得到事件{Xai,Ybj}的频数
nij(i1,2,,r;j1,2,,s),此问题r=2,s=2。则该问题统计假设为:
来自农村工作或读研或城市城市读研城市工作农村工作城市工作城市工作农村工作农村读研农村读研农村读研农村读研城市工作农村读研城市读研城市工作城市读研农村工作农村工作城市读研农村工作 H0:X与Y独立 H1:X与Y不独立 (2)模型构建
sr检验的统计量为:nn2j1i1(nijninjn)2 ,其中各数据根据以下
ninj第 页 共 页
2011-2012年第一学期研究生“应用数理统计”课程课外作业
列联表得到,列联表根据原始数据统计而来,列联表如下:
表2 2x2列联表城市读研工作农村ni162238 9112071118nj
(3)模型求解及模型检验 ①检验统计量为
sr
nn2j1i1(nijninjn)2ninjn(n11n22n12n21)2n1n2n1n2
38(9*117*11)20.145116*22*20*182②H0成立下统计量n的极限分布为2((r1)(s1)),则
22当0.01时,拒绝域为:K0{n1((r1)(s1))0} .99(1)6.6322当0.05时,拒绝域为:K0{n1((r1)(s1))0.95(1)3.84}
22
四、计算方法设计和计算机实现
假设(X,Y)的联合分布函数为F(X,Y) ,边缘分布为FX(x),FY(y),那么X与Y独立等价于
F(x,y)FX(x)FY(y),x,y 将抽样数据用rs表3表示
第 页 共 页
2011-2012年第一学期研究生“应用数理统计”课程课外作业
rs列联表表3 b1a1a2n11n21b2n12n22arnr1n1snr2n2nj..................rk1bsn1sn2snin1n2nrsnrn
ns ninik(i1,2,,r) ,njnkj(i1,2,,s)
k1记pijP(Xai,Ybj),pipik,pjpkj(i1,2,,r;j1,2,,s)。
k1k1sr因此上述假设检验可转化为
H0:pijpipj H1:pijpipj(i1,2,,r;j1,2,,s) 若pij均一致,则令
2 j1i1sr(nijnpij)2npij2
K.Pearson建议当n充分大,选择作为检验统计量(一般情况下pij未知,这时可用pij的最大似然估计pij代替)。由于在H0成立条件下有pijpipj,因此有
pijpipj(i1,2,,r;j1,2,,s),而pr1pk,ps1pk,所以只
k1k1r1s1需要求出r+s-2个参数估计pi,pj(i1,2,,r1;j1,2,,s1)的最大似然估计即可。
关于参数pi,pj的似然函数为
第 页 共 页
2011-2012年第一学期研究生“应用数理统计”课程课外作业
rsnijrsrsL(P(Xai,Ybj))(pij)(pi)ij(pj)i1j1i1j1i1j1nijnnij(p1)n1(p2)n2(pr)nr(p1)n1(p2)n2(ps)ns(pi)(1pi)(pj)(1pj)ninji1i1j1j1r1r1s1s1似然方程为
lnLninrppp0,i1,2,,r1,iri nnlnLjs0,i1,2,,s1.pjpspj得到pi,pj(i1,2,,r;j1,2,,s)的最大似然估计量
nip,i1,2,,r,in npj,j1,2,,s.jn这时检验统计量为
n2j1i1sr(nijnpij)npijninjn22j1i1sr(nijnpipj)2npipj
nj1i1sr(nij)2ninj22在H0成立下n的极限分布为(rs1(r1)(s1))((r1)(s1))拒绝
域为
K0n2((r1)(s1))
五、主要的结论或发现
220.145112((r1)(s1))0 ①当0.01时,检验统计量为n.99(1)6.63 ,
2所以接受H0,即认为重庆大学土木工程学院2011届应届毕业的建筑工程9班学生
第 页 共 页
2011-2012年第一学期研究生“应用数理统计”课程课外作业
家庭出生地(城市或农村)与学生毕业去向(读研或工作)独立;
220.145112((r1)(s1))0 ②当0.05时,检验统计量为n .95(1)3.84 ,
所以接受H0,即认为重庆大学土木工程学院2011届应届毕业的建筑工程9班学生家庭出生地(城市或农村)与学生毕业去向(读研或工作)独立。
六、结果分析与检验
从上述结论可以看出,在不同的显著性水平下,重庆大学土木工程学院2011届应届毕业的建筑工程9班学生家庭出生地(城市或农村)与学生毕业去向(读研或工作)都相互独立。由于检验的统计量都较大程度的小于拒绝域的临界值,因此可以认为检验的事件相互独立的程度较高。
参考资料
[1] 杨虎,刘琼荪,钟波.概率论与数理统计[M].重庆:重庆大学出版社,2007.
[2] 杨虎,刘琼荪,钟波.非数学类专业 研究生教学用书数理统计[M].北京:高等教育出版社,2004.
第 页 共 页
因篇幅问题不能全部显示,请点此查看更多更全内容