多元正态分布的定义(多元统计分析经典例题)

关于本文多元正态分布推断(Inference for a Multivariate Normal Population)理论参见《Applied Multivariate Statistical Analysis and Related Topics with R》第五章内容,书中提供了相关示例的R代码,对于偏爱Python的我,希望通过Python得到同样的结果。

数据集的获取网址:
www.stat.ubc.ca/~lang/text.

示例用到的数据集分别为:class.dat2, consum2000.txt, consum2010.txt.

进行Python编程分析前,先把数据集通过R软件转换下格式,虽然Python也可以读取txt文件,但我更喜欢读取csv格式,所以通过以下代码,将数据集转换为CSV格式并保存本地。

data = read.table('class.dat2', header = T)
write.csv(data, 'class.csv')

示例1

需要用到class数据集,这个示例可以简单概括为期中考试前有两次测试quiz1和quiz2,期中考试后有两次测试quiz3和quiz4,比较quiz1和quiz2之间学生成绩有无进步,以及quiz3和quiz4之间学生成绩有无进步。令μ1 = mean(quiz1 – quiz2), μ2 = mean(quiz3 – quiz4)。

多元正态分布的定义(多元统计分析经典例题)

进行多元正态分布推断,编程思路为:

1.导入数据 -> 2.求解样本均值和样本协方差阵 -> 3.计算Hotelling’s T 统计量 -> 4.计算p值,根据p值结合实例分析结果。

代码实现如下:

# 引入第三方库
import pandas as pd
import numpy as np
from scipy import stats


# 读取数据
data = pd.read_csv("class.csv")
df = pd.DataFrame(data)
# 构建矩阵
y = np.c_[df.quiz1-df.quiz2, df.quiz3-df.quiz4]
print(y)
# 计算样本数量n
n = np.shape(y)[0]
# 计算变量数目p
p = np.shape(y)[1]


# 计算样本均值
y = pd.DataFrame(y)
y_bar = y.mean()
print(y_bar)


# 计算样本协方差
S_y = y.cov()
print(S_y)


# 计算 Hotelling's T statistic
T_sq = n * np.dot(np.dot(y_bar.T, np.linalg.inv(S_y)), y_bar)
T_sq2 = ((n - p)/(p * (n - 1))) * T_sq
print('T_sq2:', T_sq2)


# 计算p值
p_value = 1 - stats.f.cdf(T_sq2, p, n-p)
print('p_value:', p_value)

输出结果:

p_value: 0.05442091231270707

由p值可以看出quiz1和quiz2之间、quiz3和quiz4之间存在一些差异,但是这些差异在5%水平不是统计显著的。

示例2

需要用到consum2000, consum2010两个数据集,这个示例可以简单概括为比较2000年和2010年在食品(Food)、衣物(Cloth)、居民数(Resid)、交通(TranC)以及教育(Educ)消费结构有无变化。令

μ1 = mean(Food.2010 – Food.2000);

μ2 = mean(Cloth.2010 – Cloth.2000);

μ3 = mean(Resid.2010 – Resid.2000);

μ4 = mean(TranC.2010 – TranC.2000);

μ5 = mean(Educ.2010 – Educ.2000).

多元正态分布的定义(多元统计分析经典例题)

代码实现:

# 引入第三方库
import numpy as np
import pandas as pd
from scipy import stats


# 导入数据
consum00 = pd.read_csv("consum2000.csv")
consum10 = pd.read_csv("consum2010.csv")


# 计算2010年支出份额
data10 = consum10.iloc[:, 1:9]
sum10 = data10.sum(axis=1)
X = data10.div(sum10, axis='rows')
print(X)


# 计算2000年支出份额
data00 = consum00.iloc[:, 1:9]
sum00 = data00.sum(axis=1)
Y = data00.div(sum00, axis='rows')
print(Y)


# 求X与Y之差
XY_d = np.c_[X.iloc[:, 0:3]-Y.iloc[:, 0:3], X.iloc[:, 5:7]-Y.iloc[:, 5:7]]
XY_d = pd.DataFrame(XY_d, columns=('Food', 'Cloth', 'Resid', 'TranC', 'Educ'))
# 计算样本均值
d_mean = XY_d.mean()
print(d_mean)
# 计算样本协方差阵
d_S = XY_d.cov()


# 计算样本大小
n = np.shape(XY_d)[0]
# 计算变量数
p = np.shape(XY_d)[1]


# 计算 Hotelling's T 统计量
T2 = n * np.dot(np.dot(d_mean.T, np.linalg.inv(d_S)), d_mean)
Tstar2 = ((n-p)/(p*(n-1)))*T2


# 计算p值
p_value = 1 - stats.f.cdf(Tstar2, p, n-p)
print('p_value:', p_value)

输出结果:

p_value: 7.460698725481052e-14

可见p值近似为0,拒绝原假设,说明2000年与2010年的消费结构发生了明显的变化。

秒鲨号所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈!本站将在三个工作日内改正。
(0)

大家都在看

  • 点读笔排行榜前10强(最新点读笔排行榜)

    智东西(公众号:zhidxcom) 作者 | 韦世玮 编辑 | 心缘 “双减”政策这块巨石砸入教培行业泛起的层层涟漪,正辐射到更外围的市场。 自7月24日“双减”政策向教培行业重拳…

    2022年6月15日 投稿
  • 电脑钢琴键盘软件(钢琴键盘模拟器)

    Wispow Freepiano是一款可以在电脑上运行模拟钢琴的工具,具有出色的音响效果,功能也很出色哦,支持多种声音输出哦,通过软件可以播放出用户设定的优美音乐,享受钢琴的乐趣!…

    2022年2月27日
  • 《郁渔的偏执狂老公》作者:过年烤年糕

    虽说郁渔的人设太过于依赖,陆沛的人设太过于宠溺,但是我觉得吧一个愿宠一个愿听有何不好,这样的爱情不分性别没有分离,从青梅竹马相伴到白首,“我们一起来也要一起走”,全程高甜略带一丝让…

    2022年5月24日
  • 身份证到期可以异地办理吗(身份证到期可以异地补办吗)

      近日网友“smile”问政:   您好!请问,身份证即将到期,大同区的户口,现在住在萨尔图区,要在市政府服务中心那办换领身份证,需要带什么?谢谢!   市公安局回复如下:   …

    2022年6月3日
  • 购买社保需要什么资料(员工办社保要交的材料)

    缴纳社保首先要选择缴纳社保的基数标准。 填写社会保险个人信息登记表; 提交个人身份证反面复印件一张; 签署存档人员缴纳社会保险协议书并核对社会保险个人信息登记表。   企业首次参加…

    2022年4月3日
  • 医保卡去哪里领取(医保卡一直没领怎么办)

    缴纳社保后,会领取一张社会保障卡(社保卡),用于购药,就医,领取养老金等,对我们非常重要,那么社保卡到哪里领取,有哪些途径,我们来看一下: 社保卡的申领有两种途径:线上自助申领和线…

    2022年3月14日
  • 农谚有哪些(农谚的句子大全)

    在我国民间,至今有很多农谚流传,并对农事指导、预测天气等有重要的参考意义,这些农谚通俗易懂、言语精炼,容易为农民朋友理解记忆,这些农谚是我国传统文化的结晶,并且在现在的农业生产生活…

    2022年6月5日
  • app稳定性测试怎么做(一个完整的测试流程)

    1、安装卸载 1)安装:安装需考虑测试机的系统版本 ●安装涉及到的版本兼容: 安卓: 4.0版本 6.0版本 7.0版本 ios:8.0版本 10.0版本 11.0版本 ●软件安装…

    2022年5月3日
  • 小鹏汽车回应高管年薪超4亿(金融圈炸锅)

    2月16日,@钛媒体发布了高管薪酬排行TOP20榜单及高管个人年薪TOP50榜单,其中高管年薪排名第二的是小鹏汽车,已披露的8个董事合计年薪为4.4亿元,个人年薪排名第一的是小鹏汽…

    2022年2月19日
  • 安卓rar解压器(rar解压缩工具使用方法)

    一款软件好不好需要在对比与验证中得到答案,否则一切的吹嘘都是空谈。下面我带来的是Mac端BetterZip与Windows端Rar压缩软件的对比,大家一起看看。 由于Windows…

    2022年2月17日 投稿
品牌推广 在线咨询
返回顶部