您现在的位置是:首页 > 编程 > 

R语言基于Bootstrap的线性回归预测置信区间估计方法分析汽车制动距离

2025-07-23 09:04:37
R语言基于Bootstrap的线性回归预测置信区间估计方法分析汽车制动距离 阅读全文:/?p=我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们不到合适的分布时,就无法计算置信区间了吗?幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。相关视频本文使用BOOTSTRAP来获得预测

R语言基于Bootstrap的线性回归预测置信区间估计方法分析汽车制动距离

阅读全文:/?p=21625

我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。但如果我们不到合适的分布时,就无法计算置信区间了吗?

幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。

相关视频

本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论汽车速度和制动距离数据查看文末了解数据获取方式

代码语言:javascript代码运行次数:0运行复制
 > reg=lm(dist~speed,data=cars)
> points(x,predict(reg,newdata= data.frame(speed=x)))

这是一个单点预测。当我们想给预测一个置信区间时,预测的置信区间取决于参数估计误差。

R语言Bootstrap、百分位Bootstrap法抽样参数估计置信区间分析通勤时间和学生锻炼数据

01

02

0

04

预测置信区间

让我们从预测的置信区间开始

代码语言:javascript代码运行次数:0运行复制
 > for(s in 1:500){
+ indice=sample(1:n,size=n,
+ replace=TRUE)
+ points(x,predict(reg,newdata=data.frame(speed=x)),pch=19,col="blue")

蓝值是通过在我们的观测数据库中重新取样获得的可能预测值。值得注意的是,在残差正态性假设下(回归线的斜率和常数估计值),置信区间(90%)如下所示:

代码语言:javascript代码运行次数:0运行复制
predict(reg,interval ="confidence",

在这里,我们可以比较500个生成数据集上的值分布,并将经验分位数与正态假设下的分位数进行比较,

代码语言:javascript代码运行次数:0运行复制
> hist(Yx,proba=TRUE
> boxplot(Yx,horizontal=TRUE
> polygon(c( x ,rev(x I]))))

可以看出,经验分位数与正态假设下的分位数是可以比较的。

代码语言:javascript代码运行次数:0运行复制
 > quantile(Yx,c(.05,.95))
      5%      95% 
58.6689 70.1281 
 + level=.9,newdata=data.frame(speed=x)) 
       fit      lwr      upr
1 65.00149 59.6594 70.464

感兴趣变量的可能值

现在让我们看看另一种类型的置信区间,关于感兴趣变量的可能值。这一次,除了提取新样本和计算预测外,我们还将在每次绘制时添加噪声,以获得可能的值。

代码语言:javascript代码运行次数:0运行复制
> for(s in 1:500){
+ indice=sample(1:n,size=n,
+ base=cars[indice,]
+ erreur=residuals(reg)
+ predict(reg,newdata=data.frame(speed=x))+E

在这里,我们可以(首先以图形方式)比较通过重新取样获得的值和在正态假设下获得的值,

代码语言:javascript代码运行次数:0运行复制
> hist(Yx,proba=TRUE)
> boxplot(Yx) abline(v=U[2:)
> polygon(c(D$x[I,rev(D$x[I])

数值上给出了以下比较

代码语言:javascript代码运行次数:0运行复制
> quantile(Yx,c(.05,.95))
      5%      95% 
44.4468 96.0157 
U=predict(reg,interval ="prediction"
       fit      lwr      upr
1 67.616 45.16967 90.0905

这一次,右侧有轻微的不对称。显然,我们不能假设高斯残差,因为有更大的正值,而不是负值。考虑到数据的性质,这是有意义的(制动距离不能是负数)。

然后开始讨论在供应中使用回归模型。为了获得具有独立性,有人认为必须使用增量付款的数据,而不是累计付款。

可以创建一个数据库,解释变量是行和列。

代码语言:javascript代码运行次数:0运行复制
> base=data.frame(
+ y

> head(base,12)
      y   ai bj
1  209 2000  0
2  67 2001  0
  871 2002  0
4  429 200  0
5  4929 2004  0
6  5217 2005  0
7  116 2000  1
8  1292 2001  1
9  1474 2002  1
10 1678 200  1
11 1865 2004  1
12   A 2005  1

然后,我们可以从基于对数增量付款数据的回归模型开始,该模型基于对数正态模型

代码语言:javascript代码运行次数:0运行复制
 Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)         7.9471     0.1101  72.188 6.5e-15 ***
as.factor(ai)2001   0.1604     0.1109   1.447  0.17849    
as.factor(ai)2002   0.2718     0.1208   2.250  0.04819 *  
as.factor(ai)200   0.5904     0.142   4.99  0.0014 ** 
as.factor(ai)2004   0.555     0.1562   .54  0.005 ** 
as.factor(ai)2005   0.6126     0.2070   2.959  0.0141 *  
as.factor(bj)1     -0.9674     0.1109  -8.726 5.46e-06 ***
as.factor(bj)2     -4.229     0.1208 -5.08 8.50e-12 ***
as.factor(bj)     -5.0571     0.142 -7.684 4.1e-12 ***
as.factor(bj)4     -5.901     0.1562 -7.78 4.02e-12 ***
as.factor(bj)5     -4.9026     0.2070 -2.685 4.08e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.175 on 10 degrees of freedom
  (15 observati deleted due to missingness)
Multiple R-squared: 0.9975,    Adjusted R-squared: 0.9949 
F-statistic: 91.7 on 10 and 10 DF,  p-value: 1.8e-11 

> 
exp(predict(reg1,
+ newdata=base)+summary(reg1)$sigma^2/2)

       [,1]   [,2] [,] [,4] [,5] [,6]
[1,] 2871.2 1091. 41.7 18.  7.8 21.
[2,] 70.8 1281.2 48.9 21.5  9.2 25.0
[,] 768.0 142.1 54.7 24.0 10. 28.0
[4,] 5181.5 1969.4 75.2 .0 14.2 8.5
[5,] 4994.1 1898.1 72.5 1.8 1.6 7.1
[6,] 5297.8 201.6 76.9 .7 14.5 9.

> sum(py[(y)])
[1] 2481.857

这与链式梯度法的结果略有不同,但仍然具有可比性。我们也可以尝试泊松回归(用对数链接)

代码语言:javascript代码运行次数:0运行复制
glm(y~
+ as.factor(ai)+
+ as.factor(bj),data=base,
+ family=poisson)


Coefficients:
                  Estimate Std. Error z value Pr(>|z|)    
(Intercept)        8.05697    0.01551 519.426  < 2e-16 ***
as.factor(ai)2001  0.06440    0.02090   .081  0.00206 ** 
as.factor(ai)2002  0.20242    0.02025   9.995  < 2e-16 ***
as.factor(ai)200  0.1175    0.01980  15.744  < 2e-16 ***
as.factor(ai)2004  0.44407    0.019  22.971  < 2e-16 ***
as.factor(ai)2005  0.50271    0.02079  24.179  < 2e-16 ***
as.factor(bj)1    -0.9651    0.0159 -70.994  < 2e-16 ***
as.factor(bj)2    -4.1485    0.0661 -62.729  < 2e-16 ***
as.factor(bj)    -5.10499    0.1262 -40.41  < 2e-16 ***
as.factor(bj)4    -5.94962    0.24279 -24.505  < 2e-16 ***
as.factor(bj)5    -5.01244    0.21877 -22.912  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for poisson family taken to be 1)

    ull deviance: 46695.269  on 20  degrees of freedom
Residual deviance:    0.214  on 10  degrees of freedom
  (15 observati deleted due to missingness)
AIC: 209.52

umber of Fisher Scoring iterati: 4

> predict(reg2,
newdata=base,type="respe")

> sum(py2[(y)])
[1] 2426.985

预测结果与链式梯度法得到的估计值吻合。克劳斯·施密特(Klaus Schmidt)和安吉拉·温什(Angela Wünsche)于1998年在链式梯度法、边际和最大似然估计中建立了与最小偏差方法的联系。

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2025-01-14,如有侵权请联系 cloudcommunity@tencent 删除线性回归汽车模型数据bootstrap

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1176099.html

相关标签:无
上传时间: 2025-07-21 17:21:15
留言与评论(共有 18 条评论)
本站网友 性工作者2
8分钟前 发表
4] [
本站网友 倩女幽魂ol好玩吗
18分钟前 发表
为了获得具有独立性
本站网友 房子网
5分钟前 发表
因为有更大的正值
本站网友 长沙二手房交易税费
0秒前 发表
我们还将在每次绘制时添加噪声
本站网友 大兴房价
0秒前 发表
R语言Bootstrap
本站网友 深圳油价
5分钟前 发表
proba=TRUE) > boxplot(Yx) abline(v=U[2
本站网友 nexus3
15分钟前 发表
6] [1
本站网友 东方听书网
22分钟前 发表
为了获得具有独立性
本站网友 崇义县人民政府网
11分钟前 发表
可以创建一个数据库
本站网友 乳汁分泌
14分钟前 发表
本文参与 腾讯云自媒体同步曝光计划
本站网友 北京吉他培训班
19分钟前 发表
我们可以(首先以图形方式)比较通过重新取样获得的值和在正态假设下获得的值
本站网友 秦皇岛信息
21分钟前 发表
] 768.0 142.1 54.7 24.0 10. 28.0 [4
本站网友 汕尾电信宽带
28分钟前 发表
预测的置信区间取决于参数估计误差
本站网友 一个口一个女念什么
20分钟前 发表
为了获得具有独立性
本站网友 kijiji
17分钟前 发表
+ base=cars[indice
本站网友 对外开放的意义
21分钟前 发表
显然
本站网友 杭州市委书记
13分钟前 发表
pch=19