京公网安备 11010802034615号
经营许可证编号:京B2-20210330
R语言与函数估计学习笔记(样条方法)
样条估计
如果函数在不同地方有不同的非线性度,或者有多个极值点,那么用多项式特别是低阶多项式来完成拟合是非常不合适的。一种解决办法是我们之前提到的近邻多项式(或者称局部多项式),另一种就是样条——用分段的低阶多项式逼近函数。
关于样条,常用的有两类,一类是多项式样条,另一类是光滑样条。
多项式样条
多项式样条的样条基有很多,最为著名的是我们之前在函数逼近中提到的truncated power basis与B-spline basis。我们这里十分简要的介绍一下B样条,B样条基下的函数逼近可以写为:

其中

上式中
否则取0.在R中splines包的函数bs()提供了B样条估计,其调用格式为:
bs(x, df = NULL, knots = NULL, degree = 3, intercept = FALSE, Boundary.knots = range(x))
对于参数df值得说明的是df=degree+(Knots个数),attr(,“knots”)会显示划分点,我们常用的3次B样条公式: df=k+3 (不含常数项)
我们以前面提到的essay data为例说明B样条的估计情况:
easy <- read.table("D:/R/data/easysmooth.dat", header = T)
x <- easy$X
y <- easy$Y
m.bsp <- lm(y ~ bs(x, df = 6))
s = function(x) {
(x^3) * sin((x + 3.4)/2)
}
x.plot = seq(min(x), max(x), length.out = 1000)
y.plot = s(x.plot)
plot(x, y, xlab = "Predictor", ylab = "Response")
lines(x.plot, y.plot, lty = 1, col = 1)
lines(x, fitted(m.bsp), lty = 2, col = 2)
attr(bs(x, df = 6), "knots") #可以将看到,节点在不指定的情况下默认的是均匀样条,当然,我们可以根据散点图给#出节点的具体选择。
## 25% 50% 75%
## -1.875 -0.250 1.375
m.bsp1 <- lm(y ~ bs(x, df = 6, knots = c(-2.5, -1, 2)))
lines(x, fitted(m.bsp1), lty = 3, col = 3)

AIC(m.bsp)
## [1] 718.1
AIC(m.bsp1)
## [1] 727.4
summary(m.bsp)
##
## Call:
## lm(formula = y ~ bs(x, df = 6))
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.790 -0.911 -0.065 0.892 4.445
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.816 0.622 2.92 0.0039 **
## bs(x, df = 6)1 -10.552 1.161 -9.09 < 2e-16 ***
## bs(x, df = 6)2 -7.127 0.755 -9.44 < 2e-16 ***
## bs(x, df = 6)3 0.813 0.926 0.88 0.3808
## bs(x, df = 6)4 -4.056 0.859 -4.72 4.5e-06 ***
## bs(x, df = 6)5 5.781 0.967 5.98 1.1e-08 ***
## bs(x, df = 6)6 -3.505 0.865 -4.05 7.4e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.42 on 193 degrees of freedom
## Multiple R-squared: 0.824, Adjusted R-squared: 0.819
## F-statistic: 151 on 6 and 193 DF, p-value: <2e-16
可以看到B样条基本很接近真实函数了,summary(m.bsp)报告了各个系数的估计,带入f(x)的B样条基展开中即可得到一个显式的表达式。
光滑样条
虽然B样条已经很好了,但是理论与实践都表明直接用最小二乘去求解系数效果不好,容易过拟合。一个可能的改进是光滑样条。所谓的光滑样条,就是在求解最小二乘时给估计函数f(x)加上了一定的惩罚,这个有点类似压缩估计。我们这里采用最常用的光滑性惩罚,得到函数f(x)的估计m(x)满足如下的惩罚最小二乘:

在R的splines包中提供了函数smooth.spline来求解光滑样条
easy <- read.table("D:/R/data/easysmooth.dat", header = T)
x <- easy$X
y <- easy$Y
s.hat <- smooth.spline(x, y)
## OUTPUT
s.hat
## Call: ## smooth.spline(x = x, y = y) ## ## Smoothing Parameter spar= 0.7251 lambda= 0.0002543 (12 iterations) ## Equivalent Degrees of Freedom (Df): 11.56 ## Penalized Criterion: 380.9 ## GCV: 2.145
## OUTPUT PLOTS
s <- function(x) {
(x^3) * sin((x + 3.4)/2)
}
x.plot = seq(min(x), max(x), length.out = 1000)
y.plot = s(x.plot)
plot(x, y, xlab = "Predictor", ylab = "Response")
lines(x.plot, y.plot, lty = 1, col = 1)
lines(s.hat, lty = 2, col = 2)
最后我们来讲一下怎么计算出m(x),这里我们使用Reinsch algorithm。Step 1: 计算向量Q′y.Step 2: 找到一个非0对角阵R+λQ′Q使得它可以进行Cholesky分解,有因子L,DStep 3: 解方程:(R+λQ′Q)γ=Q′yStep 4: 得到估值m=y−αQγ.上面的Q与R可以表示为:

上面的t表示节点。我们不妨来算算essay data的例子:
easy <- read.table("D:/R/data/easysmooth.dat", header = T)
x <- easy$X
y <- easy$Y
n <- length(y)
knots <- seq(min(x), max(x), length = n + 1)
h <- knots[-1] - knots[-n]
Q <- matrix(0, n, n - 2)
R <- matrix(0, n - 2, n - 2)
for (i in 1:(n - 2)) {
Q[i, i] = 1/h[i]
Q[i + 1, i] = -1/h[i] - 1/h[i + 1]
Q[i + 2, i] = 1/h[i + 1]
}
for (i in 2:(n - 2)) {
R[i, i] = 1/6 * (h[i] + h[i + 1])
R[i - 1, i] = h[i]/6
R[i, i - 1] = h[i]/6
}
R[1, 1] = 1/6 * (h[1] + h[2])
lambda <- 0.2
A <- R + lambda * t(Q) %*% Q
gamma <- solve(A, t(Q) %*% as.matrix(y))
g <- as.matrix(y) - lambda * Q %*% gamma
s <- function(x) {
(x^3) * sin((x + 3.4)/2)
}
x.plot <- seq(min(x), max(x), length.out = 1000)
y.plot <- s(x.plot)
plot(x, y, xlab = "Predictor", ylab = "Response")
lines(x.plot, y.plot, lty = 1, col = 1)
lines(x, g, lty = 2, col = 2)
在惩罚系数为0.2的情况下,拟合还是不坏的,不是吗?至于为什么可以这样算,我们只要注意到\int [m^{''}(x)]dx=m^'(x_i)QR^{-1}Q^'m(x_i),估计的问题就与我们十分熟悉的lasso,岭回归十分相像了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈、 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-12在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07