北美[Quant](/blog/quant-interview-guide)面试统计学速查宝典
Quant Interview Guide
刚整理完一份超全的Quant面试统计学速查表,涵盖了从基础概念到高级应用的所有知识点。今天也给大家导导航,把里面的"知识点"都给你们整理清楚。
速查表设计理念和使用方法
为什么需要统计知识速查表
Quant面试中统计学是绝对的基础,但知识点繁多且容易混淆。从描述性统计到推断统计,从回归分析到时间序列,每个领域都有大量的公式、定理和应用场景。面试时间紧张,需要能够快速回忆关键概念和公式。更重要的是,面试官不仅考察理论知识,还要求能够将统计方法应用到实际的金融问题中。
速查表的组织结构
这份速查表按照五大模块组织:描述性统计、概率论基础、推断统计、回归分析、时间序列分析。每个模块包含核心概念、关键公式、适用条件、常见陷阱、金融应用五个部分。查找时可以根据面试问题的类型快速定位到相应模块,然后查看具体的知识点和解答要点。
第一部分:描述性统计核心概念
中心趋势测量
均值Mean 定义:数据集中所有数值的算术平均值,反映数据的中心位置。 公式:μ = Σxi / n 适用条件:数据呈正态分布或近似正态分布时最有效。 常见陷阱:受极值影响较大,对于偏态分布可能不能很好反映中心趋势。 金融应用:计算股票收益率的平均水平,评估投资组合的期望收益。
第1题:Calculate the expected return of a Portfolio with three assets having returns of 8%, 12%, and 15% with equal weights.
解题思路:等权重投资组合的期望收益就是各资产收益的算术平均值。计算过程为(8% + 12% + 15%) / 3 = 11.67%。这里要注意等权重意味着每个资产的权重都是1/3,如果权重不同则需要使用加权平均。
中位数Median 定义:将数据按大小顺序排列后位于中间位置的数值。 计算方法:奇数个数据取中间值,偶数个数据取中间两个值的平均。 适用条件:对极值不敏感,适用于偏态分布。 金融应用:分析收益率分布的中心位置,特别是在存在异常收益时。
众数Mode 定义:数据集中出现频率最高的数值。 特点:可能不存在、唯一或多个。 适用条件:适用于分类数据和离散数据。 金融应用:分析交易量最集中的价格区间。
离散程度测量
方差Variance 定义:衡量数据偏离均值程度的平方的平均值。 公式:σ² = Σ(xi - μ)² / n 金融意义:在金融中代表风险的大小,方差越大风险越高。
第2题:A stock has daily returns of 2%, -1%, 3%, 0%, 1% over five days. Calculate the variance.
解题思路:首先计算均值μ = (2% - 1% + 3% + 0% + 1%) / 5 = 1%。然后计算方差σ² = [(2%-1%)² + (-1%-1%)² + (3%-1%)² + (0%-1%)² + (1%-1%)²] / 5 = [1% + 4% + 4% + 1% + 0%] / 5 = 2%。
标准差Standard Deviation 定义:方差的平方根,与原数据具有相同的量纲。 公式:σ = √σ² 金融应用:衡量投资风险,计算VaR,构建风险调整收益指标。
变异系数Coefficient of Variation 定义:标准差与均值的比值,用于比较不同量纲数据的离散程度。 公式:CV = σ / μ 金融应用:比较不同资产的相对风险水平。
分布形状测量
偏度Skewness 定义:衡量数据分布对称性的指标。 计算:Skewness = E[(X-μ)³] / σ³ 解释:正偏度表示右偏,负偏度表示左偏。 金融应用:分析收益率分布的不对称性,评估下行风险。
第3题:What does negative skewness in stock returns imply for risk management?
解题思路:负偏度意味着收益率分布左偏,即出现大幅负收益的概率较高。这对风险管理的含义是:传统的基于正态分布假设的风险模型可能低估了极端损失的概率,需要使用更复杂的风险模型如VaR或CVaR来更准确地衡量下行风险。
峰度Kurtosis 定义:衡量数据分布尖锐程度的指标。 计算:Kurtosis = E[(X-μ)⁴] / σ⁴ 解释:峰度大于3表示尖峰分布,小于3表示平峰分布。 金融应用:识别极端事件的发生概率,评估模型的适用性。
第二部分:概率论基础
概率基本概念
概率定义 古典概率:P(A) = 有利结果数 / 总结果数 频率概率:P(A) = lim(n→∞) 事件A发生次数 / 试验总次数 主观概率:基于个人经验和判断的概率估计
概率运算法则 加法法则:P(A∪B) = P(A) + P(B) - P(A∩B) 乘法法则:P(A∩B) = P(A) × P(B|A) 全概率公式:P(B) = ΣP(B|AI) × P(Ai) 贝叶斯定理:P(A|B) = P(B|A) × P(A) / P(B)
第4题:A trading Algorithm has a 70% accuracy rate. If it makes 3 independent trades, what's the probability of at least 2 successful trades?
解题思路:这是二项分布问题。至少2次成功包括恰好2次成功和恰好3次成功。P(X≥2) = P(X=2) + P(X=3) = C(3,2) × 0.7² × 0.3¹ + C(3,3) × 0.7³ × 0.3⁰ = 3 × 0.49 × 0.3 + 1 × 0.343 × 1 = 0.441 + 0.343 = 0.784。
常见概率分布
正态分布Normal Distribution 参数:均值μ和标准差σ 概率密度函数:f(x) = (1/σ√2π) × e^(-(x-μ)²/2σ²) 性质:对称分布,68-95-99.7法则 金融应用:股票收益率建模,风险管理中的VaR计算
第5题:Stock returns follow a normal distribution with mean 10% and standard deviation 20%. What's the probability of a return below -10%?
解题思路:需要标准化处理。Z = (-10% - 10%) / 20% = -1。查标准正态分布表,P(Z < -1) = 0.1587,即约15.87%的概率收益率低于-10%。
对数正态分布Log-Normal Distribution 特点:如果ln(X)服从正态分布,则X服从对数正态分布 参数:μ和σ(对数值的均值和标准差) 金融应用:股票价格建模,期权定价中的标的资产价格
泊松分布Poisson Distribution 参数:λ(单位时间内事件发生的平均次数) 概率质量函数:P(X=k) = λᵏe^(-λ) / k! 金融应用:建模单位时间内的交易次数、违约事件等
指数分布Exponential Distribution 参数:λ(率参数) 概率密度函数:f(x) = λe^(-λx) 性质:无记忆性 金融应用:建模等待时间,如两次交易之间的时间间隔
第三部分:推断统计
假设检验基础
假设检验步骤
1. 建立原假设H₀和备择假设H₁
2. 选择显著性水平α
3. 选择检验统计量
4. 计算检验统计量的值
5. 确定拒绝域或计算p值
6. 做出统计决策
第6题:Test whether a trading strategy's average daily return is significantly different from zero. Sample: n=100, mean=0.5%, std=2%.
解题思路:这是单样本t检验。H₀: μ = 0, H₁: μ ≠ 0。检验统计量t = (0.5% - 0) / (2% / √100) = 0.5% / 0.2% = 2.5。自由度df = 99,在α = 0.05下,临界值约为±1.984。由于|2.5| > 1.984,拒绝原假设,认为策略收益显著不为零。
第一类错误和第二类错误 第一类错误(α错误):拒绝真实的原假设 第二类错误(β错误):接受错误的原假设 功效Power:1 - β,正确拒绝错误原假设的概率
常用检验方法
t检验 单样本t检验:检验样本均值是否等于某个特定值 双样本t检验:比较两个样本均值是否相等 配对t检验:比较配对数据的差值是否为零
第7题:Compare the performance of two trading algorithms. Algorithm A: mean=1.2%, std=3%, n=50. Algorithm B: mean=0.8%, std=2.5%, n=60.
解题思路:使用双样本t检验。首先检验方差是否相等,然后选择合适的t检验公式。假设方差相等,合并方差s²ₚ = [(50-1)×3²+(60-1)×2.5²]/(50+60-2) = [49×9+59×6.25]/108 = 7.81。标准误SE = √(7.81×(1/50+1/60)) = 0.51%。t = (1.2%-0.8%)/0.51% = 0.78。自由度df=108,在α=0.05下不显著。
卡方检验 适用性检验:检验数据是否符合某种分布 独立性检验:检验两个分类变量是否独立 齐性检验:检验多个总体的分布是否相同
F检验 方差齐性检验:比较两个样本的方差是否相等 回归模型的显著性检验:检验回归模型整体是否显著
置信区间
置信区间的含义 置信区间是对总体参数的区间估计 置信水平表示区间包含真实参数值的概率 常用置信水平:90%、95%、99%
第8题:Construct a 95% confidence interval for the mean return of a stock. Sample: n=25, mean=8%, std=15%.
解题思路:由于样本量较小且总体标准差未知,使用t分布。t₀.₀₂₅,₂₄ = 2.064。置信区间为8% ± 2.064 × (15%/√25) = 8% ± 2.064 × 3% = 8% ± 6.19% = [1.81%, 14.19%]。
第四部分:回归分析
简单线性回归
回归模型 Y = β₀ + β₁X + ε 其中β₀是截距,β₁是斜率,ε是误差项
参数估计 最小二乘法:β₁ = Σ(xi-x̄)(yi-ȳ) / Σ(xi-x̄)² β₀ = ȳ - β₁x̄
第9题:Estimate the relationship between stock returns and market returns. Data shows: Σ(xi-x̄)(yi-ȳ) = 0.05, Σ(xi-x̄)² = 0.08, x̄ = 2%, ȳ = 1.5%.
解题思路:β₁ = 0.05 / 0.08 = 0.625,这是股票的beta系数。β₀ = 1.5% - 0.625 × 2% = 0.25%。回归方程为:股票收益 = 0.25% + 0.625 × 市场收益。
模型评估
决定系数R² 定义:R² = 1 - SSE/SST = SSR/SST 含义:解释变量能够解释因变量变异的比例 取值范围:0到1,越接近1模型拟合越好
调整R² 公式:R²ₐdⱼ = 1 - (1-R²)(n-1)/(n-k-1) 作用:考虑了自变量个数的影响,避免过拟合
多元线性回归
模型形式 Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
参数估计 矩阵形式:β = (X'X)⁻¹X'Y 其中X是设计矩阵,Y是因变量向量
第10题:In a multi-factor model for stock returns, what does multicollinearity mean and how to detect it?
解题思路:多重共线性指自变量之间存在高度线性相关。检测方法包括:1)计算相关系数矩阵,相关系数大于0.8可能存在共线性;2)计算方差膨胀因子VIF,VIF > 10表示严重共线性;3)观察回归系数的符号是否与预期相符。解决方法包括删除相关变量、主成分分析、岭回归等。
回归诊断
残差分析 正态性检验:Shapiro-Wilk检验、Q-Q图 同方差性检验:Breusch-Pagan检验、White检验 独立性检验:Durbin-Watson检验
异常值检测 杠杆值:衡量观测值在自变量空间中的极端程度 学生化残差:标准化后的残差 Cook距离:衡量观测值对回归结果的影响
第五部分:时间序列分析
时间序列基本概念
时间序列组成 趋势Trend:长期变化方向 季节性Seasonality:周期性波动 周期性Cyclical:不规则的长期波动 随机性Random:不可预测的波动
平稳性Stationarity 严平稳:联合分布不随时间改变 弱平稳:均值和方差不随时间改变,协方差只依赖于时间间隔
第11题:How do you test for stationarity in a financial time series?
解题思路:常用方法包括:1)ADF检验(Augmented Dickey-Fuller Test),原假设是存在单位根(非平稳),p值小于0.05拒绝原假设;2)KPSS检验,原假设是平稳的;3)PP检验(Phillips-Perron Test)。还可以通过观察时间序列图、ACF图来初步判断。如果序列非平稳,可以通过差分、对数变换等方法使其平稳。
ARIMA模型
AR模型(自回归) AR(p): Xt = φ₁Xt₋₁ + φ₂Xt₋₂ + ... + φₚXt₋ₚ + εt 特点:当前值依赖于过去p期的值
MA模型(移动平均) MA(q): Xt = εt + θ₁εt₋₁ + θ₂εt₋₂ + ... + θqεt₋q 特点:当前值依赖于过去q期的误差项
ARIMA模型 ARIMA(p,d,q):结合AR、差分、MA d表示差分次数,用于处理非平稳序列
第12题:How would you model and forecast stock volatility using time series methods?
解题思路:股票波动率建模常用GARCH模型族。基本GARCH(1,1)模型:σ²t = ω + αε²t₋₁ + βσ²t₋₁。其中σ²t是条件方差,ε²t₋₁是滞后残差平方,σ²t₋₁是滞后条件方差。还可以使用EGARCH、GJR-GARCH等模型捕捉波动率的非对称性。模型选择可以通过AIC、BIC准则,预测效果可以通过MAE、RMSE等指标评估。
协整和误差修正模型
协整关系 定义:两个或多个非平稳序列的线性组合是平稳的 经济意义:变量间存在长期均衡关系 检验方法:Engle-Granger两步法、Johansen检验
误差修正模型ECM 短期动态调整机制 误差修正项反映偏离长期均衡的调整速度
实战应用和案例分析
配对交易策略
第13题:Design a pairs trading strategy using statistical methods.
解题思路:配对交易基于协整理论。步骤包括:1)选择相关性高的股票对;2)检验协整关系,确保存在长期均衡;3)构建价差序列,检验其平稳性;4)当价差偏离均值超过一定阈值时开仓,回归均值时平仓;5)风险控制包括止损、仓位管理等。关键统计指标包括相关系数、协整检验p值、价差的均值回归速度等。
风险管理应用
VaR计算 历史模拟法:基于历史数据分布 参数法:假设收益率服从正态分布 蒙特卡罗模拟:通过随机模拟生成收益率分布
第14题:Calculate 1-day 95% VaR for a portfolio with daily return mean 0.1% and standard deviation 2%.
解题思路:假设收益率服从正态分布,95% VaR对应5%分位数。标准化后Z₀.₀₅ = -1.645。VaR = -(0.1% + (-1.645) × 2%) = -(0.1% - 3.29%) = 3.19%。即有5%的概率一天损失超过3.19%。
压力测试 情景分析:设定极端市场情况 敏感性分析:分析关键参数变化的影响 蒙特卡罗模拟:生成大量随机情景
算法交易中的统计应用
均值回归策略 基于统计套利的思想 识别价格偏离均值的机会 使用统计检验判断信号强度
第15题:How would you use statistical tests to validate a mean reversion trading signal?
解题思路:验证均值回归信号可以使用多种统计方法:1)ADF检验验证价格序列的平稳性;2)Hurst指数检验,H < 0.5表示均值回归;3)方差比检验,比值小于1支持均值回归;4)回归分析,检验价格对其移动平均的回归系数是否显著为负;5)样本外测试验证策略的稳健性。还要考虑交易成本、滑点等实际因素。
