数据预处理 · 特征工程 · 中级选择题
编号:Q1
- 基本信息:主题—数值特征缩放;适用场景—基于距离的算法与降维
题干
在一个包含不同量纲的数值特征的数据集中,计划同时使用KNN分类器和PCA进行降维。数据中存在少量异常点(非极端)。以下哪种缩放策略更为合适?
选项
- A. 不做缩放,让模型自行适应
- B. 使用标准化(StandardScaler,零均值、单位方差)
- C. 使用MinMax缩放将所有特征压到[0,1]
- D. 对每个样本做L2归一化(按行归一化)
正确答案:B
技术解析
- 选择标准化的原因:KNN依赖欧氏距离,PCA依赖协方差矩阵,未缩放的特征会因量纲不同导致距离与主成分受某些特征主导。标准化将各特征调整到零均值、单位方差,通常更稳健地服务于KNN与PCA。
- 错误项解析:
- A 不缩放:量纲差异会破坏距离计算与PCA结果。
- C MinMax对异常值敏感(极值决定缩放区间),在存在异常点时可能拉伸缩放,不如标准化稳健。
- D 按行归一化改变每个样本的整体尺度,适用于文本TF-IDF等向量,但不适合作为数值特征的全局缩放替代。
难度级别:中级
知识点标签:数据预处理,特征缩放,KNN,PCA
编号:Q2
题干
对于包含50个州名的高基数类别特征,在使用线性回归时应采用哪种编码方式以避免“虚拟变量陷阱”(完全多重共线性)?
选项
- A. 直接标签编码(LabelEncoder)
- B. 序数编码(OrdinalEncoder)并按字母顺序赋值
- C. One-Hot编码并丢弃一个参考类别(drop='first')
- D. 目标编码(Target Encoding)使用全数据均值
正确答案:C
技术解析
- 选择C的原因:One-Hot编码为线性模型提供可解释的类别效应,丢弃一个参考类别可避免因列线性依赖导致的多重共线性(虚拟变量陷阱)。
- 错误项解析:
- A 标签编码为类别引入无意义的数值顺序,在线性模型中会被误解为线性关系。
- B 序数编码同样引入人为次序,不适合无序类别。
- D 用全数据均值做目标编码存在严重的目标泄漏,应在交叉验证内、仅用训练折数据进行,且此处线性回归更推荐One-Hot。
难度级别:中级
知识点标签:特征工程,类别编码,线性模型,多重共线性
编号:Q3
题干
在对高基数类别特征进行目标编码时,下列做法哪项是正确且能够有效避免目标泄漏?
选项
- A. 在全数据上计算每个类别的目标均值,再划分训练/测试集
- B. 仅在训练集上计算目标均值,然后直接应用到测试集
- C. 在交叉验证过程中,按折叠仅用当前训练折数据计算类别均值,并对验证折使用相应均值
- D. 使用K折交叉验证计算均值,但在每折计算时仍包含验证折数据
正确答案:C
技术解析
- 选择C的原因:折内计算、折间应用的方案保证验证/测试数据的目标信息不被编码学习,从而避免泄漏。可结合平滑、噪声注入进一步稳健。
- 错误项解析:
- A 先用全数据计算均值再切分是典型泄漏。
- B 虽然只用训练集,但没有在CV内分折,会在模型选择/调参阶段产生偏乐观评估。
- D 在每折计算中包含验证折仍然泄漏验证目标信息。
难度级别:中级
知识点标签:数据泄漏,目标编码,交叉验证
编号:Q4
- 基本信息:主题—交互特征;适用模型—线性/广义线性模型
题干
若线性模型在当前特征下表现欠佳,怀疑存在特征间的乘性关系,以下哪种策略更合适以提升模型表现并控制过拟合?
选项
- A. 使用PCA替代线性模型
- B. 添加所有二次项(平方)但不进行正则化
- C. 使用核技巧将线性模型变为非线性模型(不改变特征)
- D. 生成仅交互项的多项式特征(interaction_only=True),并配合L1/L2正则化
正确答案:D
技术解析
- 选择D的原因:交互项明确建模特征间的乘性关系;L1/L2正则化可抑制过拟合、进行特征选择或收缩。相比直接加所有二次项更聚焦于交互。
- 错误项解析:
- A PCA是无监督降维,不一定捕获预测目标相关的交互关系。
- B 无正则化在高维下易过拟合。
- C 核技巧通常用于SVM等模型,不是线性回归的常规手段,且不直观解释交互。
难度级别:中级
知识点标签:特征工程,交互项,多项式特征,正则化
编号:Q5
- 基本信息:主题—缺失值处理;数据特性—偏态分布且缺失可能有信息
题干
数值特征呈强偏态分布,且缺失值可能与目标相关(缺失本身携带信息)。以下最合理的处理方式是?
选项
- A. 使用均值填充
- B. 使用众数填充
- C. 使用中位数填充,并添加缺失指示(missing indicator)特征
- D. 直接删除含缺失的样本
正确答案:C
技术解析
- 选择C的原因:中位数对偏态更稳健;缺失指示让模型利用“缺失”这一潜在信息。树模型尤其可以利用该指示变量。
- 错误项解析:
- A 均值受偏态和异常值影响较大。
- B 众数主要适用于类别数据,不适合数值型。
- D 删除样本可能引入偏倚并损失信息。
难度级别:中级
知识点标签:缺失值处理,偏态,稳健统计,特征工程
编号:Q6
- 基本信息:主题—时间/周期特征编码;场景—小时、星期等周期变量
题干
对于“小时(0–23)”这类周期性变量,哪种编码能最好地反映其环状结构并避免在0与23之间产生人为的远距离?
选项
- A. 直接保留整数并标准化
- B. One-Hot编码
- C. 使用正弦/余弦的环形编码(sin/cos)
- D. MinMax缩放到[0,1]
正确答案:C
技术解析
- 选择C的原因:sin/cos编码将周期映射到单位圆,保持邻近性(23与0相近),适合学习周期模式。
- 错误项解析:
- A、D 线性映射无法表达周期邻近性。
- B One-Hot丢失连续周期信息,参数维度大。
难度级别:中级
知识点标签:时间特征,周期编码,特征工程
编号:Q7
- 基本信息:主题—特征选择(过滤法);目标类型—二分类
题干
在进行过滤法特征选择时,为了更好地发现与二分类目标的非线性关联,以下哪种度量更合适?
选项
- A. 皮尔逊相关系数(Pearson)
- B. 斯皮尔曼秩相关(Spearman)
- C. 互信息(Mutual Information)
- D. 方差筛选(Variance Threshold)
正确答案:C
技术解析
- 选择C的原因:互信息可捕捉更一般的依赖关系(包括非线性),适用于分类目标与数值/类别特征。需在训练集上估计以避免泄漏。
- 错误项解析:
- A Pearson只衡量线性关系。
- B Spearman衡量单调关系,但对复杂非线性(非单调)不敏感。
- D 方差筛选只基于特征自身分布,不考虑与目标的关联。
难度级别:中级
知识点标签:特征选择,过滤法,互信息,非线性关系
编号:Q8
- 基本信息:主题—预处理管道与数据泄漏;框架—scikit-learn思维
题干
为了避免数据泄漏,以下关于缩放与模型训练的流程哪项表述是正确的?
选项
- A. 先在全数据上拟合缩放器,再划分训练/测试集
- B. 划分训练/测试集后,在训练集上拟合缩放器,并仅将变换应用到测试集
- C. 在交叉验证中,每次划分都应仅用当前训练折拟合缩放器,并应用到当前验证折
- D. 为避免泄漏,在测试集上也单独拟合一个缩放器
正确答案:C
技术解析
- 选择C的原因:预处理应嵌入到交叉验证流程(如Pipeline或ColumnTransformer中),每折仅用训练折拟合,再作用于验证折,最终对测试集亦仅用“用训练集拟合”的变换。
- 错误项解析:
- A 在全数据上拟合缩放器是泄漏的来源。
- B 虽然只用训练集拟合缩放器,但若进行模型选择/调参,应在CV内重复此过程,不能跳过。
- D 在测试集上拟合缩放器不可取,测试集应模拟真实未见数据,仅接受训练集学习到的变换。
难度级别:中级
知识点标签:数据预处理,Pipeline,交叉验证,数据泄漏
以上题目均围绕数据预处理与特征工程核心概念设计,难度为中级,适合课程考核、企业培训与在线评估使用。