
模型压缩四剑客:量化、剪枝、蒸馏、二值化
工具链成熟:一行 pip install
搭好环境:
周 | 目标 | 关键动作 |
---|---|---|
1 | 跑通 Titanic 模板 | 上传数据 → 基础模型 → 0.8+ 分数 |
2 | 特征工程自动化 | PyCaret 一键 transform |
3 | 调参 + 集成 | Optuna + LightGBM 30 次试验 |
4 | 后处理 + 提交 | 平均融合 + 对数逆变换 |
!pip install -q lightgbm optuna pycaret shap
import kaggle, pandas as pd, numpy as np
/root/.kaggle/
把 //auto_eda train.csv
发给 GPT-4o,它会返回:
from pycaret.regression import *
clf = setup(data, target='SalePrice', silent=True)
best = compare_models(include=['lightgbm'])
import optuna, lightgbm as lgb
def objective(t):
p = {'objective':'regression','metric':'rmse',
'max_depth': t.suggest_int(3,10),
'learning_rate': t.suggest_float(0.01,0.3)}
cv = lgb.cv(p, train_data, 100)
return min(cv['rmse-mean'])
study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=30)
30 次试验后,RMSE 通常下降 5–8 %。
pred = np.expm1(pred)
避免负数问题 | 自救 |
---|---|
Colab 断连 | 减少内存占用、分段保存模型 |
GPU 内存不足 | lgb.train(..., device='cpu') |
提交格式错误 | submission.to_csv('submission.csv', index=False) |
记住:Kaggle 拼的不是数学,而是工程 + 坚持。祝你 30 天后在排行榜看到自己的名字!