当前位置: 华文问答 > 旅行

ai夏令营第二期第三次打卡笔记

2023-09-11旅行

@Datawhale

1、初始CatBoost模型:CatBoost是一种梯度提升框架,专门用于处理分类问题。它与LightGBM和XGBoost一样,是一种基于树的集成学习算法。

2、CatBoost与lgb和xgboost的区别:

处理类别特征 :CatBoost是为处理高基数类别特征而设计的。它能够自动处理类别特征,无需人工进行单热编码。CatBoost可以直接接受类别特征的输入,并通过一些有效的技术对它们进行处理,从而减少了预处理的步骤。

自动特征缩放 :CatBoost能够自动处理特征的缩放。不像其他模型(如XGBoost和LightGBM)需要手动进行特征预处理(例如标准化或归一化),CatBoost能够直接接受原始特征,并在训练过程中自动进行特征缩放。

处理缺失值 :CatBoost能够自动处理缺失值。它使用基于组合的方法来处理缺失值,并附加额外的指示变量来指示缺失值的存在,从而避免了对数据进行额外的预处理。

更快的训练速度 :CatBoost使用了一些性能优化技术,如对梯度和特征直方图的压缩,以加快训练速度。这使得CatBoost在某些情况下能够比LightGBM和XGBoost更快地训练模型。

处理数据不平衡问题 :CatBoost对于处理类别不平衡问题具有较好的性能。它使用基于权重的多类别损失函数和基于概率的决策阈值调整来解决数据不平衡问题。

3、如何从数据处理层面提高分数:

数据处理:首先,收集市场数据,如股票价格、交易量等。然后,对数据进行清洗,包括去除异常值和重复数据。接下来,填充缺失值,可以采用插值方法或根据历史数据进行填充。在数据清洗后,可能需要进行标准化或归一化处理,以便后续处理。

时序特征:针对高频交易,时序特征是关键。可以构造包括价格变动、交易量、波动率等在内的多种时序特征。这些特征可以基于过去一段时间内的数据进行计算,例如使用滚动窗口统计或指数加权移动平均方法。

技术指标:利用各种技术指标,如移动平均线、相对强弱指标(RSI)、MACD等,来衡量价格的趋势和动量。技术指标可以基于历史价格数据进行计算,并可以用于捕捉市场的技术信号。

成交数据:分析成交数据,例如订单簿、委托量等,可以构造各种衡量市场深度和流动性的特征。这些特征可以包括委托量的统计指标、订单簿的价差和累积量等。

交易信号:设计交易信号,可能基于以上特征的组合,也可能使用机器学习模型生成交易信号。交易信号可以根据预先设定的规则或使用学习算法生成,以指示买卖决策。

市场微观结构特征:考虑市场的微观结构,如报价间隔、成交延迟等,构造适用于高频交易的特征。这些特征可以反映市场的特殊规律或流动性情况,对于某些交易策略可能至关重要。

波动模式:构造价格波动的模式,可能使用移动窗口统计或其他技术,来捕捉短期价格波动。这些模式可以通过计算波动率、价格变动的差异等来识别,并可以用于预测价格的波动性。

市场情绪:考虑市场情绪对交易的影响,可以使用新闻情绪数据或社交媒体数据来构造情绪指标。这些指标可以衡量市场参与者的情绪水平,并可能与价格走势相关。

噪音过滤:由于高频数据容易受到噪音干扰,需要采取合适的方法进行噪音过滤,以保证特征的有效性。常见的方法包括平滑技术、滤波器或其他信号处理方法,以提高数据质量。

参数优化:构造特征后,需要进行参数的优化和调整,以便在实际交易中表现良好。可以使用回测和优化技术,例如基于历史数据的参数调优或使用交叉验证等方法,来确定最佳参数组合。

4、特征工程:

群内发的金融工程的文章也看了一些