當前位置: 華文問答 > 旅行

ai夏令營第二期第三次打卡筆記

2023-09-11旅行

@Datawhale

1、初始CatBoost模型:CatBoost是一種梯度提升框架,專門用於處理分類問題。它與LightGBM和XGBoost一樣,是一種基於樹的整合學習演算法。

2、CatBoost與lgb和xgboost的區別:

處理類別特征 :CatBoost是為處理高基數類別特征而設計的。它能夠自動處理類別特征,無需人工進行單熱編碼。CatBoost可以直接接受類別特征的輸入,並透過一些有效的技術對它們進行處理,從而減少了預處理的步驟。

自動特征縮放 :CatBoost能夠自動處理特征的縮放。不像其他模型(如XGBoost和LightGBM)需要手動進行特征預處理(例如標準化或歸一化),CatBoost能夠直接接受原始特征,並在訓練過程中自動進行特征縮放。

處理缺失值 :CatBoost能夠自動處理缺失值。它使用基於組合的方法來處理缺失值,並附加額外的指示變量來指示缺失值的存在,從而避免了對數據進行額外的預處理。

更快的訓練速度 :CatBoost使用了一些效能最佳化技術,如對梯度和特征直方圖的壓縮,以加快訓練速度。這使得CatBoost在某些情況下能夠比LightGBM和XGBoost更快地訓練模型。

處理數據不平衡問題 :CatBoost對於處理類別不平衡問題具有較好的效能。它使用基於權重的多類別損失函數和基於概率的決策閾值調整來解決數據不平衡問題。

3、如何從數據處理層面提高分數:

數據處理:首先,收集市場數據,如股票價格、交易量等。然後,對數據進行清洗,包括去除異常值和重復數據。接下來,填充缺失值,可以采用插值方法或根據歷史數據進行填充。在數據清洗後,可能需要進行標準化或歸一化處理,以便後續處理。

時序特征:針對高頻交易,時序特征是關鍵。可以構造包括價格變動、交易量、波動率等在內的多種時序特征。這些特征可以基於過去一段時間內的數據進行計算,例如使用捲動視窗統計或指數加權移動平均方法。

技術指標:利用各種技術指標,如移動平均線、相對強弱指標(RSI)、MACD等,來衡量價格的趨勢和動量。技術指標可以基於歷史價格數據進行計算,並可以用於捕捉市場的技術訊號。

成交數據:分析成交數據,例如訂單簿、委托量等,可以構造各種衡量市場深度和流動性的特征。這些特征可以包括委托量的統計指標、訂單簿的價差和累積量等。

交易訊號:設計交易訊號,可能基於以上特征的組合,也可能使用機器學習模型生成交易訊號。交易訊號可以根據預先設定的規則或使用學習演算法生成,以指示買賣決策。

市場微觀結構特征:考慮市場的微觀結構,如報價間隔、成交延遲等,構造適用於高頻交易的特征。這些特征可以反映市場的特殊規律或流動性情況,對於某些交易策略可能至關重要。

波動模式:構造價格波動的模式,可能使用移動視窗統計或其他技術,來捕捉短期價格波動。這些模式可以透過計算波動率、價格變動的差異等來辨識,並可以用於預測價格的波動性。

市場情緒:考慮市場情緒對交易的影響,可以使用新聞情緒數據或社交媒體數據來構造情緒指標。這些指標可以衡量市場參與者的情緒水平,並可能與價格走勢相關。

噪音過濾:由於高頻數據容易受到噪音幹擾,需要采取合適的方法進行噪音過濾,以保證特征的有效性。常見的方法包括平滑技術、濾波器或其他訊號處理方法,以提高數據質素。

參數最佳化:構造特征後,需要進行參數的最佳化和調整,以便在實際交易中表現良好。可以使用回測和最佳化技術,例如基於歷史數據的參數調優或使用交叉驗證等方法,來確定最佳參陣列合。

4、特征工程:

群內發的金融工程的文章也看了一些