2023.2.25補充:
有能力的同學多關註下large language model吧,以前的模型即將過時了。
---------------------------------------2020年的回答------------------------------------------
- 不管什麽模型,先在一個較小的訓練集上train和test,看看它能不能過擬合。如果不能過擬合,可能是學習率太大,或者程式碼寫錯了。先調小學習率試一下,如果還不行就去檢查程式碼,先看dataloader輸出的數據對不對,再看模型每一步的size是否符合自己期待。
- 看train/eval的loss曲線,正常的情況應該是train loss呈log狀一直下降最後趨於穩定,eval loss開始時一直下降到某一個epoch之後開始趨於穩定或開始上升,這時候可以用early stopping保存eval loss最低的那個模型。如果loss曲線非常不正常,很有可能是數據處理出了問題,比如label對應錯了,回去