最基礎的理論需要知道的是,線性代數,概率論,以及一些基本的統計模型,比如linear models,和generalized linear models。對生統來講最基礎,也最重要的就是logistic regression了。一定要知道coefficient怎麽interpret,odds ratio從output的哪裏找。R語言是為模型服務的。(如果你自己不用清數據的話)。如果腦子裏沒有模型,你也不知道數據要清成什麽樣子。建議最開始可以自學這一本
introduction to statistical learning
有高中數學基礎就能看。每天三個小時,最多兩個月就能全看完。理論code全部搞定。
醫療大資料探勘的話,可能會用到進階的deep learning models,causal inference之類的,主要看你的research question是什麽。deep learning models 可以看這個自學,影片講義程式碼都有,順便還能自學個Python,不太需要數學基礎
casual 估計還要更多的理論基礎,半年之內估計補不上來,不在這裏討論。
如果是走流行病做transmission dynamics modeling,估算force of infection這種的話,我覺得沒有應數背景的,不會pde的,不會c++的,不會stan的,也發不了什麽好paper。
如果以後想接著讀博走生統的路線的話,建議自修一個統計研究生,這樣biometrika之類的文章才能看得懂。要麽就是和學統計的合作。
原來我自己是公衛領域的,讀論文的時候,很多文章一看就知道,一作絕對不是建模的那個,methodology寫得額……一個連methodology都些不明白的文章,結論能信嗎?所以最後答主跑路讀統計博士了……
總體建議就是,努力學理論,程式語言啥的,網上抄一抄,自己改一改,從來不是什麽難點。
以上。