當前位置: 華文問答 > 數位

如何快速成為數據分析師?

2015-04-11數位

說來我正式接觸數據分析也快一年,對速成還是有一些心得。優秀的數據分析師是不能速成的,但是零經驗也有零經驗的捷徑。

以上的前提針對入門,目的是達到數據分析師的門檻,順利拿到一份offer,不涉及資料探勘等高級技巧。我的方法傾向互聯網領域,不論是分析師這個職位,還是營運、產品的能力發展都是適用的。其他領域就仁者見仁了。

市面上有【七周七資料庫】,【七周七程式語言】。今天我們就【七周七學習成為數據分析師】。

沒錯,七周。

第一周:Excel學習掌握

如果Excel玩的順溜,你可以略過這一周。不過介於我入行時也不會vlookup,所以有必要講下。

重點是了解各種函式,包括但不限於sum,count,sumif,countif,find,if,left/right,時間轉換等。

Excel函式不需要學全, 重要的是學會搜尋 。即如何將遇到的問題在搜尋引擎上描述清楚。

我認為掌握vlookup和數據透視表足夠,是最具價效比的兩個技巧。 學會vlookup,SQL中的join,Python中的merge很容易理解。 學會數據透視表,SQL中的group,Python中的pivot_table也是同理。

這兩個搞定,基本10萬條以內的數據統計沒啥難度,80%的辦公室白領都能秒殺。

Excel是熟能生巧,多找練習題。還有需要養成好習慣,不要合並單元格,不要過於花哨。表格按照原始數據(sheet1)、加工數據(sheet2),圖表(sheet3)的型別管理。

專欄上寫了三篇Excel的文章,比較簡單,大體介紹了Excel套用,可以作為職場新人的指南。

第一篇數據分析—函式篇。主要簡單講解常用的函式,以及與之對應的SQL/Python函式。

第二篇數據分析—技巧篇。主要簡單講解我認為很有新價比的功能,提高工作效率。

第三篇數據分析—實戰篇。主要將前兩篇的內容以實戰方式進行,簡單地進行了一次數據分析。資料來源采用了真實的爬蟲數據,是5000行數據分析師崗位數據。

下面是為了以後更好的基礎而附加的學習任務。

了解單元格格式,後期的數據型別包括各類timestamp,date,string,int,bigint,char,factor,float等。

了解陣列,以及怎麽用(excel的陣列挺難用),Python和R也會涉及到 list。

了解函式和參數,當進階為編程型的數據分析師時,會讓你更快的掌握。

了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以後你會回來感謝我的。

養成一個好習慣,不要合並單元格,不要過於花哨。表格按照原始數據、加工數據,圖表的型別管理。

如果時間還有剩余,可以看大數據時代 (豆瓣),培養職業興趣。

再來一道練習題,我給你1000個身份證號碼,告訴我裏面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規律可以網上搜尋)

第二周:數據視覺化

數據分析界有一句經典名言,字不如表,表不如圖。數據視覺化是數據分析的主要方向之一。除掉資料探勘這類高級分析,不少數據分析就是監控數據觀察數據。

數據分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老板看。如果沒人認同分析結果,那麽分析也不會被改進和最佳化,不落地的數據分析價值又在哪裏?

首先要了解常用的圖表:

各類圖表的詳細介紹可以檢視第四篇文章:數據視覺化:你想知道的經典圖表全在這

了解圖表後,還應該學會報表制作,這裏準備了第五篇:數據視覺化:打造高端的數據報表。將教會大家Excel的高級圖表用法。

如果還不過癮,我們得掌握資訊圖和BI,下圖就是微軟的Power BI:

BI(商業智慧)和圖表的區別在於BI擅長互動和報表,更擅長解釋已經發生和正在發生的數據。將要發生的數據是資料探勘的方向。

BI的好處在於很大程度解放數據分析師的工作,推動全部門的數據意識,另外降低其他部門的數據需求(萬惡的導數據)。

BI市面上的產品很多,基本都是建立儀表盤Dashboard,透過維度的聯動和鉆取,獲得視覺化的分析。第六篇:數據視覺化:深入淺出BI 將以第一周的實戰數據學習BI,上圖的就是學習後的成果。

數據視覺化的學習就是三個過程,了解數據(圖表),整合數據(BI),展示數據(資訊化)。

視覺化也和審美息息相關,很多直男代表並不擅長做圖,沒關系,抽空可以看書:數據之美 (豆瓣)

PPT也別落下,Excel作圖多練習,不會有壞處的。

PPT - 熱門問答

Excel 圖表繪制 - 熱門問答

第三周:分析思維的訓練

這周我們輕松一下,學學理論知識。

分析思維首推大名鼎鼎的金字塔原理 (豆瓣),幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那麽就可以學思維導圖,下載一個XMind中文網站,或者線上用百度腦圖(百度難得不被罵的產品)。

如果不想看金字塔原理,那麽就看第七篇文章:如何培養麥肯錫式的分析思維。將書本的內容提煉了大部份。

再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜咨詢公司的面試題,搜Case Book。題目用新學的思維導圖做,先套那些經典框架,做一遍,然後去看答案對比。

等思維框架建立好,我們應該往裏面塞點數據分析的思維了,如何建立數據分析的思維框架。兩篇文章相結合,就能出師了。

這裏送三條金句:

一個業務沒有指標,則不能增長和分析

好的指標應該是比率或比例

好的分析應該對比或關聯。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麽分析?

這1000人的數量,和附件其他超市比是多是少?(對比)

這1000人的數量比昨天多還是少?(對比)

1000人有多少產生了實際購買?(轉化比例)

路過超市,超市外的人流是多少?(轉化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

優秀的數據分析師會拷問別人的數據,而他本身的分析也是經得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數據思維,只能做到了解。 數據思維是不斷練習的結果 ,我只是盡量縮短這個過程。

深入淺出數據分析 (豆瓣)

這本書太啰嗦了,我看到一半放棄了…但推薦人不少,可以快速翻看一下。

第四周:資料庫學習

Excel對十萬條以內的數據處理起來沒有問題,但是互聯網行業就是不缺數據。但凡產品有一點規模,數據都是百萬起。這時候就需要學習資料庫。

資料庫入門看這篇文章:寫給新人的資料庫指南

越來越多的產品和營運崗位,會在招聘條件中,將會SQL作為優先的加分項。

SQL是數據分析的核心技能之一,從Excel到SQL絕對是數據處理效率的一大進步。

學習圍繞Select展開。增刪改、約束、索引、資料庫範式均可以跳過。SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,價效比最高。

主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函式等。

如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數據平台的函式會有差異,例如Presto和phpMyAdmin。

你看,和Excel的函式都差不多。按照SQL,從入門到熟練SQL,從熟練到掌握這兩篇的內容學習。雖然沒有實戰的打磨,但是了解一個大概夠了。

期間你不需要考慮最佳化和寫法醜陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以後你跑個SVM都能去吃飯了。

網上也能搜尋SQL相關的練習題,刷一遍就行。也能自己下載資料庫管理工具,找些數據練習。我用的是Sequel Pro。

附加學習:

如果這周的學習充裕,可以了解MapReduce原理。

來一道練習題,表A是使用者的註冊時間表,表B是使用者所在地,寫出各地區每月新註冊使用者的查詢SQL。掌握到這個程度,基本夠用,雖然往後工作中會有更多變態數據需求。

第五周:統計知識學習

很遺憾,統計知識是我最薄弱的地方,也是數據分析的基礎之一。

統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。

這一周努力掌握描述性統計,包括均值、中位數、標準差、變異數、機率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎麽樣,而是應該這樣分析即可。

Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。

(圖片網上找來的)

統計數位會撒謊 (豆瓣)

休閑讀物,有趣的案例可以讓我們避免很多數據陷阱。

深入淺出統計學 (豆瓣)

還是經典的HeadFirst系列,適應它一貫的啰嗦吧。

多說一句,老板和非分析師不會有興趣知道背後的統計學原理,通常要的是分析後的是與否,二元答案。不要告訴他們P值什麽的,告訴他們活動有效果,或者沒效果。

第六周:業務學習(使用者行為、產品、營運)

這一周需要了解業務。對於數據分析師來說, 業務的了解比數據方法論更重要。 當然很遺憾,業務學習沒有捷徑。

我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致使用者的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的局限,也是只會看數據的分析師和接地氣分析師的最大差異。

對於業務市場的了解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一周了解行業的各指標。

以知乎最多的互聯網行業為例。至少了解活躍使用者數,活躍使用者率,留存率,流失率,傳播系數等通用概念。

增長黑客 (豆瓣)

數據驅動業務的典型,裏麵包含產品營運最經典的AAARR框架。部份非數據的行銷案例,如果時間不夠可以略過。此外產品和營運的入門讀物也能看,這裏就不推薦了。

網站分析實戰 (豆瓣)

如果應聘的公司涉及Web產品,可以了解流量的概念。書中案例以Google Analytics為主。其實作在是APP+Web的復合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。

精益數據分析 (豆瓣)

互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。

還有一個小建議,現在有不少第三方的數據套用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下套用Demo,有好處的。

除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。

第七周:Python/R 學習

終於到第七周,也是最痛苦的一周。這時應該學習編程技巧。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。資料探勘,爬蟲,視覺化報表都需要用到編程能力。掌握一門優秀的程式語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。(SAS/SPSS我不了解,所以不做指導)

這裏有兩條支線,學習R語言或Python。速成只要學習一條,以後再補上另外一門。

我剛好兩類都學過。R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函式的呼叫,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程指令碼化。Pandas,sklearn等各包也已經追平R。

如果學習R,我建議看R語言實戰 (豆瓣), 照著書本打一遍程式碼,一星期綽綽有余。另外還有一本 統計學 (豆瓣) ,偏知識理論,可以復習前面的統計學知識。

R學習和熟悉各種包。知道描述性統計的函式。掌握DataFrame。如果時間有余。可以再去學習ggplot2。

Python擁有很多分支,我們專註數據分析這塊,入門可以學習 深入淺出Python(影印版) (豆瓣) 。也是把程式碼寫一遍。

需要學會條件判斷,字典,切片,迴圈,叠代,自訂函式等。知道數據領域最經典的包Pandas+Numpy。

在速成後的很長一段時間,我們都要做調包俠。

這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。

Mac內建Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變量的問題,是個大坑(R的中文編碼也是天坑)。

到這裏,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。

成為數據分析師後,坑才剛剛開始,努力吧。

所有內容都已經更新完畢了,因為知乎現在不允許帖連結,所以這裏不放了。大家可以看專欄,或者關註公眾號。

——我是無恥的軟廣——

歡迎關註我的公眾號(tracykanc),粉絲稀少,急需關愛。更新內容以營運和數據為主。