2011年6月8日 星期三

Facebook上朋友數量分析

以前啊,文獻上都寫說朋友數的分佈會依照power-law distribution,也就是有一大票人朋友數極少,但也會有非常少數人朋友數很多,如果橫軸為朋友的數量,縱軸為朋友為該數量的人數,會畫成一個長尾的徒刑。

上一篇講到我在收集一些facebook的資料,雖然可收集的範圍受到限制,而且不確定這樣會不會造成取樣的偏誤,但因為我手上也只有這些資料,就姑且先看看吧。

到底Facebook的朋友數量會不會符合power-law distribution呢?噹噹~結果如下:


可以看到並不是完全符合power-law distribution喔,朋友數量在200左右的人數是最多的。這可能是因為我們只抓活躍使用者,而朋友數量非常少的人都不活躍的關係。

可以注意到最後接近5000左右的地方也有個高峰,這是因為Facebook單一類別的朋友數量上線就是5000,如果不對朋友設定分類的話,5000就是朋友人數顯示的上限。

以下是用對數刻度來畫的結果:


2011年5月28日 星期六

Facebook資料分析初探

最近,我週遭的朋友越來越常使用Facebook,取代本來使用的噗浪、部落格作為個人的社交中心。Facebook使用量的增加,讓Facebook上累積了大量的個人行為資料,這對於想要研究社群行為的人來說,是一個讓人垂涎三尺的資料來源阿。

但要成功獲得資料的前提,都是要使用者忘了設定隱私權願意開放權限。台灣到底有多少比例的人有開放權限,來造福我們這些想做社群分析的人呢?這邊先針對我最想要拿到的兩種內容:塗鴉牆朋友清單,來計算有開放這兩個權限的比例。

我的作法是先從馬英九粉絲頁蔡英文粉絲頁中,整理了總數約18500個人的活躍使用者名單(累計回應、喊讚次數超過五次的人),再檢查這些人的權限設定狀況。(或許有其他比較好的取樣辦法,不過我想這樣做離真實狀況應該不會太遠)

結果如下:

塗鴉牆

公開

(42%)

隱藏

(58%)

朋友

清單

公開 (61%)

35%

26%

隱藏

(39%)

7%

32%

  • 42%的使用者會公開塗鴉牆、61%的使用者會公開好友名單。

所以說,如果想要從公開塗鴉牆一窺Facebook的狀況,其實最多只能觀察到其中的4成左右。如果還要搭配朋友資料來分析,那就只能以不到四成的人來做代表分析。



2011年5月24日 星期二

緣起

小時候,投票是我最期待的活動之一,對我來說,每次投票都是一個「對答案」的遊戲:在投票開始前先猜好獲選人和得票率,在投票結束後仔細看得票率的分佈,觀察答案與猜測的落差,推敲背後到底發生了什麼事。

我也不曉得我為什麼會喜歡這樣玩,總之這樣玩帶給了我許多的樂趣。

長大以後,我開始想找一些其他的資料來玩這樣的遊戲。可是有很多我覺得好玩的題目,卻沒有現成的資料可以拿來作為答案。

所以我開始想要自己來建立答案。網路上這麼多人,分享了這麼多資料,只要經過有效的處理,總能告訴我一個答案吧,我這樣想。

所以我開始設定一些問題,收集一些網路上的資料,做一些簡單的分析,得出一些簡單的結果,然後開一個簡單的部落格跟大家分享這些結果。

這就是這個部落格的由來。

我想裡面或許會有一些結果不符你的預期,這是很正常的。如果結果完全在預期之內,那看起來就沒有趣味啦。如果對於結果有任何疑問,歡迎在評論中提出。我會儘量調出背後的數據解答大家的疑問。