2014/4/29

Big Data 作業流程技術資源

因為Blogger系統的限制要放在側邊有點麻煩,我直接另開一篇

將我個人蒐集在 Onenote 的資料也整理到這邊

後續會陸續更新… (因為Big Data 的議題熱度高啊~)

更新log:

(1)2014-4-29

(2)2014/4/30 更新Web Scraping資料

Moe
資料科學家作業流程
相關技術連結
Ⅰ-定義問題  
Ⅱ-取得資料 Web_scraping 相關技術

利用網站:
https://import.io/
捉取網頁資料

自己寫程式:
https://developer.yahoo.com/yql/ Yahoo的YQL
Python套件 Beautiful Soup、Scrapy

RUBY套件 Watir   Nokogirl

C#套件  Html Agility Pack、 WatiN 、 CsQuery

JavaScript 套件 PhantomJS、CasperJS

我個人有試過在C#底下使用過jQuery+PhantomJS+WebDriver的方式捉取網頁資料
  方式如下:在C#開一個Console專案→安裝以上套件→在Firefox中觀察網站結構確定要捉取資料型態→匯出 ;另外安裝一套 CsvHelp可以簡化輸出作業

輔助工具:
另外由於HTML不是很標準化的語化,所以可以套過FireFox下的Firebug、Firepath來快速掌握網站架構(可快速瞭解DOM與CSS)

可參考書籍:
Mining the social Web

Ⅲ-模型分析  
Ⅳ-行動應對  

沒有留言:

張貼留言