「データを集める技術」メモ

データを集める技術

主にスクレイピングやRSS・APIを活用したデータ取得の方法が、具体的に記載されており、大変参考になります。
ここではサンプルとしてAmazonのランキングや株価データなどを用いていますが、利用者のアイデア次第で応用が効き、ビジネスに役立てることができると感じました。


Excelの利用

VBAのライブラリ参照設定

  • Microsoft HTML Object Library
  • Microsoft Internet Controls

http://isbn.sbcr.jp/89029/
MSHTMLリファレンス

ChromeのXPath

id属性からの相対パス
なお、FireforxのXPathは、htmlからの絶対パス

Google Spread Sheetの利用

ImportXML関数でURLとXPathを指定してHTMLタグを取得

ImportFeed関数でRSSフィード取得
IMPORTFEED(URL,[クエリ],[見出し],[アイテム数])

IFTTTの利用

Googleアラート→RSS→IFTTT→Google Spread Sheet
という流れで最新情報取得
Google Spread SheetのParserモジュールも活用

Import.ioの活用

スクレイピングによるデータ収集。一部有料。

Amazon Machine Learning

二項分類
多項分類
回帰分析
が可能。
Quandlから学習データを取得してサンプル活用


コメント

このブログの人気の投稿

「人材育成ハンドブック」書評

「0ベース思考-どんな難問もシンプルに解決できる」書評

「物語 フランス革命」書評