Overview
WEB上の画像投稿サイトから、画像を自動収集します。
Firefox(各サイトへのログイン情報をFirefoxのCookieから取得するため)
- 下記のファイル内容をファイルに保存する。
---[sample_dsl.txt]---
# vim:set fileencoding=utf-8 ts=2 sw=2 sts=2 et:
# #: コメント
# /: フォルダ分け(インデントで閉じられたかを判定)
# @: フォルダ分けを伴わない分類(フォルダ分けの閉じタグとしても機能)
#:pixiv --type=renew --max_page=2 --r18=false
#:pixiv --type=append --max_page=2 --r18=false
:pixiv --type=new --max_page=2 --r18=false
/chars
/ドラゴンボール
孫悟空 ドラゴンボール
ベジータ ドラゴンボール
/ドラえもん
のび太
/風景画
山 風景
海 風景
-
下記のコマンドを実行する ruby crawlers/bin/fire_all.rb -f sample_dsl.txt
-
インストール時に指定した画像保存ディレクトリ下のpixiv/search/下に画像が保存される。
- my_libにパスを通す
---[~/.bashrc など]---
RUBYLIB=path/to/this/ruby/my_lib
-
依存するgemをインストール(crawlers/crawlers.gemspecを参照)
-
画像保存ディレクトリをプログラムに設定
---[~/.mtk/crawlers/config.rb]---
# vim:set fileencoding=utf-8:
require 'pathname'
# monkey patching
class Crawlers::Config
class << self
def app_dir
return Pathname('/home/xxxx/generated_data/crawlers')
end
end
end
-
画像保存ディレクトリを作成
ruby crawlers/bin/installer_crawlers.rb
-
PixivのサイトにFirefoxでログインする(自動ログインを有効にする)
ログイン後、Firefoxは終了してよい。