1read 100read
2012年6月UNIX614: 2ちゃん画像落としまくりスクリプト (280)
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▼
自分の情報整理スタイルを晒そうよ 4 (591)
タイピング速い奴らの数→ (216)
UNIXイタイ発言募集 (825)
【技術】Darwinはどうよ?【一筋】 (440)
板勢調査@UNIX板 (626)
PGP / gpg スレ (320)
2ちゃん画像落としまくりスクリプト
1 :01/10/23 〜 最終レス :11/10/06 2ちゃんねるに貼ってある画像リンクを追い、 jpgをかき集めるスクリプトを作ってみました。 http://www.ninnin.net/ ※perlとwgetが必要です。 ※Windows,Macでは動きません。
2 : windows で perl も wget も動くはずだが。
3 : fork 使ってるからActive perlでは動かないのですよ。 cygwin上なら動くかも(ためしてないけど)
4 : 追記: MacOS Xなら動きますよ (10.1ならwgetを入れなきゃだめだけど)
5 : グロ画像コワイヨ(;´д`)
6 : 例えばモー娘板で 一回スクリプトを実行すると 約800枚の画像が収集できます。
7 : UNIX板的にはどうかと思うがサンクス1
8 : Σ(゚д゚lll)ガーン アイドル画像板でやったら最初の画像が葉っぱ隊だった しかも何かループしてて同じ画像だけ取ってるっぽい。 42枚しか収集できなかった。
9 : MacOS X ですがやってみました。 こんなこともできるんですね。目からウロコです。 中にはとても重たいサーバーがあるので、可能であれば タイムアウトのパラメータも追加されるとうれしいです。 (30秒以上反応が無かったらスキップして次、など) perl スクリプトとか詳しくないのに勝手言っちゃってすいません。
10 : cygwinのperlでも動いた。 ただ $down デフォルトは、せめて2くらいに しておいた方が良くないかい? もしくは固定とか。 サーバに申し訳なくて5は指定出来ん。
11 : mpegも落としたいが.... 醤油みたけど直すのメンドイな
12 : こういうのは自分で書いた方が良さげ。
13 : 1です。 >>8 アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。 >>9 wgetのパラメータをいじればできます。現在の設定は2分です。 今後調整します。スクリプトの153行目をいじれば変更もできますよ。 >>10 その通りですね。次回のバージョンから少し下げます。 >>11 73,74,84行目の.jpgを.mpgに変更すればOKなはずです。
14 : ガ━━(゚Д゚;)━━ソ! よろこびいさんで半角板いったらなんもなかった
15 : おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう なのでsage進行の方が良いかな…。 ところで、これで落とした画像を閲覧するスクリプトとか、 どうやって作るんだろう? 手動でeeで見てるんだけど、再帰的に .jpgファイルを見るスプリプト?とかありそうなんですが。
16 : やっぱ wget を fork して…ってのはみんな書くのね(笑) ウチの環境だと wget は 2 個くらい fork するのが一番 効率が良かったかなぁ。 # fork しすぎると timeout して、 # まともに取れなかったりして… >15 find ./ -name '*.jpg' -exec display \{\} \; とか? XEmacs の dired も、よく使いますけど。。。
17 : 迷惑画像URLリストとか、どこかにないでしょうか。 フィルタリングしたいですよね。
18 : find ./ -name '*.jpg' |xargs ElectoricEyes
19 : 半角板のDATってどこにあるす? つーか何もないのはおかしいよね。
20 : >>15 スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん?
21 : こんなことができるのは常時接続の人たちですか?
22 : >>21 情事切実な人だな。
23 : >>19 半角板だと $ita = http://okazu.bbspink.com/ascii/ の設定でOKなはず
24 : http://とか ttp:// みたいにあえてコピペ用になってる物も 落とせる?
25 : >>17 同意. でも,迷惑画像っつーのは人によって異なるからね,一概には... 画像分析して妙に赤が多いのはハネるとかは欲しいかも.
26 : >>24 むろんOKです。 "ttp://"でひっかけてます。
27 : >>25 その機能はつけたいんですけどね・・・ でも赤くない死体画像もあるし・・・ こういう時に1chのレス評価システムは 使い勝手があるんだな、と感じます
28 : 半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ プト書いた人居る?漏れは諦めた(w これ、できたら結構凄いよな…
29 : >>28 同意。ぜひ1にはがんばってもらいたい。
30 : たしかに画像フィルタは便利かもしれませんが、 個人的にはこのスクリプトは画像をダイジェストできることに 特化して欲しいです。 できれば追加して欲しい機能 1.URL は違うけどファイル名が同じ場合のファイル処理 2. キーワードを追加( tp:// とか http:// など) 3.スレッドのスキップ(先頭から50個目のスレッドから開始など) 4. いっそのこと MPEG ファイルも対象に。 スレッドのスキップはスクリプトに追加して作ってみました。 もし希望があれば送ります。>1
31 : スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、 落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが どうよ?
32 : >>30 ご意見ありがとうございます。 検討して次期バージョンに反映します。 >>31 んーと現在の仕様では、同じファイルの画像が ローカルにあればダウンしないようになっていますので、 毎日同じファイルをダウンしてしまうというのはないです。 ただ落としたファイルのアドレスを記憶とかしてたほうが、 2回目以降の効率は良いですね。
33 : コレ使うとスレの荒れ度がわかるね 荒れてるスレは死体画像多い。 あとなぜかペットの画像も多いNE!
34 : wgetでいいじゃん。
35 : >>34 そういう説もある。 ttp://追えないけどね
36 : OSXにwget入れるのに小1時間かかりました。 でも成功、すごいぞUNIX、ありがとう>1
37 : >32 そっか、俺は落としてきたファイルを 別ディレクトリに移動して整理していたんだが、 そうすると、また同じやつを落としてきてしまうんだな。 死体画像とかも残しておかないと、 また同じ死体画像を落としてきてしまうのだな。
38 : >>28 その辺の隠語は限られているから、単純置換じゃダメかな…
39 : >>37 死体画像は同じファイル名でダミーのファイルとかを 置くとかすると良いかも・・・ 面倒なのでそのうちその辺もなんとかしたいですね
40 : >38 単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、 URLは省略されたりクイズで記述されたりもするので(w
41 : おいおいおいおいおい、2ch内とはいえ下手なスパイダー 動かすのはやめてくれ。転送量も鯖の負荷も増える。 やりたいやつは公開なんかしないで、自分で作ってひっそりと やってくれ。
42 : >>41 すいてる時間帯でもダメ?
43 : >>42 まず、datファイルをgetして、それを元にすればよいかと思われ。
44 : MacOSXの人って結構いるんだなぁ。 そういう漏れも。
45 : >>44 俺もMacOS X 最近多いよね。 厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・
46 : >>44 >>45 コンソール使う頻度はどれくらいよ? あんまり多いのも、それはそれで考えもんだけど。 一応Macだし。
47 : >>44-46 スレ違い。
48 : 同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら 後ろに_01とか付けて保存するのは出来ませんか?
49 : >>48 できます。 その方法も考えたのですが、結局やりませんでした。 いらないかな?と思って。 同じような要望が多ければ導入を検討します。 wgetのオプションの中にそんな機能があった気がしますので、 ご自分で改造してみてはいかがでしょう。 $optionsにオプションを突っ込んでwget実行サブルーチンを 呼んでるだけですので。
50 : 試しにやってみたけどいい感じだぁよ、ありがとう。>1 要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。 なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性 あるってだけでピンコたんピキーンなれるし。 ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。 引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して 再利用する方向で進めてはどうか。 同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる と思われ。
51 : ねぇねぇ、これからもいじる気ある?>1 マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい? perl なんてしばらくいじってないから思い出すとこからはじめるけど。
52 : 途中で切れちゃう画像とかあるんですが、どこをいじればいいですか? $limit = 3 $down = 2 で使ってますが。
53 : >>50 datのタイムスタンプをチェックして再利用するようにしようかなぁ ご意見ありがとう。転送量軽減を目指します。 >>51 ぜひいぢってください >>52 117行目のwgetのオプション設定で調整できると思います。 -t や -w の値を調整すると良いかも。参考ページはこちらあたりをどうぞ http://seagull.cs.uec.ac.jp/~horiuc-m/wget.html
54 : 自分でSocket開いてRange: bytesヘッダとか使ってくれ。 つーかこういうもんはまともになってから公開してくれ
55 : FreeBSDでこのソフト使いました。 jpg/以下にたくさんのファイルがきましたが、 この中から、最適なファイルを絞り込むのはむづかしいですね。 タグ情報等から、分類できないのかなあ? もしくわ、winみたいに、一つ一つのファイルを簡単に表示 できたらまだいいかも。(サムネーム表示?) 今gimp使って、いっこいっこ開いてるけど、 もっと楽にファイル情報しらべれないかな?
56 : 今のままじゃ、ファイル名による絞り込み しかできないよ。
57 : ・・・ここは本当にUNIX板なのか・・・鬱
58 : Gimp…… 絶句
59 : つーか誰かがこのスクリプトをcronで定期的に実行して 作成されたjpglistをどっかで公開すりゃいいんだよね それを元にiriaなりwgetなりで落とせばいい そうすりゃ負荷はかからんし
60 : >59 それおもろいね。 っつーか、 jpg をある程度の大きさごとにアーカイブしといてくれ(w ってコレはアクセスが集中してダメかにゃ。
61 : A.ディレクトリ毎にサムネイル表示 xv [-dir 画像があるディレクトリ] ^v ^n .xvpics ^u B.一気にサムネイル作成 cd ベースのディレクトリ find [こっちで書いてもいいし] -type d -exec mkdir {}/.xvpics \; xv [そしたらこっちもか、やっぱやめ] ^v ^e C.見ているファイルを消す 見る ^d ^d D.ファイルを移動する ^v フォーカス戻す ^v 好きなようにDnDする E.マスク外す 適当に範囲選択 f アローキーで位置変更 Shift+アローキーで範囲伸縮 拡大は Ctrl+マウス Alt+j Shift押しながらパス入力
62 : >>59 2chはそれでいいかもしれんが、リスト配布はヤメとけ。 厨房に凶器与えるのと一緒だ。
63 : >>58 さんに絶句されたんですが、 みなさんは、どうやって画像みてるのですか? マジで教えてください。 厨房なんで、すみません。
64 : >>63 >>61
65 : すばらしい。感動した!有難う。
66 : グロ画像多すぎ。ホモ画像思わみてしまいかなりへこんだ。
67 : Listアップするためのサーバーでも借りましょうかね。
68 : Navi2chで取得したdatを使うようにできたらうれしいな
69 : あ,Navi2chで m a m i して,awkで抜いて,wgetすればいいだけか…
70 : >>55 XV の Visual Schnauzer とか使うのが一般的なんじゃないの?もっとも最近 の Linux の distribution なんかには XV の入っていない例もあるようだけ ど。ちなみにわたくしは xv 3.10a に各種 patch を当てて、FLMASK とかの復 元もできるようにしたのを使ってる。Linux でも *BSD でも特に問題なくコン パイルできると思うけど?
71 : XV って未だに使い方よくわかんない… メンドーなので、なんでもかんでも ImageMagick …
72 : >>70 既出
73 : GQviewとか。
74 : キーボードマクロで+mamiするのをcronでまわしておくと、 便利というか迷惑というか。
75 : 便利と思うがなんであがらないのかな? ということで定期あげ。
76 : ところで、画像集めた後の話だが、 同じ様な画像がたーくさんディスクの肥しになって 欝にならないか? そんな時は、dupmerge http://people.qualcomm.com/karn/code/dupmerge/ (QualcommのPhilip Karn作) 洩れは、 find . -name "*.[GgJj][IiPp][FfEeGg]*" -o -name "*.[Mm][Pp][EeGg]*" | dupmerge みたいにして使ってるよ。
77 : >>76 sambaでwinにmountしているんだけれども、 この手のツールはwinのほうが充実していないでしょうか。
78 : shell で書けるからね。
79 : >> 76 どうせなら iname 使え
80 : そりでは修正 find . -iname "*.[gjm][ip][feg]*" | dupmerge
81 : >>77 最近のwindowsは、ハードリンク出来るの? 消すんじゃなくてハードリンクする所が ミソなんだけど
82 : >>81 使えるわけないじゃん
83 : >>82 >> 77 じゃ、充実してないじゃん
84 : どうせ焼く時は使わない
85 : あげます、あげます
86 : お前ら、最近どうですか?
87 : どの板も、途中でDLが止まってしまうのだよ。なんでだ??
88 : >>81-82 Windowsでもハードリンク使えるみたい CreateHardLink これをMSDNかなんかでしらべれ Unixと全く関係ないが、サゲたら忘れそうなのでアゲ
89 : FAT でどうやって hardlink 作るんだ?
90 : 確か2000以降だっけかな、忘れた
91 : NTFSならhard linkもsymbolic linkもできるよ。 あんまり使われてないのはFATだと使えないからかも。
92 : symbolic linkをjunctionという、らしい。 ただこいつを使うと、WindowsのExplorerでさえ 摩訶不思議な挙動を示すことがあるというくらい、 ろくに使われてない機能。
93 : 思いつきとしか思えない機能追加が多いからな。 だったら DOS のころから linkfile をサポートしといてほしい。
94 : DOSでFATでもハードリンク作れるYO! ただし、chkdsk.exeにクロスリンクと言われてしまう、諸刃の剣。 素人にはお勧めできない。ってやつだ。
95 : こえーーー
96 : >>94 確かに間違いでは無いな(笑)
97 : age て みた
98 : やっぱり前回履歴に対応して欲しいなぁ。 毎日cronで走らせたいヨ。
99 : >>92 俺使ってる。でもあれってsymlinkというのは詐欺だろう。 join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確 かな。で、俺が見つけてる不具合は 1.Explorerやインストーラの空き容量計算がmountに対応できてないので、 インストーラで(空きがあっても)「ねーよ」と弾かれたりする 2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ 名だけど別ボリュームの場合、ファイル移動に失敗する(API直/cmd.exe Explorer全滅) だな。 一応どっちも回避方法があるし、従来アプリは1.に対応できんというのは 仕方がない所でもあるんだが、2.はどう考えても(仕様変更への)追従ミス。 # 同一ボリューム内の移動の場合、ディレクトリエントリだけの書き換え # で高速化してるんだが、同一ボリュームかどうかの判定にsrc/destの # ドライブ文字しか見てないという。アホ。
100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▲
muttを使おう (815)
CTCテクノロジーのSolaris美人講師 (378)
テロ遭遇時、最後に打つコマンドは? (688)
はたしてこの板を見てる女はいるのか? (343)
お前らに妹さんはいますか?2人目 (921)
シェルスクリプト総合 その20 (204)
--log9.info------------------
さくらとすてきな看板 2枚目 (256)
地獄少女 ニ籠 (304)
魔法騎士レイアース 龍咲海 (398)
【さくら中止】高校ヤキウUZEEEEEEEEE!! (595)
社会福祉公社技術部さくら板支所 第3分室 (757)
劇場版 さくら 封印されたカード (493)
友枝町アスキーアート資料館5号館 (217)
【キャプセル画】アニメ版ツバサの画像を集めるスレ 1【画像】 (556)
祝! CCさくら板10周年達成!! (286)
魔法少女まどか☆マギカinCCさくら板 (230)
【格闘料理人】さくら萌えスレ【ムサシ】 (236)
サルゲッチュ3のサヤカが得ろ杉る件について (232)
小狼で1000をめざすスレ (401)
栃木県さくら市 (380)
【金かえせ】「CLAMPノキセキ」は詐欺 (381)
【2ch証券】 CCさくら板株 スレ (509)
--log55.com------------------
ヤスダ朝霞店の出玉、ハマリ[ホルコン、遠隔]
マルハン八千代店てどうなの?
ヤマフジ北本店について語ろう♪♪PART13
徳島川内&鴨島スタジアムについて
【必死】プレイスポットドラゴン座間1【会員勧誘】
【福岡】HINODE大野城【南部】
見附ダイナム見附店スレ
【相模原】トワーズ相模原B