pubmedでクローリング

pubmedという医療データベースがあります。

今回はここから論文の情報を抽出してみます。事前準備としてseleniumとBeautifulSoup、PhantomJSを入れておく必要があります。

上記をインポートした上で、論文サイトから直接検索用テキストボックスにキーワード入れて検索したものをとってきます。サンプルでは朝鮮人参にしてみました。

sleepは1秒以上置いておくのが様式みたいですね。サーバに負荷をかけすぎても良くないのでこれくらいは待ちましょう。
try~exceptを入れているのは途中で接続が切断された場合に何度か試行をトライさせるためにいれてあります。面倒ならここは抜いていいかと。あとはこれをcsvにするなり加工するなり、よしなに。

sh-tatsuno

投稿者: sh-tatsuno

データに触れたり、剣道したり

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です