ブルーの趣味Log

日々の備忘録

wikipediaから文章を抽出

適当なサンプルテキストを探していたところ、wikipediaが良いとのことで、テキスト抽出についてメモ

まずは本文のデータをダウンロード。最新版は「jawiki-latest-pages-articles.xml.bz2」です。
https://dumps.wikimedia.org/jawiki/latest/

次にテキストデータのみを抽出するためにwp2txtをインストール

これはRubyで書かれているみたいなので、インストールがまだの場合はRubyごと入れる必要があります

sudo add-apt-repository ppa:brightbox/ruby-ng
sudo apt-get update
sudo apt-get install ruby-switch
sudo apt-get install ruby2.4

sudo gem update
sudo gem install wp2txt

あとは以下を実行してひたすら待つ

wp2txt --input-file jawiki-latest-pages-articles.xml.bz2 

自分の環境では1時間以上かかりました

※追記
学習データとして使うには加工しないといけなさそう
う〜ん、いまいち
もう少し簡単に長文が手に入らないかな〜