適当なサンプルテキストを探していたところ、wikipediaが良いとのことで、テキスト抽出についてメモ
まずは本文のデータをダウンロード。最新版は「jawiki-latest-pages-articles.xml.bz2」です。
https://dumps.wikimedia.org/jawiki/latest/
次にテキストデータのみを抽出するためにwp2txtをインストール
これはRubyで書かれているみたいなので、インストールがまだの場合はRubyごと入れる必要があります
sudo add-apt-repository ppa:brightbox/ruby-ng sudo apt-get update sudo apt-get install ruby-switch sudo apt-get install ruby2.4 sudo gem update sudo gem install wp2txt
あとは以下を実行してひたすら待つ
wp2txt --input-file jawiki-latest-pages-articles.xml.bz2
自分の環境では1時間以上かかりました
※追記
学習データとして使うには加工しないといけなさそう
う〜ん、いまいち
もう少し簡単に長文が手に入らないかな〜