ブルーの趣味Log

日々の備忘録

wp2txt

wikipediaから文章を抽出

適当なサンプルテキストを探していたところ、wikipediaが良いとのことで、テキスト抽出についてメモまずは本文のデータをダウンロード。最新版は「jawiki-latest-pages-articles.xml.bz2」です。 https://dumps.wikimedia.org/jawiki/latest/次にテキストデ…