羊をめぐるブログ

趣味の色々について書きます

2019-04-01から1ヶ月間の記事一覧

青空文庫の全小説でword2vecしてみる

ML

はじめに word2vecの日本語学習済みベクトルというと,wikiやWebサイトのコメントなどの割と説明的な文章に対して作られたようなものが多い気がします.もう少し叙情的な分散表現を得られないかな(テキトー)と考えて青空文庫の文章全体を使ってやって見た…

青空文庫内の小説を全ダウンロードして解析用にきれいにする

ML

はじめに 青空文庫のWebページはありがたいことに小説を含む全ページのソースがgithub上に公開されています. しかしそのままデータを用いようとすると,ルビがあったりエンコーディングがshift-jisだったりで少し使いづらいです. そこで青空文庫のレポジト…