@suzu6

主にWEBと解析の技術について書きます。

広く浅くも続ければ深くなるはず。

Python3で言語処理100本ノックのまとめ

この記事は、言語処理100本ノック 2015に挑戦した記録をまとめたものです。 各ページではより深く理解するため、別解や利用したライブラリの解説もまとめていきます。

週に1つペースで更新していきたいと思います。

第1章: 準備運動

テキストや文字列を扱う題材に取り組みながら,プログラミング言語のやや高度なトピックを復習します.
文字列, ユニコード, リスト型, 辞書型, 集合型, イテレータ, スライス, 乱数

第2章: UNIXコマンドの基礎

研究やデータ分析において便利なUNIXツールを体験します.これらの再実装を通じて,プログラミング能力を高めつつ,既存のツールのエコシステムを体感します.
head, tail, cut, paste, split, sort, uniq, sed, tr, expand

第3章: 正規表現

Wikipediaの記事を以下のフォーマットで書き出したファイルjawiki-country.json.gzがある.

  • 1行に1記事の情報がJSON形式で格納される
  • 各行には記事名が"title"キーに,記事本文が"text"キーの辞書オブジェクトに格納され,そのオブジェクトがJSON形式で書き出される
  • ファイル全体はgzipで圧縮される
    以下の処理を行うプログラムを作成せよ.

Pythonを初めて学ぶ方へオススメの本です!
Mac、Windows環境の整え方から手を動かして実行できるようになっていきます。

自然言語処理の入門はこちら

合わせてオンライン学習も進めるとより理解が深まると思います。

オンライン教育のUdemy

Python3の入門オンライン講座