正規表現・テキスト処理の用語集(12語)
正規表現・テキスト処理に関する Linux 用語を、読み・意味・補足つきでまとめました。
awkおーく
行を列(フィールド)に分けて処理するテキスト処理言語。
$1 $2 で列、NF で列数、NR で行番号を参照。集計や条件抽出が得意。
sedせど
1行ずつ加工するストリームエディタ。置換 s/// が代表的。
stream editor の略。-i でファイルを直接書き換え、d で行削除もできる。
アンカーあんかー
位置を指定するメタ文字。^ は行頭、$ は行末を表す。
文字そのものではなく「行の先頭・末尾」という場所にマッチする。
パイプラインぱいぷらいん
| でコマンドをつなぎ、出力を次の入力へ渡す仕組み。
sort | uniq -c のように小さな部品を連結して複雑な加工を作る。
フィールドふぃーるど
1行を区切り文字で分けた1つ1つの列。
awk では既定で空白区切り、$1 $2 …で参照。-F で区切りを変更できる。
メタ文字めたもじ
正規表現で特別な意味を持つ文字。例: . * ^ $ [ ]。
そのままの文字として使いたいときは直前に \ を付けてエスケープする。
拡張正規表現(ERE)かくちょうせいきひょうげん
grep -E などで使う方言。+ ? { } ( ) | をそのまま書ける。
Extended Regular Expression の略。( ) でグループ化、| で「AまたはB」を、エスケープなしで書けて読みやすい。
基本正規表現(BRE)きほんせいきひょうげん
grep や sed の既定方言。+ ? { } ( ) | に \ が必要。
Basic Regular Expression の略。\+ \? \{ \} \( \) \| のようにエスケープして使う。
正規表現せいきひょうげん
文字列のパターンを記号で表す書き方。検索や置換に使う。
英語では regular expression。grep・sed・awk など多くのツールが対応する。
置換(s コマンド)ちかん
sed の s/old/new/ で文字列を書き換える操作。
末尾に g を付けると行内すべて、数字を付けるとn番目だけを置換する。
文字クラスもじくらす
[ ] で囲んだ中のどれか1文字にマッチする指定。
[abc] は a/b/c のいずれか、[0-9] は数字のように範囲も書ける。
量指定子りょうしていし
直前のパターンの繰り返し回数を表す記号。* + ? {n} など。
* は0回以上、+ は1回以上、? は0〜1回、{n,m} はn〜m回。長く一致しようとする「最長一致」が既定。