正規表現・テキスト処理の用語集（12語）

正規表現・テキスト処理に関する Linux 用語を、読み・意味・補足つきでまとめました。

awkおーく

行を列（フィールド）に分けて処理するテキスト処理言語。

$1 $2 で列、NF で列数、NR で行番号を参照。集計や条件抽出が得意。

sedせど

1行ずつ加工するストリームエディタ。置換 s/// が代表的。

stream editor の略。-i でファイルを直接書き換え、d で行削除もできる。

アンカーあんかー

位置を指定するメタ文字。^ は行頭、$ は行末を表す。

文字そのものではなく「行の先頭・末尾」という場所にマッチする。

パイプラインぱいぷらいん

| でコマンドをつなぎ、出力を次の入力へ渡す仕組み。

sort | uniq -c のように小さな部品を連結して複雑な加工を作る。

フィールドふぃーるど

1行を区切り文字で分けた1つ1つの列。

awk では既定で空白区切り、$1 $2 …で参照。-F で区切りを変更できる。

メタ文字めたもじ

正規表現で特別な意味を持つ文字。例: . * ^ $ [ ]。

そのままの文字として使いたいときは直前に \ を付けてエスケープする。

拡張正規表現（ERE）かくちょうせいきひょうげん

grep -E などで使う方言。+ ? { } ( ) | をそのまま書ける。

Extended Regular Expression の略。( ) でグループ化、| で「AまたはB」を、エスケープなしで書けて読みやすい。

基本正規表現（BRE）きほんせいきひょうげん

grep や sed の既定方言。+ ? { } ( ) | に \ が必要。

Basic Regular Expression の略。\+ \? \{ \}  \| のようにエスケープして使う。

正規表現せいきひょうげん

文字列のパターンを記号で表す書き方。検索や置換に使う。

英語では regular expression。grep・sed・awk など多くのツールが対応する。

置換（s コマンド）ちかん

sed の s/old/new/ で文字列を書き換える操作。

末尾に g を付けると行内すべて、数字を付けるとn番目だけを置換する。

文字クラスもじくらす

[ ] で囲んだ中のどれか1文字にマッチする指定。

[abc] は a/b/c のいずれか、[0-9] は数字のように範囲も書ける。

量指定子りょうしていし

直前のパターンの繰り返し回数を表す記号。* + ? {n} など。

* は0回以上、+ は1回以上、? は0〜1回、{n,m} はn〜m回。長く一致しようとする「最長一致」が既定。