Cコンパイラ設計(yacc・lexの応用)/第5章　セマンティックス上の制限事項のバックアップ(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
Cコンパイラ設計(yacc・lexの応用)/第5章　セマンティックス上の制限事項へ行く。

2008/05/16からのアクセス回数 5920

第5章　セマンティックス上の制限事項

第5章　セマンティックス上の制限事項 †

かたくるしい言語認識の一般的問題から、プログラム・テキストを解析し翻訳した実行可能なものを生成する、という明確な問題に移ることにしよう。したがってここでは、文章の代わりにプログラムという言葉を用いることにする。これは、終端記号の列として定義され、ある文法に対応した唯一のパーズ・トリーが構成できるもののことである。この章でプログラムにどのような付加制限を加えるかを扱って、コンパイラの解析部の設計を完了する。以下の章では、プログラムによって記述されたアルゴリズムの実行可能バージョンの合成について述べる。

↑

問題点 †

プログラムは構文的に正しくても、意味的な誤りを含むことがある。典型的な例として、次のようなものが挙げられる。

Pascalでは、ラベルは数字だけからなる文字列で、使う前にlabe1宣言部で宣言されていなければならない。このような数字列は、字句解析部がIntegerC㎝stantとしていても、 gOto文で使う時には、宣言されているラベルであることをコンパイラが検証しなければならない。
Pascalでは、ラベルは使う前に宣言しなければならない。C言語では、ラベルはIdentifier である。すなわち、goto文で新たに導入されると、暗黙的にラベルとして宣言されたことになる。ほとんどすべての言語で、ラベルは使った後で定義することができる。コンパイラは、すべてのラベルが、実際に定義されているかどうかを検証しなければならない。

ラベルは、可視範囲のやっかいな問題の一つの例である。ユーザが定義したオブジェクトは、名前の可視範囲として知られているプログラム・テキストの特定の範囲でのみ認識される。 BASICでは、変数名の可視範囲はプログラム・テキスト全体である(ただし、ユーザ定義関数の引数名は例外)。FORTRANでは、変数名はプログラム単位、すなわち一つのfunctionまたはsubroutine内でのみ認識される。そして、プログラム単位名と。ommonエリア名は、実行される一つのファイルであるイメージに束縛されるすべてのモジュールから認識される。Pascal やその他のAlgo1系言語では、ユーザが定義した名前は、ブロック、すなわちそれが定義されているプログラム・テキストの文法的に区切られた一部分でのみ認識される。フロックは入れ子構造をとることができ、外側のブロックの名前の定義は、内側のフロックで同じ名前を定義することにより、内側のフロック内で覆い隠すことができる。C言語では、Algolのブロック構造と、FORTRANのモジュールの概念を結合している。複合文は、入れ子構造をとることができるブロックであり、宣言を持つことができ、その可視範囲は限定される。関数名は、広域的に認識することができ、呼び出される前に宣言される必要はない。さまざまなオブジェクトに対する適切なアクセスを提供するコードを生成することと同様、ユーザが定義した名前がそれぞれに対応した可視範囲内で正しく使われているかどうかをモニターするのも、コンパイラの仕事である。

通常、名前は一つのコンテクスト中で二度宣言することはできない。たとえば、二つのパラメータは同じ名前であってはならず、同じブロック内の二つの局所変数には別の名前を使わなければならず、また同じstruct、mion、recordの二つの構成要素は異なっていなければならない。C言語では、structと他の名前が同一になってもいいことになっているが、C言語のいくつかのバージョンでは、異なる構造体であっても、構成要素の名前は異なっていなければならないという制限があるものもある。

プログラムにおける宣言は、コンパイラに対し、一つの名前の意図した使われ方を伝達する。いったんユーザが合意すれば、誤った使われ方をされないようにしなければならない。次のようなことを考えてみよう。

PL/Iや、awkのような入念に設計された寛大なツールは例外として、多くの言語では、文字列と数値を組み合わせることができない。たとえば、文字列と数値の加算はできない。 Pascalでは混合モードの式、すなわちrea1型とinteger型の値の組合せはほとんどの演算子に対して許されているが、一定の制限が適用される。すなわち、divはintegerの除算のみを表わし、ノはたとえオペランドが二つともintegerであっても、結果がrealになるものを表わす。:= は、integerからrealへの代入は許すが逆は許さない、などである。

演算子は、オペランドの型によって、正確な意味が変化する。BASICの中には、十が数値の加算の他、文字列の結合を表わすものがある。Pascalでは、数値の加算の他、少なくともこの言語に共通する表現で集合型の和を表わす。C言語では、これがポインタと整数値を結び付けている場合、アドレス操作を表わす。数値的に、さらにマシン命令として、十は整数間と浮動小数点数間ではきわめて異なった操作である。すなわち、整数値操作の結果は、オペランドの順序には依存せず、暗黙的にカッコが付けられているが、浮動小数点数の結果は致命的にその順序に依存している。
struct、union、またはrecord型の構成要素を選択する場合、一般に、選択が行なわれる変数の構造に属する選択枝の名前を必要とする。すなわち、.、^、-> といった演算子は、それらのオペランドの型に対して、より厳密な制限事項がある。C言語は、この点において、意図的に比較的寛容に作られている。

固定した、同一の旬の最大数を数え上げるのは、BNFにおいては扱いにくいテクニックである。BNFはまた、プログラミング言語に通常見られる、次のようないくつかの特徴を扱うこともできない

通常BASICでは、配列は1次元または2次元である。FORTRANのいくつかのバージョンでは、配列を7次元までに制限している。通常コンパイラは、添字として用いられる式の数を制限しなければならない。また、それぞれの配列参照に対して、正しい数の添字が使われているかどうかを検証しなければならない。PascalやC言語では、任意の多次元配列が定義できるが、使われる添字の数は、参照しているデータの型を決定する。
同様な問題が、関数のパラメータにおいても起こってくる。引数の数と型は、組込み関数に対してはあらかじめ定義されており、ユーザ定義関数に対しては定義に従う。Pascalコンパイラは、少なくとも実引数の値が仮引数と合致していることを検証しなければならない。この点に関して、C言語はきわめて寛容にできている。PL/Iコンパイラは、引数変換も行なわなければならない。
引数の受渡しは、別の問題を引き起こす。もし、Pascalに見られるように、サブプログラムの引数が変更されうる場合、それらの引数だけが操作されるということを明確にするように注意しなければならない。FORTRANでは、すべての引数を変更することができるが、結果としては、特定の引数(C言語の感覚で言えばレフト値)だけを変更することができる。これはコード生成の一つの問題である。

多くのセマンティックス上の制限は、定数、型、変数、サブプログラム、およびラベルといったユーザ定義のオブジェクトを扱う。そこで、宣言および定義から得られるすべての情報を入れ、ユーザ定義名称が参照された時はいつでも参照することができるような記号テーブルを必要とする。

いくつかのセマンティックス上の制限が、単純なシンタックス上での解決を拒むという問題を扱う。次のようなことを考えてみよう。

PascalやC言語の。aseに現われる定数は、すべて異なっていなければならない。C言語では、caseおよびdefaultラベルは、一つのswitch句に依存する文の中になければならない。おもしろいことに、この依存する文は複合文である必要はない。
同様に、C言語のbreak文と。ontime文は、期待する飛び越しが意味を持つような場所に置かれなければならない。

これらの制限事項は、特定の構成要素に関連する局所的テストをある程度必要とする。我々のsampleCでは、別々のスタックによって、breakや。continueをどのようにチェックすることができるかを示すようにしている。一般には、ある程度の精巧な仕掛けを必要とするが、それはこれらの問題が、単一的な枠組には合わないからである。

↑

記号テーブルの原理 †

記号テーブルは、コンパイラがユーザの定義した名前や定数に関連するすべての情報を保持する中心地である。記号テーブル・エントリをどのように設計するかは、コンパイラがどのような情報を必要とするかに依存しており、プログラムの宣言部から得ることができる。一方、検索のためのエントリの構成はその言語の可視範囲に影響する。

たとえば、BASICでは一つのテーブルで操作することができ、新たに出現した名前は単にそれに追加するだけで良い。すべての名前は広域的に認識されており、したがって表は、一つのプログラムに対するすべての情報が消されてしまうまで、取り除かれる必要がない。ユーザ定義関数のパラメータは、その関数内でのみ認識される。それらは第二の表に入れられ、その関数に対する仕事が完了してしまえば、すぐに消されてしまう。
FORTRANでは本質的に二つのテーブルを必要とする。一方は、一つのサブプログラムの中に現われたすべての識別子に関する情報を持ち、もう一方は、サブプログラムの名前を記憶する。最初のテーブルは、各サブプログラム単位のコンパイルが終ると消されるかもしれない。サブプログラムがリンカによって結合される場合、二番目のテーブルは必ずしも必要ではない。この場合、サブプログラムの名前はリンカに伝えられる。
Pascalでは、使う前に宣言するという規則と、入れ子になった可視範囲という制限がある。可視範囲が入れ子になっていることから、スタックを一つの記号テーブルとして用いるという結果になる。すなわち、新たな名前はスタックの先頭にプッシュされ、スタックは、可視範囲の最後、すなわち一つのfunctionまたはprocedure定義の最後に到達するとポップされる。名前が参照された時は、スタックを上から検索することにより、その名前のもっとも内側の定義を見つけることができる。
その他のAlgol系言語では、名前はその可視範囲内に宣言が存在する限り、使われる前に宣言されている必要がない。この場合、一つのプログラムに対して二つのパスが必要になろう。最初のパスですべての宣言を集め、それらは可視範囲の最初の部分に伝えられ・二番目のパスでは、最初のパスで集められた情報に基づいて参照の処理を行なう。
C言語では、変数が入れ子になった可視範囲を持つが、関数は入れ子になることができない。また、結果がintになる関数を除いて、使う前に宣言しなければならないという規則がある。一般に、それらの参照が局所的に現われるにしても、関数を広域的なテーブルに入れておく限りは、名前のスタックが必要である。

記号テーブル・エントリにはどのような情報が置かれるのであろうか。後で検索する必要があるので、エントリからユーザ定義の名前に対してアクセスできなければならない。また、使い方を検証するために、オブジェクトの型を表現しておかなければならない。さらに、コード生成の時にオブジェクトの表現方法に関する、スタック上の位置、オフセットまたは絶対アドレス、長さなどの情報を持っていなければならない。

オブジェクトの型を表現するのはむずかしいかもしれない。FORTRANではほんのわずかな型しか存在せず、さらにオブジェクトは一つの配列として次元が与えられているかもしれない。これは、記号テーブルの中で二、三の整数値で表わすことができる。PascalやC言語のような、豊富なデータ型構成要素がある言語では、通常、記号テーブル上で他のエントリヘのポインタになるような、再帰的記述方法を取り入れなければならない。

名前検索は、非常に多くのテクニックが存在する別の領域の問題である、一般に、字句解析を行なう関数が、ユーザ定義の名前やリテラル定数をアセンブルすると、それは直ちに記号テーブルに置かれるか、それがまた未知である場合に記号テーブルに入れられるかである。以降は、記号テーブル・エントリに対するポインタがパスされ、それによりその記号に関する情報へのアクセスが提供されるので。記号テーブルを一回以上検索することを避けることができる。したがって、最初の検索は、字句解析部からだけ呼び出されるルーチンによって行なわれる。この検索をスピードアップするため、記号テーブル自身の他に、八ツシュテーブルのようなデータ構造が用いられるかもしれない。字句解析部が名前検索に非常に多くの処理時間を費すので、テーブル検索を主題とした文献がたくさんある。手始めとして、W、McKeemanによる [Bau76]の3.D章などを参考にするとよい。

↑

例 †

sampleCでは、エントリを線型リストで表現した記号テーブル・スタックで我慢することにする。できるだけ単純化するため、検索をスピードアップする目的だけの付加データ構造は用いないことにした。これについては例題として残しておくことにする。エントリは、calloc()および。cfree()といったライブラリ・ルーチンを用いることにより、動的に管理される。

記号テーブル・スタックは、もっとも新しいものから古いものへと逆向きに検索される。この方式によれば、複合文の処理を終えた時に局所的エントリをスタックから取り除くことにより、一つの名前のもっとも内側の宣言が最初に見つかる。

したがってここでは、各オープン・ブロックの局所的宣言がどこから始まるかを知る必要がある。これは、オープン・フロック記述子のスタックによって実現でき、そこから出るリンク・リストが関連する記号テーブル・エントリをつないでいる。単純化のため、ブロック終了時に処理時間をかけても、複合文の入れ子の深さに対する広域的カウンタを保持し、ある記号の一つの宣言が完了した時に、それぞれの記号テーブル・エントリにこのカウンタの現在値をコピーすることにする。これにより、記号テーブル・スタック上の局所エントリは現時点の入れ子の深さを正面奮にマークしたものになる。また、バグのあるプログラムでは、宣言されていない記号がいくつかありうることになる。この場合、それらの入れ子の深さのフィールドは初期値でマークされ、またブロック終了時に削除される。

関数は、使う前に定義する必要がないということから、一つの問題が生じる。しかし、関数は入れ子になれないので、この問題は、関数に対する記述子をもっとも外側のフロックに置くことにより解決できる。ここで採用している動的にリンクする方法では、これは非常に簡単に実現できる。すなわち、記号テーブル・スタックの底部に関数記述子を再リンクするだけで良い。ここでは、単一パスの、解釈即実行型コンパイラを作っているので、関数記述子は必ず退避する必要がある。なぜならば、イメージ・アセンブリを行なえるリンカはないので、参照された関数すべてが実際に定義されているかを自らチェックしなくてはならないからである。

別の、比較的小さな問題として、C言語では仮引数がはっきりと定義される必要がないということがある。名前が引数リストに入れられると、省略時解釈としてそれらはint型変数となる。これは、名前が最初にparameter_listにある時は、記号テーブルの中で引数をチェーンにすることで処理できる。parameter_declarationsがいったん分類されてしまえば、チェーンを追跡したり、また残っている宣言されていない仮引数に省略時解釈を与えることができる。

必ずしも必要なことではないが、ここでは関数が矛盾なく使われているかどうかをチェックする。すなわち、少なくとも関数が常に同じ数の実引数を伴って呼び出されているかを数えることにする。

sampleCにおいては、大きな簡素化が一つ行なわれている。すなわち、この言語ではデータ型としてintのみしかサポートしていない。したがって、ここではデータ型の不整合について心配する必要がない。一般に意味的制限事項はこの点において強制される必要がある。これはパーサによってさまざまな演算を認識することで結果の型を計算し、それをyaccのスタックに渡しておくことでうまく処理することができる。結果の解析はかなりかさばるので、ここでは他のデータ型をサポートしないことでこれを避けることにした。

まず最初に記号テーブル・エントリを設計し、フィールドのいくつかに対する値を定義することにする。この情報はsymtab.hの中にある。

/*
 *	sample c -- header file for symbol table
 */

struct symtab {
	char *	s_name;		/* name pointer */
	int	s_type;		/* symbol type */
	int	s_blknum;	/* static block depth */
	union {
		int s__num;
		struct symtab * s__link;
		} s__;
	int	s_offset;	/* symbol definition */
	struct symtab * s_next;	/* next entry */
	
#define s_pnum	s__.s__num	/* count of parameters */
#define NOT_SET	(-1)		/* no count yet set */
#define	s_plist	s__.s__link	/* chain of parameters */

/*
 *	s_type values
 */

#define UDEC	0	/* not declared */
#define FUNC	1	/* function */
#define	UFUNC	2	/* undefined function */
#define	VAR	3	/* declared variable */
#define	PARM	4	/* undeclared parameter */

/*
 *	s_type values for S_TRACE
 */

struct symtab *	link_parm();	/* chain parameters */
struct symtab *	s_find();	/* locate symbol by name */
struct symtab *	make_parm();	/* declare parameter */
struct symtab *	make_var();	/* define variable */
struct symtab *	make_func();	/* define function */

/*
 *	typed library functions
 */

char * strsave();		/* dynamically save a string */
char * calloc();		/* dynamically obtain memory */

s_nameは名前検索に用いられる。strsave()は新しい名前を文字列として動的に退避するために使う。s-blknumは、その名前が定義された可視範囲の入れ子の深さを持っている。 s_offsetは、後で一つのオブジェクトに対する実行時のアクセスに影響することになるが、現在のところ省略することができる。S_neXtは、記号テーブル要素をスタックにリンクする。

s__こは二重の役割がある。s__inkは便宜上s_plistとして定義する。これは一つの関数のすべての引数を一緒にリンクするために用いる。これにより、宣言されていない引数に対し、容易に省略時解釈を与えることができる。s_pnumとして定義されている別のフィールド s__numがあり、関数名が矛盾なく使われているかどうかをチェックするために用いられる。このフィールドには、値NOT-SETが初期値として設定される。関数が最初(値がNOT SETであることで示される)に定義または参照されると、その時に指定されている仮引数または実引数の数がs_pnumに設定される。したがって、それ以降の参照(値がNOT-SETでないことによって示される)で引数の数を検査することができる。

s-typeは、最終的に記号テーブル・エントリのタイプを表わしていなければならない。ここではこの要素は単純に扱われ過ぎていて、(構造体は言うまでもなく)ポインタやベクトルが言語に追加された場合、もっと複雑な表現方法を設計しなければならないが、今のところほんの少しだけで良い。すなわち、名前は初期状態で未宣言(UDEC)として現われる。名前が参照されたが、関数として定義されていなければ、s_typeにUFUNCが設定される。関数が定義されると、この値はFUNCに変更される。そうでなければ、名前は引数(PARM)または変数(VAR) として参照されているかもしれないが、いずれの場合も整数である。

トレースの目的で記号テーブルをダンプすることがある。s_typeを数値表現で表示しないで済むように、数値表現と同時に、SYMmapを管理している。数値を記号化するのは、記号テーブルを扱うルーチンを安全に改造できないという点で危険性があるが、ここでは少なくともこれら二つの表現を非常に接近させてある。

プログラミング・スタイル上のもう一つの点として、記号テーブル・エントリを表わす構造体のすべての構成要素の名前に、同じs_というプレフィックスを付けるという暗黙の慣習を守っているということに注意してほしい。

有名な清書プログラムで採用されている方法に従い、記号テーブル操作に関する関数すべてを一つのファイルsymtab.cに集めておくことにする。文法は、意味テストのために、これらのユーティリティを呼び出したアクションにより拡張されている。sampleCでは、基本的に Identifierの出現はすべてチェックされなければならない。breakおよびcontinueもまたチェックされなければならないが、ここではこの問題をコード生成の時まで延期することにした。これにより、適切なジャンプの実現に関する問題を同時に扱うことができる。

追加されたアクションについて、文法と記号テーブル・ユーティリティに分けて議論する代わりに、パーサとユーティリティ関数に平行して追加されているものについて述べることにする。これが、ここにおける実際の実現の流れである。すなわち、文法規則をガイドとして用い、 Identifierの一つ一つの出現を順番に考慮していって、何をチェックしなければならないかを判断し、公式化の一つのアクションとしてユーティリティ関数呼出しを追加し、そのようなユーティリティ関数をsymtab.cに実現する。文法のテーブルとしての特性は、すべての可能な場合を考慮するということを明確にしてくれる。文法は、実現プロセスをガイドする理想的制御構造のように働く。すべてのユーティリティ関数のリストが、付録のA.4節にある。

さて、必要となる広域変数を定義することから始めよう。それらは記号テーブル・マネージャの排他的所有物であるから、staticとして定義される。このような方法で、symtab.cでは固有データをコンパイラの他のモジュールから見えないようにしている。同様に、広域的名前にはstatic属性を指定しないことによって、パーサ・モジュールのアクションから実際に呼ばれる関数のみを、このモジュールの外部から参照できるようにする。すべての内部的ユーティリティは、staticオブジェクトとして隠されている。

/*
 *	sample c -- symbol table definition and manipulation
 */

#include "symtab.h"
#include "y.tab.h"

/*
 *	symbol table
 */

static	struct symtab
	symtab,			/* blind element */
	* s_gbl;		/* global end of chain */
#define	s_lcl	(& symtab)	/* local end of chain */

/*
 *	block table
 */

static int blknum = 0;		/* current static block depth */

記号テーブルは、次のような動的構造を持つ。

s_gblは変更されないブラインド要素を指していて、新たなエントリはその後に追加される。このチェーンに沿って、スタックの底に広域的エントリがあるが、それらは本質的にポップされることがない。関数s_create()は、引数として与えられたアン前に対して新たな局所エントリを記号テーブルに追加する。この新エントリは未定義であるとマークされる。

static struct symtab * s_create(name)
	register char * name;
{	register struct symtab * new_entry = (struct symtab *)
			calloc(1, sizeof(struct symtab));
	
	if (new_entry)
	{	new_entry->s_next = s_lcl->s_next;
		s_lcl->s_next = new_entry;
		new_entry->s_name = strsave(name);
		new_entry->s_type = UDEC;
		new_entry->s_blknum = 0;
		new_entry->s_pnum = NOT_SET;
		return new_entry;
	}
	fatal("No more room for symbols");
	/* NOTREACHED */
}

s_gblは最後の広域要素をマークしている。ある関数記述がそのチェーンの広域側の端点に移動されると、それもs_gblの次に来るように移動される、すなわちs-gblがそれを指すようになる。これは、s_move()というルーチンによって行なわれる。引数は一つで、移動されるエントリヘのポインタである。

static s_move(symbol)
	register struct symtab * symbol;
{	register struct symtab * ptr;
	
	/* find desired entry in symtab chain (bug if missing) */
	for (ptr = s_lcl; ptr->s_next !- symbol; ptr = ptr->s_next)
		if (! ptr->s_next)
			bug("s_move");
	
	/* unlink it from its present position */
	ptr->s_next = symbol->s_next;
	
	/* relink at global end of symtab */
	s_gbl->s_next = symbol;
	s_gbl = symbol;
	s_gbl->s_next = (struct symtab *) 0;
	
}

エントリは、記号テーブル・スタックの異なった位置にリンクされるだけであることに注意してほしい。すなわち、エントリ自身はメモリの上を移動させられたわけではない。したがって、その要素を参照していて引数として渡されるポインタの値は変更されない。

ここでは記号テーブル・スタックの先頭にブラインド要素を置いてあるので、移動しようとしているのが現在のスタックの先頭であるかどうかをチェックする必要がない。すなわちs_lcl を特別扱いしなくて良い。

しかし初期状態では、s_gblはブラインド要素を指していないかもしれない。もしそうであれば、s_gblに引き続く最初の(広域的)定義を追加し、局所定義がs_gblとこの広域定義の間にあるようにし、いつかはそれらのうちの一つが広域的になるように移動されるかもしれない。これが一般的にやりすぎという結果になる。s_gblは広域的エントリを指すように初期化されなければならない。つまり、そこにある一つのブラインド要素が記号テーブルを半分に分割し、したがってもう一つの特別な場合を作り出すことになる。幸いにも、便利な広域的エントリが存在する。すべてのsampleCのプログラムは関数main()を含んでいる。したがって、初期設定処理としては一番外側のブロックをオープンし、s_gblが未定義関数mainに対するエントリを指すように初期化することにする。

init()
{
	blk_push();
	s_gbl = s_create("main");
	s_gbl->s_type = UFUNC;
}

init()は記号テーブルがアクセスされる前に呼び出されなければならない。したがって、コンパイラ自身のmain()関数の中に、yyparse()に先立ってinit()の呼出しを置くことができる。別の、もっと視覚的解決として、init()をパーサ自身の初めの部分から呼び出すという方法がある。これはパーサに付加された最初のアクションである。

program
	:	{ init(); }
	definitions
		{ blk_pop(); }

このようにして、init()をは字句解析ルーチンのすべての呼出しに先立って呼び出されることになる。

init()をはフロックのスタックをプッシュする。

blk_push()
{
	++ blknum;
}

blk_push()の呼出しは、記号テーブル・スタックから未定義関数などを見つけ出したり、そこから後はアクセスできない記号をポップしてしまったりするための関数blk_pop()の呼出しとバランスしていなければならない。blk_pop()については、記号が実際にどのようにして記号テーブルに入れられるかを決めるまで後回しにする。

ユーザが定義した名前は、最初に字句解析部によって識別される。yylex()はすべての記号を、もしそれがすでに記号テーブルにあるのでなければ、そこに入れなければならない。このため、すでに関数s_lookup()の呼出しを字句解析部に置いてある。s_lookup()は、yytext[]の中にある終端記号表現および適当な終端記号の値ConstantまたはIdentifierを引数として呼び出される。sampleCでは、Constantのテキストは動的に退避すれば十分である。Identifier は記号テーブルに入れられなければならない。

s_lookup(yylex)
	int yylex;		/* Constant or Identifier */
{	extern char yytext[];	/* text of symbol */

	switch (yylex) {
	case Constant:
		yylval.y_str = strsave(yytext);
		break;
	case Identifier:
		if (yylval.y_sym = s_find(yytext))
			break;
		yylval.y_sym = s_create(yytext);
		break;
	default:
		bug("s_lookup");
	}
}

どちらの場合でも、結果的にyylvalがユーザ定義終端記号に関する意味情報へのアクセスを提供するポインタを持っている。s_lookup()は、ConstantやInteger以外の値を引数として呼び出されることはないのはわかっているが、頑丈なコーディングにするということで引数の検証を行なうことにする。

エントリを名前で記号テーブルに置くという問題を後回しにしてあった。次のルーチンは、このコンパイラにおける効率の悪いものの一つである。

struct symtab * s_find(name)
	char * name;
{	register struct symtab * ptr;

	/* search symtab until match or end of symtab chain */
	for (ptr= s_lcl->s_next; ptr; ptr = ptr->s_next)
		if (! ptr->s_name)
			bug("s_find");
		else
			/* return ptr if names match */
			if (strcmp(ptr->s_name, name) == 0)
				return ptr;
	/* search fails, return NULL */
	return (struct symtab *) 0;
}

yylex()は、s_lookup()を用いてすべてのIdentifierが記号テーブルにあるように調整している。新たなエントリはUDECであるが、もし以一前にその名前が現われていたら、yylvalは正しいエントリを指しているかもしれないし、いないかもしれない。Identifierが文法的に現われた時はいつでも、訂正ないしチェックする必要がある。

C言語における名前は、関数のそれは例外として、使われる前に宣言されていなければならないので、宣言が最初に分類される。では、一つのIdentifierがparameter_listに現われる、すなわちIdentifierが新しいパラメータになるポイントについて考えてみよう。

parameter_list
	: Identifier
		{ $$ = link_parm($1, 0); }
	| parameter_list ',' Identifier
		{ $$ = link_parm($3, $1);
		  yyerrok;
		}
	| error
		{ $$ = 0; }
	| parameter_list error
	| parameter_list error Ideitifier
		{ $$ = link_parm($3, $1);
		  yyerrok;
		}
	| parameter_list ',' error

link_parmOとyaccの値スタックは、すべての引数名のチェーンをparameter」istに作るために使われる。1ink-parm()はまた、Identifierが記号テーブルの中でPARMになるようにする役割りも与えられている。後で、引数のチェーンを用いて未宣言引数に省略時の値を与え、また引数の数を数えることにする。最初にlink_parm()を見てみよう。

struct symtab * link_parm(symbol, next)
	register struct symtab * symbol, * next;
{	
	switch (symbol->s_type) {
	case PARM:
		error("duplicate parameter %s", symbol->s_name);
		return next;
	case FUNC:
	case UFUNC:
	case VAR:
		symbol = s_create(symbol->s_name);
	case UDEC:
		break;
	default:
		bug("link_parm");
	}
	symbol->s_type = PARM;
	symbol->s_blknum = blknum;
	symbol->s_plist = next;
	return symbol;
}

yy1ex()がそのIdentifierをすでに記号テーブルに入れており、そのエントリがlink_parm()に渡される。このエントリのs_typeフィールドが、次に何をしなければならないかを決定する。すなわち、

エントリがUDECであれば、それは新しい名前でそれ自身引数として定義されることができる。
エントリに型が付けられているがPARMではない場合、それは一つの引数によって今まさに被い隠されようとしている広域的Identifierを参照している。したがって、s-createO を用いて同じ名前に対する新たな局所的記号テーブル・エントリを作らなければならない。これは自動的に記号テーブル・スタックの上にプッシュされるので、先の広域エントリを隠してしまう。その際、局所エントリはPARMとして定義される。
エントリがもともとPARMであった場合、同じ名前が一つの引数リストの中で引数として二度使われようとしていることを警告しなければならない。

関数link_parm()の設計は比較的簡単である。なぜならば、文法が意味解析のこの部分の前後関係を分離し、記号テーブル・エントリのs_type構成要素の考えられる値が可能となるすべての場合を、そっと教えてくれるからである。C言語では関数は入れ子になることができないから、状況としては扱いが比較的簡単である。

引数の宣言は、わずかではあるが、もっと複雑である。これは、Identifierがparameter_ declarator_listにあった時に起こる。

paramater_declarator_list
	: Identifier
		{ make_parm($1); }
	| parameter_declarator_list ',' Identifier
		{ make_parm($3);
		  yyerrok;
		}
	| error
	| parameter_declarator_list error
	| parameter_declarator_list error Identifier
		{ make_parm($3);
		  yyerrok;
		}
	| parameter_declarator_list ',' error

make_parm()は、記号テーブルの中のPARMをVARに変更しなければならない。すなわち、これにより引数の宣言を行なう。いったんparameter-declarationsが処理されると、残りのすべてのPARMエントリを整数変数、すなわちVARとして宣言する必要がある。

make_parm()は記号テーブル・エントリにより与えられるが、これはyylex()がs_lookup() を通じて見つけたかまたは作り出したものである。s_typeの取りうる値をすべてもう一度考え直すと、いくつかの考えられる誤りを見つけ出すことになる。

エントリがすでにVARとマークされているということが入れ子レベル2で起こった場合、同じ引数に対して宣言が二つあることになる。これは引数リストの中に同じ名前が2回現われることとは異なる。
VARが異なる入れ子レベル(願わくば広域的)から発生するか、またはPARM以外の値が見つかった時は、parameter_listに指定されていない名前を引数として宣言しようとしているので・警告しなければならない。安全のため、ここでまた新しいエントリを作り、その名前に対するエントリの複製を作って、それをVARとして宣言する。

struct symtab * make_parm(symbol)
	register struct symtab * symbol;
{	
	switch (symbol->s_type) {
	case VAR:
		if (symbol->s_blknum == 2)
		{	error("parameter %s declared twice",
				symbol->s_name);
			return symbol;
		}
	case UDEC:
	case FUNC:
	case UFUNC:
		error("%s is not a parameter", symbol->s_name);
		symbol = s_create(symbol->s_name);
	case PARM:
		break;
	default:
		bug("make_parm");
	}
	symbol->s_type = VAR;
	symbol->s_blknum = blknum;
	return symbol;
}

変数定義に移ろう。これは、文法的コンテクストとしては引数の宣言と同等である。しかし、必要となる意味的アクションはまったく異なっている。したがって、変数定義と引数宣言について、文法規則をそれぞれ分けて指定することにする。もしsampleCをC言語の方に向かって拡張していくのであれぱ、どのような方法にしろ、これらを区別しなければならない。すなわち、変数は初期化されるかもしれないが、引数はそうでない。

declarator_list
	: Identifier
		{ make_var($1); }
	| declarator_list ',' Identifier
		{ make_var($3);
		  yyerrok;
		}
	| error
	| declarator_list error
	| declarator_list error Identifier
		{ make_var($3);
		  yyerrok;
		}
	| declarator_list ',' error

make_var()は、定義を記号テーブルに反映させる責任を与えられている。したがってこの引数は、yylexOが見つけてきた記号テーブル・エントリを参照する。このエントリにはs_typeのために定義された値の一つがあるので、ここでも個々の場合について考えてみることにしよう。

エントリが未宣言であれば、現在のブロックで変数として新たに定義されようとしている名前である。
エントリがその同じブロックの中の関数または変数を参照している場合、一つの名前が二度定義されようとしていることを警告しなければならない。そうでなければ、s_create() を用いて記号テーブル・エントリの複製を作らなければならず、それにより局所エントリを得、求められたように定義を行なうことができる。
さらに、局所変数が引数と同じ名前を持つことを避けなければならない。ここでの引数は VARであるが、後で見るように、入れ子レベルは2である。一方、局所変数はレベル3である。これは関数では起こらない特別な場合である。
最後に、PARMエントリがあってはならない。なぜならば、それらはみな宣言されているがまだは省略時の値が与えられているからである。入力誤りを明らかにするため、この場合もエラー・メッセージを出力する。

struct symtab * make_var(symbol)
	register struct symtab * symbol;
{	
	switch (symbol->s_type) {
	case VAR:
	case FUNC:
	case UFUNC:
		if (symbol->s_blknum == blknum
		    || symbol->s_blknum == 2 && lknum == 3)
			error("duplicate name %s", symbol->s_name);
		symbol = s_create(symbol->s_name);
	case UDEC:
		break;		
	case PARM:
		error("unexpected parameter %s", symbol->s_name);
		break;
	default:
		bug("make_var");
	}
	symbol->s_type = VAR;
	symbol->s_blknum = blknum;
	return symbol;
}

このルーチンはブロック構造のほとんどすべての面に対してうまく対処できなければならない。考慮すべきことは、s_typeの取る値と、入れ子レベルの値であり、これらを以前の記号を処理している時に扱う。

関数定義の時に行なうべき2、3の仕事はすでにわかっている。parameter_listの長さは、計算されチェックされ、または関数定義の中に入れられていて、引数固有の入れ子レベルを管理しなければならない。この問題は、引数操作を囲むようにしたblk-push()とblk_pop()の組の呼出しを追加することによって処理する。シンタックス上の関数定義を考えてみよう。

function_definition
	: Identifier '('
		{ make_func($1); blk_push(); }
	optional_parameter_list rp
	declarations
		{ chk_parm($1, parm_default($4)); }
	compound_statement
		{ blk_pop(); }

optional_parameter_list
	: /* null */
		{ $$ = 0;  /* no formal parameters */ }
	| parameter_list
		{ $$ = $1; /* chain of formal parameters */ }

make_fmc()は関数を記号テーブルの中に定義しなければならない。chk_parm()には、そのような関数に関する記号テーブル・エントリヘのポインタが与えられ、引数の個数も指定される。このルーチンはすべてがうまくいっているか調べ、また最初のアクセスの時には引数の個数を設定しなければならない。parm_default()はparameter_1istの中で名前を挙げられているが、引数宣言部では宣言されないような引数すべてを扱う。C言語では、それらの引数はint型変数として省略時解釈される。すなわち、それらはPARMでなければならず、VARとして宣言する。parm_default()はさらに、引数の数を数え、それらの数を返す必要がある。今度は関数を考えてみよう。

struct symtab * make_func(symbol)
	register struct symtab * symbol;
{	
	switch (symbol->s_type) {
	case UFUNC:
	case UDEC:
		break;		
	case VAR:
		error("function name %s same as blobal varialble", 
			symbol->s_name);
		return symbol;
	case FUNC:
		error("duplicate function definition %s", 
			symbol->s_name);
		return symbol;
	case PARM:
	default:
		bug("make_func");
	}
	symbol->s_type = FUNC;
	symbol->s_blknum = 1;
	return symbol;
}

make_func()が呼び出される時は、広域的入れ子レベルにいるのであるから、記号テーブル・エントリを動かす必要がない。UDECまたはUFUNCエントリは関数として簡単に定義することができ、VARまたはFUNCは複製が作られるものであり、それら以外に現われることはない。

現在のところ、make_var()、make_parm()およびmake_func()は、結果を返す必要がない。しかしいったんコード生成を開始すると、記号テーブルヘの適切なポインタが必要になるので、変数の位置、または関数の開始アドレスのような情報を追加することができる。これが、上の3つの関数が調整された記号テーブルヘのポインタを返すように設計されている理由である。もし何がまずいこと、たとえば二重定義に出くわした場合は、あまりうまくっくろうことができない。コンパイラは千里眼を持つことを要求されているわけではないが、ユーザが乱暴に使っても、クラッシュしないことが期待されている。

引数の個数のチェックまたは設定は非常に簡単である。

↑