C言語の記号定数「EOF」を使うときの心構え

「プログラミング言語C」という書籍に書かれていた内容で印象に残ったコトの話です。まずは以下のソースを見てください。


#include <stdio.h>

int main(void)
{
	int c;

	c = getchar();
	while( c != EOF )
	{
		putchar(c);
		c = getchar();
	}
	printf("終了\n");
}

キーボードで打った文字をディスプレイ画面に表示するだけのプログラムです。EOFを検知するとプログラム終了となります。Linux環境だとEOFはキーボードで「ctrl」+「D」(同時に押す)を入力します。実行結果は以下です。

$ ./a.out
a
a
x
x
終了
$

このときは「a」を入力してリターンキー押下、「x」を入力してリターンキー押下、そして「ctrl」+「D」の入力をしました。

さて、最初のプログラムソースですが違和感とかありますでしょうか?

僕は特になかったです(というかまったく気づいていませんでした)。何を気にするかというと、変数「c」の型です。cには文字が格納できればいいわけですから、intと宣言しなくてもcharで事足りるのでは?ということです。キーボードからの1文字を入力して、ディスプレイにその1文字を表示しているだけですから。実際に変数cの宣言をchar型に変更して同じようにやってみたところ、結果は全く同じでした。

でも、intで宣言する理由がちゃんとあったのです。それは記号定数「EOF」が、はたしてどんな値なのか?ということによります。つまり1バイトしかないchar型でEOFを格納できるのか?ということです。もしEOFが1バイトで収まらなかった場合、桁溢れを起こしてしまいますのでwhileの終了条件にはいつまでたっても合致しません。そのためEOFが収まる十分大きなint型として変数cを宣言していたのです。

では、charとintでどれだけ大きさの違いがあるのかを確認するためlimits.hを見てみました。以下はlimits.hからの抜粋です。


/* Minimum and maximum values a `signed char' can hold.  */
#  define SCHAR_MIN     (-128)
#  define SCHAR_MAX     127

/* Maximum value an `unsigned char' can hold.  (Minimum is 0.)  */
#  define UCHAR_MAX     255

/* Minimum and maximum values a `signed int' can hold.  */
#  define INT_MIN       (-INT_MAX - 1)
#  define INT_MAX       2147483647

/* Maximum value an `unsigned int' can hold.  (Minimum is 0.)  */
#  define UINT_MAX      4294967295U

64ビットOSのLinux(ubuntu)を使用しているのですが、charは1バイト、intは4バイト(2の32乗)の領域を確保しています。ただ先にも書いたように変数cはchar型でも問題なく動きました。EOFの値が何なのかを調べることは可能で、実際に計算させるか、stdio.hにEOFが定義されているのでそれを見るか、です。

実際に計算させるには以下のソースをコンパイルして実行します。


#include <stdio.h>

int main(void)
{
	printf("EOF is %d\n", EOF);
}

結果は「EOF is -1」と表示されます。stdio.hを見てみるとEOFの定義があります。以下は抜粋です。


/* End of file character.
   Some things throughout the library rely on this being -1.  */
#ifndef EOF
# define EOF (-1)
#endif

結果を言うと、EOFは「-1」だからcharでも問題ないわけですね。ただ、EOFは「-1」と覚えてしまうのは危険です。というのもLinux環境の場合、OSがEOFを検知した際にプログラムに「-1」を返すだけであって、他の機種やOSの場合は異なる可能性があるからです。ですから、EOFが収まるであろう十分大きな型であるintを使っているということでしょう。なお「-1」というのはASCII文字コード上には表れない値なので、OSがEOFの印として使っているのでしょう。

ちなみに、記号定数「NULL」についても書いておきます。NULLは通常0(数字のゼロ)なのですが、これは数値ではなくポインタアドレスの位置であって、位置がゼロ(すなわちアドレスがない)ということになります。数字と考えるよりアドレスがあるかないかの印と思ったほうが良いです。なので、NULLを数値のゼロと思ってポインタでない変数の条件式(等号、不等号とか)で使うのはやめましょう。

C言語のstatic宣言とextern宣言について

C言語では型を修飾する修飾子(記憶クラス指定子という)にstaticとexternというものがあります。

static宣言

static宣言は関数の外側で行うときと内側で行うときとで意味合いが変わります。関数の外側で行うときは外部変数(グローバル変数とも言う)や関数宣言(関数プロトタイプとも言う)に対してstatic宣言します。以下に、その例を示します。


#include <stdio.h>

static int a;
static void func();

void main() {

	printf("main: a = %d\n", a);
	func();

}

static void func() {

	printf("func: a = %d\n", a);

}

Sample Code.1

この場合、外部変数 a と関数 func() が適用されるスコープはそのソースファイル内に限られます。プログラムソースを分割した場合、別のソースファイルから外部変数 a と関数 func()への参照はできません。関数の外側でstaticを付けることにより、外部変数や関数自体を隠蔽する役割となります。なお、Sample Code.1の実行結果は以下となります。

main: a = 0
func: a = 0

次に関数の内側でstatic宣言をしたときの例を示します。関数の内側なので局所変数(ローカル変数とも言う)に対してstatic宣言を行います。func()の局所変数 b に対してstatic宣言をしています。


#include <stdio.h>

void func();

void main() {

	func();
	printf("----\n");
	func();

}

void func() {

	int a = 0;
	static int b = 0;

	printf("func: a = %d\n", a);
	printf("func: b = %d\n", b);

	a++;
	b++;

}

Sample Code.2

局所変数は関数の呼び出しが終了すれば消滅しますが、staticを宣言することで局所変数は静的変数となり、関数が終了しても値を保持します。Sample Code.2の実行結果は以下となります。

func: a = 0
func: b = 0
----
func: a = 0
func: b = 1

static宣言していない局所変数 a は都度初期化が行われますが、static宣言している局所変数 b は次の関数呼び出しが行われても前の結果を保持していることがわかります。

ここで外部変数、局所変数、静的変数(static宣言した局所変数)の初期化メカニズムについて触れておきます。

外部変数、静的変数の初期化は1回だけプログラムが始まる前に行われます。初期値を指定することもできますが、指定しない場合は自動でゼロに初期化されます。Sample Code.1の実行結果を参照ください。

局所変数の初期化は関数が実行されるたびに行われます。局所変数は初期値を指定するか局所変数に値を代入してから使う必要があります。というのも、局所変数は明示的な初期化がない場合、その値は不定(何が入っているかわからない)となるためです。

[広告]

extern宣言

extern宣言も関数の外側と内側の両方で使われます。staticの場合は関数の外側か内側かで意味合いが変わりましたが、externの場合は同じです。

externはプログラムソースを分割した際に、別のソールファイルに記載された外部変数や関数を宣言しておくときに使います。

外部変数は「宣言」と「定義」をわけており、宣言では変数のメモリ領域の割り当てを行いません。実際にメモリ領域に割り当てるのは定義のほうです。externを付けることで定義ではなく宣言の扱いになります。ソースファイルが複数あるときに外部変数の定義は1つだけでなくてはならず、他の場所ではextern宣言にします。

以下にextern宣言を使用する例を記載します。main.cから、func.cで定義されている外部変数 a 、および、関数 func()を使用したい場合です。main.cの中でextern宣言をしています。


#include <stdio.h>

extern int a;
extern void func();

void main() {

	printf("main.c: a = %d\n", a);
	a++;
	func();

}

Sample Code.3 main.c


#include <stdio.h>

int a;

void func() {

	printf("func.c: a = %d\n", a);

}

Sample Code.3 func.c

extern宣言は関数の内側に書くこともできます。Sample Code.3 main.cを以下のようにしても問題ありません。


#include <stdio.h>

extern void func();

void main() {

	extern int a;
	printf("main.c: a = %d\n", a);
	a++;
	func();

}

Sample Code.4 main.c

この実行結果は以下となります。

main.c: a = 0
func.c: a = 1

ということなんですけれども・・・

実は、Sample Code.3のmain.cの外部変数、および、関数宣言のexternはなくてもコンパイルは通るし、実行結果も正しく出ます。

関数宣言のexternはなくても問題ないです。なぜ不要になったのかはわからないのですが、昔はプログラムソースを分割した際に別のソースファイルに記載された呼び出し先の関数が出来ていない状態でもそのソースファイルのコンパイル(オブジェクトファイルの作成)までは出来るように(明確に)仮で宣言しておいたのでは?と思います。呼び出し先の関数が出来上がったら、リンクして実行形式ファイルを作成したのではないかと。

ここの例では書かなかったのですが、外部関数をextern宣言してヘッダファイルに集めて、それをincludeするという手法は昔からあります。stdio.hなどはそうなっています。

外部変数のexternは付けるべきだと思います。main.cの外部変数 a にextern宣言をしないで、gccに以下のオプションを付けて実行すると警告やエラーとなります。gccがデフォルトで警告やエラーにしていない理由がわからないのですが。。

-Xlinker --warn-commonオプションを付けると警告となる。


$ gcc main.c func.c -Xlinker --warn-common
/tmp/cc6pxmVg.o: 警告: 共通シンボル `a' が重複しています
/tmp/ccq7NGE1.o: 警告: 前の共通シンボルはここです

-fno-commonオプションを付けるとコンパイルエラーとなる。


$ gcc main.c func.c -fno-common
/tmp/ccZAWnT1.o:(.bss+0x0): `a' が重複して定義されています
/tmp/cc7mLKXX.o:(.bss+0x0): ここで最初に定義されています
collect2: error: ld returned 1 exit status