констант не совпадает со -36- значением выражения и если при этом присутствует префикс default, то управление передается оператору, помеченному этим префиксом. Если ни один из вариантов не подходит и пре- фикс default отсутствует, то ни один из операторов в перек- лючателе не выполняется. Сами по себе префиксы case и default не изменяют выпол- нения программы, программа выполняется последовательно, пока не встретится явная передача управления. Для выхода из переключателя имеется оператор break (п.0.8). Обычно оператор, который входит в переключатель, явля- ется составным. Описания могут появляться в начале этого оператора, но инициализации автоматических и регистровых переменных будут неэффективными. Пример: switch (regim) { case 'x': regx++; case 'X': case 'Y': regY++; break; case '-': regx = 0; break; default: err("Ошибка"); goto next; } 6.8. Оператор break Оператор break; вызывает завершение выполнения наименьшего охватывающего этот оператор оператора while, do, for или switch; управле- ние передается оператору, следующему за завершенным операто- ром. 6.9. Оператор continue Оператор continue; приводит к передаче управления на продолжающую цикл часть наименьшего охватывающего этот оператор оператора while, do или for; то есть на конец цикла. Более точно, в каждом из операторов while(...) { | do { | for(...) { ... | ... | ... contin: ; | contin: ; | contin: ; } | } while(...); | } -37- оператор continue эквивалентен оператору goto contin. (За contin: следует пустой оператор; см. п. 0.13.). 6.10. Оператор возврата Возвращение из функции в вызывающую программу осуществ- ляется с помощью оператора return, который имеет одну из следующих форм return; return выражение; В первом случае возвращаемое значение неопределено. Во вто- ром случае в вызывающую функцию возвращается значение выра- жения. Если требуется, выражение преобразуется к типу функ- ции, в которой оно появляется, как в случае присваивания. Попадание на конец функции эквивалентно возврату без возвра- щаемого значения. Возвращать можно значение арифметического типа, а также структуру (но не массив). 6.11. Оператор goto Управление можно передавать безусловно с помощью опера- тора goto идентификатор1 Идентификатор должен быть меткой (п. 0.12), локализованной в данной функции. 6.12. Помеченный оператор Перед любым оператором может стоять метка, имеющая вид: идентификатор: Метки используются только для указания места, куда переда- ется управление оператором goto. Областью действия метки является данная функция, за исключением тех подблоков, в которых тот же идентификатор описан снова. 6.13. Пустой оператор Пустой оператор имеет форму: ; Пустой оператор оказывается полезным, так как он позволяет поставить метку перед закрывающей скобкой } составного опе- ратора или указать пустое тело в операторах цикла, таких как while. -38-  * 7. ВНЕШНИЕ ОПРЕДЕЛЕНИЯ Си-программа представляет собой последовательность внешних определений. Внешнее определение описывает идентифи- катор как имеющий класс памяти extern (по умолчанию), или, возможно, static, и специфицированный тип. Спецификатор типа также может быть пустым; в этом случае считается, что тип является типом int. Область действия внешних определений распространяется до конца файла, в котором они приведены, точно так же, как влияние описаний простирается до конца блока. Синтаксис внешних определений не отличается от син- таксиса описаний, за исключением того, что только на этом уровне можно приводить текст функций. 7.1. Внешнее определение функции Определение функции имеет форму определение_функции: спецификаторы_описания описа- необ тель_функции тело_функции Единственными спецификаторами класса памяти, допускаемыми в качестве спецификаторов-описания, являются extern или static; о различии между ними смотри в следующем разделе. Описатель функции подобен описателю для функции, возвращаю- щей ..., за исключением того, что он перечисляет формальные параметры определяемой функции. описатель_функции: описатель (список_параметров) необ список параметров: идентификатор идентификатор, список_параметров Тело_функции имеет форму тело_функции: список_описаний составной_оператор Идентификаторы из списка параметров могут быть описаны в списке описаний. Любой идентификатор из этого списка, тип которого не указан, считается имеющим тип int. Единственным допустимым здесь спецификатором класса памяти является register; если такой класс памяти специфицирован, то в начале выполнения функции соответствующий фактический пара- метр копируется, если это возможно, в регистр. Вот простой пример полного определения функции: -39- int max(a, b, c) int a, b, c; { int m; m = (a>b) ? a:b; return((m>c) ? m:c); } Здесь int - спецификатор-типа, maх(a,b,c) - описатель_функции, int a,b,c; - список-описаний формальных параметров, { ... } - блок, содержащий текст оператора. В языке Си все фактические параметры типа float преоб- разуются к типу double, так что описания формальных парамет- ров, объявленных как float, могут работать с параметрами типа double. Аналогично, поскольку ссылка на массив в любом контексте (в частности в фактическом параметре) рассматрива- ется как указатель на первый элемент массива, описания фор- мальных параметров вида массив ... могут работать с факти- ческими параметрами типа указатель на ... И наконец, пос- кольку функции не могут быть переданы функции, бессмысленно описывать формальный параметр как функцию (указатели на такие объекты, конечно, допускаются). ПРИМЕЧАНИЕ В некоторых версиях языка Си, в частности, в версиях для микропроцессоров, может быть запрещена передача структур и объединений через параметры функции. 7.2. Внешние определения данных Внешнее определение данных имеет форму: определение_данных: описание Классом памяти таких данных может быть extern (в частности, по умолчанию) или static, но не auto или register.  * 8. ОБЛАСТЬ ДЕЙСТВИЯ ИДЕНТИФИКАТОРОВ Вся Си-программа не обязательно компилируется одновре- менно; исходный текст программы может храниться в нескольких файлах и ранее скомпилированные процедуры могут загружаться из библиотек. Связь между функциями может осуществляться как через явные обращения, так и в результате работы редактора связей. Поэтому следует рассмотреть два вида областей действия: во первых, ту, которая может быть названа лексической областью действия идентификатора и которая по существу является той областью в программе, где этот идентификатор -40- можно использовать, не вызывая диагностического сообщения "неопределенный идентификатор"; и во-вторых, область дейст- вия, которая связана с внешними идентификаторами и которая характеризуется правилом, что ссылки на один и тот же внеш- ний идентификатор являются ссылками на один и тот же объект. 8.1. Лексическая область действия Лексическая область действия идентификаторов, описанных во внешних определениях, простирается от определения до конца исходного файла, в котором он находится. Лексическая область действия идентификаторов, являющихся формальными параметрами, распространяется на ту функцию, к которой они относятся. Лексическая область действия идентификаторов, описанных в начале блока, простирается до конца этого блока. Лексической областью действия меток является та функция, в которой они находятся. Поскольку все ссылки на один и тот же внешний идентифи- катор относятся к одному и тому же объекту, компилятор про- веряет все описания одного и того же внешнего идентификатора на совместимость; в действительности их область действия распространяется на весь файл, в котором они находятся. Во всех случаях, однако, если некоторый идентификатор явным образом описан в начале блока, включая и блок, который образует функцию, то действие любого описания этого иденти- фикатора вне блока приостанавливается до конца этого блока. Напомним также, что идентификаторы, соответствующие обычным переменным, с одной стороны, и идентификаторы, соот- ветствующие членам и ярлыкам структур и объединений, с дру- гой стороны, формируют два непересекающихся класса, которые не вступают в противоречие. Члены и ярлыки структур подчиня- ются тем же самым правилам определения областей действия, как и другие идентификаторы. Имена, специфицируемые с помощью typedef, входят в тот же класс, что и обычные иден- тификаторы. Они могут быть переопределены во внутренних блоках, но во внутреннем описании тип должен быть указан явно: typedef float distance; ... { auto int distance; ... Во втором описании спецификатор типа int должен присутство- вать, так как в противном случае это описание будет принято за описание без описателей с типом distance. -41- 8.2. Область действия внешних идентификаторов Если функция ссылается на идентификатор, описанный как extern, то где-то среди файлов или библиотек, образующих полную программу, должно содержаться внешнее определение этого идентификатора. Все функции данной программы, которые ссылаются на один и тот же внешний идентификатор, ссылаются на один и тот же объект, так что следует позаботиться, чтобы специфицированные в этом определении тип и размер были сов- местимы с типом и размером, указываемыми в каждой функции, которая ссылается на эти данные. Появление ключевого слова extern во внешнем определении указывает на то, что память для описанных в нем идентифика- торов будет выделена в другом файле. Следовательно, в состо- ящей из многих файлов программе внешнее определение иденти- фикатора, не содержащее спецификатора extern, должно появ- ляться только в одном из этих файлов. Любые другие файлы, которые желают дать внешнее определение этого идентифика- тора, должны включать в это определение слово extern. Иден- тификатор может быть инициализирован только в том описании, которое приводит к выделению памяти. Из этого правила в ОС ДЕМОС имеется исключение. Внешний объект может присутствовать в нескольких описаниях без extern. При этом длина объекта в разных описаниях должна совпадать, а инициализация, если она есть, должна прово- диться ровно в одном из описаний. При нарушении этих правил будет выдана ошибка на этапе редактировании связей прог- раммы. Идентификаторы, внешнее определение которых начинается со слова static, недоступны из других файлов. Функции могут быть описаны как static. 8.3. Неявные описания Не всегда необходимо специфицировать и класс памяти и тип идентификатора в описании. Во внешних определениях и описаниях формальных параметров и членов структур класс памяти определяется по контексту. Если в находящемся внутри функции описании не указан тип, а только класс памяти, то предполагается, что идентификатор имеет тип int; если не указан класс памяти, а только тип, то идентификатор предпо- лагается описанным как auto. Исключение из последнего пра- вила дается для функций, потому что спецификатор auto для функций является бессмысленным (язык Си не в состоянии ком- пилировать программу в стек); если идентификатор имеет тип функция, возвращающая ..., то он предполагается неявно опи- санным как extern. Входящий в выражение и неописанный ранее идентификатор, за которым следует скобка (, считается описанным по -42- контексту как функция, возвращающая int. /* extern */ int tab[100]; static /* int */ t1; /* int */ func(i) /* int i; */ { register /* int */ k; /* auto */ char buf[512]; /* extern int f1(); */ ... f1(a,b) ...  * 9. ПРЕПРОЦЕССОР ЯЗЫКА 'СИ' Компилятор языка Си содержит препроцессор, который поз- воляет осуществлять макроподстановки, условную компиляцию и включение именованных файлов. Строки, начинающиеся с #, являются командами этого препроцессорa. Синтаксис этих строк не связан с остальным языком; они могут появляться в любом месте и их влияние распространяется (независимо от области действия) до конца исходного программного файла. Фактически препроцессор расширяет возможности языка Си, реализуя такие функции, которые в других языках входят в состав самого языка (например, параметрические константы в Фортране-77). 9.1. Замена лексем Команда #define идентификатор строка_лексем (обратите внимание на отсутствие в конце точки с запятой) приводит к тому, что препроцессор заменяет последующие вхож- дения этого идентификатора на указанную строку лексем. Строка вида #define идентификатор(идентифика- тор,...,идентификатор) строка_лексем где между первым идентификатором и открывающейся скобкой "(" нет пробела, представляет собой макроопределение с аргумен- тами. В дальнейшем первый идентификатор, за которым следует открывающая скобка "(", последовательность разделенных запя- тыми лексем и закрывающая скобка ")", заменяются строкой лексем из определения. Каждое вхождение идентификатора, упо- мянутого в списке формальных параметров в определении, заме- няется соответствующей строкой лексем из обращения. Факти- ческими аргументами в обращении являются строки лексем, раз- деленные запятыми; однако запятые, входящие в закавыченные строки или заключенные в круглые скобки, не разделяют аргу- ментов. Количество формальных и фактических параметров должно совпадать. Текст внутри строки или символьной конс- танты не подлежит замене. -43- В обоих случаях замененная строка просматривается снова с целью обнаружения других идентификаторов, известных преп- роцессору. В обоих случаях слишком длинная строка определе- ния может быть продолжена на другой строке, если поместить в конце продолжаемой строки обратную косую черту "\". Описываемая возможность особенно полезна для определе- ния "объявляемых констант", как, например, #define TABSIZE 100 int table[TABSIZE]; или для замены некоторых функций с помощью макроподстановки: #define max(a,b) ((a)>(b)?(a):(b)) x = max(y,20) (в последнем определении a и b взяты в скобки, для того, чтобы фактическими параметрами макро могли бы быть произ- вольные выражения. Команда #undef идентификатор приводит к отмене препроцессорного определения данного иден- тификатора. Определить идентификатор можно не только с помощью команды #define, но также и при вызове компилятора, с помощью параметров команды cc. 9.2. Включение файлов Команда #include "filename" приводит к замене этой строки на все содержимое файла с име- нем filename. Файл с этим именем сначала ищется в текущем справочнике, а затем в других "стандартных" местах, опреде- ляемых пользователем при вызове компилятора. В отличие от этого команда #include <filename> ищет файл только в стандартном справочнике системы. В ОС ДЕМОС файл ищется в справочнике /usr/include. Команды #include могут быть вложенными. -44- 9.3. Условная компиляция Команда препроцессора #if константное выражение проверяет, отлично ли от нуля значение константного выраже- ния. Команда: #ifdef идентификатор проверяет, определен ли этот идентификатор в настоящий момент в препроцессоре, т.е. определен ли этот идентификатор с помощью команды #define. Команда: #ifndef идентификатор проверяет, является ли этот идентификатор в данный момент не определенным для препроцессора. За каждым из трех перечисленных видов строк может сле- довать произвольное число строк, возможно содержащих команду препроцессора #else а затем должна следовать команда: #endif Если проверяемое условие истинно, то любые строки между #else и #endif игнорируются. Если проверяемое условие ложно, то любые строки между проверяемой строкой и #else или, при отсутствии #else, #endif игнорируются. Эти конструкции могут быть вложенными. Например: #ifdef DEBUG fprintf(stderr,"i=%o j=%d\n",i,j); #endif Переменная препроцессора может быть определена не только в самой программе, но и при вызове транслятора. 9.4. Команда #line Для других препроцессоров, генерирующих Си-программы, полезна следующая команда: #line константа "имя_файла" -45- которая сообщает компилятору (для диагностических сообще- ний), что следующая строка исходного файла имеет номер, задаваемый константой, и что текущий входной файл именуется именем_файла. Если имя_файла отсутствует, то запоминаемое имя файла не изменяется. Пример: #line 250 "gram.y"  * 10. ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ О ТИПАХ В этом разделе обобщаются сведения об операциях, кото- рые можно применять только к объектам определенных типов. 10.1. Структуры и объединения Со структурами и объединениями могут производиться сле- дующие операции: ссылка на один из членов структуры или объединения (с помощью операции .), получение адреса (с помощью унарной операции &), присваивание структуры струк- туре, передача структуры в качестве формального параметра, возврат структуры функцией. Все остальные операции запре- щены. В реализации возвращения структур функциями на CM-ЭВМ имеется коварный дефект: если во время возврата происходит прерывание и та же самая функция реентерабельно вызывается во время этого прерывания, то значение, возвращаемое из пер- вого вызова, может быть испорчено. Эта трудность может воз- никнуть только при наличии истинного прерывания, как из опе- рационной системы, так и из программы пользователя; прерыва- ния, которое действительно асинхронно; обычные рекурсивные вызовы совершенно безопасны. В разделе "Выражения" говорится, что при прямой или косвенной ссылке на структуру (с помощью . или ->) имя справа должно быть членом конструкции, названной или указан- ной выражением слева. Это ограничение не навязывается строго компилятором, чтобы дать возможность обойти правила соот- ветствия типов. В действительности перед . допускается любое l_значение и затем предполагается, что это l_значение имеет форму структуры, для которой стоящее справа имя явля- ется членом. Таким же образом, от выражения, стоящего перед ->, требуется только быть указателем или целым. В случае указателя предполагается, что он указывает на структуру, для которой стоящее справа имя является членом. В случае целого оно рассматривается как абсолютный адрес соответствующей структуры, заданный в единицах машинной памяти. Такие структуры не являются переносимыми. -46- 10.2. Функции Только две операции можно применять к функции: вызвать ее или извлечь ее адрес. Если имя функции входит в выражение не в позиции имени функции, соответствующей обращению к ней, то генерируется указатель на эту функцию. Следовательно, чтобы передать одну функцию другой, можно написать int f(); ... g(f); тогда определение функции g могло бы выглядеть так: g(funcp) int (*funcp)(); { ... (*funcp)(); ... } Обратите внимание, что в вызывающей процедуре функция f должна быть описана явно, потому что за ее появлением в g(f) не следует скобка "(". 10.3. Массивы, указатели и индексация Каждый раз, когда идентификатор, имеющий тип массива, появляется в выражении, он преобразуется в указатель на пер- вый член этого массива. Из-за этого преобразования массивы не являются l_значениями. По определению операция индексации "[]" интерпретируется таким образом, что e1[e2] считается идентичным выражению *((e1)+(e2)). Согласно правилам преоб- разований, применяемым при операции +, если e1 - массив, а e2 - целое, то e1[e2] ссылается на e2-й член массива e1. Поэтому, несмотря на несимметричный вид, операция индексации является коммутативной. В случае многомерных массивов применяется аналогичное правило. Если e является n-мерным массивом размера i*j*...*k, то при появлении в выражении e преобразуется в указатель на (n-1)-мерный массив размера j*...*k. Если опе- рация * либо явно, либо неявно, как результат индексации, применяется к этому указателю, то результатом операции будет указанный (n-1)-мерный массив, который сам немедленно преоб- разуется в указатель. Рассмотрим, например, описание: int u[3][5]; Здесь u - массив целых размера 3*5. При появлении в -47- выражении u преобразуется в указатель на первый из трех мас- сивов из 5 целых. В выражении u[i], которое эквивалентно *(u+i), сначала u преобразуется в указатель так, как описано выше; затем i преобразуется к типу u, что вызывает умножение i на длину объекта, на который указывает указатель, а именно на 5 целых объектов. Результаты складываются, и применение косвенной адресации дает массив (из 5 целых), который в свою очередь преобразуется в указатель на первое из этих целых. Если в выражение входит и другой индекс, то та же самая аргументация применяется снова; результатом на этот раз будет целое. Из всего этого следует, что массивы в языке Си хранятся построчно (последний индекс изменяется быстрее всего) и что первый индекс в описании помогает определить общее коли- чество памяти, требуемое для хранения массива, но не играет никакой другой роли в вычислениях, связанных с индексацией. 10.4. Явные преобразования указателей Разрешаются определенные преобразования с использова- нием указателей. Они имеют некоторые зависящие от конкрет- ной реализации аспекты. Все эти преобразования задаются с помощью операции явного преобразования типа. Указатель может быть преобразован в любой из целочис- ленных типов, достаточно большой для его хранения. Требуется ли при этом int или long, зависит от конкретной машины (в ОС ДЕМОС для СМ ЭВМ требуется int). Преобразующая функция также является машинно-зависимой, но она будет вполне естественной для тех, кто знает структуру адресации в машине. Детали для некоторых конкретных машин приводятся ниже. Объект целочисленного типа может быть явным образом преобразован в указатель. Такое преобразование всегда пере- водит преобразованное из указателя целое в тот же самый ука- затель, но в других случаях оно будет машинно-зависимым. Указатель на один тип может быть преобразован в указа- тель на другой тип. Если преобразуемый указатель не указы- вает на объекты, которые подходящим образом выравнены в памяти, то результирующий указатель может при использовании вызывать ошибки адресации. Гарантируется, что указатель на объект заданного размера может быть преобразован в указатель на объект меньшего размера и снова обратно, не претерпев при этом изменения. Например, процедура распределения памяти alloc могла бы принимать запрос на размер выделяемого объекта в байтах, а возвращать указатель на символы; это можно было бы использо- вать следующим образом. -48- extern char *alloc(); double *dp; dp=(double*) alloc(sizeof(double)); *dp=22.0/7.0; Функция alloc должна обеспечивать (машинно-зависимым спосо- бом), что возвращаемое ею значение будет подходящим для пре- образования в указатель на double; в таком случае использо- вание этой функции будет переносимым. Представление указателя на CM-ЭВМ соответствует 16- битовому целому и измеряется в байтах. Объекты типа char не имеют никаких ограничений на выравнивание; все остальные объекты должны иметь четные адреса.  * 11. КОНСТАНТНЫЕ ВЫРАЖЕНИЯ В нескольких местах в языке Си требуются выражения, которые после вычисления становятся константами: после вари- антного префикса case, в качестве границ массивов и в иници- ализаторах. В первых двух случаях выражение может содержать только целые константы, символьные константы и выражения sizeof, возможно связанные либо бинарными операциями + - * / . % & | ^ << >> == 1= <> <= >= либо унарными операциями - ~ либо тернарной операцией ?: Круглые скобки могут использоваться для группировки, но не для обращения к функциям. В случае инициализаторов допускается большая (ударение на букву о) свобода; кроме перечисленных выше константных выражений можно также применять унарную операцию & к внешним или статическим объектам и к внешним или статическим масси- вам, имеющим в качестве индексов константное выражение. Унарная операция & может быть также применена неявно, в результате появления неиндексированных массивов и функций. Основное правило заключается в том, что после вычисления инициализатор должен становится либо константой, либо адре- сом ранее описанного внешнего или статического объекта плюс или минус константа.  * 12. СООБРАЖЕНИЯ О ПЕРЕНОСИМОСТИ Одним из достоинств языка Си считается переносимость программ на Си, которая связана как с относительной машинной -49- независимостью самого языка, так и с совместимостью среды, обеспечиваемой совместимыми с ОС UNIX операционными систе- мами. Вместе с тем, при написании на языке Си таких прог- рамм, которые не должны зависеть от конкретной ЭВМ, необхо- димо учитывать то, что некоторые части языка Си по своей сути машинно-зависимы. Следующее ниже перечисление потенци- альных трудностей хотя и не являются всеобъемлющими, но выделяет основные из них. Вопросы, целиком связанные с аппаратным оборудованием, такие как размер слова, свойства вещественной арифметики и целого деления, не представляют особенных затруднений. Дру- гие аспекты аппаратных средств находят свое отражение в раз- личных реализациях. Некоторые из них, в частности, знаковое расширение (преобразующее отрицательный символ в отрицатель- ное целое) и порядок, в котором помещаются байты в слове, представляют собой неприятность, которая должна тщательно отслеживаться. Большинство остальных проблем этого типа не вызывает сколько_нибудь значительных затруднений. Число переменных типа register, которое фактически может быть помещено в регистры, меняется от машины к машине, также как и набор допустимых для них типов. Тем не менее все компиляторы на своих машинах работают надлежащим образом; лишние или недопустимые регистровые описания игнорируются. Некоторые трудности возникают только при использовании сомнительной практики программирования, или при использова- нии особенностей конкретной реализации. Писать программы, которые зависят от таких особенностей, чрезвычайно нера- зумно. Языком не указывается порядок вычисления аргументов функций; они вычисляются справа налево на CM-ЭВМ и ЭВМ PDP- 11 и VAXR-11 фирмы DEC и слева направо на большинстве остальных машин. Порядок, в котором происходят побочные эффекты, также не специфицируется. Так как символьные константы в действительности явля- ются объектами типа int, допускается использование символь- ных констант, состоящих из нескольких символов. Однако, пос- кольку порядок, в котором символы приписываются к слову, меняется от машины к машине, конкретная реализация оказыва- ется весьма машинно_зависимой. Порядок присваивания полей к словам и символов к целым также зависит от ЭВМ. Такие различия незаметны для изолиро- ванных программ, в которых не разрешено смешивать типы (пре- образуя, например, указатель на int в указатель на char и затем проверяя указываемую память), но должны учитываться при согласовании с накладываемыми извне схемами памяти. -50- Язык, принятый на различных компиляторах, отличается только незначительными деталями. Самое заметное отличие сос- тоит в том, что используемый в настоящее время компилятор на CM-ЭВМ не инициализирует структуры, которые содержат поля битов, не имеет типа "unsigned char" и имеет некоторые огра- ничения на операции присваивания в определенных контекстах, связанных с использованием значения присваивания структур. 12.1. Анахронизмы В старых программах можно встретить некоторые устарев- шие конструкции. Хотя большинство версий компилятора поддер- живает такие анахронизмы, они в конце концов исчезнут, оста- вив за собой только проблемы переносимости. В ранних версиях Си для проблем присваивания использо- валась форма =оп, а не оп=, приводя к двусмысленностям, типичным примером которых является х =-1 где х фактически уменьшается, поскольку операции = и - при- мыкают друг к другу, но что вполне могло рассматриваться и как присваивание -1 к х. Синтаксис инициализаторов изменился: раньше знак равенства, с которого начинается инициализатор, отсутство- вал, так что вместо int х = 1; использовалось int х 1; изменение было внесено из_за инициализации int f (1+2) которая достаточно сильно напоминает определение функции, чтобы смутить компиляторы.  * 13. СТАНДАРТНАЯ БИБЛИОТЕКА ВВОДА И ВЫВОДА Средства ввода/вывода не являются составной частью языка Си. В этой главе будет описана "стандартная библио- тека ввода/вывода", то есть набор функций, разработанных для обеспечения стандартной системы ввода/вывода для Си- прог- рамм. Эти функции отражают только те операции, которые могут быть обеспечены на большинстве современных операционных сис- тем. Процедуры достаточно эффективны для того, чтобы пользо- ватели редко чувствовали необходимость обойти их "ради -51- эффективности", как бы ни была важна конкретная задача. И наконец, эти процедуры были задуманы авторами языка "перено- симыми" в том смысле, что они должны существовать в совмес- тимом виде на любой системе, где имеется язык Си, и что программы, которые ограничивают свои взаимодействия с сис- темными возможностями, предоставляемыми стандартной библио- текой, можно будет переносить с одной системы на другую по существу без изменений. Далее описываются основные принципы организации ввода/вывода в программах на языке Си, использующих библио- теку ввода/вывода. Полное описание этой библиотеки имеется в руководстве программиста (часть 4) или в оперативной доку- ментации ("man(3)"). Программы, работающие в ОС ДЕМОС, могут также обращаться к функциям ввода/вывода низкого уровня, которые реализованы непосредственно в ядре ОС ДЕМОС, но такая необходимость возникает достаточно редко. 13.1. Обращение к стандартной библиотеке Каждый исходный файл, который обращается к функции из стандартной библиотеки, должен где то в начале содержать строку #include <stdio.h> В файле stdio.h определяются некоторые макросы и переменные, используемые библиотекой ввода/вывода. 13.2. Стандартный ввод и вывод Самый простой механизм ввода заключается в чтении по одному символу за раз из "стандартного ввода" (обычно с тер- минала пользователя) с помощью функции getchar. Функция getchar() целого типа при каждом к ней обращении возвращает следующий вводимый символ. В большинстве систем, которые поддерживают язык Си, терминал может быть заменен некоторым файлом с помощью обозначения "<". Если некоторая программа prog использует функцию getchar, то командная строка prog <infile приведет к тому, что prog будет читать из файла infile, а не с терминала. Переключение ввода делается таким образом, что сама программа prog не замечает изменения; в частности строка "<infile" не включается в командную строку аргументов (см. следующую главу). Переключение ввода оказывается неза- метным и в том случае, когда вывод поступает из другой прог- раммы через межпроцессный канал. Например, командная строка otherprog | prog прогоняет две программы, otherprog и prog, так, что -52- стандартным вводом для prog служит стандартный вывод other- prog. Функция getchar возвращает значение EOF, когда достига- ется конец файла, какой бы ввод она при этом не считывала. Стандартная библиотека полагает символическую константу EOF равной -1 (посредством #define в файле stdio.h), но проверки следует писать в терминах EOF, а не -1, чтобы избежать зави- симости от конкретного значения. Вывод можно осуществлять с помощью функции putchar(c), помещающей символ 'c' в "стандартный вывод", который по умолчанию является терминалом. Вывод можно при вызове прог- раммы направить в некоторый файл с помощью обозначения ">". Если prog использует putchar, то командная строка prog > outfile приведет к записи стандартного вывода в файл outfile, а не на терминал. В системе ДЕМОС можно также использовать межп- роцессный канал. В стандартной библиотеке ввода/вывода "функции" getchar и putchar на самом деле могут быть макросами. Это позволяет избежать накладных расходов на обращение к функции для обра- ботки каждого символа. 13.3. Форматный вывод - функция printf Две функции: printf для вывода и scanf для ввода (сле- дующий раздел) позволяют преобразовывать численные величины в символьное представление и обратно. Они также позволяют генерировать и интерпретировать форматные строки. Функция printf(control, arg1, arg2, ...) преобразует аргументы в текстовую форму в соответствии с форматами, заданными в управляющей строке control, и выдает результат в стандартный вывод. Управляющая строка содержит два типа объектов: обычные символы, которые просто копиру- ются в выходной поток, и спецификации преобразований, каждая из которых вызывает преобразование и печать очередного аргу- мента printf. Каждая спецификация преобразования начинается с символа "%" и заканчивается символом преобразования (буквой, опреде- ляющей тип преобразования). Между "%" и символом преобразо- вания могут находиться: - Знак минус, который вызывает выравнивание преобразо- ванного аргумента по левому краю поля. -53- - Строка цифр, задающая минимальную ширину поля. Преоб- разованное число будет напечатано в поле по крайней мере этой ширины, а если необходимо, то и в более широком. Если преобразованный аргумент имеет меньше символов, чем указанная ширина поля, то он будет дополнен слева (или справа, если было указано вырав- нивание по левому краю) заполняющими символами до этой ширины. Заполняющим символом обычно является пробел, а если ширина поля указывается с лидирующим нулем, то этим символом будет нуль (лидирующий нуль в данном случае не означает восьмеричной ширины поля). - Точка, которая отделяет ширину поля от следующей строки цифр. - Строка цифр (точность); указывает максимальное число символов строки, которые должны быть напечатаны, или число печатаемых справа от десятичной точки цифр для переменных типа float или double. - Модификатор длины l, который указывает, что соот- ветствующий элемент данных имеет тип long, а не int. Ниже приводятся символы преобразования и их смысл: d - аргумент преобразуется к десятичному виду; o - аргумент преобразуется в беззнаковую восьмеричную форму (без лидирующего нуля); x - аргумент преобразуется в беззнаковую шестнадцатерич- ную форму (без лидирующих 0х); u - аргумент преобразуется в беззнаковую десятичную форму; c - аргумент рассматривается как отдельный символ; s - аргумент является строкой: символы строки печатаются до тех пор, пока не будет достигнут нулевой символ или не будет напечатано количество символов, указан- ное в спецификации точности; e - аргумент, рассматриваемый как переменная типа float или double, преобразуется в десятичную форму в виде [-]m.nnnnnne[+-]хх, где длина строки из n определя- ется указанной точностью. Точность по умолчанию равна 6; f - аргумент, рассматриваемый как переменная типа float или double, преобразуется в десятичную форму в виде [-]mmm.nnnnn, где длина строки из n определяется ука- занной точностью. Точность по умолчанию равна 6. -54- Отметим, что эта точность не определяет количество печатаемых в формате f значащих цифр; g - используется или формат %e или %f, какой короче; нез- начащие нули не печатаются. Вместо "ld"можно использовать "D", вместо "lo" - "O", вместо "lx" - "X". Если идущий за % символ не является символом преобразо- вания, то печатается сам этот символ; следовательно,символ % можно напечатать, указав %%. Большинство из форматных преобразований очевидно. Единственным исключением является то, как точность взаимо- действует со строками. Следующая таблица демонстрирует влия- ние различных спецификаций на печать "hello, world" (12 сим- волов). Вокруг каждого поля помещены двоеточия для того, чтобы можно было определить его протяженность. :%10s: :hello, world: :%10-s: :hello, world: :%20s: : hello,