искивать  в
теле  функции глобальных переменных, передающих значение в/из функции, т.е. эта функ-
ция не имеет побочных влияний), более надежны (хотя бы потому, что компилятор в  сос-
тоянии  проверить  прототип  такой  функции и предупредить вас, если вы забыли задать
какой-то аргумент; если же аргументы передаются  через  глобальные  переменные  -  вы
можете  забыть проинициализировать какую-то из них).  Старайтесь делать функции реен-
терабельными!


<i>А. Богатырев, 1992-95                  - 75 -                               Си в UNIX</i>

     Вот еще один пример на эту тему. Не-реентерабельный вариант:

    int x, y, result;
    int <i>f</i> (){
            static int z = 4;
            y = x + z; z = y - 1;
            return x/2;
    }
    Вызов:     x=13; result = <i>f</i>(); printf("%d\n", y);

А вот реентерабельный эквивалент:

    int y, result, zmem = 4;
    int <i>f</i> (/*IN*/ int x, /*OUT*/ int *ay, /*INOUT*/ int *az){
            *az = (*ay = x + *az) - 1;
            return x/2;
    }
    Вызов:    result = <i>f</i>(13, &y, &zmem); printf("%d\n", y);


<i>1.145.</i>  То, что формат заголовка функции должен быть известен компилятору до  момента
ее использования, побуждает нас помещать определение функции до точки ее вызова. Так,
если main вызывает f, а f вызывает g, то в файле функции расположатся в порядке

    g()   {              }
    f()   { ... g(); ... }
    main(){ ... f(); ... }

Программа обычно разрабатывается "сверху-вниз" - от main к деталям.  Си же  вынуждает
нас  размещать  функции  в программе в обратном порядке, и в итоге программа читается
снизу-вверх - от деталей к main, и читать ее следует от конца файла к началу!
Так мы вынуждены писать, чтобы удовлетворить Си-компилятор:

    #include &lt;stdio.h>

    unsigned long <i>g</i>(unsigned char *s){
            const int BITS = (sizeof(long) * 8);
            unsigned long sum = 0;

            for(;*s; s++){
                    sum ^= *s;
                    /* cyclic rotate left */
                    sum = (sum&lt;&lt;1)|(sum>>(BITS-1));
            }
            return sum;
    }
    void <i>f</i>(char *s){
            printf("%s %lu\n", s, g((unsigned char *)s));
    }
    int <i>main</i>(int ac, char *av[]){
            int i;

            for(i=1; i &lt; ac; i++)
                    f(av[i]);
            return 0;
    }

А вот как мы разрабатываем программу:


<i>А. Богатырев, 1992-95                  - 76 -                               Си в UNIX</i>

    #include &lt;stdio.h>

    int <i>main</i>(int ac, char *av[]){
            int i;

            for(i=1; i &lt; ac; i++)
                    f(av[i]);
            return 0;
    }
    void <i>f</i>(char *s){
            printf("%s %lu\n", s, g((unsigned char *)s));
    }
    unsigned long <i>g</i>(unsigned char *s){
            const int BITS = (sizeof(long) * 8);
            unsigned long sum = 0;

            for(;*s; s++){
                    sum ^= *s;
                    /* cyclic rotate left */
                    sum = (sum&lt;&lt;1)|(sum>>(BITS-1));
            }
            return sum;
    }

и вот какую ругань производит Си-компилятор в ответ на эту программу:

    "0000.c", line 10: identifier redeclared: f
            current : function(pointer to char) returning void
            previous: function() returning int : "0000.c", line 7
    "0000.c", line 13: identifier redeclared: g
            current : function(pointer to uchar) returning ulong
            previous: function() returning int : "0000.c", line 11

Решением проблемы является - задать прототипы (объявления заголовков) всех функций  в
начале файла (или даже вынести их в header-файл).

    #include &lt;stdio.h>

    int main(int ac, char *av[]);
    void f(char *s);
    unsigned long g(unsigned char *s);
            ...

Тогда функции будет <i>можно</i> располагать в тексте в любом порядке.

<i>1.146.</i>  Рассмотрим процесс сборки программы из нескольких файлов на языке Си.   Пусть
мы  имеем  файлы file1.c, file2.c, file3.c (один из них должен содержать среди других
функций функцию <i>main</i>).  Ключ компилятора <i>-o</i> заставляет  создавать  выполняемую  прог-
рамму  с  именем, указанным после этого ключа. Если этот ключ не задан - будет создан
выполняемый файл a.out

    <i>cc</i> file1.c file2.c file3.c <i>-o</i> file

Мы получили выполняемую программу file.  Это эквивалентно 4-м командам:

    <i>cc -c</i> file1.c           получится     file1.o
    <i>cc -c</i> file2.c                         file2.o
    <i>cc -c</i> file3.c                         file3.o
    <i>cc</i> file1.o file2.o file3.o <i>-o</i> file

Ключ <i>-c</i> заставляет  компилятор  превратить  файл  на  языке  Си  в  "объектный"  файл


<i>А. Богатырев, 1992-95                  - 77 -                               Си в UNIX</i>

(содержащий  машинные  команды;  не будем вдаваться в подробности). Четвертая команда
"склеивает" объектные файлы в единое целое - выполняемую программу<i>|</i>-.  При этом,  если
какие-то  функции, используемые в нашей программе, не были определены (т.е. спрограм-
мированы нами) ни в одном из наших файлов - будет просмотрена библиотека  стандартных
функций.  Если  же  каких-то  функций  не  окажется и там - будет выдано сообщение об
ошибке.
     Если у нас уже есть какие-то готовые объектные  файлы,  мы  можем  транслировать
только новые Си-файлы:

    <i>cc -c</i> file4.c
    <i>cc</i> file1.o file2.o file3.o file4.o <i>-o</i> file
       или (что то же самое,
       но <i>cc</i> сам разберется, что надо делать)
    <i>cc</i> file1.o file2.o file3.o file4.c <i>-o</i> file

Существующие у нас объектные файлы с отлаженными функциями удобно собрать  в  библио-
теку  - файл специальной структуры, содержащий все указанные файлы (все файлы склеены
в один длинный файл, разделяясь специальными заголовками, см. include-файл &lt;ar.h>):

    <i>ar r</i> file<i>.a</i> file1.o file2.o file3.o

Будет создана библиотека file<i>.a</i>, содержащая перечисленные <i>.o</i> файлы (имена библиотек в
<i>UNIX</i>  имеют  суффикс  <i>.a</i>  - от слова archive, архив).  После этого можно использовать
библиотеку:

    <i>cc</i> file4.o file5.o file<i>.a -o</i> file

Механизм таков: если в файлах file4.o и file5.o не определена какая-то функция (функ-
ции), то просматривается библиотека, и в список файлов для "склейки" добавляется файл
из библиотеки, содержащий определение этой функции (из библиотеки он не  удаляется!).
Тонкость: из библиотеки берутся не ВСЕ файлы, а лишь те, которые содержат определения
недостающих функций<i>|</i>=.  Если, в свою очередь, файлы, извлекаемые из библиотеки,  будут
содержать  неопределенные функции - библиотека (библиотеки) будут просмотрены еще раз
и.т.д. (на самом деле достаточно максимум двух проходов, так как при первом просмотре
библиотеки  можно  составить  ее  каталог:  где какие функции в ней содержатся и кого
вызывают).  Можно указывать и несколько библиотек:

    <i>cc</i> file6.c file7.o  \
       file.a mylib.a /lib/libLIBR1.a <i>-o</i> file

Таким образом, в команде <i>cc</i> можно смешивать имена файлов: исходных текстов на Си  <i>.c</i>,
объектных файлов <i>.o</i> и файлов-библиотек <i>.a</i>.
     Просмотр  библиотек,  находящихся  в  стандартных  местах  (каталогах   <i>/lib</i>   и
<i>/usr/lib</i>),  можно  включить  и  еще  одним способом: указав ключ <i>-l</i>.  Если библиотека
называется

    /lib/libLIBR1.a   или     /usr/lib/libLIBR2.a

то подключение делается ключами

    <i>-l</i>LIBR1           и       <i>-l</i>LIBR2
____________________
   <i>|</i>- На самом деле, для "склейки" объектных файлов в выполняемую  программу,  команда
<i>/bin/cc</i>  вызывает программу <i>/bin/ld</i> - link editor, linker, редактор связей, компонов-
щик.
   <i>|</i>= Поэтому библиотека может быть очень большой, а к  нашей  программе  "приклеится"
лишь небольшое число файлов из нее. В связи с этим стремятся делать файлы, помещаемые
в библиотеку, как можно меньше: 1 функция;  либо  "пачка"  функций,  вызывающих  друг
друга.


<i>А. Богатырев, 1992-95                  - 78 -                               Си в UNIX</i>

соответственно.

    <i>cc</i> file1.c file2.c file3.o mylib.a <i>-l</i>LIBR1 <i>-o</i> file

Список библиотек и ключей <i>-l</i> должен идти <i>после</i> имен всех исходных <i>.c</i> и  объектных  <i>.o</i>
файлов.
     Библиотека стандартных функций языка  Си  /lib/lib<i>c</i>.a  (ключ  <i>-l</i>c)  подключается
автоматически  ("подключить" библиотеку - значит вынудить компилятор просматривать ее
при сборке, если какие-то функции, использованные вами, не были вами определены),  то
есть  просматривается  всегда  (именно  эта  библиотека  содержит коды, например, для
<i>printf</i>, <i>strcat</i>, <i>read</i>).
     Многие прикладные пакеты функций поставляются именно в  виде  библиотек.   Такие
библиотеки состоят из ряда <i>.o</i> файлов, содержащих объектные коды для различных функций
(т.е. функции в скомпилированном виде).  Исходные тексты от большинства библиотек  не
поставляются  (так как являются коммерческой тайной). Тем не менее, вы можете исполь-
зовать эти функции, так как вам предоставляются разработчиком:
-    описание (документация).
-    include-файлы,  содержащие  форматы  данных  используемые  функциями  библиотеки
     (именно  эти  файлы включались <i>#include</i> в исходные тексты библ. функций.  Теперь
     уже вы должны включать их в свою программу).
Таким образом вы знаете, как надо вызывать библиотечные  функции  и  какие  структуры
данных вы должны использовать в своей программе для обращения к ним (хотя и не имеете
текстов самих библиотечных функций, т.е. не знаете, как они  устроены.  Например,  вы
часто  используете  <i>printf</i>(),  но  задумываетесь  ли вы о ее внутреннем устройстве?).
Некоторые библиотечные функции могут быть вообще написаны не на Си, а  на  ассемблере
или другом языке программирования<i>|</i>-<i>|</i>-.  Еще раз обращаю ваше внимание,  что  библиотека
содержит  не исходные тексты функций, а скомпилированные коды (и include-файлы содер-
жат (как правило) не тексты функций, а только описание форматов данных)!   Библиотека
может также содержать статические данные, вроде массивов строк-сообщений об ошибках.
     Посмотреть список файлов, содержащихся в библиотеке, можно командой

    <i>ar tv</i> имяФайлаБиблиотеки

а список имен функций - командой

    <i>nm</i> имяФайлаБиблиотеки

Извлечь файл (файлы) из архива (скопировать его в текущий каталог), либо удалить  его
из библиотеки можно командами

    <i>ar x</i> имяФайлаБиблиотеки имяФайла1 ...
    <i>ar d</i> имяФайлаБиблиотеки имяФайла1 ...

где ... означает список имен файлов.
     "Лицом" библиотек служат прилагаемые к ним  include-файлы.   Системные  include-
файлы, содержащие общие форматы данных для стандартных библиотечных функций, хранятся
в каталоге /usr/include  и подключаются так:

    для <i>/usr/include/</i>файл.h     надо  #include &lt;файл.h>
    для <i>/usr/include/sys/</i>файл.h       #include &lt;<i>sys/</i>файл.h>

____________________
   <i>|</i>-<i>|</i>- Обратите внимание, что библиотечные функции не являются частью ЯЗЫКА Си как та-
кового.   То,  что  в  других  языках  (<i>PL/1</i>, <i>Algol-68</i>, <i>Pascal</i>) является частью языка
(встроено в язык)- в Си вынесено на уровень библиотек.  Например, в Си нет  оператора
вывода;  функция вывода <i>printf</i> - это библиотечная функция (хотя и общепринятая).  Та-
ким образом мощь языка Си состоит именно в том, что он позволяет  использовать  функ-
ции, написанные другими программистами и даже на других языках, т.е. является функци-
онально расширяемым.


<i>А. Богатырев, 1992-95                  - 79 -                               Си в UNIX</i>

(<i>sys</i> - это каталог, где описаны форматы данных, используемых ядром  ОС  и  системными
вызовами).  Ваши собственные include-файлы (посмотрите в предыдущий раздел!) ищутся в
текущем каталоге и включаются при помощи

     #include "файл.h"         /*  ./файл.h       */
     #include "../h/файл.h"    /*  ../h/файл.h    */
     #include "/usr/my/файл.h" /*  /usr/my/файл.h */

Непременно изучите содержимое стандартных include-файлов в своей системе!
     В качестве резюме - схема, поясняющая "превращения" Си-программы  из  текста  на
языке  программирования  в  выполняемый  код:  все  файлы <i>.c</i> могут использовать общие
include-файлы; их подстановку в текст, а также обработку <i>#define</i>  произведет  препро-
цессор <i>cpp</i>

    file1<i>.c</i>    file2<i>.c</i>    file3<i>.c</i>
      |          |          |       "препроцессор"
      | <i>cpp</i>      | <i>cpp</i>      | <i>cpp</i>
      |          |          |       "компиляция"
      | <i>cc -c</i>    | <i>cc -c</i>    | <i>cc -c</i>
      |          |          |
    file1<i>.o</i>    file2<i>.o</i>    file3<i>.o</i>
      |          |          |
      -----------*-----------
                 |       Неявно добавятся:
             <i>ld</i>  |&lt;----- /lib/libc<i>.a</i> (библ. станд. функций)
                 |       /lib/crt0<i>.o</i> (стартер)
    "связывание" |
    "компоновка" |&lt;----- Явно указанные библиотеки:
                 |       <i>-l</i>m       /lib/libm<i>.a</i>
                 V
               a.out


<i>1.147.</i>  Напоследок - простой, но жизненно важный совет.  Если  вы  пишете  программу,
которую вставите в систему для частого использования, поместите в исходный текст этой
программы идентификационную строку наподобие

    static char id[] = "This is /usr/abs/mybin/xprogram";

Тогда в случае аварии в файловой системе, если вдруг ваш файл "потеряется" (то есть у
него  пропадет  имя  -  например из-за порчи каталога), то он будет найден программой
проверки файловой системы - <i>fsck</i> - и помещен в каталог  <i>/lost+found</i>  под  специальным
кодовым  именем,  ничего  общего  не имеющим со старым.  Чтобы понять, что это был за
файл и во что его следует переименовать (чтобы восстановить правильное имя), мы  при-
меним команду

    <i>strings</i> имя_файла

Эта команда покажет все длинные строки из печатных символов,  содержащиеся  в  данном
файле,  в  частности  и  нашу строку id[].  Увидев ее, мы сразу поймем, что файл надо
переименовать так:

    <i>mv</i> имя_файла /usr/abs/mybin/xprogram


<i>1.148.</i>  Где размещать include-файлы и как программа узнает, где же они лежат?   Стан-
дартные  системные  include-файлы  размещены  в /usr/include и подкаталогах.  Если мы
пишем некую свою программу (проект) и используем директивы

    <i>#include</i> "имяФайла.h"


<i>А. Богатырев, 1992-95                  - 80 -                               Си в UNIX</i>

то обычно include-файлы имяФайла.h лежат в текущем каталоге (там же, где  и  файлы  с
программой  на  Си).   Однако  мы  можем помещать ВСЕ наши include-файлы в одно место
(скажем, известное группе программистов, работающих над одним  и  тем  же  проектом).
Хорошее место для всех ваших личных include-файлов - каталог (вами созданный)

    <i>$HOME</i>/include

где <i>$HOME</i> - ваш домашний каталог.  Хорошее место для общих include-файлов - каталог

    /usr/local/include

Как сказать компилятору, что <i>#include ""</i> файлы надо брать из определенного  места,  а
не из текущего каталога? Это делает ключ компилятора

    <i>cc -I</i>имя_каталога ...

Например:

    /* Файл x.c */
    <i>#include</i> "x.h"

    int <i>main</i>(int ac, char *av[]){
            ....
            return 0;
    }

И файл x.h находится в каталоге /home/abs/include/x.h (/home/abs - мой домашний ката-
лог).  Запуск программы на компиляцию выглядит так:

    <i>cc -I</i>/home/abs/include <i>-O</i> x.c <i>-o</i> x
            или
    <i>cc -I</i>$HOME/include <i>-O</i> x.c <i>-o</i> x

Или, если моя программа x.c находится в /home/abs/progs

    <i>cc -I</i>../include <i>-O</i> x.c <i>-o</i> x

Ключ <i>-O</i> задает вызов компилятора с оптимизацией.
     Ключ <i>-I</i> оказывает влияние и на <i>#include &lt;></i> директивы тоже.  Для  ОС  <i>Solaris</i>  на
машинах <i>Sun</i> программы для оконной системы <i>X Window System</i> содержат строки вроде

    <i>#include &lt;</i>X11/Xlib.h<i>></i>
    <i>#include &lt;</i>X11/Xutil.h<i>></i>

На <i>Sun</i> эти файлы находятся не в /usr/include/X11, а в /usr/openwin/include/X11.  Поэ-
тому запуск на компиляцию оконных программ на <i>Sun</i> выглядит так:

    <i>cc -O -I</i>/usr/openwin/include xprogram.c \
          <i>-o</i> xprogram <i>-L</i>/usr/openwin/lib <i>-l</i>X11

где <i>-l</i>X11 задает подключение графической оконной библиотеки <i>Xlib</i>.
     Если include-файлы находятся во многих каталогах, то можно задать поиск  в  нес-
кольких каталогах, к примеру:

    <i>cc -I</i>/usr/openwin/include <i>-I</i>/usr/local/include <i>-I</i>$HOME/include ...


<i>А. Богатырев, 1992-95                  - 81 -                               Си в UNIX</i>

        2.  Массивы, строки, указатели.
     Массив представляет собой агрегат из нескольких  переменных  одного  и  того  же
типа. Массив с именем a из LENGTH элементов типа <i>TYPE</i> объявляется так:

    <i>TYPE</i> a[LENGTH];

Это соответствует тому, что объявляются переменные типа <i>TYPE</i> со специальными  именами
a[0],  a[1],  ...,  a[LENGTH-1].   Каждый  элемент массива имеет свой номер - индекс.
Доступ к x-ому элементу массива осуществляется при помощи операции индексации:

    int x = ... ;      /* целочисленный индекс   */
    <i>TYPE</i> value = a[x]; /* чтение x-ого элемента  */
         a[x] = value; /* запись в x-тый элемент */

В качестве индекса может использоваться любое  выражение,  выдающее  значение  целого
типа:  <i>char</i>, <i>short</i>, <i>int</i>, <i>long</i>.  Индексы элементов массива в Си начинаются с <i>0</i> (а не с
1), и индекс последнего элемента массива из LENGTH элементов -  это  LENGTH-1  (а  не
LENGTH).  Поэтому цикл по всем элементам массива - это

    <i>TYPE</i> a[LENGTH]; int indx;
    <i>for</i>(indx=0; indx <i>&lt;</i> LENGTH; indx++)
       ...a[indx]...;

indx &lt; LENGTH  равнозначно  indx &lt;= LENGTH-1.   Выход  за  границы  массива  (попытка
чтения/записи  несуществующего элемента) может привести к непредсказуемым результатам
и поведению программы.  Отметим, что это одна из самых распространенных ошибок.
     Статические массивы можно объявлять с  инициализацией,  перечисляя  значения  их
элементов  в  {}  через  запятую.   Если задано меньше элементов, чем длина массива -
остальные элементы считаются нулями:

    int a10[10] = { 1, 2, 3, 4 }; /* и 6 нулей */

Если при описании массива с инициализацией не указать его размер, он будет  подсчитан
компилятором:

    int a3[] = { 1, 2, 3 }; /* как бы a3[3] */

     В большинстве современных компьютеров (с фон-Неймановской  архитектурой)  память
представляет  собой массив байт.  Когда мы описываем некоторую переменную или массив,
в памяти выделяется непрерывная область для  хранения  этой  переменной.   Все  байты
памяти  компьютера  пронумерованы.   Номер байта, с которого начинается в памяти наша
переменная, называется адресом этой переменной (адрес может  иметь  и  более  сложную
структуру,  чем  просто  целое  число - например состоять из номера сегмента памяти и
номера байта в этом сегменте).  В Си адрес переменной можно получить с помощью опера-
ции  взятия  адреса <i>&</i>. Пусть у нас есть переменная var, тогда <i>&</i>var - ее адрес.  Адрес
нельзя присваивать целой переменной;  для  хранения  адресов  используются  указатели
(смотри ниже).
     Данное может занимать несколько подряд идущих байт.   Размер  в  байтах  участка
памяти,  требуемого для хранения значения типа <i>TYPE</i>, можно узнать при помощи операции
<i>sizeof</i>(TYPE), а размер  переменной  -  при  помощи  <i>sizeof</i>(var).  Всегда  выполняется
<i>sizeof</i>(<i>char</i>)==1.   В  некоторых машинах адреса переменных (а также агрегатов данных -
массивов и структур) кратны <i>sizeof</i>(int)  или  <i>sizeof</i>(double)  -  это  так  называемое
"выравнивание (alignment) данных на границу типа <i>int</i>".  Это позволяет делать доступ к
данным более быстрым (аппаратура работает эффективнее).
     Язык Си предоставляет нам средство для работы  с  адресами  данных  -  указатели
(pointer)<i>|</i>-.  Указатель физически - это адрес некоторой переменной ("указуемой"  пере-
менной).   Отличие  указателей от машинных адресов состоит в том, что указатель может
содержать адреса данных только определенного типа.  Указатель ptr, который может ука-
зывать на данные типа <i>TYPE</i>, описывается так:

    <i>TYPE</i>  var;     /* переменная       */
    <i>TYPE *</i>ptr;     /* объявление ук-ля */
          ptr = <i>&</i> var;

<i>А. Богатырев, 1992-95                  - 82 -                               Си в UNIX</i>

В данном случае мы занесли в указательную переменную ptr адрес переменной var.  Будем
говорить,  что  указатель ptr указывает на переменную var (или, что ptr установлен на
var).  Пусть <i>TYPE</i> равно <i>int</i>, и у нас есть массив и указатели:

    int  array[LENGTH], value;
    int *ptr, *ptr1;

Установим указатель на x-ый элемент массива

    ptr = & array[x];

Указателю можно присвоить значение другого указателя на такой же  тип.  В  результате
оба указателя будут указывать на одно и то же место в памяти: ptr1 = ptr;
     Мы можем изменять указуемую переменную при помощи операции <i>*</i>

    *ptr = 128;   /* занести 128 в указуемую перем. */
    value = *ptr; /* прочесть указуемую переменную  */

В данном случае мы заносим и затем читаем значение переменной  array[x],  на  которую
поставлен указатель, то есть

    *ptr  означает сейчас  array[x]

Таким образом, операция <i>*</i> (значение по адресу)  оказывается  обратной  к  операции  <i>&</i>
(взятие адреса):

    & (*ptr) == ptr    и    * (&value) == value

Операция <i>*</i> объясняет смысл описания <i>TYPE *</i>ptr; оно означает, что  значение  выражения
<i>*</i>ptr  будет иметь тип <i>TYPE</i>. Название же типа самого указателя - это <i>(TYPE *)</i>. В част-
ности, <i>TYPE</i> может сам быть указательным типом - можно объявить  указатель  на  указа-
тель, вроде <i>char</i> **ptrptr;
     Имя массива - это константа, представляющая собой указатель на 0-ой элемент мас-
сива.   Этот указатель отличается от обычных тем, что его нельзя изменить (установить
на другую переменную), поскольку он сам хранится не в переменной, а  является  просто
некоторым постоянным адресом.

        массив           указатель
           ____________       _____
    <i>array</i>: | array[0] |   <i>ptr</i>:| * |
           | array[1] |         |
           | array[2] |&lt;--------- сейчас равен &array[2]
           |  ...     |

Следствием такой интерпретации имен массивов является то, что для того  чтобы  поста-
вить указатель на начало массива, надо писать

    ptr = array;  или  ptr = &array[0];
            но не
    ptr = &array;

Операция <i>&</i> перед одиноким именем массива не нужна и недопустима!
     Такое родство указателей и массивов позволяет нам применять операцию <i>*</i>  к  имени
массива: value = <i>*</i>array; означает то же самое, что и value = array[0];
     <i>Указатели - не целые числа!</i>  Хотя физически это и номера байтов, адресная  ариф-
метика  отличается  от  обычной.  Так,  если  дан  указатель <i>TYPE</i> *ptr; и номер байта
(адрес), на который указывает ptr, равен byteaddr, то

    ptr = ptr + n; /* n - целое, может быть и &lt; 0 */

заставит ptr указывать не на байт номер byteaddr + n, а на байт номер


<i>А. Богатырев, 1992-95                  - 83 -                               Си в UNIX</i>

    byteaddr + (n * <i>sizeof</i>(TYPE))

то есть прибавление единицы к указателю продвигает адрес не на 1 байт,  а  на  размер
указываемого  указателем  типа данных!  Пусть указатель ptr указывает на x-ый элемент
массива array.  Тогда после

    <i>TYPE</i> *ptr2 = array + L;  /* L - целое */
    <i>TYPE</i> *ptr1 = ptr   + N;  /* N - целое */
          ptr += M;          /* M - целое */

указатели указывают на

    ptr1 == &array[x+N]   и   ptr  == &array[x+M]
    ptr2 == &array[L]

Если мы теперь рассмотрим цепочку равенств

    *ptr2 = *(array + L) = *(&array[L]) =
              array[L]

то получим
<i>ОСНОВНОЕ ПРАВИЛО</i>: пусть ptr - указатель или имя массива. Тогда  операции  индексации,
взятия  значения  по  адресу,  взятия адреса и прибавления целого к указателю связаны
соотношениями:

     ptr[x]  тождественно <i>*</i>(ptr+x)
    <i>&</i>ptr[x]  тождественно   ptr+x

(тождества верны в обе стороны), в том числе при x==0 и x &lt; 0. Так что, например,

    ptr[-1] означает  *(ptr-1)
    ptr[0]  означает  *ptr

Указатели можно индексировать подобно массивам.  Рассмотрим пример:

            /* индекс:     0    1    2    3    4   */
    double  numbers[5] = { 0.0, 1.0, 2.0, 3.0, 4.0 };
    double *dptr   = &numbers[2];
    double  number =  dptr[2];  /* равно 4.0 */

    <i>numbers</i>: [0]   [1]   [2]   [3]   [4]
                          |
            [-2]  [-1]   [0]   [1]   [2]
                         <i>dptr</i>

поскольку

    если <i>dptr</i>    = &<i>numbers</i>[x] = <i>numbers</i> + x
    то   <i>dptr</i>[i] = *(<i>dptr</i> + i) =
                 = *(<i>numbers</i> + x + i) = <i>numbers</i>[x + i]

     Указатель на один тип можно преобразовать в указатель на другой тип: такое  пре-
образование  не вызывает генерации каких-либо машинных команд, но заставляет компиля-
тор изменить параметры адресной арифметики, а также операции выборки данного по  ука-
зателю (собственно, разница в указателях на данные разных типов состоит только в раз-
мерах указуемых типов; а также в генерации команд `<i>-></i>' для  выборки  полей  структур,
если указатель - на структурный тип).
     Целые (<i>int</i> или <i>long</i>) числа иногда можно преобразовывать в указатели.  Этим поль-
зуются  при написании драйверов устройств для доступа к регистрам по физическим адре-
сам, например:


<i>А. Богатырев, 1992-95                  - 84 -                               Си в UNIX</i>

    unsigned short *<i>KISA5</i> = (unsigned short *) 0172352;

Здесь возникают два тонких момента:
1.   Как уже было сказано, адреса данных часто выравниваются  на  границу  некоторого
     типа.   Мы  же  можем  задать  невыровненное  целое значение.  Такой адрес будет
     некорректен.
2.   Структура адреса, поддерживаемая процессором, может не  соответствовать  формату
     целых (или длинных целых) чисел. Так обстоит дело с <i>IBM PC 8086/80286</i>, где адрес
     состоит из пары <i>short int</i> чисел, хранящихся в памяти подряд.  Однако весь  адрес
     (если  рассматривать  эти  два числа как одно длинное целое) не является обычным
     <i>long</i>-числом, а вычисляется более сложным способом: адресная пара  SEGMENT:OFFSET
     преобразуется так

    unsigned short SEGMENT, OFFSET; /*16 бит: [0..65535]*/
    unsigned long  ADDRESS = (SEGMENT &lt;&lt; 4) + OFFSET;
      получается 20-и битный физический адрес ADDRESS

     Более того, на машинах с диспетчером памяти, адрес, хранимый в указателе,  явля-
     ется "виртуальным" (т.е. воображаемым, ненастоящим) и может не совпадать с физи-
     ческим адресом, по которому данные хранятся в памяти компьютера.  В памяти может
     одновременно  находиться  несколько программ, в каждой из них будет своя система
     адресации ("адресное пространство"), отсчитывающая виртуальные адреса с нуля  от
     начала  области  памяти, выделенной данной программе. Преобразование виртуальных
     адресов в физические выполняется аппаратно.
В Си принято соглашение, что указатель (TYPE *)<i>0</i> означает "указатель ни на  что".  Он
является  просто  признаком,  используемым для обозначения несуществующего адреса или
конца цепочки указателей, и имеет специальное обозначение <i>NULL</i>.   Обращение  (выборка
или  запись данных) по этому указателю считается некорректным (кроме случая, когда вы
пишете машинно-зависимую программу и работаете с физическими адресами).
     Отметим, что указатель можно направить в неправильное место - на участок памяти,
содержащий  данные  не  того  типа,  который  задан в описании указателя; либо вообще
содержащий неизвестно что:

    int i = 2, *iptr = &i;
    double x = 12.76;
      iptr += 7;  /* куда же он указал ?! */
      iptr = (int *) &x;  i = *iptr;

Само присваивание указателю некорректного значения еще не  является  ошибкой.  Ошибка
возникнет  лишь  при  обращении  к  данным  по этому указателю (такие ошибки довольно
тяжело искать!).

     При передаче имени массива в качестве параметра функции, как аргумент передается
не  копия  САМОГО  МАССИВА  (это заняло бы слишком много места), а копия АДРЕСА 0-ого
элемента этого массива (т.е. указатель на начало массива).

    <i>f</i>(int x   ){ x++;     }
    <i>g</i>(int xa[]){ xa[0]++; }
    int a[2] = { 1, 1 }; /* объявление с инициализацией */
    main(){
     <i>f</i>(a[0]); printf("%d\n",a[0]); /* a[0] осталось равно 1*/
     <i>g</i>(a   ); printf("%d\n",a[0]); /* a[0] стало равно 2   */
    }

В <i>f</i>() в качестве аргумента передается копия элемента a[0] (и изменение этой копии  не
приводит  к  изменению  самого  массива  - аргумент x является локальной переменной в
<i>f</i>()), а в <i>g</i>() таким локалом является АДРЕС массива a -  но  не  сам  массив,  поэтому
xa[0]++  изменяет  сам  массив  a  (зато,  например, xa++ внутри <i>g</i>() изменило бы лишь
локальную указательную переменную xa, но не адрес массива a).
     Заметьте, что поскольку массив передается как указатель на его начало, то размер
массива  в  объявлении  аргумента  можно  не указывать.  Это позволяет одной функцией


<i>А. Богатырев, 1992-95                  - 85 -                               Си в UNIX</i>

обрабатывать массивы разной длины:

    вместо    <i>Fun</i>(int xa[5]) { ... }
    можно     <i>Fun</i>(int xa[] ) { ... }
    или даже  <i>Fun</i>(int *xa  ) { ... }

Если функция должна знать длину массива - передавайте ее как дополнительный аргумент:

     int <i>sum</i>( int a[], int len ){
       int s=0, i;
       for(i=0; i &lt; len; i++) s += a[i];
       return( s );
     }
     ... int arr[10] = { ... };
     ... int sum10 = <i>sum</i>(arr, 10); ...

Количество элементов в массиве <i>TYPE</i> arr[N]; можно вычислить специальным образом, как

    #define LENGTH (<i>sizeof</i>(arr) / <i>sizeof</i>(arr[0]))
            или
    #define LENGTH (<i>sizeof</i>(arr) / <i>sizeof</i>(<i>TYPE</i>))

Оба способа выдадут число, равное N.  Эти конструкции обычно употребляются для вычис-
ления длины массивов, задаваемых в виде

    <i>TYPE</i> arr[] = { ....... };

без явного указания размера.  <i>sizeof</i>(arr)  выдает  размер  всего  массива  в  байтах.
<i>sizeof</i>(arr[0])  выдает размер одного элемента.  И все это не зависит от типа элемента
(просто потому, что все элементы массивов имеют одинаковый размер).

     Строка в Си - это последовательность байт (букв,  символов,  литер,  character),
завершающаяся  в  конце специальным признаком - байтом '<i>\0</i>'. Этот признак добавляется
компилятором автоматически, когда мы задаем строку в  виде  <i>"</i>строка<i>"</i>.   Длина  строки
(т.е.  число литер, предшествующих '\0') нигде явно не хранится. Длина строки ограни-
чена лишь размером массива, в котором сохранена строка, и может изменяться в процессе
работы  программы в пределах от 0 до длины массива-1.  При передаче строки в качестве
аргумента в функцию, функции не требуется знать длину строки, т.к. передается  указа-
тель на начало массива, а наличие ограничителя '\0' позволяет обнаружить конец строки
при ее просмотре.
     С массивами байт можно  использовать  следующую  конструкцию,  задающую  массивы
(строки) одинакового размера:

    char stringA [ITSSIZE];
    char stringB [<i>sizeof</i> stringA];

В данном разделе мы в основном будем рассматривать строки и указатели на символы.

<i>2.1.</i>  Операции взятия адреса объекта и разыменования указателя - взаимно обратны.

    <i>TYPE</i>  objx;
    <i>TYPE</i> *ptrx = &objx;  /* инициализируем адресом objx */

    *(&objx) = objx;
    &(*ptrx) = ptrx;

Вот пример того, как  можно  заменить  условный  оператор  условным  выражением  (это
удастся не всегда):

    if(c) a = 1;
    else  b = 1;


<i>А. Богатырев, 1992-95                  - 86 -                               Си в UNIX</i>

Предупреждение: такой стиль <i>не</i> способствует понятности программы и даже  компактности
ее кода.

    #include &lt;stdio.h>
    int main(int ac, char *av[]){
            int a, b, c;

            a = b = c = 0;
            if(av[1])  c = atoi(av[1]);

            *(c ? &a : &b) = 1;     /* !!! */

            printf("cond=%d a=%d b=%d\n", c, a, b);
            return 0;
    }


<i>2.2.</i>  Каким образом инициализируются по умолчанию внешние и статические массивы? Ини-
циализируются  ли  по умолчанию автоматические массивы?  Каким образом можно присваи-
вать значения элементам массива, относящегося к любому классу памяти?

<i>2.3.</i>  Пусть задан массив int arr[10]; что тогда означают выражения:

      arr[0]        *arr            *arr + 2
      arr[2]        *(arr + 2)       arr
     &arr[2]         arr+2


<i>2.4.</i>  Правильно ли написано увеличение величины, на которую указывает указатель a, на
единицу?

    *a++;

Ответ: нет, надо:

    (*a)++;   или    *a += 1;


<i>2.5.</i>  Дан фрагмент текста:

    char a[] = "xyz";
    char *b  = a + 1;

Чему равны

    b[-1]       b[2]      "abcd"[3]

(Ответ: 'x', '\0', 'd' )
     Можно ли написать a++ ? То же про b++ ?  Можно ли написать b=a ?  a=b  ?   (нет,
да, да, нет)

<i>2.6.</i>  Ниже приведена программа, вычисляющая среднее значение элементов массива

      int arr [] = {1, 7, 4, 45, 31, 20, 57, 11};
      main () {
         int i; long sum;

         for ( i = 0, sum = 0L;
               i &lt; (sizeof(arr)/sizeof(int)); i++ )
                    sum += arr[i];
         printf ("Среднее значение = %ld\n", sum/8)


<i>А. Богатырев, 1992-95                  - 87 -                               Си в UNIX</i>

      }

Перепишите указанную программу с применением указателей.

<i>2.7.</i>  Что напечатается в результате работы программы?

         char arr[] = {'С', 'Л', 'А', 'В', 'А'};
         main () {
            char *pt; int i;

            pt = arr + sizeof(arr) - 1;
            for( i = 0; i &lt; 5; i++, pt--  )
                 printf("%c %c\n", arr[i], *pt);
         }

Почему массив arr[] описан вне функции <i>main</i>()?  Как внести его  в  функцию  <i>main</i>()  ?
Ответ: написать внутри <i>main</i>
  <i>static</i> char arr[]=...

<i>2.8.</i>  Можно ли писать на Си так:

            f( n, m ){
                    int x[n]; int y[n*2];
                    int z[n * m];
                    ...
            }

Ответ: к сожалению нельзя (<i>Си</i> - это не <i>Algol</i>).  При отведении памяти  для  массива  в
качестве  размера должна быть указана константа или выражение, которое может быть еще
во время компиляции вычислено до целочисленной константы, т.е. массивы имеют фиксиро-
ванную длину.

<i>2.9.</i>  Предположим, что у нас есть описание массива

            static int mas[30][100];

a)   выразите адрес mas[22][56] иначе
b)   выразите адрес mas[22][0] двумя способами
c)   выразите адрес mas[0][0] тремя способами

<i>2.10.</i>  Составьте программу инициализации двумерного массива a[10][10],  выборки  эле-
ментов  с a[5][5] до a[9][9] и их распечатки.  Используйте доступ к элементам по ука-
зателю.

<i>2.11.</i>  Составьте функцию вычисления скалярного  произведения  двух  векторов.   Длина
векторов задается в качестве одного из аргументов.

<i>2.12.</i>  Составьте функцию умножения двумерных матриц <i>a</i>[][] * <i>b</i>[][].

<i>2.13.</i>  Составьте функцию умножения трехмерных матриц <i>a</i>[][][] * <i>b</i>[][][].

<i>2.14.</i>  Для тех, кто программировал на языке <i>Pascal</i>: какая допущена ошибка?

            char a[10][20];
            char c;
            int x,y;
              ...
            c = a[x,y];

Ответ: многомерные массивы в Си надо индексировать так:


<i>А. Богатырев, 1992-95                  - 88 -                               Си в UNIX</i>

            c = a[x][y];

В написанном же примере мы имеем в качестве индекса выражение  x,y  (оператор  "запя-
тая") со значением y, т.е.

            c = a[y];

Синтаксической ошибки нет, но смысл совершенно изменился!

<i>2.15.</i>  Двумерные массивы в памяти представляются как одномерные. Например, если

    int a[N][M];

то конструкция a[y][x] превращается при компиляции в одномерную конструкцию, подобную
такой:

    int a[N * M]; /* массив развернут построчно */
    #define <i>a</i>_<i>yx</i>(y, x)   a[(x) + (y) * M]

то есть

    a[y][x] есть *(&a[0][0] + y * M + x)

Следствием этого является то, что компилятор для генерации  индексации  двумерных  (и
более)  массовов  должен  знать M - размер массива по 2-ому измерению (а также 3-ему,
4-ому, и.т.д.).  В частности, при передаче многомерного массива в функцию

    f(arr) int arr[N][M]; { ... }   /* годится    */
    f(arr) int arr[] [M]; { ... }   /* годится    */
    f(arr) int arr[] [];  { ... }   /* не годится */

    f(arr) int (*arr)[M]; { ... }   /* годится    */
    f(arr) int  *arr [M]; { ... }   /* не годится:
                  это уже не двумерный массив,
                  а одномерный массив указателей  */

А также при описании внешних массивов:

    extern int a[N][M];     /* годится */
    extern int a[ ][M];     /* годится */
    extern int a[ ][ ];     /* не годится: компилятор
              не сможет сгенерить операцию индексации */

Вот как, к примеру, должна выглядеть работа  с  двумерным  массивом  arr[ROWS][COLS],
отведенным при помощи <i>malloc</i>();

    void f(int array[][COLS]){
            int x, y;
            for(y=0; y &lt; ROWS; y++)
                for(x=0; x &lt; COLS; x++)
                    array[y][x] = 1;
    }
    void main(){
            int *ptr = (int *) malloc(sizeof(int) * ROWS * COLS);
            f( (int (*) [COLS]) ptr);
    }


<i>2.16.</i>  Как описывать ссылки (указатели) на двумерные массивы?  Рассмотрим такую прог-
рамму:


<i>А. Богатырев, 1992-95                  - 89 -                               Си в UNIX</i>

    #include &lt;stdio.h>
    #define First  3
    #define Second 5

    char arr[First][Second] = {
            "ABC.",
            { 'D', 'E', 'F', '?', '\0' },
            { 'G', 'H', 'Z', '!', '\0' }
    };

    char (*ptr)[Second];

    main(){
            int i;

            ptr = arr;      /* arr и ptr теперь взаимозаменимы */
            for(i=0; i &lt; First; i++)
                    printf("%s\t%s\t%c\n", arr[i], ptr[i], ptr[i][2]);
    }

Указателем здесь является ptr. Отметим, что у  него  задана  размерность  по  второму
измерению:  Second, именно для того, чтобы компилятор мог правильно вычислить двумер-
ные индексы.
     Попробуйте сами объявить

    char (*ptr)[4];
    char (*ptr)[6];
    char **ptr;

и увидеть, к  каким  невеселым  эффектам  это  приведет  (компилятор,  кстати,  будет
ругаться;  но  есть вероятность, что он все же странслирует это для вас.  Но работать
оно будет плачевно).  Попробуйте также использовать ptr[x][y].
     Обратите также внимание на инициализацию строк в нашем примере.   Строка  "ABC."
равносильна объявлению

            { 'A', 'B', 'C', '.', '\0' },


<i>2.17.</i>  Массив s моделирует двумерный  массив  char  s[H][W];  Перепишите  пример  при
помощи     указателей,    избавьтесь    от    операции    умножения.    Прямоугольник
(x0,y0,width,height) лежит целиком внутри (0,0,W,H).

    char s[W*H]; int x,y; int x0,y0,width,height;
    for(x=0; x &lt; W*H; x++) s[x] = '.';
         ...
    for(y=y0; y &lt; y0+height; y++)
      for(x=x0; x &lt; x0+width; x++)
          s[x + W*y] = '*';

Ответ:

    char s[W*H]; int i,j; int x0,y0,width,height;
    char *curs;
         ...
    for(curs = s + x0 + W*y0, i=0;
        i &lt; height; i++, curs += W-width)
      for(j=0; j &lt; width; j++)
            *curs++ = '*';

Такая оптимизация возможна в некоторых функциях из главы "Работа с видеопамятью".


<i>А. Богатырев, 1992-95                  - 90 -