крытии файла (а также периодически через
некоторые  промежутки  времени)  эта копия будет записана обратно на диск.  Структура
I-узла в памяти - struct <i>inode</i> - описана в файле &lt;sys/inode.h>, а на диске  -  struct
<i>dinode</i> - в файле &lt;sys/ino.h>.


<i>А. Богатырев, 1992-95                  - 237 -                              Си в UNIX</i>

     старая программа  <i>exec</i>    новая программа
         ruid -->----------------->---> ruid
         uid  -->--------*-------->---> uid (new)
                         |
                    выполняемый файл
                     i_uid (st_uid)

Как видно из этой схемы, реальный идентификатор хозяина процесса наследуется.  Эффек-
тивный  идентификатор  обычно также наследуется, за исключением одного случая: если в
кодах доступа файла (i_mode) выставлен бит <i>S</i>_<i>ISUID</i> (set-uid bit),  то  значение  поля
u_uid в новом процессе станет равно значению i_uid файла с программой:

    /* ... во время <i>exec</i> ... */
    p_suid = u_uid;     /* спасти */
    if( i_mode & <i>S</i>_<i>ISUID</i> ) u_uid = i_uid;
    if( i_mode & <i>S</i>_<i>ISGID</i> ) u_gid = i_gid;

т.е. эффективным владельцем процесса станет владелец файла.  Здесь gid - это  иденти-
фикаторы  группы  владельца  (которые тоже есть и у файла и у процесса, причем у про-
цесса - реальный и эффективный).
     Зачем все это надо? Во-первых затем, что ПРАВА процесса на доступ к  какому-либо
файлу  проверяются  именно  для эффективного владельца процесса.  Т.е. например, если
файл имеет коды доступа

    mode = i_mode & 0777;
                  /* rwx rwx rwx */

и владельца i_uid, то процесс, пытающийся открыть этот файл, будет "проэкзаменован" в
таком порядке:

    if( u_uid == 0 )  /* super user */
         то доступ разрешен;
    else if( u_uid == i_uid )
         проверить коды (mode & 0700);
    else if( u_gid == i_gid )
         проверить коды (mode & 0070);
    else проверить коды (mode & 0007);

Процесс может узнать свои параметры:

    unsigned short uid  = <i>geteuid</i>();  /* u_uid  */
    unsigned short ruid = <i>getuid</i>();   /* u_ruid */
    unsigned short gid  = <i>getegid</i>();  /* u_gid  */
    unsigned short rgid = <i>getuid</i>();   /* u_rgid */

а также установить их:

    <i>setuid</i>(newuid);  <i>setgid</i>(newgid);

Рассмотрим вызов <i>setuid</i>. Он работает так (u_uid -  относится  к  процессу,  издавшему
этот вызов):

    if(      u_uid == 0 /* superuser */ )
             u_uid = u_ruid =    p_suid =  newuid;
    else if( u_ruid == newuid || p_suid == newuid )
             u_uid = newuid;
    else     неудача;

Поле p_suid позволяет  set-uid-ной  программе  восстановить  эффективного  владельца,
который был у нее до <i>exec</i>-а.


<i>А. Богатырев, 1992-95                  - 238 -                              Си в UNIX</i>

     Во-вторых, все это надо для следующего случая: пусть у меня есть некоторый  файл
BASE  с  хранящимися  в нем секретными сведениями. Я являюсь владельцем этого файла и
устанавливаю ему коды доступа 0600 (чтение и запись разрешены  только  мне).  Тем  не
менее,  я  хочу  дать другим пользователям возможность работать с этим файлом, однако
контролируя их деятельность.  Для этого я пишу программу, которая выполняет некоторые
действия  с  файлом  BASE,  при этом проверяя законность этих действий, т.е. позволяя
делать не все что попало, а лишь то, что я в ней предусмотрел, и под жестким  контро-
лем.   Владельцем  файла PROG, в котором хранится эта программа, также являюсь я, и я
задаю этому файлу коды доступа 0711 (rwx--x--x) - всем можно выполнять эту программу.
Все  ли  я  сделал, чтобы позволить другим пользоваться базой BASE через программу (и
только нее) PROG?  Нет!
     Если кто-то другой запустит программу PROG, то  эффективный  идентификатор  про-
цесса  будет  равен  идентификатору этого другого пользователя, и программа не сможет
открыть мой файл BASE.  Чтобы все работало, процесс, выполняющий программу PROG, дол-
жен работать как бы от моего имени. Для этого я должен вызовом <i>chmod</i> либо командой
     <i>chmod</i> u+s PROG
добавить к кодам доступа файла PROG бит <i>S</i>_<i>ISUID</i>.
     После этого, при запуске программы PROG, она будет получать эффективный  иденти-
фикатор,  равный  моему  идентификатору,  и таким образом сможет открыть и работать с
файлом BASE.  Вызов <i>getuid</i> позволяет выяснить, кто вызвал мою  программу  (и  занести
это в протокол, если надо).
     Программы такого типа - не редкость в <i>UNIX</i>, если владельцем программы (файла  ее
содержащего)  является  суперпользователь. В таком случае программа, имеющая бит дос-
тупа <i>S</i>_<i>ISUID</i> работает от имени суперпользователя и может выполнять  некоторые  дейст-
вия, запрещенные обычным пользователям. При этом программа внутри себя делает всячес-
кие проверки и периодически спрашивает пароли, то есть при работе защищает систему от
дураков  и преднамеренных вредителей.  Простейшим примером служит команда <i>ps</i>, которая
считывает таблицу процессов из памяти ядра и распечатывает ее.  Доступ  к  физической
памяти  машины  производится  через файл-псевдоустройство <i>/dev/mem</i>, а к памяти ядра -
<i>/dev/kmem</i>.  Чтение и запись в них позволены только суперпользователю,  поэтому  прог-
раммы "общего пользования", обращающиеся к этим файлам, должны иметь бит set-uid.
     Откуда же изначально берутся значения uid и ruid (а также gid  и  rgid)  у  про-
цесса?  Они берутся из процесса регистрации пользователя в системе: <i>/etc/getty</i>.  Этот
процесс запускается на каждом терминале как процесс, принадлежащий  суперпользователю
(u_uid==0).  Сначала он запрашивает имя и пароль пользователя:

    #include &lt;stdio.h>  /* <i>cc -lc</i>_<i>s</i> */
    #include &lt;pwd.h>
    #include &lt;signal.h>
    struct passwd *p;
    char userName[80], *pass, *crpass;
    extern char *getpass(), *crypt();
      ...
    /* Не прерываться по сигналам с клавиатуры */
    <i>signal</i> (<i>SIGINT</i>, <i>SIG</i>_<i>IGN</i>);
    for(;;){
      /* Запросить имя пользователя: */
      printf("Login: "); <i>gets</i>(userName);
      /* Запросить пароль (без эха): */
      pass = <i>getpass</i>("Password: ");
      /* Проверить имя: */
      if(p = <i>getpwnam</i>(userName)){
         /* есть такой пользователь */
         crpass = (p->pw_passwd[0]) ? /* если есть пароль */
                  <i>crypt</i>(pass, p->pw_passwd) : pass;
         if( !strcmp( crpass, p->pw_passwd))
                  break; /* верный пароль */
      }
      printf("Login incorrect.\a\n");
    }
    <i>signal</i> (<i>SIGINT</i>, <i>SIG</i>_<i>DFL</i>);


<i>А. Богатырев, 1992-95                  - 239 -                              Си в UNIX</i>

Затем он выполняет:

    // ... запись информации о входе пользователя в систему
    // в файлы <i>/etc/utmp</i> (кто работает в системе сейчас)
    // и       <i>/etc/wtmp</i> (список всех входов в систему)
            ...
    <i>setuid</i>( p->pw_uid ); <i>setgid</i>( p->pw_gid );
    <i>chdir</i> ( p->pw_dir ); /* GO HOME! */
    // эти параметры будут унаследованы
    // интерпретатором команд.
            ...
    // настройка некоторых переменных окружения envp:
    // <i>HOME</i>     = p->pw_dir
    // <i>SHELL</i>    = p->pw_shell
    // <i>PATH</i>     = нечто по умолчанию, вроде :/bin:/usr/bin
    // <i>LOGNAME</i> (<i>USER</i>) = p->pw_name
    // <i>TERM</i>     = считывается из файла
    //            <i>/etc/ttytype</i> по имени устройства av[1]
    // Делается это как-то подобно
    //   char *envp[MAXENV], buffer[512]; int envc = 0;
    //   ...
    //   sprintf(buffer, "HOME=%s", p->pw_dir);
    //   envp[envc++] = strdup(buffer);
    //   ...
    //   envp[envc] = NULL;
            ...
    // настройка кодов доступа к терминалу. Имя устройства
    // содержится в параметре av[1] функции <i>main</i>.
    <i>chown</i> (av[1], p->pw_uid, p->pw_gid);
    <i>chmod</i> (av[1], 0600 );  /* -rw------- */
    // теперь доступ к данному терминалу имеют только
    // вошедший в систему пользователь и суперпользователь.
    // В случае смерти интерпретатора команд,
    // которым заменится <i>getty</i>, процесс <i>init</i> сойдет
    // с системного вызова ожидания <i>wait</i>() и выполнит
    //  <i>chown</i> ( этот_терминал, 2 /*bin*/, 15 /*terminal*/ );
    //  <i>chmod</i> ( этот_терминал, 0600 );
    // и, если терминал числится в файле описания линий
    // связи <i>/etc/inittab</i> как активный (метка <i>respawn</i>), то
    // <i>init</i> перезапустит на этом_терминале новый
    // процесс <i>getty</i> при помощи пары вызовов <i>fork</i>() и <i>exec</i>().
            ...
    // запуск интерпретатора команд:
    <i>execle</i>( *p->pw_shell ? p->pw_shell : "/bin/sh",
                      "-", NULL, envp );

В результате он становится процессом пользователя, вошедшего в  систему.  Таковым  же
после <i>exec</i>-а, выполняемого <i>getty</i>, остается и интерпретатор команд p->pw_shell (обычно
<i>/bin/sh</i> или <i>/bin/csh</i>) и все его потомки.
     На самом деле, в описании регистрации пользователя при входе в  систему,  созна-
тельно  было  допущено  упрощение.  Дело в том, что все то, что мы приписали процессу
<i>getty</i>, в действительности выполняется двумя программами: <i>/etc/getty</i> и <i>/bin/login</i>.
     Сначала процесс <i>getty</i> занимается настройкой параметров линии связи (т.е.  терми-
нала) в соответствии с ее описанием в файле <i>/etc/gettydefs</i>.  Затем он запрашивает имя
пользователя и заменяет себя (при помощи сисвызова <i>exec</i>) процессом  <i>login</i>,  передавая
ему в качестве одного из аргументов полученное имя пользователя.
     Затем <i>login</i> запрашивает пароль, настраивает окружение, и.т.п., то есть именно он
производит  все операции, приведенные выше на схеме.  В конце концов он заменяет себя
интерпретатором команд.
     Такое разделение делается, в частности, для того, чтобы считанный пароль в  слу-
чае  опечатки  не  хранился  бы в памяти процесса <i>getty</i>, а уничтожался бы при очистке


<i>А. Богатырев, 1992-95                  - 240 -                              Си в UNIX</i>

памяти завершившегося процесса <i>login</i>. Таким образом пароль в истинном,  незашифрован-
ном  виде  хранится  в  системе  минимальное время, что затрудняет его подсматривание
средствами электронного или программного шпионажа.  Кроме того, это  позволяет  изме-
нять систему проверки паролей не изменяя программу инициализации терминала <i>getty</i>.
     Имя, под которым пользователь вошел в систему на данном терминале, можно  узнать
вызовом стандартной функции
     char *<i>getlogin</i>();
Эта функция не проверяет uid процесса, а просто извлекает запись про данный  терминал
из файла <i>/etc/utmp</i>.
     Наконец отметим, что владелец файла устанавливается  при  создании  этого  файла
(вызовами  <i>creat</i>  или <i>mknod</i>), и полагается равным эффективному идентификатору создаю-
щего процесса.

    di_uid = u_uid;     di_gid = u_gid;


<i>6.8.4.</i>  Напишите программу, узнающую у системы  и  распечатывающую:  номер  процесса,
номер  и  имя своего владельца, номер группы, название и тип терминала на котором она
работает (из переменной окружения <i>TERM</i>).

        6.9.  Блокировка доступа к файлам.
     В базах данных нередко встречается ситуация одновременного доступа к одним и тем
же  данным. Допустим, что в некотором файле хранятся данные, которые могут читаться и
записываться произвольным числом процессов.
-    Допустим, что процесс A изменяет некоторую область файла, в то время как процесс
     B  пытается  прочесть  ту же область.  Итогом такого соревнования может быть то,
     что процесс B прочтет неверные данные.
-    Допустим, что процесс A изменяет некоторую область файла, в то время как процесс
     C  также  изменяет  ту  же  самую  область.  В итоге эта область может содержать
     неверные данные (часть - от процесса A, часть - от C).
     Ясно, что требуется механизм синхронизации  процессов,  позволяющий  не  пускать
другой  процесс (процессы) читать и/или записывать данные в указанной области.  Меха-
низмов синхронизации в <i>UNIX</i> существует множество: от семафоров до блокировок областей
файла. О последних мы и будем тут говорить.
     Прежде всего отметим, что блокировки файла носят в <i>UNIX</i> необязательный характер.
То есть, программа не использующая вызовов синхронизации, будет иметь доступ к данным
без каких либо ограничений. Увы.  Таким образом,  программы,  собирающиеся  корректно
пользоваться  общими  данными,  должны  все  использовать - и при том один и тот же -
механизм синхронизации: заключить между собой "джентльменское соглашение".

<i>6.9.1.</i>  Блокировка устанавливается при помощи вызова

    <i>flock</i>_<i>t</i> lock;

    <i>fcntl</i>(fd, operation, &lock);

Здесь operation может быть одним из трех:
<i>F</i>_<i>SETLK</i>
     Устанавливает или снимает замок, описываемый структурой lock.  Структура flock_t
     имеет такие поля:

         short  l_type;
         short  l_whence;
         off_t  l_start;
         size_t l_len;

         long   l_sysid;
         pid_t  l_pid;

l_type
     тип блокировки:


<i>А. Богатырев, 1992-95                  - 241 -                              Си в UNIX</i>

         <i>F</i>_<i>RDLCK</i> - на чтение;
         <i>F</i>_<i>WRLCK</i> - на запись;
         <i>F</i>_<i>UNLCK</i> - снять все замки.

l_whence, l_start, l_len
     описывают   сегмент   файла,   на   который    ставится    замок:    от    точки
     <i>lseek</i>(fd,l_start,l_whence);  длиной  l_len  байт.   Здесь  l_whence  может быть:
     <i>SEEK</i>_<i>SET</i>, <i>SEEK</i>_<i>CUR</i>, <i>SEEK</i>_<i>END</i>.  l_len равное нулю означает "до конца файла".  Так
     если все три параметра равны 0, то будет заблокирован весь файл.
<i>F</i>_<i>SETLKW</i>
     Устанавливает или снимает замок, описываемый структурой lock.   При  этом,  если
     замок  на  область,  пересекающуюся с указанной уже кем-то установлен, то сперва
     дождаться снятия этого замка.

         Пытаемся   | Нет        Уже есть                   уже есть
         поставить  | чужих      замок                      замок
         замок на   | замков     на READ                    на WRITE
         -----------|---------------------------------------------------------------
         READ       | читать     читать                     ждать;запереть;читать
         WRITE      | записать   ждать;запереть;записать    ждать;запереть;записать
         UNLOCK     | отпереть   отпереть                   отпереть

-    Если кто-то читает сегмент файла, то другие тоже могут его читать свободно,  ибо
     чтение не изменяет файла.
-    Если же кто-то записывает файл - то все  остальные  должны  дождаться  окончания
     записи и разблокировки.
-    Если кто-то читает сегмент, а другой процесс собрался изменить  (записать)  этот
     сегмент, то этот другой процесс обязан дождаться окончания чтения первым.
-    В момент, обозначенный как отпереть - будятся процессы, ждущие разблокировки,  и
     ровно один из них получает доступ (может установить свою блокировку).  Порядок -
     кто из них будет первым - вообще говоря не определен.
<i>F</i>_<i>GETLK</i>
     Запрашиваем возможность установить замок, описанный в lock.
-    Если мы можем установить такой замок (не заперто никем),  то  в  структуре  lock
     поле l_type становится равным <i>F</i>_<i>UNLCK</i> и поле l_whence равным <i>SEEK</i>_<i>SET</i>.
-    Если замок уже кем-то установлен (и вызов <i>F</i>_<i>SETLKW</i> заблокировал бы наш  процесс,
     привел  бы  к  ожиданию), мы получаем информацию о чужом замке в структуру lock.
     При этом в поле l_pid заносится идентификатор процесса, создавшего этот замок, а
     в  поле  l_sysid - идентификатор машины (поскольку блокировка файлов поддержива-
     ется через сетевые файловые системы).
     Замки автоматически снимаются при закрытии дескриптора файла.  Замки <i>не</i> наследу-
ются порожденным процессом при вызове <i>fork</i>.

    #include &lt;stdio.h>
    #include &lt;sys/types.h>
    #include &lt;fcntl.h>
    #include &lt;unistd.h>
    #include &lt;time.h>
    #include &lt;signal.h>

    char DataFile [] = "data.xxx";
    char info     [] = "abcdefghijklmnopqrstuvwxyz";
    #define OFFSET 5
    #define SIZE   12

    #define PAUSE 2

    int trial = 1;
    int fd, pid;
    char buffer[120], myname[20];
    void writeAccess(), readAccess();


<i>А. Богатырев, 1992-95                  - 242 -                              Си в UNIX</i>

    void fcleanup(int nsig){
            unlink(DataFile);
            printf("cleanup:%s\n", myname);
            if(nsig) exit(0);
    }


    int main(){
            int i;

            fd = creat(DataFile, 0644);
            write(fd, info, strlen(info));
            close(fd);

            signal(SIGINT, fcleanup);

            sprintf(myname, <i>fork</i>() ? "B-%06d" : "A-%06d", pid = getpid());

            srand(time(NULL)+pid);
            printf("%s:started\n", myname);

            fd = open(DataFile, O_RDWR|O_EXCL);
            printf("%s:opened %s\n", myname, DataFile);

            for(i=0; i &lt; 30; i++){
                    if(rand()%2)    readAccess();
                    else            writeAccess();
            }

            close(fd);

            printf("%s:finished\n", myname);

            wait(NULL);
            fcleanup(0);
            return 0;
    }


<i>А. Богатырев, 1992-95                  - 243 -                              Си в UNIX</i>

    void writeAccess(){
            flock_t lock;

            printf("Write:%s #%d\n", myname, trial);

            lock.l_type   = F_WRLCK;
            lock.l_whence = SEEK_SET;
            lock.l_start  = (off_t)  OFFSET;
            lock.l_len    = (size_t) SIZE;

            if(fcntl(fd, F_SETLKW, &lock) &lt;0)
                    perror("F_SETLKW");
            printf("\twrite:%s locked\n", myname);

            sprintf(buffer, "%s #%02d", myname, trial);
            printf ("\twrite:%s \"%s\"\n", myname, buffer);

            lseek (fd, (off_t) OFFSET, SEEK_SET);
            write (fd, buffer, SIZE);

            sleep (PAUSE);

            lock.l_type   = F_UNLCK;
            if(fcntl(fd, F_SETLKW, &lock) &lt;0)
                    perror("F_SETLKW");

            printf("\twrite:%s unlocked\n", myname);

            trial++;
    }


    void readAccess(){
            flock_t lock;

            printf("Read:%s #%d\n", myname, trial);

            lock.l_type   = F_RDLCK;
            lock.l_whence = SEEK_SET;
            lock.l_start  = (off_t)  OFFSET;
            lock.l_len    = (size_t) SIZE;

            if(fcntl(fd, F_SETLKW, &lock) &lt;0)
                    perror("F_SETLKW");
            printf("\tread:%s locked\n", myname);

            lseek(fd, (off_t) OFFSET, SEEK_SET);
            read (fd, buffer, SIZE);

            printf("\tcontents:%s \"%*.*s\"\n", myname, SIZE, SIZE, buffer);
            sleep (PAUSE);

            lock.l_type   = F_UNLCK;
            if(fcntl(fd, F_SETLKW, &lock) &lt;0)
                    perror("F_SETLKW");

            printf("\tread:%s unlocked\n", myname);

            trial++;
    }


<i>А. Богатырев, 1992-95                  - 244 -                              Си в UNIX</i>

Исследуя выдачу этой программы, вы можете обнаружить, что READ-области могут перекры-
ваться;  но  что никогда не перекрываются области READ и WRITE ни в какой комбинации.
Если идет чтение процессом A - то запись процессом B дождется разблокировки A (чтение
-  не  будет  дожидаться).   Если идет запись процессом A - то и чтение процессом B и
запись процессом B дождутся разблокировки A.

<i>6.9.2.</i>
<i>UNIX SVR4</i> имеет еще один интерфейс для блокировки файлов: функцию <i>lockf</i>.

    #include &lt;unistd.h>

    int <i>lockf</i>(int fd, int operation, size_t size);

Операция operation:
<i>F</i>_<i>ULOCK</i>
     Разблокировать указанный сегмент файла (это может  снимать  один  или  несколько
     замков).
<i>F</i>_<i>LOCK</i>
<i>F</i>_<i>TLOCK</i>
     Установить замок. При этом,  если  уже  имеется  чужой  замок  на  запрашиваемую
     область, <i>F</i>_<i>LOCK</i> блокирует процесс, <i>F</i>_<i>TLOCK</i> - просто выдает ошибку (функция возв-
     ращает -1, <i>errno</i> устанавливается в <i>EAGAIN</i>).
-    Ожидание отпирания/запирания замка может быть прервано сигналом.
-    Замок устанавливается следующим образом: от текущей  позиции  указателя  чтения-
     записи  в  файле fd (что не похоже на <i>fcntl</i>, где позиция задается явно как пара-
     метр в структуре); длиной size. Отрицательное значение size означает  отсчет  от
     текущей  позиции к началу файла. Нулевое значение - означает "от текущей позиции
     до конца файла".  При этом "конец файла" понимается именно как конец, а  не  как
     текущий  размер  файла.   Если  файл  изменит размер, запертая область все равно
     будет простираться до конца файла (уже нового).
-    Замки, установленные процессом, автоматически  отпираются  при  завершении  про-
     цесса.
<i>F</i>_<i>TEST</i>
     Проверить наличие замка.  Функция возвращает 0, если замка нет; -1  в  противном
     случае (заперто).
Если устанавливается замок, перекрывающийся с уже установленным, то  замки  объединя-
ются.

    было:     ___________#######____######__________

    запрошено:______________##########______________

    стало:    ___________#################__________

Если снимается замок с области,  покрывающей  только  часть  заблокированной  прежде,
остаток области остается как отдельный замок.

    было:     ___________#################__________

    запрошено:______________XXXXXXXXXX______________

    стало:    ___________###__________####__________


        6.10.  Файлы устройств.
     Пространство дисковой памяти может состоять из  нескольких  файловых  систем  (в
дальнейшем  FS),  т.е.  логических  и/или физических дисков.  Каждая файловая система
имеет древовидную логическую структуру (каталоги, подкаталоги и файлы) и  имеет  свой
корневой  каталог.  Файлы  в каждой FS имеют свои собственные I-узлы и собственную их
нумерацию с 1.  В начале каждой FS зарезервированы:


<i>А. Богатырев, 1992-95                  - 245 -                              Си в UNIX</i>

-    блок для загрузчика - программы, вызываемой аппаратно при включении машины (заг-
     рузчик  записывает  с диска в память машины программу <i>/boot</i>, которая в свою оче-
     редь загружает в память ядро <i>/unix</i>);
-    суперблок - блок заголовка файловой системы, хранящий размер файловой системы (в
     блоках),  размер  блока (512, 1024, ...), количество I-узлов, начало списка сво-
     бодных блоков, и другие сведения об FS;
-    некоторая непрерывная область диска для хранения I-узлов  - "I-файл".

Файловые системы объединяются в единую древовидную иерархию операцией монтирования  -
подключения  корня  файловой системы к какому-то из каталогов-"листьев" дерева другой
FS.
     Файлы в объединенной иерархии адресуются при помощи двух способов:
-    имен, задающих путь в дереве каталогов:

          /usr/abs/bin/hackIt
          bin/hackIt
          ./../../bin/vi

     (этот способ предназначен для программ, пользующихся файлами, а также  пользова-
     телей);
-    внутренних адресов, используемых программами ядра и некоторыми системными  прог-
     раммами.

Поскольку в каждой FS имеется собственная нумерация I-узлов, то файл  в  объединенной
иерархии должен адресоваться ДВУМЯ параметрами:
-    номером (кодом) устройства, содержащего файловую систему,  в  которой  находится
     искомый файл: <i>dev</i>_<i>t</i> i_dev;
-    номером I-узла файла в этой файловой системе: <i>ino</i>_<i>t</i> i_number;

Преобразование имени файла в объединенной файловой иерархии в  такую   адресную  пару
выполняет  в  ядре уже упоминавшаяся выше функция <i>namei</i> (при помощи просмотра катало-
гов):

    struct <i>inode</i> *ip = <i>namei</i>(...);

Создаваемая ею копия I-узла в памяти ядра содержит поля i_dev и i_number (которые  на
самом диске не хранятся!).
     Рассмотрим некоторые алгоритмы работы ядра с файлами.  Ниже они приведены  чисто
схематично  и  в  сильном  упрощении.  Форматы вызова (и оформление) функций не соот-
ветствуют форматам, используемым на самом деле в ядре; верны лишь  названия  функций.
Опущены  проверки  на  корректность, подсчет ссылок на структуры <i>file</i> и <i>inode</i>, блоки-
ровка I-узлов и кэш-буферов от одновременного доступа, и многое другое.
     Пусть мы хотим открыть файл для чтения и прочитать из него некоторую информацию.
Вызовы открытия и закрытия файла имеют схему (часть ее будет объяснена позже):

    #include &lt;sys/types.h>
    #include &lt;sys/inode.h>
    #include &lt;sys/file.h>
    int fd_read = <i>open</i>(имяФайла, <i>O</i>_<i>RDONLY</i>){

      int fd; struct <i>inode</i> *ip; struct <i>file</i> *fp; dev_t dev;

      u_error = 0;    /* <i>errno</i> в программе */
    // Найти файл по имени. Создается копия I-узла в памяти:
      ip = <i>namei</i>(имяФайла, <i>LOOKUP</i>);
    // <i>namei</i> может выдать ошибку, если нет такого файла
      if(u_error) return(-1);  // ошибка

    // Выделяется структура "открытый файл":
      fp = <i>falloc</i>(ip, <i>FREAD</i>);
      // fp->f_flag = <i>FREAD</i>; открыт на чтение


<i>А. Богатырев, 1992-95                  - 246 -                              Си в UNIX</i>

      // fp->f_offset = 0;   RWptr
      // fp->f_inode  = ip;  ссылка на I-узел

    // Выделить новый дескриптор
      for(fd=0; fd &lt; <i>NOFILE</i>; fd++)
         if(u_ofile[fd] == NULL ) // свободен
             goto done;
      u_error = <i>EMFILE</i>; return (-1);
    done:
      u_ofile[fd] = fp;

    // Если это устройство - инициализировать его.
    // Это функция <i>openi</i>(ip, fp->f_flag);
      dev = ip->i_rdev;
      if((ip->i_mode & <i>IFMT</i>) == <i>IFCHR</i>)
        (*cdevsw[<i>major</i>(dev)].d_open)(<i>minor</i>(dev),fp->f_flag);
      else if((ip->i_mode & <i>IFMT</i>) == <i>IFBLK</i>)
        (*bdevsw[<i>major</i>(dev)].d_open)(<i>minor</i>(dev),fp->f_flag);
      return fd;  // через u_rval1
    }


    <i>close</i>(fd){
      struct <i>file</i>  *fp = u_ofile[fd];
      struct <i>inode</i> *ip = fp->f_inode;
      dev_t dev = ip->i_rdev;

      if((ip->i_mode & <i>IFMT</i>) == <i>IFCHR</i>)
        (*cdevsw[<i>major</i>(dev)].d_close)(<i>minor</i>(dev),fp->f_flag);
      else if((ip->i_mode & <i>IFMT</i>) == <i>IFBLK</i>)
        (*bdevsw[<i>major</i>(dev)].d_close)(<i>minor</i>(dev),fp->f_flag);

      u_ofile[fd] = NULL;
      // и удалить ненужные структуры из ядра.
    }

Теперь рассмотрим функцию преобразования логических блоков файла в номера  физических
блоков в файловой системе. Для этого преобразования в I-узле файла содержится таблица
адресов блоков. Она устроена довольно сложно - ее начало находится в узле, а  продол-
жение  - в нескольких блоках в самой файловой системе (устройство это можно увидеть в
примере "Фрагментированность файловой системы" в приложении).  Мы для простоты  будем
предполагать,  что  это  просто линейный массив i_addr[], в котором n-ому логическому
блоку файла отвечает bno-тый физический блок файловой системы:

    bno = ip->i_addr[n];

Если файл является интерфейсом устройства, то этот файл не хранит информации в  логи-
ческой  файловой  системе.   Поэтому  у  устройств нет таблицы адресов блоков. Вместо
этого, поле i_addr[0] используется для хранения кода устройства, к которому  приводит
этот специальный файл. Это поле носит название i_rdev, т.е. как бы сделано

    #define i_rdev i_addr[0]

(на самом деле используется union).  Устройства бывают байто-ориентированные, обмен с
которыми  производится  по одному байту (как с терминалом или с коммуникационным пор-
том); и блочно-ориентированные, обмен с которыми возможен только большими порциями  -
блоками  (пример  -  диск).   То,  что файл является устройством, помечено в поле тип
файла

    ip->i_mode & <i>IFMT</i>


<i>А. Богатырев, 1992-95                  - 247 -                              Си в UNIX</i>

одним из значений: <i>IFCHR</i> - байтовое; или <i>IFBLK</i> - блочное.  Алгоритм вычисления номера
блока:

    ushort u_pboff;  // смещение от начала блока
    ushort u_pbsize; // сколько байт надо использовать
    // <i>ushort</i>  - это unsigned short, смотри &lt;sys/types.h>
    // <i>daddr</i>_<i>t</i> - это long (disk address)

    daddr_t <i>bmap</i>(struct inode *ip,
                 off_t offset, unsigned count){
      int sz, rem;

      // вычислить логический номер блока по позиции RWptr.
      // <i>BSIZE</i> - это размер блока файловой системы,
      // эта константа определена в &lt;sys/param.h>
      daddr_t bno = offset / <i>BSIZE</i>;
      // если BSIZE == 1 Кб, то можно offset >> 10

          u_pboff = offset % <i>BSIZE</i>;
          // это можно записать как offset & 01777

          sz = <i>BSIZE</i> - u_pboff;
          // столько байт надо взять из этого блока,
          // начиная с позиции u_pboff.

          if(count &lt; sz) sz = count;
          u_pbsize = sz;

Если файл представляет собой устройство, то трансляция логических блоков в физические
не  производится - устройство представляет собой "сырой" диск без файлов и каталогов,
т.е. обращение происходит сразу по физическому номеру блока:

          if((ip->i_mode & <i>IFMT</i>) == <i>IFBLK</i>) // block device
             return bno;       // raw disk
          // иначе провести пересчет:

          rem = ip->i_size /*длина файла*/ - offset;
          // это остаток файла.
          if( rem &lt; 0 )  rem = 0;
          // файл короче, чем заказано нами:
          if( rem &lt; sz ) sz = rem;
          if((u_pbsize = sz) == 0) return (-1); // EOF

          // и, собственно, замена логич. номера на физич.
          return ip->i_addr[bno];
    }

Теперь рассмотрим алгоритм <i>read</i>. Параметры, начинающиеся с u_..., на самом деле пере-
даются как статические через вспомогательные переменные в <i>u-area</i> процесса.

    <i>read</i>(int fd, char *u_base, unsigned u_count){
        unsigned srccount = u_count;
        struct   <i>file</i>  *fp = u_ofile[fd];
        struct   <i>inode</i> *ip = fp->f_inode;
        struct   <i>buf</i>   *bp;
        daddr_t         bno; // очередной блок файла

        // dev - устройство,
        // интерфейсом которого является файл-устройство,
        // или на котором расположен обычный файл.
        dev_t dev = (ip->i_mode & (<i>IFCHR</i>|<i>IFBLK</i>)) ?


<i>А. Богатырев, 1992-95                  - 248 -                              Си в UNIX</i>

              ip->i_rdev : ip->i_dev;

        switch( ip->i_mode & <i>IFMT</i> ){

        case <i>IFCHR</i>:  // байто-ориентированное устройство
          (*cdevsw[<i>major</i>(dev)].d_read)(<i>minor</i>(dev));
          // прочие параметры передаются через <i>u-area</i>
          break;

        case <i>IFREG</i>:  // обычный файл
        case <i>IFDIR</i>:  // каталог
        case <i>IFBLK</i>:  // блочно-ориентированное устройство
          do{
             bno = <i>bmap</i>(ip, fp->f_offset /*RWptr*/, u_count);
             if(u_pbsize==0 || (long)bno &lt; 0) break; // EOF
             bp  = <i>bread</i>(dev, bno);  // block read

             <i>iomove</i>(bp->b_addr + u_pboff, u_pbsize, <i>B</i>_<i>READ</i>);

Функция <i>iomove</i> копирует данные

    bp->b_addr[ u_pboff..u_pboff+u_pbsize-1 ]

из адресного пространства ядра (из буфера в ядре) в адресное пространство процесса по
адресам

    u_base[ 0..u_pbsize-1 ]

то есть пересылает u_pbsize байт между ядром и процессом (u_base  попадает  в  <i>iomove</i>
через  статическую  переменную).  При записи вызовом <i>write</i>(), <i>iomove</i> с флагом <i>B</i>_<i>WRITE</i>
производит обратное копирование - из памяти процесса в память ядра. Продолжим:

             // продвинуть счетчики и указатели:
             u_count      -= u_pbsize;
             u_base       += u_pbsize;
             fp->f_offset += u_pbsize;  // RWptr
          } while( u_count != 0 );
          break;
        ...
        return( srccount - u_count );
    } // end <i>read</i>

Теперь обсудим некоторые места этого алгоритма.  Сначала  посмотрим,  как  происходит
обращение  к  байтовому устройству.  Вместо адресов блоков мы получаем код устройства
i_rdev.  Коды устройств в <i>UNIX</i> (тип <i>dev</i>_<i>t</i>) представляют собой пару двух чисел,  назы-
ваемых мажор и минор, хранимых в старшем и младшем байтах кода устройства:

    #define <i>major</i>(dev)  ((dev >> 8) & 0x7F)
    #define <i>minor</i>(dev)  ( dev       & 0xFF)

Мажор обозначает тип устройства (диск, терминал, и.т.п.) и приводит к одному из драй-
веров  (если  у  нас  есть  8 терминалов, то их обслуживает один и тот же драйвер); а
минор обозначает номер устройства данного типа (... каждый из терминалов имеет миноры
0..7).  Миноры обычно служат индексами в некоторой таблице структур внутри выбранного
драйвера.  Мажор же служит индексом в переключательной таблице устройств.   При  этом
блочно-ориентированные  устройства  выбираются  в  одной таблице - <i>bdevsw</i>[], а байто-
ориентированные - в другой  -  <i>cdevsw</i>[]  (см.  &lt;sys/conf.h>;  имена  таблиц  означают
block/character  device  switch).   Каждая  строка  таблицы  содержит адреса функций,
выполняющих некоторые предопределенные операции способом,  зависимым  от  устройства.
Сами  эти  функции  реализованы  в  драйверах устройств.  Аргументом для этих функций
обычно служит  минор  устройства,  к  которому  производится  обращение.   Функция  в


<i>А. Богатырев, 1992-95                  - 249 -                              Си в UNIX</i>

драйвере  использует  этот  минор  как  индекс для выбора конкретного экземпляра уст-
ройства данного типа; как индекс в массиве управляющих структур  (содержащих  текущее
состояние,  режимы  работы,  адреса функций прерываний, адреса очередей данных и.т.п.
каждого конкретного устройства) для данного типа устройств. Эти управляющие структуры
различны для разных типов устройств (и их драйверов).
     Каждая строка переключательной таблицы содержит адреса функций, выполняющих опе-
рации  <i>open</i>,  <i>close</i>,  <i>read</i>, <i>write</i>, <i>ioctl</i>, <i>select</i>.  <i>open</i> служит для инициализации уст-
ройства при первом его открытии (++ip->i_count==1) - например, для включения  мотора;
<i>close</i>  -  для  выключения  при последнем закрытии (--ip->i_count==0).  У блочных уст-
ройств поля для <i>read</i> и <i>write</i> объединены в функцию <i>strategy</i>, вызываемую  с  параметром
<i>B</i>_<i>READ</i>  или <i>B</i>_<i>WRITE</i>.  Вызов <i>ioctl</i> предназначен для управления параметрами работы уст-
ройства.  Операция <i>select</i> - для опроса: есть ли поступившие в устройство данные (нап-
ример,  есть ли в clist-е ввода с клавиатуры байты? см. главу "Экранные библиотеки").
Вызов <i>select</i> применим только к некоторым байтоориентированным устройствам  и  сетевым
портам  (<i>socket</i>-ам).   Если  данное  устройство не умеет выполнять такую операцию, то
есть запрос к этой операции должен вернуть в  программу  ошибку  (например,  операция
<i>read</i>  неприменима  к  принтеру), то в переключательной таблице содержится специальное
имя функции <i>nodev</i>; если же операция допустима, но является фиктивной (как  <i>write</i>  для
<i>/dev/null</i>)  -  имя  <i>nulldev</i>.  Обе эти функции-заглушки представляют собой "пустышки":
{}.
     Теперь обратимся к блочно-ориентированным устройствам.  <i>UNIX</i>  использует  внутри
ядра дополнительную буферизацию при обменах с такими  устройствами<i>|</i>-.   Использованная
нами  выше функция bp=<i>bread</i>(dev,bno); производит чтение физического блока номер bno с
устройства dev.  Эта операция обращается к драйверу конкретного устройства и вызывает
чтение  блока  в  некоторую  область  памяти в ядре ОС: в один из кэш-буферов (cache,
"запасать").  Заголовки кэш-буферов (struct <i>buf</i>) организованы в список и  имеют  поля
(см. файл &lt;sys/buf.h>):
b_dev
     код устройства, с которого прочитан блок;
b_blkno
     номер физического блока, хранящегося в буфере в данный момент;
b_flags
     флаги блока (см. ниже);
b_addr
     адрес участка памяти (как правило в самом ядре), в котором собственно и хранится
     содержимое блока.

Буферизация блоков позволяет системе экономить число обращений к диску.  При  обраще-
нии  к  <i>bread</i>()  сначала происходит поиск блока (dev,bno) в таблице кэш-буферов. Если
блок уже был ранее прочитан в кэш, то обращения  к  диску  не  происходит,  поскольку
копия  содержимого  дискового  блока уже есть в памяти ядра.  Если же блока еще нет в
кэш-буферах, то в ядре выделяется чистый буфер, в заголовке ему прописываются  нужные
значения полей b_dev и b_blkno, и блок считывается в буфер с диска вызовом функции

    bp->b_flags |= <i>B</i>_<i>READ</i>;  // род работы: прочитать
    (*bdevsw[<i>major</i>(dev)].d_startegy)(bp);
    // bno и минор - берутся из полей *bp

из драйвера конкретного устройства.
     Когда мы что-то изменяем в файле вызовом <i>write</i>(), то  изменения  на  самом  деле
происходят в кэш-буферах в памяти ядра, а не сразу на диске.  При записи в блок буфер
помечается как измененный:

    b_flags |= <i>B</i>_<i>DELWRI</i>;  // отложенная запись

____________________
   <i>|</i>- Следует отличать эту системную буферизацию от буферизации при помощи  библиотеки
<i>stdio</i>.   Библиотека  создает буфер в самом процессе, тогда как системные вызовы имеют
буфера внутри ядра.


<i>А. Богатырев, 1992-95                  - 250 -                              Си в UNIX</i>

и на диск немедленно не записывается.  Измененные буфера  физически  записываются  на
диск в таких случаях:
-    Был сделан системный вызов <i>sync</i>();
-    Ядру не хватает кэш-буферов (их число ограничено). Тогда самый старый  буфер  (к
     которому  дольше  всего  не  было  обращений) записывается на диск и после этого
     используется для другого блока.
-    Файловая система была отмонтирована вызовом <i>umount</i>;

Понятно, что не измененные блоки обратно на диск из буферов не записываются (т.к.  на
диске  и  так  содержатся  те же самые данные).  Даже если файл уже закрыт <i>close</i>, его
блоки могут быть еще не записаны на диск - запись произойдет лишь  при  вызове  <i>sync</i>.
Это  означает,  что  измененные  блоки записываются на диск "массированно" - по многу
блоков, но не очень часто, что позволяет оптимизировать и саму запись на диск: сорти-
ровкой блоков можно достичь минимизации перемещения магнитных головок над диском.
     Отслеживание самых "старых" буферов  происходит  за  счет  реорганизации  списка
заголовков  кэш-буферов.  В большом упрощении это можно представить так: как только к
блоку происходит обращение, соответствующий заголовок переставляется в начало списка.
В  итоге  самый  "пассивный" блок оказывается в хвосте - он то и переиспользуется при
нужде.
     "Подвисание" файлов в памяти ядра значительно  ускоряет  работу  программ,  т.к.
работа с памятью гораздо быстрее, чем с диском. Если блок надо считать/записать, а он
уже есть в кэше, то реального обращения к диску не происходит.  Зато,  если  случится
сбой питания (или кто-то неаккуратно выключит машину), а некоторые буфера еще не были
сброшены на диск - то часть изменений в файлах будет  потеряна.   Для  принудительной
записи всех измененных кэш-буферов на диск существует сисвызов "синхронизации" содер-
жимого дисков и памяти

    <i>sync</i>();  // synchronize

Вызов <i>sync</i> делается раз в 30  секунд  специальным  служебным  процессом  <i>/etc/update</i>,
запускаемым  при  загрузке  системы.  Для работы с файлами, которые должны гар