Altre correzioni
[gapil.git] / fileunix.tex
index 6fe154272c41ccbb0b4f4488d75bf8f000e1344c..e99db645c82b063a12aba310d51f619567a085b4 100644 (file)
@@ -2,11 +2,11 @@
 \label{cha:file_unix_interface}
 
 Esamineremo in questo capitolo la prima delle due interfacce di programmazione
-per i file, quella dei \textit{file descriptor}, nativa di unix. Questa è
+per i file, quella dei \textit{file descriptor}, nativa di Unix. Questa è
 l'interfaccia di basso livello provvista direttamente dalle system call, che
 non prevede funzionalità evolute come la bufferizzazione o funzioni di lettura
 o scrittura formattata, e sulla quale è costruita anche l'interfaccia definita
-dallo standard ANSI C che affronteremo in \capref{cha:files_std_interface}.
+dallo standard ANSI C che affronteremo al \capref{cha:files_std_interface}.
 
 
 
@@ -16,7 +16,7 @@ dallo standard ANSI C che affronteremo in \capref{cha:files_std_interface}.
 In questa sezione faremo una breve introduzione sulla architettura su cui è
 basata dell'interfaccia dei \textit{file descriptor}, che, sia pure con
 differenze nella realizzazione pratica, resta sostanzialmente la stessa in
-ogni implementazione di unix.
+tutte le implementazione di un sistema unix-like.
 
 
 \subsection{L'architettura dei \textit{file descriptor}}
@@ -26,15 +26,16 @@ Per poter accedere al contenuto di un file occorre creare un canale di
 comunicazione con il kernel che renda possibile operare su di esso (si ricordi
 quanto visto in \secref{sec:file_vfs_work}). Questo si fa aprendo il file con
 la funzione \func{open} che provvederà a localizzare l'inode del file e
-inizializzare le funzioni che il VFS mette a disposizione (riportate in
-\tabref{tab:file_file_operations}). Una volta terminate le operazioni, il file
-dovrà essere chiuso, e questo chiuderà il canale di comunicazione impedendo
-ogni ulteriore operazione.
+inizializzare i puntatori che rendono disponibili le funzioni che il VFS mette
+a disposizione (riportate in \tabref{tab:file_file_operations}). Una volta
+terminate le operazioni, il file dovrà essere chiuso, e questo chiuderà il
+canale di comunicazione impedendo ogni ulteriore operazione.
 
 All'interno di ogni processo i file aperti sono identificati da un intero non
-negativo, chiamato appunto \textit{file descriptor}, quando un file viene
-aperto la funzione restituisce il file descriptor, e tutte le successive
-operazioni devono passare il \textit{file descriptor} come argomento.
+negativo, chiamato appunto \textit{file descriptor}. Quando un file viene
+aperto la funzione \func{open} restituisce questo numero, tutte le ulteriori
+operazioni saranno compiute specificando questo stesso valore come argomento
+alle varie funzioni dell'interfaccia.
 
 Per capire come funziona il meccanismo occorre spiegare a grandi linee come è
 che il kernel gestisce l'interazione fra processi e file.  Il kernel mantiene
@@ -74,8 +75,8 @@ file, fra cui:
 \end{itemize*}
 
 In \figref{fig:file_proc_file} si è riportato uno schema in cui è illustrata
-questa architettura, in cui si sono evidenziate le interrelazioni fra le varie
-strutture di dati sulla quale essa è basata. 
+questa architettura, ed in cui si sono evidenziate le interrelazioni fra le
+varie strutture di dati sulla quale essa è basata.
 \begin{figure}[htb]
   \centering
   \includegraphics[width=13cm]{img/procfile}
@@ -84,7 +85,7 @@ strutture di dati sulla quale essa 
   \label{fig:file_proc_file}
 \end{figure}
 Ritorneremo su questo schema più volte, dato che esso è fondamentale per
-capire i dettagli del funzionamento delle dell'interfaccia dei \textit{file
+capire i dettagli del funzionamento dell'interfaccia dei \textit{file
   descriptor}.
 
 
@@ -93,25 +94,27 @@ capire i dettagli del funzionamento delle dell'interfaccia dei \textit{file
 
 Come accennato i \textit{file descriptor} non sono altro che un indice nella
 tabella dei file aperti di ciascun processo; per questo motivo essi vengono
-assegnati in successione tutte le volte che si apre un nuovo file (se non se
-ne è chiuso nessuno in precedenza).
+assegnati in successione tutte le volte che si apre un nuovo file (se non ne è
+stato chiuso nessuno in precedenza).
 
 In tutti i sistemi unix-like esiste una convenzione generale per cui ogni
-processo viene lanciato con almeno tre file aperti. Questi, per quanto
-dicevamo prima, avranno come \textit{file descriptor} i valori 0, 1 e 2.
-Benché questa sia soltanto una convenzione, essa è seguita dalla gran parte
-delle applicazioni, e non aderirvi potrebbe portare a gravi problemi di
+processo viene lanciato con almeno tre file aperti. Questi, per quanto appena
+detto, avranno come \textit{file descriptor} i valori 0, 1 e 2.  Benché questa
+sia soltanto una convenzione, essa è seguita dalla gran parte delle
+applicazioni, e non aderirvi potrebbe portare a gravi problemi di
 interoperabilità.
 
 Il primo file è sempre associato a quello che viene chiamato \textit{standard
-  input}, è cioè il file da cui il processo si aspetta di ricevere i dati in
-ingresso (nel caso della shell, è associato alla lettura della tastiera); il
-secondo file è il cosiddetto \textit{standard output}, cioè il file su cui ci
-si aspetta debbano essere inviati i dati in uscita (sempre nel caso della
-shell, è il terminale su cui si sta scrivendo), il terzo è lo \textit{standard
-  error}, su cui viene inviato l'output relativo agli errori.
-Lo standard POSIX.1 provvede tre costanti simboliche, definite nell'header
-\file{unistd.h}, al posto di questi valori numerici: 
+  input}. È cioè il file da cui il processo si aspetta di ricevere i dati in
+ingresso (nel caso della shell, è associato all'ingresso dal terminale, e
+quindi alla lettura della tastiera). Il secondo file è il cosiddetto
+\textit{standard output}, cioè il file su cui ci si aspetta debbano essere
+inviati i dati in uscita (sempre nel caso della shell, è associato all'uscita
+del terminale, e quindi alla scrittura sullo schermo). Il terzo è lo
+\textit{standard error}, su cui viene inviato l'output relativo agli errori,
+ed è anch'esso associato all'uscita del termininale.  Lo standard POSIX.1
+provvede tre costanti simboliche, definite nell'header \file{unistd.h}, al
+posto di questi valori numerici:
 \begin{table}[htb]
   \centering
   \footnotesize
@@ -138,12 +141,12 @@ riferimento ad un programma in cui lo \textit{standard input} 
 un file mentre lo \textit{standard output} e lo \textit{standard error} sono
 entrambi associati ad un altro file (e quindi utilizzano lo stesso inode).
 
-Nelle vecchie versioni di unix (ed anche in Linux fino al kernel 2.0.x) il
+Nelle vecchie versioni di Unix (ed anche in Linux fino al kernel 2.0.x) il
 numero di file aperti era anche soggetto ad un limite massimo dato dalle
 dimensioni del vettore di puntatori con cui era realizzata la tabella dei file
-descriptor dentro \var{file\_struct}; questo limite intrinseco non sussiste
-più, dato che si è passati da un vettore ad una linked list, ma restano i
-limiti imposti dall'amministratore (vedi \secref{sec:sys_limits}).
+descriptor dentro \var{file\_struct}; questo limite intrinseco nei kernel più
+recenti non sussiste più, dato che si è passati da un vettore ad una lista, ma
+restano i limiti imposti dall'amministratore (vedi \secref{sec:sys_limits}).
 
 
 
@@ -151,7 +154,7 @@ limiti imposti dall'amministratore (vedi \secref{sec:sys_limits}).
 \label{sec:file_base_func}
 
 L'interfaccia standard unix per l'input/output sui file è basata su cinque
-funzioni fondamentali \func{open}, \func{read}, \func{write}, \func{lseek} e
+funzioni fondamentali: \func{open}, \func{read}, \func{write}, \func{lseek} e
 \func{close}, usate rispettivamente per aprire, leggere, scrivere, spostarsi e
 chiudere un file. 
 
@@ -165,7 +168,7 @@ system call del kernel.
 \label{sec:file_open}
 
 La funzione \func{open} è la funzione fondamentale per accedere ai file, ed è
-quella che crea l'associazione fra un pathname ed un file descriptor; il suo
+quella che crea l'associazione fra un pathname ed un file descriptor, il suo
 prototipo è:
 \begin{functions}
   \headdecl{sys/types.h}
@@ -259,7 +262,7 @@ sempre il file descriptor con il valore pi
     \macro{O\_APPEND} & il file viene aperto in append mode. Prima di ciascuna
     scrittura la posizione corrente viene sempre settata alla fine del
     file. Può causare corruzione del file con NFS se più di un processo scrive
-    allo stesso tempo\footnotemark.\\
+    allo stesso tempo.\footnotemark\\
     \macro{O\_NONBLOCK} & il file viene aperto in modalità non bloccante per
     le operazioni di I/O: questo significa il fallimento di una \func{read} in
     assenza di dati da leggere e quello di una \func{write} in caso di 
@@ -305,11 +308,10 @@ sempre il file descriptor con il valore pi
 
 Questa caratteristica permette di prevedere qual'è il valore del file
 descriptor che si otterrà al ritorno di \func{open}, e viene talvolta usata da
-alcune applicazioni per sostituire i file corrispondenti ai file standard di
-\secref{sec:file_std_descr}: se ad esempio si chiude lo standard input e si
-apre subito dopo un nuovo file questo diventerà il nuovo standard input (avrà
-cioè il file descriptor 0).
-
+alcune applicazioni per sostituire i file corrispondenti ai file standard
+visti in \secref{sec:file_std_descr}: se ad esempio si chiude lo standard
+input e si apre subito dopo un nuovo file questo diventerà il nuovo standard
+input (avrà cioè il file descriptor 0).
 
 Il nuovo file descriptor non è condiviso con nessun altro processo, (torneremo
 sulla condivisione dei file, in genere accessibile dopo una \func{fork}, in
@@ -317,16 +319,16 @@ sulla condivisione dei file, in genere accessibile dopo una \func{fork}, in
 restare aperto attraverso una \func{exec} (come accennato in
 \secref{sec:proc_exec}) ed l'offset è settato all'inizio del file.
 
-Il parametro \var{mode} specifica i permessi con cui il file viene
+L'argomento \param{mode} specifica i permessi con cui il file viene
 eventualmente creato; i valori possibili sono gli stessi già visti in
 \secref{sec:file_perm_overview} e possono essere specificati come OR binario
-delle costanti descritte in \tabref{tab:file_bit_perm}. Questi permessi
-filtrati dal valore di \file{umask} (vedi \secref{sec:file_umask}) per il
+delle costanti descritte in \tabref{tab:file_bit_perm}. Questi permessi sono
+filtrati dal valore di \var{umask} (vedi \secref{sec:file_umask}) per il
 processo.
 
 La funzione prevede diverse opzioni, che vengono specificate usando vari bit
-del parametro \var{flags}.  Alcuni di questi bit vanno anche a costituire il
-flag di stato del file (o \textit{file status flag}), che è mantenuto nel
+dell'argomento \param{flags}.  Alcuni di questi bit vanno anche a costituire
+il flag di stato del file (o \textit{file status flag}), che è mantenuto nel
 campo \var{f\_flags} della struttura \var{file} (al solito si veda lo schema
 di \curfig).  Essi sono divisi in tre categorie principali:
 \begin{itemize}
@@ -335,11 +337,11 @@ di \curfig).  Essi sono divisi in tre categorie principali:
   lettura/scrittura.  Uno di questi bit deve essere sempre specificato quando
   si apre un file.  Vengono settati alla chiamata da \func{open}, e possono
   essere riletti con una \func{fcntl} (fanno parte del \textit{file status
-    flag}), ma non modificati.
+    flag}), ma non possono essere modificati.
 \item \textsl{i bit delle modalità di apertura}: permettono di specificare
   alcune delle caratteristiche del comportamento di \func{open} quando viene
   eseguita. Hanno effetto solo al momento della chiamata della funzione e non
-  sono memorizzati nè possono essere riletti.
+  sono memorizzati né possono essere riletti.
 \item \textsl{i bit delle modalità di operazione}: permettono di specificare
   alcune caratteristiche del comportamento delle future operazioni sul file
   (come la \func{read} o la \func{write}). Anch'essi fanno parte del
@@ -350,17 +352,17 @@ di \curfig).  Essi sono divisi in tre categorie principali:
 
 In \tabref{tab:file_open_flags} si sono riportate, ordinate e divise fra loro
 secondo le tre modalità appena elencate, le costanti mnemoniche associate a
-ciascuno di questi bit, dette costanti possono essere combinate fra di loro
+ciascuno di questi bit. Dette costanti possono essere combinate fra di loro
 con un OR aritmetico per costruire il valore (in forma di maschera binaria)
-del parametro \var{flags} da passare alla \func{open} per specificarne il
+dell'argomento \param{flags} da passare alla \func{open} per specificarne il
 comportamento. I due flag \macro{O\_NOFOLLOW} e \macro{O\_DIRECTORY} sono
 estensioni specifiche di Linux, e deve essere usata definita la macro
 \macro{\_GNU\_SOURCE} per poterli usare.
 
-Nelle prime versioni di unix i flag specificabili per \func{open} erano solo
-quelli relativi alle modalità di accesso del file.  Per questo motivo per
-creare un nuovo file c'era una system call apposita, \func{creat}, il cui
-prototipo è:
+Nelle prime versioni di Unix i valori di \param{flag} specificabili per
+\func{open} erano solo quelli relativi alle modalità di accesso del file.  Per
+questo motivo per creare un nuovo file c'era una system call apposita,
+\func{creat}, il cui prototipo è:
 \begin{prototype}{fcntl.h}
   {int creat(const char *pathname, mode\_t mode)}
   Crea un nuovo file vuoto, con i permessi specificati da \var{mode}. É del
@@ -378,8 +380,8 @@ descriptor ritorna disponibile; il suo prototipo 
 \begin{prototype}{unistd.h}{int close(int fd)}
   Chiude il descrittore \var{fd}. 
   
-  \bodydesc{La funzione ritorna 0 in caso di successo e -1 n caso di errore.
-    In questo caso \var{errno} è settata ai valori:
+  \bodydesc{La funzione ritorna 0 in caso di successo e -1 in caso di errore,
+    ed in questo caso \var{errno} è settata ai valori:
   \begin{errlist}
     \item[\macro{EBADF}]  \var{fd} non è un descrittore valido.
     \item[\macro{EINTR}] la funzione è stata interrotta da un segnale.
@@ -389,7 +391,7 @@ descriptor ritorna disponibile; il suo prototipo 
 
 La chiusura di un file rilascia ogni blocco (il \textit{file locking} è
 trattato in \secref{sec:file_locking}) che il processo poteva avere acquisito
-su di esso; se \var{fd} è ultimo (di eventuali copie) riferimento ad un file
+su di esso; se \var{fd} è l'ultimo riferimento (di eventuali copie) ad un file
 aperto, tutte le risorse nella file table vengono rilasciate. Infine se il
 file descriptor era l'ultimo riferimento ad un file su disco quest'ultimo
 viene cancellato.
@@ -402,8 +404,8 @@ implementano la tecnica del \textit{write-behind}, per cui una \func{write}
 può avere successo anche se i dati non sono stati scritti, un eventuale errore
 di I/O allora può sfuggire, ma verrà riportato alla chiusura del file: per
 questo motivo non effettuare il controllo può portare ad una perdita di dati
-inavvertita; in Linux questo comportamento è stato osservato con NFS e le
-quote su disco.
+inavvertita.\footnote{in Linux questo comportamento è stato osservato con NFS
+  e le quote su disco.}
 
 In ogni caso una \func{close} andata a buon fine non garantisce che i dati
 siano stati effettivamente scritti su disco, perché il kernel può decidere di
@@ -411,7 +413,8 @@ ottimizzare l'accesso a disco ritardandone la scrittura. L'uso della funzione
 \func{sync} (vedi \secref{sec:file_sync}) effettua esplicitamente il
 \emph{flush} dei dati, ma anche in questo caso resta l'incertezza dovuta al
 comportamento dell'hardware (che a sua volta può introdurre ottimizzazioni
-dell'accesso al disco).
+dell'accesso al disco che ritardano la scrittura dei dati, da cui l'abitudine
+di ripetere tre volte il comando prima di eseguire lo shutdown).
 
 
 \subsection{La funzione \func{lseek}}
@@ -452,7 +455,7 @@ seguenti valori\footnote{per compatibilit
 \item[\macro{SEEK\_SET}] si fa riferimento all'inizio del file: il valore di
   \var{offset} è la nuova posizione.
 \item[\macro{SEEK\_CUR}] si fa riferimento alla posizione corrente del file:
-  \var{offset} che può essere negativo e positivo.
+  \var{offset} può essere negativo e positivo.
 \item[\macro{SEEK\_END}] si fa riferimento alla fine del file: il valore di
   \var{offset} può essere negativo e positivo.
 \end{basedescript}
@@ -465,7 +468,7 @@ kernel (cio
 
 Dato che la funzione ritorna la nuova posizione, usando il valore zero per
 \param{offset} si può riottenere la posizione corrente nel file chiamando la
-funzione con \code{lseek(fd, 0, SEEK\_CUR}. 
+funzione con \code{lseek(fd, 0, SEEK\_CUR)}. 
 
 Si tenga presente inoltre che usare \macro{SEEK\_END} non assicura affatto che
 successiva scrittura avvenga alla fine del file, infatti se questo è stato
@@ -646,7 +649,7 @@ Cerca di scrivere sul file \var{fd}, a partire dalla posizione \var{offset},
   in caso di errore, nel qual caso \var{errno} viene settata secondo i valori
   già visti per \func{write} e \func{lseek}.}
 \end{prototype}
-e per essa valgono le stesse considerazioni fatte per \func{pread}.
+\noindent e per essa valgono le stesse considerazioni fatte per \func{pread}.
 
 
 \section{Caratteristiche avanzate}
@@ -654,8 +657,9 @@ e per essa valgono le stesse considerazioni fatte per \func{pread}.
 
 In questa sezione approfondiremo alcune delle caratteristiche più sottili
 della gestione file in un sistema unix-like, esaminando in dettaglio il
-comportamento delle funzioni base, inoltre tratteremo alcune funzioni che
-permettono di eseguire operazioni avanzate con i file.
+comportamento delle funzioni base, inoltre tratteremo le funzioni che
+permettono di eseguire alcune operazioni avanzate con i file (il grosso
+dell'argomento sarà comunque affrontato in \capref{cha:file_advanced}).
 
 
 \subsection{La condivisione dei files}
@@ -709,13 +713,13 @@ stesso file, in particolare occorre tenere presente che:
   \label{fig:file_acc_child}
 \end{figure}
 
-È comunque possibile che due file descriptor di due processi diversi puntino
-alla stessa voce nella \textit{file table}; questo è ad esempio il caso dei
-file aperti che vengono ereditati dal processo figlio all'esecuzione di una
-\func{fork} (si ricordi quanto detto in \secref{sec:proc_fork}). La situazione
-è illustrata in \figref{fig:file_acc_child}; dato che il processo figlio
-riceve una copia dello spazio di indirizzi del padre, riceverà anche una copia
-di \var{file\_struct} e relativa tabella dei file aperti. 
+Il secondo caso è quello in cui due file descriptor di due processi diversi
+puntino alla stessa voce nella \textit{file table}; questo è ad esempio il
+caso dei file aperti che vengono ereditati dal processo figlio all'esecuzione
+di una \func{fork} (si ricordi quanto detto in \secref{sec:proc_fork}). La
+situazione è illustrata in \figref{fig:file_acc_child}; dato che il processo
+figlio riceve una copia dello spazio di indirizzi del padre, riceverà anche
+una copia di \var{file\_struct} e relativa tabella dei file aperti.
 
 In questo modo padre e figlio avranno gli stessi file descriptor che faranno
 riferimento alla stessa voce nella \textit{file table}, condividendo così la
@@ -724,14 +728,15 @@ posizione corrente sul file. Questo ha le conseguenze descritte a suo tempo in
 corrente nel file varierà per entrambi i processi (in quanto verrà modificato
 \var{f\_pos} che è la stesso per entrambi).
 
-Si noti inoltre che anche i flag di stato del file (quelli settati dal
-parametro \var{flag} di \func{open}) essendo tenuti nella voce della
-\textit{file table} (il campo \var{f\_flag} di \var{file}), vengono in questo
-caso condivisi. Ai file però sono associati anche altri flag (l'unico usato al
-momento è \macro{FD\_CLOEXEC}), detti \textit{file descriptor flags}, tenuti
-invece in \var{file\_struct}; questi sono specifici di ciascun processo, e non
-vengono toccati anche in caso di condivisione della voce della \textit{file
-  table}.
+Si noti inoltre che anche i flag di stato del file (quelli settati
+dall'argomento \param{flag} di \func{open}) essendo tenuti nella voce della
+\textit{file table}\footnote{per la precisione nel campo \var{f\_flags} di
+  \var{file}}, vengono in questo caso condivisi. Ai file però sono associati
+anche altri flag, dei quali l'unico usato al momento è \macro{FD\_CLOEXEC},
+detti \textit{file descriptor flags}. Questi ultimi sono tenuti invece in
+\var{file\_struct}, e perciò sono specifici di ciascun processo e non vengono
+modificati dalle azioni degli altri anche in caso di condivisione della stessa
+voce della \textit{file table}.
 
 
 
@@ -762,11 +767,12 @@ file, e la successiva \func{write} sovrascriver
 
 Il problema è che usare due system call in successione non è una operazione
 atomica; il problema è stato risolto introducendo la modalità
-\macro{O\_APPEND}, in questo caso infatti, come abbiamo visto, è il kernel che
-aggiorna automaticamente la posizione alla fine del file prima di effettuare
-la scrittura, e poi estende il file. Tutto questo avviene all'interno di una
-singola system call (la \func{write}) che non essendo interrompibile da un
-altro processo costituisce una operazione atomica.
+\macro{O\_APPEND}. In questo caso infatti, come abbiamo descritto in
+precedenza, è il kernel che aggiorna automaticamente la posizione alla fine
+del file prima di effettuare la scrittura, e poi estende il file. Tutto questo
+avviene all'interno di una singola system call (la \func{write}) che non
+essendo interrompibile da un altro processo costituisce una operazione
+atomica.
 
 Un altro caso tipico in cui è necessaria l'atomicità è quello in cui si vuole
 creare un file di lock, bloccandosi se il file esiste. In questo caso la
@@ -775,11 +781,11 @@ sequenza logica porterebbe a verificare prima l'esistenza del file con una
 possibilità di una race condition da parte di un altro processo che crea lo
 stesso file fra il controllo e la creazione. 
 
-Per questo motivo sono stati introdotti i due flag \macro{O\_CREAT} e
-\macro{O\_EXCL}, in questo modo l'operazione di controllo dell'esistenza del
-file (con relativa uscita dalla funzione con un errore) e creazione in caso di
-assenza, diventa atomica essendo svolta tutta all'interno di una singola
-\func{open}.
+Per questo motivo sono stati introdotti pe \func{open} i due flag
+\macro{O\_CREAT} e \macro{O\_EXCL}. In questo modo l'operazione di controllo
+dell'esistenza del file (con relativa uscita dalla funzione con un errore) e
+creazione in caso di assenza, diventa atomica essendo svolta tutta all'interno
+di una singola system call.
 
 
 \subsection{La funzioni \func{sync} e \func{fsync}}
@@ -839,7 +845,6 @@ file specificato, ed attendono fino alla conclusione delle operazioni;
 \func{fsync} forza anche la sincronizzazione dei metadata dell'inode (i dati
 di \var{fstat} come i tempi del file). 
 
-
 Si tenga presente che questo non comporta la sincronizzazione della
 directory che contiene il file (e scrittura della relativa voce su
 disco) che deve essere effettuata esplicitamente\footnote{in realtà per
@@ -890,7 +895,7 @@ posizione su uno dei due file descriptor essa sar
   table} a cui entrambi fanno riferimento).
 
 L'unica differenza fra i due file descriptor è che ciascuno avrà il suo
-\textit{file descriptor flag}; nel caso di \func{dup} il flag di \textit{close
+\textit{file descriptor flag}: nel caso di \func{dup} il flag di \textit{close
   on exec} viene sempre cancellato nella copia.  
 
 Una diversa versione della funzione, \func{dup2} viene utilizzata per