\label{cha:file_unix_interface}
Esamineremo in questo capitolo la prima delle due interfacce di programmazione
-per i file, quella dei \textit{file descriptor}, nativa di unix. Questa è
+per i file, quella dei \textit{file descriptor}, nativa di Unix. Questa è
l'interfaccia di basso livello provvista direttamente dalle system call, che
non prevede funzionalità evolute come la bufferizzazione o funzioni di lettura
o scrittura formattata, e sulla quale è costruita anche l'interfaccia definita
-dallo standard ANSI C che affronteremo in \capref{cha:files_std_interface}.
+dallo standard ANSI C che affronteremo al \capref{cha:files_std_interface}.
In questa sezione faremo una breve introduzione sulla architettura su cui è
basata dell'interfaccia dei \textit{file descriptor}, che, sia pure con
differenze nella realizzazione pratica, resta sostanzialmente la stessa in
-ogni implementazione di unix.
+tutte le implementazione di un sistema unix-like.
\subsection{L'architettura dei \textit{file descriptor}}
comunicazione con il kernel che renda possibile operare su di esso (si ricordi
quanto visto in \secref{sec:file_vfs_work}). Questo si fa aprendo il file con
la funzione \func{open} che provvederà a localizzare l'inode del file e
-inizializzare le funzioni che il VFS mette a disposizione (riportate in
-\tabref{tab:file_file_operations}). Una volta terminate le operazioni, il file
-dovrà essere chiuso, e questo chiuderà il canale di comunicazione impedendo
-ogni ulteriore operazione.
+inizializzare i puntatori che rendono disponibili le funzioni che il VFS mette
+a disposizione (riportate in \tabref{tab:file_file_operations}). Una volta
+terminate le operazioni, il file dovrà essere chiuso, e questo chiuderà il
+canale di comunicazione impedendo ogni ulteriore operazione.
All'interno di ogni processo i file aperti sono identificati da un intero non
-negativo, chiamato appunto \textit{file descriptor}, quando un file viene
-aperto la funzione restituisce il file descriptor, e tutte le successive
-operazioni devono passare il \textit{file descriptor} come argomento.
+negativo, chiamato appunto \textit{file descriptor}. Quando un file viene
+aperto la funzione \func{open} restituisce questo numero, tutte le ulteriori
+operazioni saranno compiute specificando questo stesso valore come argomento
+alle varie funzioni dell'interfaccia.
Per capire come funziona il meccanismo occorre spiegare a grandi linee come è
che il kernel gestisce l'interazione fra processi e file. Il kernel mantiene
\end{itemize*}
In \figref{fig:file_proc_file} si è riportato uno schema in cui è illustrata
-questa architettura, in cui si sono evidenziate le interrelazioni fra le varie
-strutture di dati sulla quale essa è basata.
+questa architettura, ed in cui si sono evidenziate le interrelazioni fra le
+varie strutture di dati sulla quale essa è basata.
\begin{figure}[htb]
\centering
\includegraphics[width=13cm]{img/procfile}
\label{fig:file_proc_file}
\end{figure}
Ritorneremo su questo schema più volte, dato che esso è fondamentale per
-capire i dettagli del funzionamento delle dell'interfaccia dei \textit{file
+capire i dettagli del funzionamento dell'interfaccia dei \textit{file
descriptor}.
Come accennato i \textit{file descriptor} non sono altro che un indice nella
tabella dei file aperti di ciascun processo; per questo motivo essi vengono
-assegnati in successione tutte le volte che si apre un nuovo file (se non se
-ne è chiuso nessuno in precedenza).
+assegnati in successione tutte le volte che si apre un nuovo file (se non ne è
+stato chiuso nessuno in precedenza).
In tutti i sistemi unix-like esiste una convenzione generale per cui ogni
-processo viene lanciato con almeno tre file aperti. Questi, per quanto
-dicevamo prima, avranno come \textit{file descriptor} i valori 0, 1 e 2.
-Benché questa sia soltanto una convenzione, essa è seguita dalla gran parte
-delle applicazioni, e non aderirvi potrebbe portare a gravi problemi di
+processo viene lanciato con almeno tre file aperti. Questi, per quanto appena
+detto, avranno come \textit{file descriptor} i valori 0, 1 e 2. Benché questa
+sia soltanto una convenzione, essa è seguita dalla gran parte delle
+applicazioni, e non aderirvi potrebbe portare a gravi problemi di
interoperabilità.
Il primo file è sempre associato a quello che viene chiamato \textit{standard
- input}, è cioè il file da cui il processo si aspetta di ricevere i dati in
-ingresso (nel caso della shell, è associato alla lettura della tastiera); il
-secondo file è il cosiddetto \textit{standard output}, cioè il file su cui ci
-si aspetta debbano essere inviati i dati in uscita (sempre nel caso della
-shell, è il terminale su cui si sta scrivendo), il terzo è lo \textit{standard
- error}, su cui viene inviato l'output relativo agli errori.
-Lo standard POSIX.1 provvede tre costanti simboliche, definite nell'header
-\file{unistd.h}, al posto di questi valori numerici:
+ input}. È cioè il file da cui il processo si aspetta di ricevere i dati in
+ingresso (nel caso della shell, è associato all'ingresso dal terminale, e
+quindi alla lettura della tastiera). Il secondo file è il cosiddetto
+\textit{standard output}, cioè il file su cui ci si aspetta debbano essere
+inviati i dati in uscita (sempre nel caso della shell, è associato all'uscita
+del terminale, e quindi alla scrittura sullo schermo). Il terzo è lo
+\textit{standard error}, su cui viene inviato l'output relativo agli errori,
+ed è anch'esso associato all'uscita del termininale. Lo standard POSIX.1
+provvede tre costanti simboliche, definite nell'header \file{unistd.h}, al
+posto di questi valori numerici:
\begin{table}[htb]
\centering
\footnotesize
un file mentre lo \textit{standard output} e lo \textit{standard error} sono
entrambi associati ad un altro file (e quindi utilizzano lo stesso inode).
-Nelle vecchie versioni di unix (ed anche in Linux fino al kernel 2.0.x) il
+Nelle vecchie versioni di Unix (ed anche in Linux fino al kernel 2.0.x) il
numero di file aperti era anche soggetto ad un limite massimo dato dalle
dimensioni del vettore di puntatori con cui era realizzata la tabella dei file
-descriptor dentro \var{file\_struct}; questo limite intrinseco non sussiste
-più, dato che si è passati da un vettore ad una linked list, ma restano i
-limiti imposti dall'amministratore (vedi \secref{sec:sys_limits}).
+descriptor dentro \var{file\_struct}; questo limite intrinseco nei kernel più
+recenti non sussiste più, dato che si è passati da un vettore ad una lista, ma
+restano i limiti imposti dall'amministratore (vedi \secref{sec:sys_limits}).
\label{sec:file_base_func}
L'interfaccia standard unix per l'input/output sui file è basata su cinque
-funzioni fondamentali \func{open}, \func{read}, \func{write}, \func{lseek} e
+funzioni fondamentali: \func{open}, \func{read}, \func{write}, \func{lseek} e
\func{close}, usate rispettivamente per aprire, leggere, scrivere, spostarsi e
chiudere un file.
\label{sec:file_open}
La funzione \func{open} è la funzione fondamentale per accedere ai file, ed è
-quella che crea l'associazione fra un pathname ed un file descriptor; il suo
+quella che crea l'associazione fra un pathname ed un file descriptor, il suo
prototipo è:
\begin{functions}
\headdecl{sys/types.h}
\macro{O\_APPEND} & il file viene aperto in append mode. Prima di ciascuna
scrittura la posizione corrente viene sempre settata alla fine del
file. Può causare corruzione del file con NFS se più di un processo scrive
- allo stesso tempo\footnotemark.\\
+ allo stesso tempo.\footnotemark\\
\macro{O\_NONBLOCK} & il file viene aperto in modalità non bloccante per
le operazioni di I/O: questo significa il fallimento di una \func{read} in
assenza di dati da leggere e quello di una \func{write} in caso di
Questa caratteristica permette di prevedere qual'è il valore del file
descriptor che si otterrà al ritorno di \func{open}, e viene talvolta usata da
-alcune applicazioni per sostituire i file corrispondenti ai file standard di
-\secref{sec:file_std_descr}: se ad esempio si chiude lo standard input e si
-apre subito dopo un nuovo file questo diventerà il nuovo standard input (avrà
-cioè il file descriptor 0).
-
+alcune applicazioni per sostituire i file corrispondenti ai file standard
+visti in \secref{sec:file_std_descr}: se ad esempio si chiude lo standard
+input e si apre subito dopo un nuovo file questo diventerà il nuovo standard
+input (avrà cioè il file descriptor 0).
Il nuovo file descriptor non è condiviso con nessun altro processo, (torneremo
sulla condivisione dei file, in genere accessibile dopo una \func{fork}, in
restare aperto attraverso una \func{exec} (come accennato in
\secref{sec:proc_exec}) ed l'offset è settato all'inizio del file.
-Il parametro \var{mode} specifica i permessi con cui il file viene
+L'argomento \param{mode} specifica i permessi con cui il file viene
eventualmente creato; i valori possibili sono gli stessi già visti in
\secref{sec:file_perm_overview} e possono essere specificati come OR binario
-delle costanti descritte in \tabref{tab:file_bit_perm}. Questi permessi
-filtrati dal valore di \file{umask} (vedi \secref{sec:file_umask}) per il
+delle costanti descritte in \tabref{tab:file_bit_perm}. Questi permessi sono
+filtrati dal valore di \var{umask} (vedi \secref{sec:file_umask}) per il
processo.
La funzione prevede diverse opzioni, che vengono specificate usando vari bit
-del parametro \var{flags}. Alcuni di questi bit vanno anche a costituire il
-flag di stato del file (o \textit{file status flag}), che è mantenuto nel
+dell'argomento \param{flags}. Alcuni di questi bit vanno anche a costituire
+il flag di stato del file (o \textit{file status flag}), che è mantenuto nel
campo \var{f\_flags} della struttura \var{file} (al solito si veda lo schema
di \curfig). Essi sono divisi in tre categorie principali:
\begin{itemize}
lettura/scrittura. Uno di questi bit deve essere sempre specificato quando
si apre un file. Vengono settati alla chiamata da \func{open}, e possono
essere riletti con una \func{fcntl} (fanno parte del \textit{file status
- flag}), ma non modificati.
+ flag}), ma non possono essere modificati.
\item \textsl{i bit delle modalità di apertura}: permettono di specificare
alcune delle caratteristiche del comportamento di \func{open} quando viene
eseguita. Hanno effetto solo al momento della chiamata della funzione e non
- sono memorizzati nè possono essere riletti.
+ sono memorizzati né possono essere riletti.
\item \textsl{i bit delle modalità di operazione}: permettono di specificare
alcune caratteristiche del comportamento delle future operazioni sul file
(come la \func{read} o la \func{write}). Anch'essi fanno parte del
In \tabref{tab:file_open_flags} si sono riportate, ordinate e divise fra loro
secondo le tre modalità appena elencate, le costanti mnemoniche associate a
-ciascuno di questi bit, dette costanti possono essere combinate fra di loro
+ciascuno di questi bit. Dette costanti possono essere combinate fra di loro
con un OR aritmetico per costruire il valore (in forma di maschera binaria)
-del parametro \var{flags} da passare alla \func{open} per specificarne il
+dell'argomento \param{flags} da passare alla \func{open} per specificarne il
comportamento. I due flag \macro{O\_NOFOLLOW} e \macro{O\_DIRECTORY} sono
estensioni specifiche di Linux, e deve essere usata definita la macro
\macro{\_GNU\_SOURCE} per poterli usare.
-Nelle prime versioni di unix i flag specificabili per \func{open} erano solo
-quelli relativi alle modalità di accesso del file. Per questo motivo per
-creare un nuovo file c'era una system call apposita, \func{creat}, il cui
-prototipo è:
+Nelle prime versioni di Unix i valori di \param{flag} specificabili per
+\func{open} erano solo quelli relativi alle modalità di accesso del file. Per
+questo motivo per creare un nuovo file c'era una system call apposita,
+\func{creat}, il cui prototipo è:
\begin{prototype}{fcntl.h}
{int creat(const char *pathname, mode\_t mode)}
Crea un nuovo file vuoto, con i permessi specificati da \var{mode}. É del
\begin{prototype}{unistd.h}{int close(int fd)}
Chiude il descrittore \var{fd}.
- \bodydesc{La funzione ritorna 0 in caso di successo e -1 n caso di errore.
- In questo caso \var{errno} è settata ai valori:
+ \bodydesc{La funzione ritorna 0 in caso di successo e -1 in caso di errore,
+ ed in questo caso \var{errno} è settata ai valori:
\begin{errlist}
\item[\macro{EBADF}] \var{fd} non è un descrittore valido.
\item[\macro{EINTR}] la funzione è stata interrotta da un segnale.
La chiusura di un file rilascia ogni blocco (il \textit{file locking} è
trattato in \secref{sec:file_locking}) che il processo poteva avere acquisito
-su di esso; se \var{fd} è ultimo (di eventuali copie) riferimento ad un file
+su di esso; se \var{fd} è l'ultimo riferimento (di eventuali copie) ad un file
aperto, tutte le risorse nella file table vengono rilasciate. Infine se il
file descriptor era l'ultimo riferimento ad un file su disco quest'ultimo
viene cancellato.
può avere successo anche se i dati non sono stati scritti, un eventuale errore
di I/O allora può sfuggire, ma verrà riportato alla chiusura del file: per
questo motivo non effettuare il controllo può portare ad una perdita di dati
-inavvertita; in Linux questo comportamento è stato osservato con NFS e le
-quote su disco.
+inavvertita.\footnote{in Linux questo comportamento è stato osservato con NFS
+ e le quote su disco.}
In ogni caso una \func{close} andata a buon fine non garantisce che i dati
siano stati effettivamente scritti su disco, perché il kernel può decidere di
\func{sync} (vedi \secref{sec:file_sync}) effettua esplicitamente il
\emph{flush} dei dati, ma anche in questo caso resta l'incertezza dovuta al
comportamento dell'hardware (che a sua volta può introdurre ottimizzazioni
-dell'accesso al disco).
+dell'accesso al disco che ritardano la scrittura dei dati, da cui l'abitudine
+di ripetere tre volte il comando prima di eseguire lo shutdown).
\subsection{La funzione \func{lseek}}
\item[\macro{SEEK\_SET}] si fa riferimento all'inizio del file: il valore di
\var{offset} è la nuova posizione.
\item[\macro{SEEK\_CUR}] si fa riferimento alla posizione corrente del file:
- \var{offset} che può essere negativo e positivo.
+ \var{offset} può essere negativo e positivo.
\item[\macro{SEEK\_END}] si fa riferimento alla fine del file: il valore di
\var{offset} può essere negativo e positivo.
\end{basedescript}
Dato che la funzione ritorna la nuova posizione, usando il valore zero per
\param{offset} si può riottenere la posizione corrente nel file chiamando la
-funzione con \code{lseek(fd, 0, SEEK\_CUR}.
+funzione con \code{lseek(fd, 0, SEEK\_CUR)}.
Si tenga presente inoltre che usare \macro{SEEK\_END} non assicura affatto che
successiva scrittura avvenga alla fine del file, infatti se questo è stato
in caso di errore, nel qual caso \var{errno} viene settata secondo i valori
già visti per \func{write} e \func{lseek}.}
\end{prototype}
-e per essa valgono le stesse considerazioni fatte per \func{pread}.
+\noindent e per essa valgono le stesse considerazioni fatte per \func{pread}.
\section{Caratteristiche avanzate}
In questa sezione approfondiremo alcune delle caratteristiche più sottili
della gestione file in un sistema unix-like, esaminando in dettaglio il
-comportamento delle funzioni base, inoltre tratteremo alcune funzioni che
-permettono di eseguire operazioni avanzate con i file.
+comportamento delle funzioni base, inoltre tratteremo le funzioni che
+permettono di eseguire alcune operazioni avanzate con i file (il grosso
+dell'argomento sarà comunque affrontato in \capref{cha:file_advanced}).
\subsection{La condivisione dei files}
\label{fig:file_acc_child}
\end{figure}
-È comunque possibile che due file descriptor di due processi diversi puntino
-alla stessa voce nella \textit{file table}; questo è ad esempio il caso dei
-file aperti che vengono ereditati dal processo figlio all'esecuzione di una
-\func{fork} (si ricordi quanto detto in \secref{sec:proc_fork}). La situazione
-è illustrata in \figref{fig:file_acc_child}; dato che il processo figlio
-riceve una copia dello spazio di indirizzi del padre, riceverà anche una copia
-di \var{file\_struct} e relativa tabella dei file aperti.
+Il secondo caso è quello in cui due file descriptor di due processi diversi
+puntino alla stessa voce nella \textit{file table}; questo è ad esempio il
+caso dei file aperti che vengono ereditati dal processo figlio all'esecuzione
+di una \func{fork} (si ricordi quanto detto in \secref{sec:proc_fork}). La
+situazione è illustrata in \figref{fig:file_acc_child}; dato che il processo
+figlio riceve una copia dello spazio di indirizzi del padre, riceverà anche
+una copia di \var{file\_struct} e relativa tabella dei file aperti.
In questo modo padre e figlio avranno gli stessi file descriptor che faranno
riferimento alla stessa voce nella \textit{file table}, condividendo così la
corrente nel file varierà per entrambi i processi (in quanto verrà modificato
\var{f\_pos} che è la stesso per entrambi).
-Si noti inoltre che anche i flag di stato del file (quelli settati dal
-parametro \var{flag} di \func{open}) essendo tenuti nella voce della
-\textit{file table} (il campo \var{f\_flag} di \var{file}), vengono in questo
-caso condivisi. Ai file però sono associati anche altri flag (l'unico usato al
-momento è \macro{FD\_CLOEXEC}), detti \textit{file descriptor flags}, tenuti
-invece in \var{file\_struct}; questi sono specifici di ciascun processo, e non
-vengono toccati anche in caso di condivisione della voce della \textit{file
- table}.
+Si noti inoltre che anche i flag di stato del file (quelli settati
+dall'argomento \param{flag} di \func{open}) essendo tenuti nella voce della
+\textit{file table}\footnote{per la precisione nel campo \var{f\_flags} di
+ \var{file}}, vengono in questo caso condivisi. Ai file però sono associati
+anche altri flag, dei quali l'unico usato al momento è \macro{FD\_CLOEXEC},
+detti \textit{file descriptor flags}. Questi ultimi sono tenuti invece in
+\var{file\_struct}, e perciò sono specifici di ciascun processo e non vengono
+modificati dalle azioni degli altri anche in caso di condivisione della stessa
+voce della \textit{file table}.
Il problema è che usare due system call in successione non è una operazione
atomica; il problema è stato risolto introducendo la modalità
-\macro{O\_APPEND}, in questo caso infatti, come abbiamo visto, è il kernel che
-aggiorna automaticamente la posizione alla fine del file prima di effettuare
-la scrittura, e poi estende il file. Tutto questo avviene all'interno di una
-singola system call (la \func{write}) che non essendo interrompibile da un
-altro processo costituisce una operazione atomica.
+\macro{O\_APPEND}. In questo caso infatti, come abbiamo descritto in
+precedenza, è il kernel che aggiorna automaticamente la posizione alla fine
+del file prima di effettuare la scrittura, e poi estende il file. Tutto questo
+avviene all'interno di una singola system call (la \func{write}) che non
+essendo interrompibile da un altro processo costituisce una operazione
+atomica.
Un altro caso tipico in cui è necessaria l'atomicità è quello in cui si vuole
creare un file di lock, bloccandosi se il file esiste. In questo caso la
possibilità di una race condition da parte di un altro processo che crea lo
stesso file fra il controllo e la creazione.
-Per questo motivo sono stati introdotti i due flag \macro{O\_CREAT} e
-\macro{O\_EXCL}, in questo modo l'operazione di controllo dell'esistenza del
-file (con relativa uscita dalla funzione con un errore) e creazione in caso di
-assenza, diventa atomica essendo svolta tutta all'interno di una singola
-\func{open}.
+Per questo motivo sono stati introdotti pe \func{open} i due flag
+\macro{O\_CREAT} e \macro{O\_EXCL}. In questo modo l'operazione di controllo
+dell'esistenza del file (con relativa uscita dalla funzione con un errore) e
+creazione in caso di assenza, diventa atomica essendo svolta tutta all'interno
+di una singola system call.
\subsection{La funzioni \func{sync} e \func{fsync}}
\func{fsync} forza anche la sincronizzazione dei metadata dell'inode (i dati
di \var{fstat} come i tempi del file).
-
Si tenga presente che questo non comporta la sincronizzazione della
directory che contiene il file (e scrittura della relativa voce su
disco) che deve essere effettuata esplicitamente\footnote{in realtà per
table} a cui entrambi fanno riferimento).
L'unica differenza fra i due file descriptor è che ciascuno avrà il suo
-\textit{file descriptor flag}; nel caso di \func{dup} il flag di \textit{close
+\textit{file descriptor flag}: nel caso di \func{dup} il flag di \textit{close
on exec} viene sempre cancellato nella copia.
Una diversa versione della funzione, \func{dup2} viene utilizzata per