From: Simone Piccardi Date: Sat, 10 Oct 2015 15:02:12 +0000 (+0000) Subject: Altre indicizzazioni e recupero dei pezzi tagliati per sbaglio X-Git-Url: https://gapil.gnulinux.it/gitweb/?a=commitdiff_plain;h=7b43a7843d483c826a6ed13224208c615a23c4d6;p=gapil.git Altre indicizzazioni e recupero dei pezzi tagliati per sbaglio --- diff --git a/fileadv.tex b/fileadv.tex index 600808f..5982d8e 100644 --- a/fileadv.tex +++ b/fileadv.tex @@ -1,5 +1,2845 @@ -capacità \const{CAP\_LEASE}, vedi sez.~\ref{sec:proc_capabilities}) può -acquisire \textit{lease} su qualunque file. +%% fileadv.tex +%% +%% Copyright (C) 2000-2015 Simone Piccardi. Permission is granted to +%% copy, distribute and/or modify this document under the terms of the GNU Free +%% Documentation License, Version 1.1 or any later version published by the +%% Free Software Foundation; with the Invariant Sections being "Un preambolo", +%% with no Front-Cover Texts, and with no Back-Cover Texts. A copy of the +%% license is included in the section entitled "GNU Free Documentation +%% License". +%% +\chapter{La gestione avanzata dei file} +\label{cha:file_advanced} + +In questo capitolo affronteremo le tematiche relative alla gestione avanzata +dei file. Inizieremo con la trattazione delle problematiche del \textit{file + locking} e poi prenderemo in esame le varie funzionalità avanzate che +permettono una gestione più sofisticata dell'I/O su file, a partire da quelle +che consentono di gestire l'accesso contemporaneo a più file esaminando le +varie modalità alternative di gestire l'I/O per concludere con la gestione dei +file mappati in memoria e le altre funzioni avanzate che consentono un +controllo più dettagliato delle modalità di I/O. + + +\section{Il \textit{file locking}} +\label{sec:file_locking} + +\itindbeg{file~locking} + +In sez.~\ref{sec:file_shared_access} abbiamo preso in esame le modalità in cui +un sistema unix-like gestisce l'accesso concorrente ai file da parte di +processi diversi. In quell'occasione si è visto come, con l'eccezione dei file +aperti in \textit{append mode}, quando più processi scrivono +contemporaneamente sullo stesso file non è possibile determinare la sequenza +in cui essi opereranno. + +Questo causa la possibilità di una \textit{race condition}; in generale le +situazioni più comuni sono due: l'interazione fra un processo che scrive e +altri che leggono, in cui questi ultimi possono leggere informazioni scritte +solo in maniera parziale o incompleta; o quella in cui diversi processi +scrivono, mescolando in maniera imprevedibile il loro output sul file. + +In tutti questi casi il \textit{file locking} è la tecnica che permette di +evitare le \textit{race condition}, attraverso una serie di funzioni che +permettono di bloccare l'accesso al file da parte di altri processi, così da +evitare le sovrapposizioni, e garantire la atomicità delle operazioni di +lettura o scrittura. + + +\subsection{L'\textit{advisory locking}} +\label{sec:file_record_locking} + +La prima modalità di \textit{file locking} che è stata implementata nei +sistemi unix-like è quella che viene usualmente chiamata \textit{advisory + locking},\footnote{Stevens in \cite{APUE} fa riferimento a questo argomento + come al \textit{record locking}, dizione utilizzata anche dal manuale delle + \acr{glibc}; nelle pagine di manuale si parla di \textit{discrectionary file + lock} per \func{fcntl} e di \textit{advisory locking} per \func{flock}, + mentre questo nome viene usato da Stevens per riferirsi al \textit{file + locking} POSIX. Dato che la dizione \textit{record locking} è quantomeno + ambigua, in quanto in un sistema Unix non esiste niente che possa fare + riferimento al concetto di \textit{record}, alla fine si è scelto di + mantenere il nome \textit{advisory locking}.} in quanto sono i singoli +processi, e non il sistema, che si incaricano di asserire e verificare se +esistono delle condizioni di blocco per l'accesso ai file. + +Questo significa che le funzioni \func{read} o \func{write} vengono eseguite +comunque e non risentono affatto della presenza di un eventuale \textit{lock}; +pertanto è sempre compito dei vari processi che intendono usare il +\textit{file locking}, controllare esplicitamente lo stato dei file condivisi +prima di accedervi, utilizzando le relative funzioni. + +In generale si distinguono due tipologie di \textit{file lock};\footnote{di + seguito ci riferiremo sempre ai blocchi di accesso ai file con la + nomenclatura inglese di \textit{file lock}, o più brevemente con + \textit{lock}, per evitare confusioni linguistiche con il blocco di un + processo (cioè la condizione in cui il processo viene posto in stato di + \textit{sleep}).} la prima è il cosiddetto \textit{shared lock}, detto anche +\textit{read lock} in quanto serve a bloccare l'accesso in scrittura su un +file affinché il suo contenuto non venga modificato mentre lo si legge. Si +parla appunto di \textsl{blocco condiviso} in quanto più processi possono +richiedere contemporaneamente uno \textit{shared lock} su un file per +proteggere il loro accesso in lettura. + +La seconda tipologia è il cosiddetto \textit{exclusive lock}, detto anche +\textit{write lock} in quanto serve a bloccare l'accesso su un file (sia in +lettura che in scrittura) da parte di altri processi mentre lo si sta +scrivendo. Si parla di \textsl{blocco esclusivo} appunto perché un solo +processo alla volta può richiedere un \textit{exclusive lock} su un file per +proteggere il suo accesso in scrittura. + +In Linux sono disponibili due interfacce per utilizzare l'\textit{advisory + locking}, la prima è quella derivata da BSD, che è basata sulla funzione +\func{flock}, la seconda è quella recepita dallo standard POSIX.1 (che è +derivata dall'interfaccia usata in System V), che è basata sulla funzione +\func{fcntl}. I \textit{file lock} sono implementati in maniera completamente +indipendente nelle due interfacce (in realtà con Linux questo avviene solo +dalla serie 2.0 dei kernel) che pertanto possono coesistere senza +interferenze. + +Entrambe le interfacce prevedono la stessa procedura di funzionamento: si +inizia sempre con il richiedere l'opportuno \textit{file lock} (un +\textit{exclusive lock} per una scrittura, uno \textit{shared lock} per una +lettura) prima di eseguire l'accesso ad un file. Se il blocco viene acquisito +il processo prosegue l'esecuzione, altrimenti (a meno di non aver richiesto un +comportamento non bloccante) viene posto in stato di \textit{sleep}. Una volta +finite le operazioni sul file si deve provvedere a rimuovere il blocco. + +La situazione delle varie possibilità che si possono verificare è riassunta in +tab.~\ref{tab:file_file_lock}, dove si sono riportati, a seconda delle varie +tipologie di blocco già presenti su un file, il risultato che si avrebbe in +corrispondenza di una ulteriore richiesta da parte di un processo di un blocco +nelle due tipologie di \textit{file lock} menzionate, con un successo o meno +della richiesta. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|c|c|c|} + \hline + \textbf{Richiesta} & \multicolumn{3}{|c|}{\textbf{Stato del file}}\\ + \cline{2-4} + &Nessun \textit{lock}&\textit{Read lock}&\textit{Write lock}\\ + \hline + \hline + \textit{Read lock} & esecuzione & esecuzione & blocco \\ + \textit{Write lock}& esecuzione & blocco & blocco \\ + \hline + \end{tabular} + \caption{Tipologie di \textit{file locking}.} + \label{tab:file_file_lock} +\end{table} + +Si tenga presente infine che il controllo di accesso e la gestione dei +permessi viene effettuata quando si apre un file, l'unico controllo residuo +che si può avere riguardo il \textit{file locking} è che il tipo di blocco che +si vuole ottenere su un file deve essere compatibile con le modalità di +apertura dello stesso (in lettura per un \textit{read lock} e in scrittura per +un \textit{write lock}). + +%% Si ricordi che +%% la condizione per acquisire uno \textit{shared lock} è che il file non abbia +%% già un \textit{exclusive lock} attivo, mentre per acquisire un +%% \textit{exclusive lock} non deve essere presente nessun tipo di blocco. + + +\subsection{La funzione \func{flock}} +\label{sec:file_flock} + +La prima interfaccia per il \textit{file locking}, quella derivata da BSD, +permette di eseguire un blocco solo su un intero file; la funzione di sistema +usata per richiedere e rimuovere un \textit{file lock} è \funcd{flock}, ed il +suo prototipo è: + +\begin{funcproto}{ +\fhead{sys/file.h} +\fdecl{int flock(int fd, int operation)} +\fdesc{Applica o rimuove un \textit{file lock}.} +} + +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale + nell'attesa dell'acquisizione di un \textit{file lock}. + \item[\errcode{EINVAL}] si è specificato un valore non valido + per \param{operation}. + \item[\errcode{ENOLCK}] il kernel non ha memoria sufficiente per gestire il + \textit{file lock}. + \item[\errcode{EWOULDBLOCK}] il file ha già un blocco attivo, e si è + specificato \const{LOCK\_NB}. + \end{errlist} + ed inoltre \errval{EBADF} nel suo significato generico. +} +\end{funcproto} + +La funzione può essere usata per acquisire o rilasciare un \textit{file lock} +a seconda di quanto specificato tramite il valore dell'argomento +\param{operation}; questo viene interpretato come maschera binaria, e deve +essere passato costruendo il valore con un OR aritmetico delle costanti +riportate in tab.~\ref{tab:file_flock_operation}. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|p{6cm}|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{LOCK\_SH} & Richiede uno \textit{shared lock} sul file.\\ + \const{LOCK\_EX} & Richiede un \textit{esclusive lock} sul file.\\ + \const{LOCK\_UN} & Rilascia il \textit{file lock}.\\ + \const{LOCK\_NB} & Impedisce che la funzione si blocchi nella + richiesta di un \textit{file lock}.\\ + \hline + \end{tabular} + \caption{Valori dell'argomento \param{operation} di \func{flock}.} + \label{tab:file_flock_operation} +\end{table} + +I primi due valori, \const{LOCK\_SH} e \const{LOCK\_EX} permettono di +richiedere un \textit{file lock} rispettivamente condiviso o esclusivo, ed +ovviamente non possono essere usati insieme. Se con essi si specifica anche +\const{LOCK\_NB} la funzione non si bloccherà qualora il \textit{file lock} +non possa essere acquisito, ma ritornerà subito con un errore di +\errcode{EWOULDBLOCK}. Per rilasciare un \textit{file lock} si dovrà invece +usare direttamente \const{LOCK\_UN}. + +Si tenga presente che non esiste una modalità per eseguire atomicamente un +cambiamento del tipo di blocco (da \textit{shared lock} a \textit{esclusive + lock}), il blocco deve essere prima rilasciato e poi richiesto, ed è sempre +possibile che nel frattempo abbia successo un'altra richiesta pendente, +facendo fallire la riacquisizione. + +Si tenga presente infine che \func{flock} non è supportata per i file +mantenuti su NFS, in questo caso, se si ha la necessità di utilizzare il +\textit{file locking}, occorre usare l'interfaccia del \textit{file locking} +POSIX basata su \func{fcntl} che è in grado di funzionare anche attraverso +NFS, a condizione ovviamente che sia il client che il server supportino questa +funzionalità. + +La semantica del \textit{file locking} di BSD inoltre è diversa da quella del +\textit{file locking} POSIX, in particolare per quanto riguarda il +comportamento dei \textit{file lock} nei confronti delle due funzioni +\func{dup} e \func{fork}. Per capire queste differenze occorre descrivere con +maggiore dettaglio come viene realizzato dal kernel il \textit{file locking} +per entrambe le interfacce. + +In fig.~\ref{fig:file_flock_struct} si è riportato uno schema essenziale +dell'implementazione del \textit{file locking} in stile BSD su Linux. Il punto +fondamentale da capire è che un \textit{file lock}, qualunque sia +l'interfaccia che si usa, anche se richiesto attraverso un file descriptor, +agisce sempre su di un file; perciò le informazioni relative agli eventuali +\textit{file lock} sono mantenute dal kernel a livello di \textit{inode}, dato +che questo è l'unico riferimento in comune che possono avere due processi +diversi che aprono lo stesso file. + +In particolare, come accennato in fig.~\ref{fig:file_flock_struct}, i +\textit{file lock} sono mantenuti in una \textit{linked list} di strutture +\kstruct{file\_lock}. La lista è referenziata dall'indirizzo di partenza +mantenuto dal campo \var{i\_flock} della struttura \kstruct{inode} (per le +definizioni esatte si faccia riferimento al file \file{include/linux/fs.h} nei +sorgenti del kernel). Un bit del campo \var{fl\_flags} di specifica se si +tratta di un lock in semantica BSD (\const{FL\_FLOCK}) o POSIX +(\const{FL\_POSIX}) o un \textit{file lease} (\const{FL\_LEASE}, vedi +sez.~\ref{sec:file_asyncronous_lease}). + +\begin{figure}[!htb] + \centering + \includegraphics[width=12cm]{img/file_flock} + \caption{Schema dell'architettura del \textit{file locking}, nel caso + particolare del suo utilizzo da parte dalla funzione \func{flock}.} + \label{fig:file_flock_struct} +\end{figure} + +La richiesta di un \textit{file lock} prevede una scansione della lista per +determinare se l'acquisizione è possibile, ed in caso positivo l'aggiunta di +un nuovo elemento (cioè l'aggiunta di una nuova struttura +\kstruct{file\_lock}). Nel caso dei blocchi creati con \func{flock} la +semantica della funzione prevede che sia \func{dup} che \func{fork} non creino +ulteriori istanze di un \textit{file lock} quanto piuttosto degli ulteriori +riferimenti allo stesso. Questo viene realizzato dal kernel secondo lo schema +di fig.~\ref{fig:file_flock_struct}, associando ad ogni nuovo \textit{file + lock} un puntatore alla voce nella \textit{file table} da cui si è richiesto +il blocco, che così ne identifica il titolare. Il puntatore è mantenuto nel +campo \var{fl\_file} di \kstruct{file\_lock}, e viene utilizzato solo per i +\textit{file lock} creati con la semantica BSD. + +Questa struttura prevede che, quando si richiede la rimozione di un +\textit{file lock}, il kernel acconsenta solo se la richiesta proviene da un +file descriptor che fa riferimento ad una voce nella \textit{file table} +corrispondente a quella registrata nel blocco. Allora se ricordiamo quanto +visto in sez.~\ref{sec:file_dup} e sez.~\ref{sec:file_shared_access}, e cioè +che i file descriptor duplicati e quelli ereditati in un processo figlio +puntano sempre alla stessa voce nella \textit{file table}, si può capire +immediatamente quali sono le conseguenze nei confronti delle funzioni +\func{dup} e \func{fork}. + +Sarà così possibile rimuovere un \textit{file lock} attraverso uno qualunque +dei file descriptor che fanno riferimento alla stessa voce nella \textit{file + table}, anche se questo è diverso da quello con cui lo si è +creato,\footnote{attenzione, questo non vale se il file descriptor fa + riferimento allo stesso file, ma attraverso una voce diversa della + \textit{file table}, come accade tutte le volte che si apre più volte lo + stesso file.} o se si esegue la rimozione in un processo figlio. Inoltre una +volta tolto un \textit{file lock} su un file, la rimozione avrà effetto su +tutti i file descriptor che condividono la stessa voce nella \textit{file + table}, e quindi, nel caso di file descriptor ereditati attraverso una +\func{fork}, anche per processi diversi. + +Infine, per evitare che la terminazione imprevista di un processo lasci attivi +dei \textit{file lock}, quando un file viene chiuso il kernel provvede anche a +rimuovere tutti i blocchi ad esso associati. Anche in questo caso occorre +tenere presente cosa succede quando si hanno file descriptor duplicati; in tal +caso infatti il file non verrà effettivamente chiuso (ed il blocco rimosso) +fintanto che non viene rilasciata la relativa voce nella \textit{file table}; +e questo avverrà solo quando tutti i file descriptor che fanno riferimento +alla stessa voce sono stati chiusi. Quindi, nel caso ci siano duplicati o +processi figli che mantengono ancora aperto un file descriptor, il +\textit{file lock} non viene rilasciato. + + +\subsection{Il \textit{file locking} POSIX} +\label{sec:file_posix_lock} + +La seconda interfaccia per l'\textit{advisory locking} disponibile in Linux è +quella standardizzata da POSIX, basata sulla funzione di sistema +\func{fcntl}. Abbiamo già trattato questa funzione nelle sue molteplici +possibilità di utilizzo in sez.~\ref{sec:file_fcntl_ioctl}. Quando la si +impiega per il \textit{file locking} essa viene usata solo secondo il seguente +prototipo: + +\begin{funcproto}{ +\fhead{fcntl.h} +\fdecl{int fcntl(int fd, int cmd, struct flock *lock)} +\fdesc{Applica o rimuove un \textit{file lock}.} +} + +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EACCES}] l'operazione è proibita per la presenza di + \textit{file lock} da parte di altri processi. + \item[\errcode{EDEADLK}] si è richiesto un \textit{lock} su una regione + bloccata da un altro processo che è a sua volta in attesa dello sblocco + di un \textit{lock} mantenuto dal processo corrente; si avrebbe pertanto + un \textit{deadlock}. Non è garantito che il sistema riconosca sempre + questa situazione. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale prima + di poter acquisire un \textit{file lock}. + \item[\errcode{ENOLCK}] il sistema non ha le risorse per il blocco: ci + sono troppi segmenti di \textit{lock} aperti, si è esaurita la tabella + dei \textit{file lock}, o il protocollo per il blocco remoto è fallito. + \end{errlist} + ed inoltre \errval{EBADF}, \errval{EFAULT} nel loro significato generico.} +\end{funcproto} + +Al contrario di quanto avviene con l'interfaccia basata su \func{flock} con +\func{fcntl} è possibile bloccare anche delle singole sezioni di un file, fino +al singolo byte. Inoltre la funzione permette di ottenere alcune informazioni +relative agli eventuali blocchi preesistenti. Per poter fare tutto questo la +funzione utilizza come terzo argomento una apposita struttura \struct{flock} +(la cui definizione è riportata in fig.~\ref{fig:struct_flock}) nella quale +inserire tutti i dati relativi ad un determinato blocco. Si tenga presente poi +che un \textit{file lock} fa sempre riferimento ad una regione, per cui si +potrà avere un conflitto anche se c'è soltanto una sovrapposizione parziale +con un'altra regione bloccata. + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{0.90\textwidth} + \includestruct{listati/flock.h} + \end{minipage} + \normalsize + \caption{La struttura \structd{flock}, usata da \func{fcntl} per il + \textit{file locking}.} + \label{fig:struct_flock} +\end{figure} + +I primi tre campi della struttura, \var{l\_whence}, \var{l\_start} e +\var{l\_len}, servono a specificare la sezione del file a cui fa riferimento +il blocco: \var{l\_start} specifica il byte di partenza, \var{l\_len} la +lunghezza della sezione e infine \var{l\_whence} imposta il riferimento da cui +contare \var{l\_start}. Il valore di \var{l\_whence} segue la stessa semantica +dell'omonimo argomento di \func{lseek}, coi tre possibili valori +\const{SEEK\_SET}, \const{SEEK\_CUR} e \const{SEEK\_END}, (si vedano le +relative descrizioni in tab.~\ref{tab:lseek_whence_values}). + +Si tenga presente che un \textit{file lock} può essere richiesto anche per una +regione al di là della corrente fine del file, così che una eventuale +estensione dello stesso resti coperta dal blocco. Inoltre se si specifica un +valore nullo per \var{l\_len} il blocco si considera esteso fino alla +dimensione massima del file; in questo modo è possibile bloccare una qualunque +regione a partire da un certo punto fino alla fine del file, coprendo +automaticamente quanto eventualmente aggiunto in coda allo stesso. + +Lo standard POSIX non richiede che \var{l\_len} sia positivo, ed a partire dal +kernel 2.4.21 è possibile anche indicare valori di \var{l\_len} negativi, in +tal caso l'intervallo coperto va da \var{l\_start}$+$\var{l\_len} a +\var{l\_start}$-1$, mentre per un valore positivo l'intervallo va da +\var{l\_start} a \var{l\_start}$+$\var{l\_len}$-1$. Si può però usare un +valore negativo soltanto se l'inizio della regione indicata non cade prima +dell'inizio del file, mentre come accennato con un valore positivo si +può anche indicare una regione che eccede la dimensione corrente del file. + +Il tipo di \textit{file lock} richiesto viene specificato dal campo +\var{l\_type}, esso può assumere i tre valori definiti dalle costanti +riportate in tab.~\ref{tab:file_flock_type}, che permettono di richiedere +rispettivamente uno \textit{shared lock}, un \textit{esclusive lock}, e la +rimozione di un blocco precedentemente acquisito. Infine il campo \var{l\_pid} +viene usato solo in caso di lettura, quando si chiama \func{fcntl} con +\const{F\_GETLK}, e riporta il \ids{PID} del processo che detiene il +\textit{file lock}. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|l|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{F\_RDLCK} & Richiede un blocco condiviso (\textit{read lock}).\\ + \const{F\_WRLCK} & Richiede un blocco esclusivo (\textit{write lock}).\\ + \const{F\_UNLCK} & Richiede l'eliminazione di un \textit{file lock}.\\ + \hline + \end{tabular} + \caption{Valori possibili per il campo \var{l\_type} di \struct{flock}.} + \label{tab:file_flock_type} +\end{table} + +Oltre a quanto richiesto tramite i campi di \struct{flock}, l'operazione +effettivamente svolta dalla funzione è stabilita dal valore dall'argomento +\param{cmd} che, come già riportato in sez.~\ref{sec:file_fcntl_ioctl}, +specifica l'azione da compiere; i valori utilizzabili relativi al \textit{file + locking} sono tre: +\begin{basedescript}{\desclabelwidth{2.0cm}} +\item[\const{F\_GETLK}] verifica se il \textit{file lock} specificato dalla + struttura puntata da \param{lock} può essere acquisito: in caso negativo + sovrascrive la struttura \param{flock} con i valori relativi al blocco già + esistente che ne blocca l'acquisizione, altrimenti si limita a impostarne il + campo \var{l\_type} con il valore \const{F\_UNLCK}. +\item[\const{F\_SETLK}] se il campo \var{l\_type} della struttura puntata da + \param{lock} è \const{F\_RDLCK} o \const{F\_WRLCK} richiede il + corrispondente \textit{file lock}, se è \const{F\_UNLCK} lo rilascia; nel + caso la richiesta non possa essere soddisfatta a causa di un blocco + preesistente la funzione ritorna immediatamente con un errore di + \errcode{EACCES} o di \errcode{EAGAIN}. +\item[\const{F\_SETLKW}] è identica a \const{F\_SETLK}, ma se la richiesta di + non può essere soddisfatta per la presenza di un altro blocco, mette il + processo in stato di attesa fintanto che il blocco precedente non viene + rilasciato; se l'attesa viene interrotta da un segnale la funzione ritorna + con un errore di \errcode{EINTR}. +\end{basedescript} + +Si noti che per quanto detto il comando \const{F\_GETLK} non serve a rilevare +una presenza generica di blocco su un file, perché se ne esistono altri +compatibili con quello richiesto, la funzione ritorna comunque impostando +\var{l\_type} a \const{F\_UNLCK}. Inoltre a seconda del valore di +\var{l\_type} si potrà controllare o l'esistenza di un qualunque tipo di +blocco (se è \const{F\_WRLCK}) o di \textit{write lock} (se è +\const{F\_RDLCK}). Si consideri poi che può esserci più di un blocco che +impedisce l'acquisizione di quello richiesto (basta che le regioni si +sovrappongano), ma la funzione ne riporterà sempre soltanto uno, impostando +\var{l\_whence} a \const{SEEK\_SET} ed i valori \var{l\_start} e \var{l\_len} +per indicare quale è la regione bloccata. + +Infine si tenga presente che effettuare un controllo con il comando +\const{F\_GETLK} e poi tentare l'acquisizione con \const{F\_SETLK} non è una +operazione atomica (un altro processo potrebbe acquisire un blocco fra le due +chiamate) per cui si deve sempre verificare il codice di ritorno di +\func{fcntl}\footnote{controllare il codice di ritorno delle funzioni invocate + è comunque una buona norma di programmazione, che permette di evitare un + sacco di errori difficili da tracciare proprio perché non vengono rilevati.} +quando la si invoca con \const{F\_SETLK}, per controllare che il blocco sia +stato effettivamente acquisito. + +\begin{figure}[!htb] + \centering \includegraphics[width=9cm]{img/file_lock_dead} + \caption{Schema di una situazione di \textit{deadlock}.} + \label{fig:file_flock_dead} +\end{figure} + +Non operando a livello di interi file, il \textit{file locking} POSIX +introduce un'ulteriore complicazione; consideriamo la situazione illustrata in +fig.~\ref{fig:file_flock_dead}, in cui il processo A blocca la regione 1 e il +processo B la regione 2. Supponiamo che successivamente il processo A richieda +un lock sulla regione 2 che non può essere acquisito per il preesistente lock +del processo 2; il processo 1 si bloccherà fintanto che il processo 2 non +rilasci il blocco. Ma cosa accade se il processo 2 nel frattempo tenta a sua +volta di ottenere un lock sulla regione A? Questa è una tipica situazione che +porta ad un \textit{deadlock}, dato che a quel punto anche il processo 2 si +bloccherebbe, e niente potrebbe sbloccare l'altro processo. Per questo motivo +il kernel si incarica di rilevare situazioni di questo tipo, ed impedirle +restituendo un errore di \errcode{EDEADLK} alla funzione che cerca di +acquisire un blocco che porterebbe ad un \textit{deadlock}. + +Per capire meglio il funzionamento del \textit{file locking} in semantica +POSIX (che differisce alquanto rispetto da quello di BSD, visto +sez.~\ref{sec:file_flock}) esaminiamo più in dettaglio come viene gestito dal +kernel. Lo schema delle strutture utilizzate è riportato in +fig.~\ref{fig:file_posix_lock}; come si vede esso è molto simile all'analogo +di fig.~\ref{fig:file_flock_struct}. In questo caso nella figura si sono +evidenziati solo i campi di \kstruct{file\_lock} significativi per la +semantica POSIX, in particolare adesso ciascuna struttura contiene, oltre al +\ids{PID} del processo in \var{fl\_pid}, la sezione di file che viene bloccata +grazie ai campi \var{fl\_start} e \var{fl\_end}. La struttura è comunque la +stessa, solo che in questo caso nel campo \var{fl\_flags} è impostato il bit +\const{FL\_POSIX} ed il campo \var{fl\_file} non viene usato. Il blocco è +sempre associato all'\textit{inode}, solo che in questo caso la titolarità non +viene identificata con il riferimento ad una voce nella \textit{file table}, +ma con il valore del \ids{PID} del processo. + +\begin{figure}[!htb] + \centering \includegraphics[width=12cm]{img/file_posix_lock} + \caption{Schema dell'architettura del \textit{file locking}, nel caso + particolare del suo utilizzo secondo l'interfaccia standard POSIX.} + \label{fig:file_posix_lock} +\end{figure} + +Quando si richiede un \textit{file lock} il kernel effettua una scansione di +tutti i blocchi presenti sul file\footnote{scandisce cioè la \textit{linked + list} delle strutture \kstruct{file\_lock}, scartando automaticamente + quelle per cui \var{fl\_flags} non è \const{FL\_POSIX}, così che le due + interfacce restano ben separate.} per verificare se la regione richiesta +non si sovrappone ad una già bloccata, in caso affermativo decide in base al +tipo di blocco, in caso negativo il nuovo blocco viene comunque acquisito ed +aggiunto alla lista. + +Nel caso di rimozione invece questa viene effettuata controllando che il +\ids{PID} del processo richiedente corrisponda a quello contenuto nel blocco. +Questa diversa modalità ha delle conseguenze precise riguardo il comportamento +dei \textit{file lock} POSIX. La prima conseguenza è che un \textit{file lock} +POSIX non viene mai ereditato attraverso una \func{fork}, dato che il processo +figlio avrà un \ids{PID} diverso, mentre passa indenne attraverso una +\func{exec} in quanto il \ids{PID} resta lo stesso. Questo comporta che, al +contrario di quanto avveniva con la semantica BSD, quando un processo termina +tutti i \textit{file lock} da esso detenuti vengono immediatamente rilasciati. + +La seconda conseguenza è che qualunque file descriptor che faccia riferimento +allo stesso file (che sia stato ottenuto con una \func{dup} o con una +\func{open} in questo caso non fa differenza) può essere usato per rimuovere +un blocco, dato che quello che conta è solo il \ids{PID} del processo. Da +questo deriva una ulteriore sottile differenza di comportamento: dato che alla +chiusura di un file i blocchi ad esso associati vengono rimossi, nella +semantica POSIX basterà chiudere un file descriptor qualunque per cancellare +tutti i blocchi relativi al file cui esso faceva riferimento, anche se questi +fossero stati creati usando altri file descriptor che restano aperti. + +Dato che il controllo sull'accesso ai blocchi viene eseguito sulla base del +\ids{PID} del processo, possiamo anche prendere in considerazione un altro +degli aspetti meno chiari di questa interfaccia e cioè cosa succede quando si +richiedono dei blocchi su regioni che si sovrappongono fra loro all'interno +stesso processo. Siccome il controllo, come nel caso della rimozione, si basa +solo sul \ids{PID} del processo che chiama la funzione, queste richieste +avranno sempre successo. Nel caso della semantica BSD, essendo i lock +relativi a tutto un file e non accumulandosi,\footnote{questa ultima + caratteristica è vera in generale, se cioè si richiede più volte lo stesso + \textit{file lock}, o più blocchi sulla stessa sezione di file, le richieste + non si cumulano e basta una sola richiesta di rilascio per cancellare il + blocco.} la cosa non ha alcun effetto; la funzione ritorna con successo, +senza che il kernel debba modificare la lista dei \textit{file lock}. + +Con i \textit{file lock} POSIX invece si possono avere una serie di situazioni +diverse: ad esempio è possibile rimuovere con una sola chiamata più +\textit{file lock} distinti (indicando in una regione che si sovrapponga +completamente a quelle di questi ultimi), o rimuovere solo una parte di un +blocco preesistente (indicando una regione contenuta in quella di un altro +blocco), creando un buco, o coprire con un nuovo blocco altri \textit{file + lock} già ottenuti, e così via, a secondo di come si sovrappongono le +regioni richieste e del tipo di operazione richiesta. + +Il comportamento seguito in questo caso è che la funzione ha successo ed +esegue l'operazione richiesta sulla regione indicata; è compito del kernel +preoccuparsi di accorpare o dividere le voci nella lista dei \textit{file + lock} per far si che le regioni bloccate da essa risultanti siano coerenti +con quanto necessario a soddisfare l'operazione richiesta. + +\begin{figure}[!htbp] + \footnotesize \centering + \begin{minipage}[c]{\codesamplewidth} + \includecodesample{listati/Flock.c} + \end{minipage} + \normalsize + \caption{Sezione principale del codice del programma \file{Flock.c}.} + \label{fig:file_flock_code} +\end{figure} + +Per fare qualche esempio sul \textit{file locking} si è scritto un programma che +permette di bloccare una sezione di un file usando la semantica POSIX, o un +intero file usando la semantica BSD; in fig.~\ref{fig:file_flock_code} è +riportata il corpo principale del codice del programma, (il testo completo è +allegato nella directory dei sorgenti, nel file \texttt{Flock.c}). + +La sezione relativa alla gestione delle opzioni al solito si è omessa, come la +funzione che stampa le istruzioni per l'uso del programma, essa si cura di +impostare le variabili \var{type}, \var{start} e \var{len}; queste ultime due +vengono inizializzate al valore numerico fornito rispettivamente tramite gli +switch \code{-s} e \cmd{-l}, mentre il valore della prima viene impostato con +le opzioni \cmd{-w} e \cmd{-r} si richiede rispettivamente o un \textit{write + lock} o \textit{read lock} (i due valori sono esclusivi, la variabile +assumerà quello che si è specificato per ultimo). Oltre a queste tre vengono +pure impostate la variabile \var{bsd}, che abilita la semantica omonima quando +si invoca l'opzione \cmd{-f} (il valore preimpostato è nullo, ad indicare la +semantica POSIX), e la variabile \var{cmd} che specifica la modalità di +richiesta del \textit{file lock} (bloccante o meno), a seconda dell'opzione +\cmd{-b}. + +Il programma inizia col controllare (\texttt{\small 11-14}) che venga passato +un argomento (il file da bloccare), che sia stato scelto (\texttt{\small + 15-18}) il tipo di blocco, dopo di che apre (\texttt{\small 19}) il file, +uscendo (\texttt{\small 20-23}) in caso di errore. A questo punto il +comportamento dipende dalla semantica scelta; nel caso sia BSD occorre +reimpostare il valore di \var{cmd} per l'uso con \func{flock}; infatti il +valore preimpostato fa riferimento alla semantica POSIX e vale rispettivamente +\const{F\_SETLKW} o \const{F\_SETLK} a seconda che si sia impostato o meno la +modalità bloccante. + +Nel caso si sia scelta la semantica BSD (\texttt{\small 25-34}) prima si +controlla (\texttt{\small 27-31}) il valore di \var{cmd} per determinare se +si vuole effettuare una chiamata bloccante o meno, reimpostandone il valore +opportunamente, dopo di che a seconda del tipo di blocco al valore viene +aggiunta la relativa opzione, con un OR aritmetico, dato che \func{flock} +vuole un argomento \param{operation} in forma di maschera binaria. Nel caso +invece che si sia scelta la semantica POSIX le operazioni sono molto più +immediate si prepara (\texttt{\small 36-40}) la struttura per il lock, e lo +si esegue (\texttt{\small 41}). + +In entrambi i casi dopo aver richiesto il blocco viene controllato il +risultato uscendo (\texttt{\small 44-46}) in caso di errore, o stampando un +messaggio (\texttt{\small 47-49}) in caso di successo. Infine il programma si +pone in attesa (\texttt{\small 50}) finché un segnale (ad esempio un \cmd{C-c} +dato da tastiera) non lo interrompa; in questo caso il programma termina, e +tutti i blocchi vengono rilasciati. + +Con il programma possiamo fare varie verifiche sul funzionamento del +\textit{file locking}; cominciamo con l'eseguire un \textit{read lock} su un +file, ad esempio usando all'interno di un terminale il seguente comando: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -r Flock.c} +Lock acquired +\end{Console} +%$ +il programma segnalerà di aver acquisito un blocco e si bloccherà; in questo +caso si è usato il \textit{file locking} POSIX e non avendo specificato niente +riguardo alla sezione che si vuole bloccare sono stati usati i valori +preimpostati che bloccano tutto il file. A questo punto se proviamo ad +eseguire lo stesso comando in un altro terminale, e avremo lo stesso +risultato. Se invece proviamo ad eseguire un \textit{write lock} avremo: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w Flock.c} +Failed lock: Resource temporarily unavailable +\end{Console} +%$ +come ci aspettiamo il programma terminerà segnalando l'indisponibilità del +blocco, dato che il file è bloccato dal precedente \textit{read lock}. Si noti +che il risultato è lo stesso anche se si richiede il blocco su una sola parte +del file con il comando: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w -s0 -l10 Flock.c} +Failed lock: Resource temporarily unavailable +\end{Console} +%$ +se invece blocchiamo una regione con: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -r -s0 -l10 Flock.c} +Lock acquired +\end{Console} +%$ +una volta che riproviamo ad acquisire il \textit{write lock} i risultati +dipenderanno dalla regione richiesta; ad esempio nel caso in cui le due +regioni si sovrappongono avremo che: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w -s5 -l15 Flock.c} +Failed lock: Resource temporarily unavailable +\end{Console} +%$ +ed il blocco viene rifiutato, ma se invece si richiede una regione distinta +avremo che: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w -s11 -l15 Flock.c} +Lock acquired +\end{Console} +%$ +ed il blocco viene acquisito. Se a questo punto si prova ad eseguire un +\textit{read lock} che comprende la nuova regione bloccata in scrittura: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -r -s10 -l20 Flock.c} +Failed lock: Resource temporarily unavailable +\end{Console} +%$ +come ci aspettiamo questo non sarà consentito. + +Il programma di norma esegue il tentativo di acquisire il lock in modalità non +bloccante, se però usiamo l'opzione \cmd{-b} possiamo impostare la modalità +bloccante, riproviamo allora a ripetere le prove precedenti con questa +opzione: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -r -b -s0 -l10 Flock.c} Lock acquired +\end{Console} +%$ +il primo comando acquisisce subito un \textit{read lock}, e quindi non cambia +nulla, ma se proviamo adesso a richiedere un \textit{write lock} che non potrà +essere acquisito otterremo: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w -s0 -l10 Flock.c} +\end{Console} +%$ +il programma cioè si bloccherà nella chiamata a \func{fcntl}; se a questo +punto rilasciamo il precedente blocco (terminando il primo comando un +\texttt{C-c} sul terminale) potremo verificare che sull'altro terminale il +blocco viene acquisito, con la comparsa di una nuova riga: + +\begin{Console} +[piccardi@gont sources]$ \textbf{./flock -w -s0 -l10 Flock.c} +Lock acquired +\end{Console} +%$ + +Un'altra cosa che si può controllare con il nostro programma è l'interazione +fra i due tipi di blocco; se ripartiamo dal primo comando con cui si è +ottenuto un blocco in lettura sull'intero file, possiamo verificare cosa +succede quando si cerca di ottenere un blocco in scrittura con la semantica +BSD: + +\begin{Console} +[root@gont sources]# \textbf{./flock -f -w Flock.c} +Lock acquired +\end{Console} +%$ +che ci mostra come i due tipi di blocco siano assolutamente indipendenti; per +questo motivo occorre sempre tenere presente quale, fra le due semantiche +disponibili, stanno usando i programmi con cui si interagisce, dato che i +blocchi applicati con l'altra non avrebbero nessun effetto. + +% \subsection{La funzione \func{lockf}} +% \label{sec:file_lockf} + +Abbiamo visto come l'interfaccia POSIX per il \textit{file locking} sia molto +più potente e flessibile di quella di BSD, questo comporta anche una maggiore +complessità per via delle varie opzioni da passare a \func{fcntl}. Per questo +motivo è disponibile anche una interfaccia semplificata che utilizza la +funzione \funcd{lockf},\footnote{la funzione è ripresa da System V e per + poterla utilizzare è richiesta che siano definite le opportune macro, una + fra \macro{\_BSD\_SOURCE} o \macro{\_SVID\_SOURCE}, oppure + \macro{\_XOPEN\_SOURCE} ad un valore di almeno 500, oppure + \macro{\_XOPEN\_SOURCE} e \macro{\_XOPEN\_SOURCE\_EXTENDED}.} il cui +prototipo è: + +\begin{funcproto}{ +\fhead{unistd.h} +\fdecl{int lockf(int fd, int cmd, off\_t len)} +\fdesc{Applica, controlla o rimuove un \textit{file lock}.} +} + +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EAGAIN}] il file è bloccato, e si sono richiesti + \const{F\_TLOCK} o \const{F\_TEST} (in alcuni casi può dare anche + \errcode{EACCESS}. + \item[\errcode{EBADF}] \param{fd} non è un file descriptor aperto o si sono + richiesti \const{F\_LOCK} o \const{F\_TLOCK} ma il file non è scrivibile. + \item[\errcode{EINVAL}] si è usato un valore non valido per \param{cmd}. + \end{errlist} + ed inoltre \errcode{EDEADLK} e \errcode{ENOLCK} con lo stesso significato + che hanno con \funcd{fcntl}. +} +\end{funcproto} + +La funzione opera sul file indicato dal file descriptor \param{fd}, che deve +essere aperto in scrittura, perché utilizza soltanto \textit{lock} +esclusivi. La sezione di file bloccata viene controllata dal valore +di \param{len}, che indica la lunghezza della stessa, usando come riferimento +la posizione corrente sul file. La sezione effettiva varia a secondo del +segno, secondo lo schema illustrato in fig.~\ref{fig:file_lockf_boundary}, se +si specifica un valore nullo il file viene bloccato a partire dalla posizione +corrente fino alla sua fine presente o futura (nello schema corrisponderebbe +ad un valore infinito positivo). + +\begin{figure}[!htb] + \centering + \includegraphics[width=10cm]{img/lockf_boundary} + \caption{Schema della sezione di file bloccata con \func{lockf}.} + \label{fig:file_lockf_boundary} +\end{figure} + +Il comportamento della funzione viene controllato dal valore +dell'argomento \param{cmd}, che specifica quale azione eseguire, i soli valori +consentiti sono i seguenti: + +\begin{basedescript}{\desclabelwidth{2.0cm}} +\item[\const{F\_LOCK}] Richiede un \textit{lock} esclusivo sul file, e blocca + il processo chiamante se, anche parzialmente, la sezione indicata si + sovrappone ad una che è già stata bloccata da un altro processo; in caso di + sovrapposizione con un altro blocco già ottenuto le sezioni vengono unite. +\item[\const{F\_TLOCK}] Richiede un \textit{exclusive lock}, in maniera + identica a \const{F\_LOCK}, ma in caso di indisponibilità non blocca il + processo restituendo un errore di \errval{EAGAIN}. +\item[\const{F\_ULOCK}] Rilascia il blocco sulla sezione indicata, questo può + anche causare la suddivisione di una sezione bloccata in precedenza nelle + due parti eccedenti nel caso si sia indicato un intervallo più limitato. +\item[\const{F\_TEST}] Controlla la presenza di un blocco sulla sezione di + file indicata, \func{lockf} ritorna $0$ se la sezione è libera o bloccata + dal processo stesso, o $-1$ se è bloccata da un altro processo, nel qual + caso \var{errno} assume il valore \errval{EAGAIN} (ma su alcuni sistemi può + essere restituito anche \errval{EACCESS}). +\end{basedescript} + +La funzione è semplicemente una diversa interfaccia al \textit{file locking} +POSIX ed è realizzata utilizzando \func{fcntl}; pertanto la semantica delle +operazioni è la stessa di quest'ultima e quindi la funzione presenta lo stesso +comportamento riguardo gli effetti della chiusura dei file, ed il +comportamento sui file duplicati e nel passaggio attraverso \func{fork} ed +\func{exec}. Per questo stesso motivo la funzione non è equivalente a +\func{flock} e può essere usata senza interferenze insieme a quest'ultima. + +% TODO trattare i POSIX file-private lock introdotti con il 3.15, +% vedi http://lwn.net/Articles/586904/ correlato: +% http://www.samba.org/samba/news/articles/low_point/tale_two_stds_os2.html + +\subsection{Il \textit{mandatory locking}} +\label{sec:file_mand_locking} + +\itindbeg{mandatory~locking} + +Il \textit{mandatory locking} è una opzione introdotta inizialmente in SVr4, +per introdurre un \textit{file locking} che, come dice il nome, fosse +effettivo indipendentemente dai controlli eseguiti da un processo. Con il +\textit{mandatory locking} infatti è possibile far eseguire il blocco del file +direttamente al sistema, così che, anche qualora non si predisponessero le +opportune verifiche nei processi, questo verrebbe comunque rispettato. + +Per poter utilizzare il \textit{mandatory locking} è stato introdotto un +utilizzo particolare del bit \acr{sgid} dei permessi dei file. Se si ricorda +quanto esposto in sez.~\ref{sec:file_special_perm}), esso viene di norma +utilizzato per cambiare il \ids{GID} effettivo con cui viene eseguito un +programma, ed è pertanto sempre associato alla presenza del permesso di +esecuzione per il gruppo. Impostando questo bit su un file senza permesso di +esecuzione in un sistema che supporta il \textit{mandatory locking}, fa sì che +quest'ultimo venga attivato per il file in questione. In questo modo una +combinazione dei permessi originariamente non contemplata, in quanto senza +significato, diventa l'indicazione della presenza o meno del \textit{mandatory + locking}.\footnote{un lettore attento potrebbe ricordare quanto detto in + sez.~\ref{sec:file_perm_management} e cioè che il bit \acr{sgid} viene + cancellato (come misura di sicurezza) quando di scrive su un file, questo + non vale quando esso viene utilizzato per attivare il \textit{mandatory + locking}.} + +L'uso del \textit{mandatory locking} presenta vari aspetti delicati, dato che +neanche l'amministratore può passare sopra ad un \textit{file lock}; pertanto +un processo che blocchi un file cruciale può renderlo completamente +inaccessibile, rendendo completamente inutilizzabile il sistema\footnote{il + problema si potrebbe risolvere rimuovendo il bit \acr{sgid}, ma non è detto + che sia così facile fare questa operazione con un sistema bloccato.} +inoltre con il \textit{mandatory locking} si può bloccare completamente un +server NFS richiedendo una lettura su un file su cui è attivo un blocco. Per +questo motivo l'abilitazione del \textit{mandatory locking} è di norma +disabilitata, e deve essere attivata filesystem per filesystem in fase di +montaggio, specificando l'apposita opzione di \func{mount} riportata in +sez.~\ref{sec:filesystem_mounting}, o con l'opzione \code{-o mand} per il +comando omonimo. + +Si tenga presente inoltre che il \textit{mandatory locking} funziona solo +sull'interfaccia POSIX di \func{fcntl}. Questo ha due conseguenze: che non si +ha nessun effetto sui \textit{file lock} richiesti con l'interfaccia di +\func{flock}, e che la granularità del blocco è quella del singolo byte, come +per \func{fcntl}. + +La sintassi di acquisizione dei blocchi è esattamente la stessa vista in +precedenza per \func{fcntl} e \func{lockf}, la differenza è che in caso di +\textit{mandatory lock} attivato non è più necessario controllare la +disponibilità di accesso al file, ma si potranno usare direttamente le +ordinarie funzioni di lettura e scrittura e sarà compito del kernel gestire +direttamente il \textit{file locking}. + +Questo significa che in caso di \textit{read lock} la lettura dal file potrà +avvenire normalmente con \func{read}, mentre una \func{write} si bloccherà +fino al rilascio del blocco, a meno di non aver aperto il file con +\const{O\_NONBLOCK}, nel qual caso essa ritornerà immediatamente con un errore +di \errcode{EAGAIN}. + +Se invece si è acquisito un \textit{write lock} tutti i tentativi di leggere o +scrivere sulla regione del file bloccata fermeranno il processo fino al +rilascio del blocco, a meno che il file non sia stato aperto con +\const{O\_NONBLOCK}, nel qual caso di nuovo si otterrà un ritorno immediato +con l'errore di \errcode{EAGAIN}. + +Infine occorre ricordare che le funzioni di lettura e scrittura non sono le +sole ad operare sui contenuti di un file, e che sia \func{creat} che +\func{open} (quando chiamata con \const{O\_TRUNC}) effettuano dei cambiamenti, +così come \func{truncate}, riducendone le dimensioni (a zero nei primi due +casi, a quanto specificato nel secondo). Queste operazioni sono assimilate a +degli accessi in scrittura e pertanto non potranno essere eseguite (fallendo +con un errore di \errcode{EAGAIN}) su un file su cui sia presente un qualunque +blocco (le prime due sempre, la terza solo nel caso che la riduzione delle +dimensioni del file vada a sovrapporsi ad una regione bloccata). + +L'ultimo aspetto della interazione del \textit{mandatory locking} con le +funzioni di accesso ai file è quello relativo ai file mappati in memoria (vedi +sez.~\ref{sec:file_memory_map}); anche in tal caso infatti, quando si esegue +la mappatura con l'opzione \const{MAP\_SHARED}, si ha un accesso al contenuto +del file. Lo standard SVID prevede che sia impossibile eseguire il +\textit{memory mapping} di un file su cui sono presenti dei +blocchi\footnote{alcuni sistemi, come HP-UX, sono ancora più restrittivi e lo + impediscono anche in caso di \textit{advisory locking}, anche se questo + comportamento non ha molto senso, dato che comunque qualunque accesso + diretto al file è consentito.} in Linux è stata però fatta la scelta +implementativa\footnote{per i dettagli si possono leggere le note relative + all'implementazione, mantenute insieme ai sorgenti del kernel nel file + \file{Documentation/mandatory.txt}.} di seguire questo comportamento +soltanto quando si chiama \func{mmap} con l'opzione \const{MAP\_SHARED} (nel +qual caso la funzione fallisce con il solito \errcode{EAGAIN}) che comporta la +possibilità di modificare il file. + +Si tenga conto infine che su Linux l'implementazione corrente del +\textit{mandatory locking} è difettosa e soffre di una \textit{race + condition}, per cui una scrittura con \func{write} che si sovrapponga alla +richiesta di un \textit{read lock} può modificare i dati anche dopo che questo +è stato ottenuto, ed una lettura con \func{read} può restituire dati scritti +dopo l'ottenimento di un \textit{write lock}. Lo stesso tipo di problema si +può presentare anche con l'uso di file mappati in memoria; pertanto allo stato +attuale delle cose è sconsigliabile fare affidamento sul \textit{mandatory + locking}. + +\itindend{file~locking} + +\itindend{mandatory~locking} + + +\section{L'\textit{I/O multiplexing}} +\label{sec:file_multiplexing} + + +Uno dei problemi che si presentano quando si deve operare contemporaneamente +su molti file usando le funzioni illustrate in +sez.~\ref{sec:file_unix_interface} e sez.~\ref{sec:files_std_interface} è che +si può essere bloccati nelle operazioni su un file mentre un altro potrebbe +essere disponibile. L'\textit{I/O multiplexing} nasce risposta a questo +problema. In questa sezione forniremo una introduzione a questa problematica +ed analizzeremo le varie funzioni usate per implementare questa modalità di +I/O. + + +\subsection{La problematica dell'\textit{I/O multiplexing}} +\label{sec:file_noblocking} + +Abbiamo visto in sez.~\ref{sec:sig_gen_beha}, affrontando la suddivisione fra +\textit{fast} e \textit{slow} \textit{system call},\index{system~call~lente} +che in certi casi le funzioni di I/O eseguite su un file descriptor possono +bloccarsi indefinitamente. Questo non avviene mai per i file normali, per i +quali le funzioni di lettura e scrittura ritornano sempre subito, ma può +avvenire per alcuni file di dispositivo, come ad esempio una seriale o un +terminale, o con l'uso di file descriptor collegati a meccanismi di +intercomunicazione come le \textit{pipe} (vedi sez.~\ref{sec:ipc_unix}) ed i +socket (vedi sez.~\ref{sec:sock_socket_def}). In casi come questi ad esempio +una operazione di lettura potrebbe bloccarsi se non ci sono dati disponibili +sul descrittore su cui la si sta effettuando. + +Questo comportamento è alla radice di una delle problematiche più comuni che +ci si trova ad affrontare nella gestione delle operazioni di I/O: la necessità +di operare su più file descriptor eseguendo funzioni che possono bloccarsi +indefinitamente senza che sia possibile prevedere quando questo può +avvenire. Un caso classico è quello di un server di rete (tratteremo la +problematica in dettaglio nella seconda parte della guida) in attesa di dati +in ingresso prevenienti da vari client. + +In un caso di questo tipo, se si andasse ad operare sui vari file descriptor +aperti uno dopo l'altro, potrebbe accadere di restare bloccati nell'eseguire +una lettura su uno di quelli che non è ``\textsl{pronto}'', quando ce ne +potrebbe essere un altro con dati disponibili. Questo comporta nel migliore +dei casi una operazione ritardata inutilmente nell'attesa del completamento di +quella bloccata, mentre nel peggiore dei casi, quando la conclusione +dell'operazione bloccata dipende da quanto si otterrebbe dal file descriptor +``\textsl{disponibile}'', si potrebbe addirittura arrivare ad un +\textit{deadlock}. + +\itindbeg{polling} +Abbiamo già accennato in sez.~\ref{sec:file_open_close} che è possibile +prevenire questo tipo di comportamento delle funzioni di I/O aprendo un file +in \textsl{modalità non-bloccante}, attraverso l'uso del flag +\const{O\_NONBLOCK} nella chiamata di \func{open}. In questo caso le funzioni +di lettura o scrittura eseguite sul file che si sarebbero bloccate ritornano +immediatamente, restituendo l'errore \errcode{EAGAIN}. L'utilizzo di questa +modalità di I/O permette di risolvere il problema controllando a turno i vari +file descriptor, in un ciclo in cui si ripete l'accesso fintanto che esso non +viene garantito. Ovviamente questa tecnica, detta \textit{polling}, è +estremamente inefficiente: si tiene costantemente impiegata la CPU solo per +eseguire in continuazione delle \textit{system call} che nella gran parte dei +casi falliranno. +\itindend{polling} + +É appunto per superare questo problema è stato introdotto il concetto di +\textit{I/O multiplexing}, una nuova modalità per la gestione dell'I/O che +consente di tenere sotto controllo più file descriptor in contemporanea, +permettendo di bloccare un processo quando le operazioni di lettura o +scrittura non sono immediatamente effettuabili, e di riprenderne l'esecuzione +una volta che almeno una di quelle che erano state richieste diventi +possibile, in modo da poterla eseguire con la sicurezza di non restare +bloccati. + +Dato che, come abbiamo già accennato, per i normali file su disco non si ha +mai un accesso bloccante, l'uso più comune delle funzioni che esamineremo nei +prossimi paragrafi è per i server di rete, in cui esse vengono utilizzate per +tenere sotto controllo dei socket; pertanto ritorneremo su di esse con +ulteriori dettagli e qualche esempio di utilizzo concreto in +sez.~\ref{sec:TCP_sock_multiplexing}. + + +\subsection{Le funzioni \func{select} e \func{pselect}} +\label{sec:file_select} + +Il primo kernel unix-like ad introdurre una interfaccia per l'\textit{I/O + multiplexing} è stato BSD, con la funzione \funcd{select} che è apparsa in +BSD4.2 ed è stata standardizzata in BSD4.4, in seguito è stata portata su +tutti i sistemi che supportano i socket, compreso le varianti di System V ed +inserita in POSIX.1-2001; il suo prototipo è:\footnote{l'header + \texttt{sys/select.h} è stato introdotto con POSIX.1-2001, è ed presente con + le \acr{glibc} a partire dalla versione 2.0, in precedenza, con le + \acr{libc4} e le \acr{libc5}, occorreva includere \texttt{sys/time.h}, + \texttt{sys/types.h} e \texttt{unistd.h}.} + +\begin{funcproto}{ +\fhead{sys/select.h} +\fdecl{int select(int ndfs, fd\_set *readfds, fd\_set *writefds, fd\_set + *exceptfds, \\ +\phantom{int select(}struct timeval *timeout)} +\fdesc{Attende che uno fra i file descriptor degli insiemi specificati diventi + attivo.} +} +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] si è specificato un file descriptor non valido + (chiuso o con errori) in uno degli insiemi. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale. + \item[\errcode{EINVAL}] si è specificato per \param{ndfs} un valore negativo + o un valore non valido per \param{timeout}. + \end{errlist} + ed inoltre \errval{ENOMEM} nel suo significato generico.} +\end{funcproto} + +La funzione mette il processo in stato di \textit{sleep} (vedi +tab.~\ref{tab:proc_proc_states}) fintanto che almeno uno dei file descriptor +degli insiemi specificati (\param{readfds}, \param{writefds} e +\param{exceptfds}), non diventa attivo, per un tempo massimo specificato da +\param{timeout}. + +\itindbeg{file~descriptor~set} + +Per specificare quali file descriptor si intende selezionare la funzione usa +un particolare oggetto, il \textit{file descriptor set}, identificato dal tipo +\type{fd\_set}, che serve ad identificare un insieme di file descriptor, in +maniera analoga a come un \textit{signal set} (vedi sez.~\ref{sec:sig_sigset}) +identifica un insieme di segnali. Per la manipolazione di questi \textit{file + descriptor set} si possono usare delle opportune macro di preprocessore: + +{\centering +\vspace{3pt} +\begin{funcbox}{ +\fhead{sys/select.h} +\fdecl{void \macro{FD\_ZERO}(fd\_set *set)} +\fdesc{Inizializza l'insieme (vuoto).} +\fdecl{void \macro{FD\_SET}(int fd, fd\_set *set)} +\fdesc{Inserisce il file descriptor \param{fd} nell'insieme.} +\fdecl{void \macro{FD\_CLR}(int fd, fd\_set *set)} +\fdesc{Rimuove il file descriptor \param{fd} dall'insieme.} +\fdecl{int \macro{FD\_ISSET}(int fd, fd\_set *set)} +\fdesc{Controlla se il file descriptor \param{fd} è nell'insieme.} +} +\end{funcbox}} + + +In genere un \textit{file descriptor set} può contenere fino ad un massimo di +\const{FD\_SETSIZE} file descriptor. Questo valore in origine corrispondeva +al limite per il numero massimo di file aperti (ad esempio in Linux, fino alla +serie 2.0.x, c'era un limite di 256 file per processo), ma da quando, nelle +versioni più recenti del kernel, questo limite è stato rimosso, esso indica le +dimensioni massime dei numeri usati nei \textit{file descriptor set}, ed il +suo valore, secondo lo standard POSIX 1003.1-2001, è definito in +\headfile{sys/select.h}, ed è pari a 1024. + +Si tenga presente che i \textit{file descriptor set} devono sempre essere +inizializzati con \macro{FD\_ZERO}; passare a \func{select} un valore non +inizializzato può dar luogo a comportamenti non prevedibili. Allo stesso modo +usare \macro{FD\_SET} o \macro{FD\_CLR} con un file descriptor il cui valore +eccede \const{FD\_SETSIZE} può dare luogo ad un comportamento indefinito. + +La funzione richiede di specificare tre insiemi distinti di file descriptor; +il primo, \param{readfds}, verrà osservato per rilevare la disponibilità di +effettuare una lettura,\footnote{per essere precisi la funzione ritornerà in + tutti i casi in cui la successiva esecuzione di \func{read} risulti non + bloccante, quindi anche in caso di \textit{end-of-file}.} il secondo, +\param{writefds}, per verificare la possibilità di effettuare una scrittura ed +il terzo, \param{exceptfds}, per verificare l'esistenza di eccezioni come i +dati urgenti su un socket, (vedi sez.~\ref{sec:TCP_urgent_data}). + +Dato che in genere non si tengono mai sotto controllo fino a +\const{FD\_SETSIZE} file contemporaneamente, la funzione richiede di +specificare qual è il valore più alto fra i file descriptor indicati nei tre +insiemi precedenti. Questo viene fatto per efficienza, per evitare di passare +e far controllare al kernel una quantità di memoria superiore a quella +necessaria. Questo limite viene indicato tramite l'argomento \param{ndfs}, che +deve corrispondere al valore massimo aumentato di uno. Si ricordi infatti che +i file descriptor sono numerati progressivamente a partire da zero, ed il +valore indica il numero più alto fra quelli da tenere sotto controllo, +dimenticarsi di aumentare di uno il valore di \param{ndfs} è un errore comune. + +Infine l'argomento \param{timeout}, espresso con il puntatore ad una struttura +di tipo \struct{timeval} (vedi fig.~\ref{fig:sys_timeval_struct}) specifica un +tempo massimo di attesa prima che la funzione ritorni; se impostato a +\val{NULL} la funzione attende indefinitamente. Si può specificare anche un +tempo nullo (cioè una struttura \struct{timeval} con i campi impostati a +zero), qualora si voglia semplicemente controllare lo stato corrente dei file +descriptor, e così può essere utilizzata eseguire il \textit{polling} su un +gruppo di file descriptor. Usare questo argomento con tutti i \textit{file + descriptor set} vuoti è un modo portabile, disponibile anche su sistemi in +cui non sono disponibili le funzioni avanzate di sez.~\ref{sec:sig_timer_adv}, +per tenere un processo in stato di \textit{sleep} con precisioni inferiori al +secondo. + +In caso di successo la funzione restituisce il numero di file descriptor +pronti, seguendo il comportamento previsto dallo standard +POSIX.1-2001,\footnote{si tenga però presente che esistono alcune versioni di + Unix che non si comportano in questo modo, restituendo un valore positivo + generico.} e ciascun insieme viene sovrascritto per indicare quali sono i +file descriptor pronti per le operazioni ad esso relative, in modo da poterli +controllare con \macro{FD\_ISSET}. Se invece scade il tempo indicato +da \param{timout} viene restituito un valore nullo e i \textit{file descriptor + set} non vengono modificati. In caso di errore la funzione restituisce $-1$, i +valori dei tre insiemi e di \param{timeout} sono indefiniti e non si può fare +nessun affidamento sul loro contenuto; nelle versioni più recenti della +funzione invece i \textit{file descriptor set} non vengono modificati anche in +caso di errore. + +Si tenga presente infine che su Linux, in caso di programmazione +\textit{multi-thread} se un file descriptor viene chiuso in un altro +\textit{thread} rispetto a quello in cui si sta usando \func{select}, questa +non subisce nessun effetto. In altre varianti di sistemi unix-like invece +\func{select} ritorna indicando che il file descriptor è pronto, con +conseguente possibile errore nel caso lo si usi senza che sia stato +riaperto. Lo standard non prevede niente al riguardo e non si deve dare per +assunto nessuno dei due comportamenti se si vogliono scrivere programmi +portabili. + + +\itindend{file~descriptor~set} + +Una volta ritornata la funzione, si potrà controllare quali sono i file +descriptor pronti, ed operare su di essi. Si tenga presente però che +\func{select} fornisce solo di un suggerimento, esistono infatti condizioni in +cui \func{select} può riportare in maniera spuria che un file descriptor è +pronto, ma l'esecuzione di una operazione di I/O si bloccherebbe: ad esempio +con Linux questo avviene quando su un socket arrivano dei dati che poi vengono +scartati perché corrotti (ma sono possibili pure altri casi); in tal caso pur +risultando il relativo file descriptor pronto in lettura una successiva +esecuzione di una \func{read} si bloccherebbe. Per questo motivo quando si usa +l'\textit{I/O multiplexing} è sempre raccomandato l'uso delle funzioni di +lettura e scrittura in modalità non bloccante. + +Su Linux quando la \textit{system call} \func{select} viene interrotta da un +segnale modifica il valore nella struttura puntata da \param{timeout}, +impostandolo al tempo restante. In tal caso infatti si ha un errore di +\errcode{EINTR} ed occorre rilanciare la funzione per proseguire l'attesa, ed +in questo modo non è necessario ricalcolare tutte le volte il tempo +rimanente. Questo può causare problemi di portabilità sia quando si usa codice +scritto su Linux che legge questo valore, sia quando si usano programmi +scritti per altri sistemi che non dispongono di questa caratteristica e +ricalcolano \param{timeout} tutte le volte. In genere questa caratteristica è +disponibile nei sistemi che derivano da System V e non è disponibile per +quelli che derivano da BSD; lo standard POSIX.1-2001 non permette questo +comportamento e per questo motivo le \acr{glibc} nascondono il comportamento +passando alla \textit{system call} una copia dell'argomento \param{timeout}. + +Uno dei problemi che si presentano con l'uso di \func{select} è che il suo +comportamento dipende dal valore del file descriptor che si vuole tenere sotto +controllo. Infatti il kernel riceve con \param{ndfs} un limite massimo per +tale valore, e per capire quali sono i file descriptor da tenere sotto +controllo dovrà effettuare una scansione su tutto l'intervallo, che può anche +essere molto ampio anche se i file descriptor sono solo poche unità; tutto ciò +ha ovviamente delle conseguenze ampiamente negative per le prestazioni. + +Inoltre c'è anche il problema che il numero massimo dei file che si possono +tenere sotto controllo, la funzione è nata quando il kernel consentiva un +numero massimo di 1024 file descriptor per processo, adesso che il numero può +essere arbitrario si viene a creare una dipendenza del tutto artificiale dalle +dimensioni della struttura \type{fd\_set}, che può necessitare di essere +estesa, con ulteriori perdite di prestazioni. + +Lo standard POSIX è rimasto a lungo senza primitive per l'\textit{I/O + multiplexing}, introdotto solo con le ultime revisioni dello standard (POSIX +1003.1g-2000 e POSIX 1003.1-2001). La scelta è stata quella di seguire +l'interfaccia creata da BSD, ma prevede che tutte le funzioni ad esso relative +vengano dichiarate nell'header \headfile{sys/select.h}, che sostituisce i +precedenti, ed inoltre aggiunge a \func{select} una nuova funzione +\funcd{pselect},\footnote{il supporto per lo standard POSIX 1003.1-2001, ed + l'header \headfile{sys/select.h}, compaiono in Linux a partire dalle + \acr{glibc} 2.1. Le \acr{libc4} e \acr{libc5} non contengono questo header, + le \acr{glibc} 2.0 contengono una definizione sbagliata di \func{psignal}, + senza l'argomento \param{sigmask}, la definizione corretta è presente dalle + \acr{glibc} 2.1-2.2.1 se si è definito \macro{\_GNU\_SOURCE} e nelle + \acr{glibc} 2.2.2-2.2.4 se si è definito \macro{\_XOPEN\_SOURCE} con valore + maggiore di 600.} il cui prototipo è: + +\begin{funcproto}{ +\fhead{sys/select.h} +\fdecl{int pselect(int n, fd\_set *readfds, fd\_set *writefds, + fd\_set *exceptfds, \\ +\phantom{int pselect(}struct timespec *timeout, sigset\_t *sigmask)} +\fdesc{Attende che uno dei file descriptor degli insiemi specificati diventi + attivo.} +} +{La funzione ritorna il numero (anche nullo) di file descriptor che sono + attivi in caso di successo e $-1$ per un errore, nel qual caso \var{errno} + assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] si è specificato un file descriptor sbagliato in uno + degli insiemi. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale. + \item[\errcode{EINVAL}] si è specificato per \param{ndfs} un valore negativo + o un valore non valido per \param{timeout}. + \end{errlist} + ed inoltre \errval{ENOMEM} nel suo significato generico. +} +\end{funcproto} + +La funzione è sostanzialmente identica a \func{select}, solo che usa una +struttura \struct{timespec} (vedi fig.~\ref{fig:sys_timespec_struct}) per +indicare con maggiore precisione il timeout e non ne aggiorna il valore in +caso di interruzione. In realtà anche in questo caso la \textit{system call} +di Linux aggiorna il valore al tempo rimanente, ma la funzione fornita dalle +\acr{glibc} modifica questo comportamento passando alla \textit{system call} +una variabile locale, in modo da mantenere l'aderenza allo standard POSIX che +richiede che il valore di \param{timeout} non sia modificato. + +Rispetto a \func{select} la nuova funzione prende un argomento +aggiuntivo \param{sigmask}, un puntatore ad una maschera di segnali (si veda +sez.~\ref{sec:sig_sigmask}). Nell'esecuzione la maschera dei segnali corrente +viene sostituita da quella così indicata immediatamente prima di eseguire +l'attesa, e viene poi ripristinata al ritorno della funzione. L'uso +di \param{sigmask} è stato introdotto allo scopo di prevenire possibili +\textit{race condition} quando oltre alla presenza di dati sui file descriptor +come nella \func{select} ordinaria, ci si deve porre in attesa anche +dell'arrivo di un segnale. + +Come abbiamo visto in sez.~\ref{sec:sig_example} la tecnica classica per +rilevare l'arrivo di un segnale è quella di utilizzare il gestore per +impostare una variabile globale e controllare questa nel corpo principale del +programma; abbiamo visto in quell'occasione come questo lasci spazio a +possibili \textit{race condition}, per cui diventa essenziale utilizzare +\func{sigprocmask} per disabilitare la ricezione del segnale prima di eseguire +il controllo e riabilitarlo dopo l'esecuzione delle relative operazioni, onde +evitare l'arrivo di un segnale immediatamente dopo il controllo, che andrebbe +perso. + +Nel nostro caso il problema si pone quando, oltre al segnale, si devono tenere +sotto controllo anche dei file descriptor con \func{select}, in questo caso si +può fare conto sul fatto che all'arrivo di un segnale essa verrebbe interrotta +e si potrebbero eseguire di conseguenza le operazioni relative al segnale e +alla gestione dati con un ciclo del tipo: +\includecodesnip{listati/select_race.c} +qui però emerge una \textit{race condition}, perché se il segnale arriva prima +della chiamata a \func{select}, questa non verrà interrotta, e la ricezione +del segnale non sarà rilevata. + +Per questo è stata introdotta \func{pselect} che attraverso l'argomento +\param{sigmask} permette di riabilitare la ricezione il segnale +contestualmente all'esecuzione della funzione,\footnote{in Linux però, fino al + kernel 2.6.16, non era presente la relativa \textit{system call}, e la + funzione era implementata nelle \acr{glibc} attraverso \func{select} (vedi + \texttt{man select\_tut}) per cui la possibilità di \textit{race condition} + permaneva; in tale situazione si può ricorrere ad una soluzione alternativa, + chiamata \itindex{self-pipe~trick} \textit{self-pipe trick}, che consiste + nell'aprire una \textit{pipe} (vedi sez.~\ref{sec:ipc_pipes}) ed usare + \func{select} sul capo in lettura della stessa; si può indicare l'arrivo di + un segnale scrivendo sul capo in scrittura all'interno del gestore dello + stesso; in questo modo anche se il segnale va perso prima della chiamata di + \func{select} questa lo riconoscerà comunque dalla presenza di dati sulla + \textit{pipe}.} ribloccandolo non appena essa ritorna, così che il +precedente codice potrebbe essere riscritto nel seguente modo: +\includecodesnip{listati/pselect_norace.c} +in questo caso utilizzando \var{oldmask} durante l'esecuzione di +\func{pselect} la ricezione del segnale sarà abilitata, ed in caso di +interruzione si potranno eseguire le relative operazioni. + + +\subsection{Le funzioni \func{poll} e \func{ppoll}} +\label{sec:file_poll} + +Nello sviluppo di System V, invece di utilizzare l'interfaccia di +\func{select}, che è una estensione tipica di BSD, è stata introdotta una +interfaccia completamente diversa, basata sulla funzione di sistema +\funcd{poll},\footnote{la funzione è prevista dallo standard XPG4, ed è stata + introdotta in Linux come \textit{system call} a partire dal kernel 2.1.23 ed + inserita nelle \acr{libc} 5.4.28, originariamente l'argomento \param{nfds} + era di tipo \ctyp{unsigned int}, la funzione è stata inserita nello standard + POSIX.1-2001 in cui è stato introdotto il tipo nativo \type{nfds\_t}.} il +cui prototipo è: + +\begin{funcproto}{ +\fhead{sys/poll.h} +\fdecl{int poll(struct pollfd *ufds, nfds\_t nfds, int timeout)} +\fdesc{Attende un cambiamento di stato su un insieme di file + descriptor.} +} + +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] si è specificato un file descriptor sbagliato in uno + degli insiemi. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale. + \item[\errcode{EINVAL}] il valore di \param{nfds} eccede il limite + \const{RLIMIT\_NOFILE}. + \end{errlist} + ed inoltre \errval{EFAULT} e \errval{ENOMEM} nel loro significato generico.} +\end{funcproto} + +La funzione permette di tenere sotto controllo contemporaneamente \param{ndfs} +file descriptor, specificati attraverso il puntatore \param{ufds} ad un +vettore di strutture \struct{pollfd}. Come con \func{select} si può +interrompere l'attesa dopo un certo tempo, questo deve essere specificato con +l'argomento \param{timeout} in numero di millisecondi: un valore negativo +indica un'attesa indefinita, mentre un valore nullo comporta il ritorno +immediato, e può essere utilizzato per impiegare \func{poll} in modalità +\textsl{non-bloccante}. + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{0.90\textwidth} + \includestruct{listati/pollfd.h} + \end{minipage} + \normalsize + \caption{La struttura \structd{pollfd}, utilizzata per specificare le + modalità di controllo di un file descriptor alla funzione \func{poll}.} + \label{fig:file_pollfd} +\end{figure} + +Per ciascun file da controllare deve essere inizializzata una struttura +\struct{pollfd} nel vettore indicato dall'argomento \param{ufds}. La +struttura, la cui definizione è riportata in fig.~\ref{fig:file_pollfd}, +prevede tre campi: in \var{fd} deve essere indicato il numero del file +descriptor da controllare, in \var{events} deve essere specificata una +maschera binaria di flag che indichino il tipo di evento che si vuole +controllare, mentre in \var{revents} il kernel restituirà il relativo +risultato. + +Usando un valore negativo per \param{fd} la corrispondente struttura sarà +ignorata da \func{poll} ed il campo \var{revents} verrà azzerato, questo +consente di eliminare temporaneamente un file descriptor dalla lista senza +dover modificare il vettore \param{ufds}. Dato che i dati in ingresso sono del +tutto indipendenti da quelli in uscita (che vengono restituiti in +\var{revents}) non è necessario reinizializzare tutte le volte il valore delle +strutture \struct{pollfd} a meno di non voler cambiare qualche condizione. + +Le costanti che definiscono i valori relativi ai bit usati nelle maschere +binarie dei campi \var{events} e \var{revents} sono riportate in +tab.~\ref{tab:file_pollfd_flags}, insieme al loro significato. Le si sono +suddivise in tre gruppi principali, nel primo gruppo si sono indicati i bit +utilizzati per controllare l'attività in ingresso, nel secondo quelli per +l'attività in uscita, infine il terzo gruppo contiene dei valori che vengono +utilizzati solo nel campo \var{revents} per notificare delle condizioni di +errore. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|l|} + \hline + \textbf{Flag} & \textbf{Significato} \\ + \hline + \hline + \const{POLLIN} & È possibile la lettura.\\ + \const{POLLRDNORM}& Sono disponibili in lettura dati normali.\\ + \const{POLLRDBAND}& Sono disponibili in lettura dati prioritari.\\ + \const{POLLPRI} & È possibile la lettura di dati urgenti.\\ + \hline + \const{POLLOUT} & È possibile la scrittura immediata.\\ + \const{POLLWRNORM}& È possibile la scrittura di dati normali.\\ + \const{POLLWRBAND}& È possibile la scrittura di dati prioritari.\\ + \hline + \const{POLLERR} & C'è una condizione di errore.\\ + \const{POLLHUP} & Si è verificato un hung-up.\\ + \const{POLLRDHUP} & Si è avuta una \textsl{half-close} su un + socket.\footnotemark\\ + \const{POLLNVAL} & Il file descriptor non è aperto.\\ + \hline + \const{POLLMSG} & Definito per compatibilità con SysV.\\ + \hline + \end{tabular} + \caption{Costanti per l'identificazione dei vari bit dei campi + \var{events} e \var{revents} di \struct{pollfd}.} + \label{tab:file_pollfd_flags} +\end{table} + +\footnotetext{si tratta di una estensione specifica di Linux, disponibile a + partire dal kernel 2.6.17 definendo la marco \macro{\_GNU\_SOURCE}, che + consente di riconoscere la chiusura in scrittura dell'altro capo di un + socket, situazione che si viene chiamata appunto \textit{half-close} + (\textsl{mezza chiusura}) su cui torneremo con maggiori dettagli in + sez.~\ref{sec:TCP_shutdown}.} + +Il valore \const{POLLMSG} non viene utilizzato ed è definito solo per +compatibilità con l'implementazione di System V che usa i cosiddetti +``\textit{stream}''. Si tratta di una interfaccia specifica di SysV non +presente in Linux, che non ha nulla a che fare con gli \textit{stream} delle +librerie standard del C visti in sez.~\ref{sec:file_stream}. Da essa derivano +i nomi di alcune costanti poiché per quegli \textit{stream} sono definite tre +classi di dati: \textsl{normali}, \textit{prioritari} ed \textit{urgenti}. In +Linux la distinzione ha senso solo per i dati urgenti dei socket (vedi +sez.~\ref{sec:TCP_urgent_data}), ma su questo e su come \func{poll} reagisce +alle varie condizioni dei socket torneremo in sez.~\ref{sec:TCP_serv_poll}, +dove vedremo anche un esempio del suo utilizzo. + +Le costanti relative ai diversi tipi di dati normali e prioritari che fanno +riferimento alle implementazioni in stile System V sono \const{POLLRDNORM}, +\const{POLLWRNORM}, \const{POLLRDBAND} e \const{POLLWRBAND}. Le prime due sono +equivalenti rispettivamente a \const{POLLIN} e \const{POLLOUT}, +\const{POLLRDBAND} non viene praticamente mai usata su Linux mentre +\const{POLLWRBAND} ha senso solo sui socket. In ogni caso queste costanti sono +utilizzabili soltanto qualora si sia definita la macro +\macro{\_XOPEN\_SOURCE}. + +In caso di successo \func{poll} ritorna restituendo il numero di file (un +valore positivo) per i quali si è verificata una delle condizioni di attesa +richieste o per i quali si è verificato un errore, avvalorando i relativi bit +di \var{revents}. In caso di errori sui file vengono utilizzati i valori della +terza sezione di tab.~\ref{tab:file_pollfd_flags} che hanno significato solo +per \var{revents} (se specificati in \var{events} vengono ignorati). Un valore +di ritorno nullo indica che si è raggiunto il timeout, mentre un valore +negativo indica un errore nella chiamata, il cui codice viene riportato al +solito tramite \var{errno}. + +L'uso di \func{poll} consente di superare alcuni dei problemi illustrati in +precedenza per \func{select}; anzitutto, dato che in questo caso si usa un +vettore di strutture \struct{pollfd} di dimensione arbitraria, non esiste il +limite introdotto dalle dimensioni massime di un \itindex{file~descriptor~set} +\textit{file descriptor set} e la dimensione dei dati passati al kernel +dipende solo dal numero dei file descriptor che si vogliono controllare, non +dal loro valore. Infatti, anche se usando dei bit un \textit{file descriptor + set} può essere più efficiente di un vettore di strutture \struct{pollfd}, +qualora si debba osservare un solo file descriptor con un valore molto alto ci +si troverà ad utilizzare inutilmente un maggiore quantitativo di memoria. + +Inoltre con \func{select} lo stesso \itindex{file~descriptor~set} \textit{file + descriptor set} è usato sia in ingresso che in uscita, e questo significa +che tutte le volte che si vuole ripetere l'operazione occorre reinizializzarlo +da capo. Questa operazione, che può essere molto onerosa se i file descriptor +da tenere sotto osservazione sono molti, non è invece necessaria con +\func{poll}. + +Abbiamo visto in sez.~\ref{sec:file_select} come lo standard POSIX preveda una +variante di \func{select} che consente di gestire correttamente la ricezione +dei segnali nell'attesa su un file descriptor. Con l'introduzione di una +implementazione reale di \func{pselect} nel kernel 2.6.16, è stata aggiunta +anche una analoga funzione che svolga lo stesso ruolo per \func{poll}. + +In questo caso si tratta di una estensione che è specifica di Linux e non è +prevista da nessuno standard; essa può essere utilizzata esclusivamente se si +definisce la macro \macro{\_GNU\_SOURCE} ed ovviamente non deve essere usata +se si ha a cuore la portabilità. La funzione è \funcd{ppoll}, ed il suo +prototipo è: + +\begin{funcproto}{ +\fhead{sys/poll.h} +\fdecl{int ppoll(struct pollfd *fds, nfds\_t nfds, + const struct timespec *timeout, \\ +\phantom{int ppoll(}const sigset\_t *sigmask)} + +\fdesc{Attende un cambiamento di stato su un insieme di file descriptor.} +} + +{La funzione ritorna il numero di file descriptor con attività in caso di + successo, $0$ se c'è stato un timeout e $-1$ per un errore, nel qual caso + \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] si è specificato un file descriptor sbagliato in uno + degli insiemi. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale. + \item[\errcode{EINVAL}] il valore di \param{nfds} eccede il limite + \const{RLIMIT\_NOFILE}. + \end{errlist} +ed inoltre \errval{EFAULT} e \errval{ENOMEM} nel loro significato generico. +} +\end{funcproto} + +La funzione ha lo stesso comportamento di \func{poll}, solo che si può +specificare, con l'argomento \param{sigmask}, il puntatore ad una maschera di +segnali; questa sarà la maschera utilizzata per tutto il tempo che la funzione +resterà in attesa, all'uscita viene ripristinata la maschera originale. L'uso +di questa funzione è cioè equivalente, come illustrato nella pagina di +manuale, all'esecuzione atomica del seguente codice: +\includecodesnip{listati/ppoll_means.c} + +Eccetto per \param{timeout}, che come per \func{pselect} deve essere un +puntatore ad una struttura \struct{timespec}, gli altri argomenti comuni con +\func{poll} hanno lo stesso significato, e la funzione restituisce gli stessi +risultati illustrati in precedenza. Come nel caso di \func{pselect} la +\textit{system call} che implementa \func{ppoll} restituisce, se la funzione +viene interrotta da un segnale, il tempo mancante in \param{timeout}, e come +per \func{pselect} la funzione di libreria fornita dalle \acr{glibc} maschera +questo comportamento non modificando mai il valore di \param{timeout} anche se +in questo caso non esiste nessuno standard che richieda questo comportamento. + +Infine anche per \func{poll} e \func{ppoll} valgono le considerazioni relative +alla possibilità di avere delle notificazione spurie della disponibilità di +accesso ai file descriptor illustrate per \func{select} in +sez.~\ref{sec:file_select}, che non staremo a ripetere qui. + +\subsection{L'interfaccia di \textit{epoll}} +\label{sec:file_epoll} + +\itindbeg{epoll} + +Nonostante \func{poll} presenti alcuni vantaggi rispetto a \func{select}, +anche questa funzione non è molto efficiente quando deve essere utilizzata con +un gran numero di file descriptor,\footnote{in casi del genere \func{select} + viene scartata a priori, perché può avvenire che il numero di file + descriptor ecceda le dimensioni massime di un \itindex{file~descriptor~set} + \textit{file descriptor set}.} in particolare nel caso in cui solo pochi di +questi diventano attivi. Il problema in questo caso è che il tempo impiegato +da \func{poll} a trasferire i dati da e verso il kernel è proporzionale al +numero di file descriptor osservati, non a quelli che presentano attività. + +Quando ci sono decine di migliaia di file descriptor osservati e migliaia di +eventi al secondo (il caso classico è quello di un server web di un sito con +molti accessi) l'uso di \func{poll} comporta la necessità di trasferire avanti +ed indietro da \textit{user space} a \textit{kernel space} una lunga lista di +strutture \struct{pollfd} migliaia di volte al secondo. A questo poi si +aggiunge il fatto che la maggior parte del tempo di esecuzione sarà impegnato +ad eseguire una scansione su tutti i file descriptor tenuti sotto controllo +per determinare quali di essi (in genere una piccola percentuale) sono +diventati attivi. In una situazione come questa l'uso delle funzioni classiche +dell'interfaccia dell'\textit{I/O multiplexing} viene a costituire un collo di +bottiglia che degrada irrimediabilmente le prestazioni. + +Per risolvere questo tipo di situazioni sono state ideate delle interfacce +specialistiche (come \texttt{/dev/poll} in Solaris, o \texttt{kqueue} in BSD) +il cui scopo fondamentale è quello di restituire solamente le informazioni +relative ai file descriptor osservati che presentano una attività, evitando +così le problematiche appena illustrate. In genere queste prevedono che si +registrino una sola volta i file descriptor da tenere sotto osservazione, e +forniscono un meccanismo che notifica quali di questi presentano attività. + +Le modalità con cui avviene la notifica sono due, la prima è quella classica +(quella usata da \func{poll} e \func{select}) che viene chiamata \textit{level + triggered}.\footnote{la nomenclatura è stata introdotta da Jonathan Lemon in + un articolo su \texttt{kqueue} al BSDCON 2000, e deriva da quella usata + nell'elettronica digitale.} In questa modalità vengono notificati i file +descriptor che sono \textsl{pronti} per l'operazione richiesta, e questo +avviene indipendentemente dalle operazioni che possono essere state fatte su +di essi a partire dalla precedente notifica. Per chiarire meglio il concetto +ricorriamo ad un esempio: se su un file descriptor sono diventati disponibili +in lettura 2000 byte ma dopo la notifica ne sono letti solo 1000 (ed è quindi +possibile eseguire una ulteriore lettura dei restanti 1000), in modalità +\textit{level triggered} questo sarà nuovamente notificato come +\textsl{pronto}. + +La seconda modalità, è detta \textit{edge triggered}, e prevede che invece +vengano notificati solo i file descriptor che hanno subito una transizione da +\textsl{non pronti} a \textsl{pronti}. Questo significa che in modalità +\textit{edge triggered} nel caso del precedente esempio il file descriptor +diventato pronto da cui si sono letti solo 1000 byte non verrà nuovamente +notificato come pronto, nonostante siano ancora disponibili in lettura 1000 +byte. Solo una volta che si saranno esauriti tutti i dati disponibili, e che +il file descriptor sia tornato non essere pronto, si potrà ricevere una +ulteriore notifica qualora ritornasse pronto. + +Nel caso di Linux al momento la sola interfaccia che fornisce questo tipo di +servizio è chiamata \textit{epoll},\footnote{l'interfaccia è stata creata da + Davide Libenzi, ed è stata introdotta per la prima volta nel kernel 2.5.44, + ma la sua forma definitiva è stata raggiunta nel kernel 2.5.66, il supporto + è stato aggiunto nelle \acr{glibc} a partire dalla versione 2.3.2.} anche se +sono state in discussione altre interfacce con le quali effettuare lo stesso +tipo di operazioni; \textit{epoll} è in grado di operare sia in modalità +\textit{level triggered} che \textit{edge triggered}. + +La prima versione di \textit{epoll} prevedeva l'apertura di uno speciale file +di dispositivo, \texttt{/dev/epoll}, per ottenere un file descriptor da +utilizzare con le funzioni dell'interfaccia ma poi si è passati all'uso di +apposite \textit{system call}. Il primo passo per usare l'interfaccia di +\textit{epoll} è pertanto quello ottenere detto file descriptor chiamando una +delle due funzioni di sistema \funcd{epoll\_create} e \funcd{epoll\_create1}, +i cui prototipi sono: + +\begin{funcproto}{ +\fhead{sys/epoll.h} +\fdecl{int epoll\_create(int size)} +\fdecl{int epoll\_create1(int flags)} + +\fdesc{Apre un file descriptor per \textit{epoll}.} +} +{Le funzioni ritornano un file descriptor per \textit{epoll} in caso di + successo e $-1$ per un errore, nel qual caso \var{errno} assumerà uno dei + valori: + \begin{errlist} + \item[\errcode{EINVAL}] si è specificato un valore di \param{size} non + positivo o non valido per \param{flags}. + \item[\errcode{EMFILE}] si è raggiunto il limite sul numero massimo di + istanze di \textit{epoll} per utente stabilito da + \sysctlfile{fs/epoll/max\_user\_instances}. + \item[\errcode{ENFILE}] si è raggiunto il massimo di file descriptor aperti + nel sistema. + \item[\errcode{ENOMEM}] non c'è sufficiente memoria nel kernel per creare + l'istanza. + \end{errlist} +} +\end{funcproto} + +Entrambe le funzioni restituiscono un file descriptor, detto anche +\textit{epoll descriptor}; si tratta di un file descriptor speciale (per cui +\func{read} e \func{write} non sono supportate) che viene associato alla +infrastruttura utilizzata dal kernel per gestire la notifica degli eventi, e +che può a sua volta essere messo sotto osservazione con una chiamata a +\func{select}, \func{poll} o \func{epoll\_ctl}; in tal caso risulterà pronto +quando saranno disponibili eventi da notificare riguardo i file descriptor da +lui osservati.\footnote{è anche possibile inviarlo ad un altro processo + attraverso un socket locale (vedi sez.~\ref{sec:sock_fd_passing}) ma + l'operazione non ha alcun senso dato che il nuovo processo non avrà a + disposizione le copie dei file descriptor messe sotto osservazione tramite + esso.} Una volta che se ne sia terminato l'uso si potranno rilasciare tutte +le risorse allocate chiudendolo semplicemente con \func{close}. + +Nel caso di \func{epoll\_create} l'argomento \param{size} serviva a dare +l'indicazione del numero di file descriptor che si vorranno tenere sotto +controllo, e costituiva solo un suggerimento per semplificare l'allocazione di +risorse sufficienti, non un valore massimo, ma a partire dal kernel 2.6.8 esso +viene totalmente ignorato e l'allocazione è sempre dinamica. + +La seconda versione della funzione, \func{epoll\_create1} è stata introdotta +come estensione della precedente (è disponibile solo a partire dal kernel +2.6.27) per poter passare dei flag di controllo come maschera binaria in fase +di creazione del file descriptor. Al momento l'unico valore legale +per \param{flags} (a parte lo zero) è \const{EPOLL\_CLOEXEC}, che consente di +impostare in maniera atomica sul file descriptor il flag di +\textit{close-on-exec} (si è trattato il significato di \const{O\_CLOEXEC} in +sez.~\ref{sec:file_open_close}), senza che sia necessaria una successiva +chiamata a \func{fcntl}. + +Una volta ottenuto un file descriptor per \textit{epoll} il passo successivo è +indicare quali file descriptor mettere sotto osservazione e quali operazioni +controllare, per questo si deve usare la seconda funzione di sistema +dell'interfaccia, \funcd{epoll\_ctl}, il cui prototipo è: + +\begin{funcproto}{ +\fhead{sys/epoll.h} +\fdecl{int epoll\_ctl(int epfd, int op, int fd, struct epoll\_event *event)} + +\fdesc{Esegue le operazioni di controllo di \textit{epoll}.} +} + +{La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual + caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] i file descriptor \param{epfd} o \param{fd} non sono + validi. + \item[\errcode{EEXIST}] l'operazione richiesta è \const{EPOLL\_CTL\_ADD} ma + \param{fd} è già stato inserito in \param{epfd}. + \item[\errcode{EINVAL}] il file descriptor \param{epfd} non è stato ottenuto + con \func{epoll\_create}, o \param{fd} è lo stesso \param{epfd} o + l'operazione richiesta con \param{op} non è supportata. + \item[\errcode{ENOENT}] l'operazione richiesta è \const{EPOLL\_CTL\_MOD} o + \const{EPOLL\_CTL\_DEL} ma \param{fd} non è inserito in \param{epfd}. + \item[\errcode{ENOMEM}] non c'è sufficiente memoria nel kernel gestire + l'operazione richiesta. + \item[\errcode{ENOSPC}] si è raggiunto il limite massimo di registrazioni + per utente di file descriptor da osservare imposto da + \sysctlfile{fs/epoll/max\_user\_watches}. + \item[\errcode{EPERM}] il file associato a \param{fd} non supporta l'uso di + \textit{epoll}. + \end{errlist} + } +\end{funcproto} + +La funzione prende sempre come primo argomento un file descriptor di +\textit{epoll}, \param{epfd}, che indica quale istanza di \textit{epoll} usare +e deve pertanto essere stato ottenuto in precedenza con una chiamata a +\func{epoll\_create} o \func{epoll\_create1}. L'argomento \param{fd} indica +invece il file descriptor che si vuole tenere sotto controllo, quest'ultimo +può essere un qualunque file descriptor utilizzabile con \func{poll}, ed anche +un altro file descriptor di \textit{epoll}, ma non lo stesso \param{epfd}. + +Il comportamento della funzione viene controllato dal valore dall'argomento +\param{op} che consente di specificare quale operazione deve essere eseguita. +Le costanti che definiscono i valori utilizzabili per \param{op} +sono riportate in tab.~\ref{tab:epoll_ctl_operation}, assieme al significato +delle operazioni cui fanno riferimento. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|p{8cm}|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{EPOLL\_CTL\_ADD}& Aggiunge un nuovo file descriptor da osservare + \param{fd} alla lista dei file descriptor + controllati tramite \param{epfd}, in + \param{event} devono essere specificate le + modalità di osservazione.\\ + \const{EPOLL\_CTL\_MOD}& Modifica le modalità di osservazione del file + descriptor \param{fd} secondo il contenuto di + \param{event}.\\ + \const{EPOLL\_CTL\_DEL}& Rimuove il file descriptor \param{fd} dalla lista + dei file controllati tramite \param{epfd}.\\ + \hline + \end{tabular} + \caption{Valori dell'argomento \param{op} che consentono di scegliere quale + operazione di controllo effettuare con la funzione \func{epoll\_ctl}.} + \label{tab:epoll_ctl_operation} +\end{table} + +% era stata aggiunta EPOLL_CTL_DISABLE in previsione del kernel 3.7, vedi +% http://lwn.net/Articles/520012/ e http://lwn.net/Articles/520198/ +% ma non è mai stata inserita. + +Le modalità di utilizzo di \textit{epoll} prevedono che si definisca qual'è +l'insieme dei file descriptor da tenere sotto controllo utilizzando una serie +di chiamate a \const{EPOLL\_CTL\_ADD}.\footnote{un difetto dell'interfaccia è + che queste chiamate devono essere ripetute per ciascun file descriptor, + incorrendo in una perdita di prestazioni qualora il numero di file + descriptor sia molto grande; per questo è stato proposto di introdurre come + estensione una funzione \code{epoll\_ctlv} che consenta di effettuare con + una sola chiamata le impostazioni per un blocco di file descriptor.} L'uso +di \const{EPOLL\_CTL\_MOD} consente in seguito di modificare le modalità di +osservazione di un file descriptor che sia già stato aggiunto alla lista di +osservazione. Qualora non si abbia più interesse nell'osservazione di un file +descriptor lo si può rimuovere dalla lista associata a \param{epfd} con +\const{EPOLL\_CTL\_DEL}. + +Anche se è possibile tenere sotto controllo lo stesso file descriptor in due +istanze distinte di \textit{epoll} in genere questo è sconsigliato in quanto +entrambe riceveranno le notifiche, e gestire correttamente le notifiche +multiple richiede molta attenzione. Se invece si cerca di inserire due volte +lo stesso file descriptor nella stessa istanza di \textit{epoll} la funzione +fallirà con un errore di \errval{EEXIST}. Tuttavia è possibile inserire nella +stessa istanza file descriptor duplicati (si ricordi quanto visto in +sez.~\ref{sec:file_dup}), una tecnica che può essere usata per registrarli con +un valore diverso per \param{events} e classificare così diversi tipi di +eventi. + +Si tenga presente che quando si chiude un file descriptor questo, se era stato +posto sotto osservazione da una istanza di \textit{epoll}, viene rimosso +automaticamente solo nel caso esso sia l'unico riferimento al file aperto +sottostante (più precisamente alla struttura \kstruct{file}, si ricordi +fig.~\ref{fig:file_dup}) e non è necessario usare +\const{EPOLL\_CTL\_DEL}. Questo non avviene qualora esso sia stato duplicato +(perché la suddetta struttura non viene disallocata) e si potranno ricevere +eventi ad esso relativi anche dopo che lo si è chiuso; per evitare +l'inconveniente è necessario rimuoverlo esplicitamente con +\const{EPOLL\_CTL\_DEL}. + +L'ultimo argomento, \param{event}, deve essere un puntatore ad una struttura +di tipo \struct{epoll\_event}, ed ha significato solo con le operazioni +\const{EPOLL\_CTL\_MOD} e \const{EPOLL\_CTL\_ADD}, per le quali serve ad +indicare quale tipo di evento relativo ad \param{fd} si vuole che sia tenuto +sotto controllo. L'argomento viene ignorato con l'operazione +\const{EPOLL\_CTL\_DEL}.\footnote{fino al kernel 2.6.9 era comunque richiesto + che questo fosse un puntatore valido, anche se poi veniva ignorato; a + partire dal 2.6.9 si può specificare anche un valore \val{NULL} ma se si + vuole mantenere la compatibilità con le versioni precedenti occorre usare un + puntatore valido.} + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{0.90\textwidth} + \includestruct{listati/epoll_event.h} + \end{minipage} + \normalsize + \caption{La struttura \structd{epoll\_event}, che consente di specificare + gli eventi associati ad un file descriptor controllato con + \textit{epoll}.} + \label{fig:epoll_event} +\end{figure} + +La struttura \struct{epoll\_event} è l'analoga di \struct{pollfd} e come +quest'ultima serve sia in ingresso (quando usata con \func{epoll\_ctl}) ad +impostare quali eventi osservare, che in uscita (nei risultati ottenuti con +\func{epoll\_wait}) per ricevere le notifiche degli eventi avvenuti. La sua +definizione è riportata in fig.~\ref{fig:epoll_event}. + +Il primo campo, \var{events}, è una maschera binaria in cui ciascun bit +corrisponde o ad un tipo di evento, o una modalità di notifica; detto campo +deve essere specificato come OR aritmetico delle costanti riportate in +tab.~\ref{tab:epoll_events}. Nella prima parte della tabella si sono indicate +le costanti che permettono di indicare il tipo di evento, che sono le +equivalenti delle analoghe di tab.~\ref{tab:file_pollfd_flags} per +\func{poll}. Queste sono anche quelle riportate nella struttura +\struct{epoll\_event} restituita da \func{epoll\_wait} per indicare il tipo di +evento presentatosi, insieme a quelle della seconda parte della tabella, che +vengono comunque riportate anche se non le si sono impostate con +\func{epoll\_ctl}. La terza parte della tabella contiene le costanti che +modificano le modalità di notifica. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|p{10cm}|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{EPOLLIN} & Il file è pronto per le operazioni di lettura + (analogo di \const{POLLIN}).\\ + \const{EPOLLOUT} & Il file è pronto per le operazioni di scrittura + (analogo di \const{POLLOUT}).\\ + \const{EPOLLRDHUP} & L'altro capo di un socket di tipo + \const{SOCK\_STREAM} (vedi sez.~\ref{sec:sock_type}) + ha chiuso la connessione o il capo in scrittura + della stessa (vedi + sez.~\ref{sec:TCP_shutdown}).\footnotemark\\ + \const{EPOLLPRI} & Ci sono dati urgenti disponibili in lettura (analogo + di \const{POLLPRI}); questa condizione viene comunque + riportata in uscita, e non è necessaria impostarla + in ingresso.\\ + \hline + \const{EPOLLERR} & Si è verificata una condizione di errore + (analogo di \const{POLLERR}); questa condizione + viene comunque riportata in uscita, e non è + necessaria impostarla in ingresso.\\ + \const{EPOLLHUP} & Si è verificata una condizione di hung-up; questa + condizione viene comunque riportata in uscita, e non + è necessaria impostarla in ingresso.\\ + \hline + \const{EPOLLET} & Imposta la notifica in modalità \textit{edge + triggered} per il file descriptor associato.\\ + \const{EPOLLONESHOT}& Imposta la modalità \textit{one-shot} per il file + descriptor associato (questa modalità è disponibile + solo a partire dal kernel 2.6.2).\\ + \const{EPOLLWAKEUP} & Attiva la prevenzione della sospensione del sistema + se il file descriptor che si è marcato con esso + diventa pronto (aggiunto a partire dal kernel 3.5), + può essere impostato solo dall'amministratore (o da + un processo con la capacità + \const{CAP\_BLOCK\_SUSPEND}).\\ + \hline + \end{tabular} + \caption{Costanti che identificano i bit del campo \param{events} di + \struct{epoll\_event}.} + \label{tab:epoll_events} +\end{table} + +\footnotetext{questa modalità è disponibile solo a partire dal kernel 2.6.17, + ed è utile per riconoscere la chiusura di una connessione dall'altro capo di + un socket quando si lavora in modalità \textit{edge triggered}.} + +Il secondo campo, \var{data}, è una \direct{union} che serve a identificare il +file descriptor a cui si intende fare riferimento, ed in astratto può +contenere un valore qualsiasi (specificabile in diverse forme) che ne permetta +una indicazione univoca. Il modo più comune di usarlo però è quello in cui si +specifica il terzo argomento di \func{epoll\_ctl} nella forma +\var{event.data.fd}, assegnando come valore di questo campo lo stesso valore +dell'argomento \param{fd}, cosa che permette una immediata identificazione del +file descriptor. + +% TODO verificare se prima o poi epoll_ctlv verrà introdotta + +Le impostazioni di default prevedono che la notifica degli eventi richiesti +sia effettuata in modalità \textit{level triggered}, a meno che sul file +descriptor non si sia impostata la modalità \textit{edge triggered}, +registrandolo con \const{EPOLLET} attivo nel campo \var{events}. + +Infine una particolare modalità di notifica è quella impostata con +\const{EPOLLONESHOT}: a causa dell'implementazione di \textit{epoll} infatti +quando si è in modalità \textit{edge triggered} l'arrivo in rapida successione +di dati in blocchi separati (questo è tipico con i socket di rete, in quanto i +dati arrivano a pacchetti) può causare una generazione di eventi (ad esempio +segnalazioni di dati in lettura disponibili) anche se la condizione è già +stata rilevata (si avrebbe cioè una rottura della logica \textit{edge + triggered}). + +Anche se la situazione è facile da gestire, la si può evitare utilizzando +\const{EPOLLONESHOT} per impostare la modalità \textit{one-shot}, in cui la +notifica di un evento viene effettuata una sola volta, dopo di che il file +descriptor osservato, pur restando nella lista di osservazione, viene +automaticamente disattivato (la cosa avviene contestualmente al ritorno di +\func{epoll\_wait} a causa dell'evento in questione) e per essere riutilizzato +dovrà essere riabilitato esplicitamente con una successiva chiamata con +\const{EPOLL\_CTL\_MOD}. + +Una volta impostato l'insieme di file descriptor che si vogliono osservare con +i relativi eventi, la funzione di sistema che consente di attendere +l'occorrenza di uno di tali eventi è \funcd{epoll\_wait}, il cui prototipo è: + +\begin{funcproto}{ +\fhead{sys/epoll.h} +\fdecl{int epoll\_wait(int epfd, struct epoll\_event * events, int maxevents, + int timeout)} + +\fdesc{Attende che uno dei file descriptor osservati sia pronto.} +} + +{La funzione ritorna il numero di file descriptor pronti in caso di successo e + $-1$ per un errore, nel qual caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] il file descriptor \param{epfd} non è valido. + \item[\errcode{EFAULT}] il puntatore \param{events} non è valido. + \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale prima + della scadenza di \param{timeout}. + \item[\errcode{EINVAL}] il file descriptor \param{epfd} non è stato ottenuto + con \func{epoll\_create}, o \param{maxevents} non è maggiore di zero. + \end{errlist} +} +\end{funcproto} + +La funzione si blocca in attesa di un evento per i file descriptor registrati +nella lista di osservazione di \param{epfd} fino ad un tempo massimo +specificato in millisecondi tramite l'argomento \param{timeout}. Gli eventi +registrati vengono riportati in un vettore di strutture \struct{epoll\_event} +(che deve essere stato allocato in precedenza) all'indirizzo indicato +dall'argomento \param{events}, fino ad un numero massimo di eventi impostato +con l'argomento \param{maxevents}. + +La funzione ritorna il numero di eventi rilevati, o un valore nullo qualora +sia scaduto il tempo massimo impostato con \param{timeout}. Per quest'ultimo, +oltre ad un numero di millisecondi, si può utilizzare il valore nullo, che +indica di non attendere e ritornare immediatamente (anche in questo caso il +valore di ritorno sarà nullo) o il valore $-1$, che indica un'attesa +indefinita. L'argomento \param{maxevents} dovrà invece essere sempre un intero +positivo. + +Come accennato la funzione restituisce i suoi risultati nel vettore di +strutture \struct{epoll\_event} puntato da \param{events}; in tal caso nel +campo \param{events} di ciascuna di esse saranno attivi i flag relativi agli +eventi accaduti, mentre nel campo \var{data} sarà restituito il valore che era +stato impostato per il file descriptor per cui si è verificato l'evento quando +questo era stato registrato con le operazioni \const{EPOLL\_CTL\_MOD} o +\const{EPOLL\_CTL\_ADD}, in questo modo il campo \var{data} consente di +identificare il file descriptor, ed è per questo che, come accennato, è +consuetudine usare per \var{data} il valore del file descriptor stesso. + +Si ricordi che le occasioni per cui \func{epoll\_wait} ritorna dipendono da +come si è impostata la modalità di osservazione (se \textit{level triggered} o +\textit{edge triggered}) del singolo file descriptor. L'interfaccia assicura +che se arrivano più eventi fra due chiamate successive ad \func{epoll\_wait} +questi vengano combinati. Inoltre qualora su un file descriptor fossero +presenti eventi non ancora notificati, e si effettuasse una modifica +dell'osservazione con \const{EPOLL\_CTL\_MOD}, questi verrebbero riletti alla +luce delle modifiche. + +Si tenga presente infine che con l'uso della modalità \textit{edge triggered} +il ritorno di \func{epoll\_wait} avviene solo quando il file descriptor ha +cambiato stato diventando pronto. Esso non sarà riportato nuovamente fino ad +un altro cambiamento di stato, per cui occorre assicurarsi di aver +completamente esaurito le operazioni su di esso. Questa condizione viene +generalmente rilevata dall'occorrere di un errore di \errcode{EAGAIN} al +ritorno di una \func{read} o una \func{write}, (è opportuno ricordare ancora +una volta che l'uso dell'\textit{I/O multiplexing} richiede di operare sui +file in modalità non bloccante) ma questa non è la sola modalità possibile, ad +esempio la condizione può essere riconosciuta anche per il fatto che sono +stati restituiti meno dati di quelli richiesti. + +Si tenga presente che in modalità \textit{edge triggered}, dovendo esaurire le +attività di I/O dei file descriptor risultati pronti per poter essere +rinotificati, la gestione elementare per cui li si trattano uno per uno in +sequenza può portare ad un effetto denominato \textit{starvation} +(``\textsl{carestia}''). Si rischia cioè di concentrare le operazioni sul +primo file descriptor che dispone di molti dati, prolungandole per tempi molto +lunghi con un ritardo che può risultare eccessivo nei confronti di quelle da +eseguire sugli altri che verrebbero dopo. Per evitare questo tipo di +problematiche viene consigliato di usare \func{epoll\_wait} per registrare un +elenco dei file descriptor da gestire, e di trattarli a turno in maniera più +equa. + +Come già per \func{select} e \func{poll} anche per l'interfaccia di +\textit{epoll} si pone il problema di gestire l'attesa di segnali e di dati +contemporaneamente. Valgono le osservazioni fatte in +sez.~\ref{sec:file_select}, e per poterlo fare di nuovo è necessaria una +variante della funzione di attesa che consenta di reimpostare all'uscita una +maschera di segnali, analoga alle estensioni \func{pselect} e \func{ppoll} che +abbiamo visto in precedenza per \func{select} e \func{poll}. In questo caso la +funzione di sistema si chiama \funcd{epoll\_pwait}\footnote{la funzione è + stata introdotta a partire dal kernel 2.6.19, ed è, come tutta l'interfaccia + di \textit{epoll}, specifica di Linux.} ed il suo prototipo è: + +\begin{funcproto}{ +\fhead{sys/epoll.h} +\fdecl{int epoll\_pwait(int epfd, struct epoll\_event * events, int maxevents, + int timeout, \\ +\phantom{int epoll\_pwait(}const sigset\_t *sigmask)} + +\fdesc{Attende che uno dei file descriptor osservati sia pronto, mascherando + i segnali.} } + +{La funzione ritorna il numero di file descriptor pronti in caso di successo e + $-1$ per un errore, nel qual caso \var{errno} assumerà uno dei valori già + visti con \funcd{epoll\_wait}. + +} +\end{funcproto} + +La funzione è del tutto analoga \funcd{epoll\_wait}, soltanto che alla sua +uscita viene ripristinata la maschera di segnali originale, sostituita durante +l'esecuzione da quella impostata con l'argomento \param{sigmask}; in sostanza +la chiamata a questa funzione è equivalente al seguente codice, eseguito però +in maniera atomica: +\includecodesnip{listati/epoll_pwait_means.c} + +Si tenga presente che come le precedenti funzioni di \textit{I/O multiplexing} +anche le funzioni dell'interfaccia di \textit{epoll} vengono utilizzate +prevalentemente con i server di rete, quando si devono tenere sotto +osservazione un gran numero di socket; per questo motivo rimandiamo anche in +questo caso la trattazione di un esempio concreto a quando avremo esaminato in +dettaglio le caratteristiche dei socket; in particolare si potrà trovare un +programma che utilizza questa interfaccia in sez.~\ref{sec:TCP_serv_epoll}. + +\itindend{epoll} + + +\subsection{La notifica di eventi tramite file descriptor} +\label{sec:sig_signalfd_eventfd} + +Abbiamo visto in sez.~\ref{sec:file_select} come il meccanismo classico delle +notifiche di eventi tramite i segnali, presente da sempre nei sistemi +unix-like, porti a notevoli problemi nell'interazione con le funzioni per +l'\textit{I/O multiplexing}, tanto che per evitare possibili \textit{race + condition} sono state introdotte estensioni dello standard POSIX e funzioni +apposite come \func{pselect}, \func{ppoll} e \funcd{epoll\_pwait}. + +Benché i segnali siano il meccanismo più usato per effettuare notifiche ai +processi, la loro interfaccia di programmazione, che comporta l'esecuzione di +una funzione di gestione in maniera asincrona e totalmente scorrelata +dall'ordinario flusso di esecuzione del processo, si è però dimostrata quasi +subito assai problematica. Oltre ai limiti relativi ai limiti al cosa si può +fare all'interno della funzione del gestore di segnali (quelli illustrati in +sez.~\ref{sec:sig_signal_handler}), c'è il problema più generale consistente +nel fatto che questa modalità di funzionamento cozza con altre interfacce di +programmazione previste dal sistema in cui si opera in maniera +\textsl{sincrona}, come quelle dell'\textit{I/O multiplexing} appena +illustrate. + +In questo tipo di interfacce infatti ci si aspetta che il processo gestisca +gli eventi a cui deve reagire in maniera sincrona generando le opportune +risposte, mentre con l'arrivo di un segnale si possono avere interruzioni +asincrone in qualunque momento. Questo comporta la necessità di dover +gestire, quando si deve tener conto di entrambi i tipi di eventi, le +interruzioni delle funzioni di attesa sincrone, ed evitare possibili +\textit{race conditions}. In sostanza se non ci fossero i segnali non ci +sarebbe da preoccuparsi, fintanto che si effettuano operazioni all'interno di +un processo, della non atomicità delle \index{system~call~lente} +\textit{system call} lente che vengono interrotte e devono essere riavviate. + +Abbiamo visto però in sez.~\ref{sec:sig_real_time} che insieme ai segnali +\textit{real-time} sono state introdotte anche delle interfacce di gestione +sincrona dei segnali, con la funzione \func{sigwait} e le sue affini. Queste +funzioni consentono di gestire i segnali bloccando un processo fino alla +avvenuta ricezione e disabilitando l'esecuzione asincrona rispetto al resto +del programma del gestore del segnale. Questo consente di risolvere i problemi +di atomicità nella gestione degli eventi associati ai segnali, avendo tutto il +controllo nel flusso principale del programma, ottenendo così una gestione +simile a quella dell'\textit{I/O multiplexing}, ma non risolve i problemi +delle interazioni con quest'ultimo, perché o si aspetta la ricezione di un +segnale o si aspetta che un file descriptor sia accessibile e nessuna delle +rispettive funzioni consente di fare contemporaneamente entrambe le cose. + +Per risolvere questo problema nello sviluppo del kernel si è pensato di +introdurre un meccanismo alternativo per la notifica dei segnali (esteso anche +ad altri eventi generici) che, ispirandosi di nuovo alla filosofia di Unix per +cui tutto è un file, consentisse di eseguire la notifica con l'uso di +opportuni file descriptor. Ovviamente si tratta di una funzionalità specifica +di Linux, non presente in altri sistemi unix-like, e non prevista da nessuno +standard, per cui va evitata se si ha a cuore la portabilità. + +In sostanza, come per \func{sigwait}, si può disabilitare l'esecuzione di un +gestore in occasione dell'arrivo di un segnale, e rilevarne l'avvenuta +ricezione leggendone la notifica tramite l'uso di uno speciale file +descriptor. Trattandosi di un file descriptor questo potrà essere tenuto sotto +osservazione con le ordinarie funzioni dell'\textit{I/O multiplexing} (vale a +dire con le solite \func{select}, \func{poll} e \funcd{epoll\_wait}) allo +stesso modo di quelli associati a file o socket, per cui alla fine si potrà +attendere in contemporanea sia l'arrivo del segnale che la disponibilità di +accesso ai dati relativi a questi ultimi. + +La funzione di sistema che permette di abilitare la ricezione dei segnali +tramite file descriptor è \funcd{signalfd},\footnote{in realtà quella + riportata è l'interfaccia alla funzione fornita dalle \acr{glibc}, esistono + infatti due versioni diverse della \textit{system call}; una prima versione, + \func{signalfd}, introdotta nel kernel 2.6.22 e disponibile con le + \acr{glibc} 2.8 che non supporta l'argomento \texttt{flags}, ed una seconda + versione, \funcm{signalfd4}, introdotta con il kernel 2.6.27 e che è quella + che viene sempre usata a partire dalle \acr{glibc} 2.9, che prende un + argomento aggiuntivo \code{size\_t sizemask} che indica la dimensione della + maschera dei segnali, il cui valore viene impostato automaticamente dalle + \acr{glibc}.} il cui prototipo è: + +\begin{funcproto}{ +\fhead{sys/signalfd.h} +\fdecl{int signalfd(int fd, const sigset\_t *mask, int flags)} + +\fdesc{Crea o modifica un file descriptor per la ricezione dei segnali.} +} + +{La funzione ritorna un numero di file descriptor in caso di successo e $-1$ + per un errore, nel qual caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] il valore \param{fd} non indica un file descriptor. + \item[\errcode{EINVAL}] il file descriptor \param{fd} non è stato ottenuto + con \func{signalfd} o il valore di \param{flags} non è valido. + \item[\errcode{ENODEV}] il kernel non può montare internamente il + dispositivo per la gestione anonima degli \textit{inode} + associati al file descriptor. + \item[\errcode{ENOMEM}] non c'è memoria sufficiente per creare un nuovo file + descriptor di \func{signalfd}. + \end{errlist} + ed inoltre \errval{EMFILE} e \errval{ENFILE} nel loro significato generico. + +} +\end{funcproto} + +La funzione consente di creare o modificare le caratteristiche di un file +descriptor speciale su cui ricevere le notifiche della ricezione di +segnali. Per creare ex-novo uno di questi file descriptor è necessario passare +$-1$ come valore per l'argomento \param{fd}, ogni altro valore positivo verrà +invece interpretato come il numero del file descriptor (che deve esser stato +precedentemente creato sempre con \func{signalfd}) di cui si vogliono +modificare le caratteristiche. Nel primo caso la funzione ritornerà il valore +del nuovo file descriptor e nel secondo caso il valore indicato +con \param{fd}, in caso di errore invece verrà restituito $-1$. + +L'elenco dei segnali che si vogliono gestire con \func{signalfd} deve essere +specificato tramite l'argomento \param{mask}. Questo deve essere passato come +puntatore ad una maschera di segnali creata con l'uso delle apposite macro già +illustrate in sez.~\ref{sec:sig_sigset}. La maschera deve indicare su quali +segnali si intende operare con \func{signalfd}; l'elenco può essere modificato +con una successiva chiamata a \func{signalfd}. Dato che \signal{SIGKILL} e +\signal{SIGSTOP} non possono essere intercettati (e non prevedono neanche la +possibilità di un gestore) un loro inserimento nella maschera verrà ignorato +senza generare errori. + +L'argomento \param{flags} consente di impostare direttamente in fase di +creazione due flag per il file descriptor analoghi a quelli che si possono +impostare con una creazione ordinaria con \func{open}, evitando una +impostazione successiva con \func{fcntl} (si ricordi che questo è un argomento +aggiuntivo, introdotto con la versione fornita a partire dal kernel 2.6.27, +per kernel precedenti il valore deve essere nullo). L'argomento deve essere +specificato come maschera binaria dei valori riportati in +tab.~\ref{tab:signalfd_flags}. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|p{8cm}|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{SFD\_NONBLOCK}& imposta sul file descriptor il flag di + \const{O\_NONBLOCK} per renderlo non bloccante.\\ + \const{SFD\_CLOEXEC}& imposta il flag di \const{O\_CLOEXEC} per la + chiusura automatica del file descriptor nella + esecuzione di \func{exec}.\\ + \hline + \end{tabular} + \caption{Valori dell'argomento \param{flags} per la funzione \func{signalfd} + che consentono di impostare i flag del file descriptor.} + \label{tab:signalfd_flags} +\end{table} + +Si tenga presente che la chiamata a \func{signalfd} non disabilita la gestione +ordinaria dei segnali indicati da \param{mask}; questa, se si vuole effettuare +la ricezione tramite il file descriptor, dovrà essere disabilitata +esplicitamente bloccando gli stessi segnali con \func{sigprocmask}, altrimenti +verranno comunque eseguite le azioni di default (o un eventuale gestore +installato in precedenza). Il blocco non ha invece nessun effetto sul file +descriptor restituito da \func{signalfd}, dal quale sarà possibile pertanto +ricevere qualunque segnale, anche se questo risultasse bloccato. + +Si tenga presente inoltre che la lettura di una struttura +\struct{signalfd\_siginfo} relativa ad un segnale pendente è equivalente alla +esecuzione di un gestore, vale a dire che una volta letta il segnale non sarà +più pendente e non potrà essere ricevuto, qualora si ripristino le normali +condizioni di gestione, né da un gestore, né dalla funzione \func{sigwaitinfo}. + +Come anticipato, essendo questo lo scopo principale della nuova interfaccia, +il file descriptor può essere tenuto sotto osservazione tramite le funzioni +dell'\textit{I/O multiplexing} (vale a dire con le solite \func{select}, +\func{poll} e \funcd{epoll\_wait}), e risulterà accessibile in lettura quando +uno o più dei segnali indicati tramite \param{mask} sarà pendente. + +La funzione può essere chiamata più volte dallo stesso processo, consentendo +così di tenere sotto osservazione segnali diversi tramite file descriptor +diversi. Inoltre è anche possibile tenere sotto osservazione lo stesso segnale +con più file descriptor, anche se la pratica è sconsigliata; in tal caso la +ricezione del segnale potrà essere effettuata con una lettura da uno qualunque +dei file descriptor a cui è associato, ma questa potrà essere eseguita +soltanto una volta. Questo significa che tutti i file descriptor su cui è +presente lo stesso segnale risulteranno pronti in lettura per le funzioni di +\textit{I/O multiplexing}, ma una volta eseguita la lettura su uno di essi il +segnale sarà considerato ricevuto ed i relativi dati non saranno più +disponibili sugli altri file descriptor, che (a meno di una ulteriore +occorrenza del segnale nel frattempo) di non saranno più pronti. + +Quando il file descriptor per la ricezione dei segnali non serve più potrà +essere chiuso con \func{close} liberando tutte le risorse da esso allocate. In +tal caso qualora vi fossero segnali pendenti questi resteranno tali, e +potranno essere ricevuti normalmente una volta che si rimuova il blocco +imposto con \func{sigprocmask}. + +Oltre che con le funzioni dell'\textit{I/O multiplexing} l'uso del file +descriptor restituito da \func{signalfd} cerca di seguire la semantica di un +sistema unix-like anche con altre \textit{system call}; in particolare esso +resta aperto (come ogni altro file descriptor) attraverso una chiamata ad +\func{exec}, a meno che non lo si sia creato con il flag di +\const{SFD\_CLOEXEC} o si sia successivamente impostato il +\textit{close-on-exec} con \func{fcntl}. Questo comportamento corrisponde +anche alla ordinaria semantica relativa ai segnali bloccati, che restano +pendenti attraverso una \func{exec}. + +Analogamente il file descriptor resta sempre disponibile attraverso una +\func{fork} per il processo figlio, che ne riceve una copia; in tal caso però +il figlio potrà leggere dallo stesso soltanto i dati relativi ai segnali +ricevuti da lui stesso. Nel caso di \textit{thread} viene nuovamente seguita +la semantica ordinaria dei segnali, che prevede che un singolo \textit{thread} +possa ricevere dal file descriptor solo le notifiche di segnali inviati +direttamente a lui o al processo in generale, e non quelli relativi ad altri +\textit{thread} appartenenti allo stesso processo. + +L'interfaccia fornita da \func{signalfd} prevede che la ricezione dei segnali +sia eseguita leggendo i dati relativi ai segnali pendenti dal file descriptor +restituito dalla funzione con una normalissima \func{read}. Qualora non vi +siano segnali pendenti la \func{read} si bloccherà a meno di non aver +impostato la modalità di I/O non bloccante sul file descriptor, o direttamente +in fase di creazione con il flag \const{SFD\_NONBLOCK}, o in un momento +successivo con \func{fcntl}. + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{0.90\textwidth} + \includestruct{listati/signalfd_siginfo.h} + \end{minipage} + \normalsize + \caption{La struttura \structd{signalfd\_siginfo}, restituita in lettura da + un file descriptor creato con \func{signalfd}.} + \label{fig:signalfd_siginfo} +\end{figure} + +I dati letti dal file descriptor vengono scritti sul buffer indicato come +secondo argomento di \func{read} nella forma di una sequenza di una o più +strutture \struct{signalfd\_siginfo} (la cui definizione si è riportata in +fig.~\ref{fig:signalfd_siginfo}) a seconda sia della dimensione del buffer che +del numero di segnali pendenti. Per questo motivo il buffer deve essere almeno +di dimensione pari a quella di \struct{signalfd\_siginfo}, qualora sia di +dimensione maggiore potranno essere letti in unica soluzione i dati relativi +ad eventuali più segnali pendenti, fino al numero massimo di strutture +\struct{signalfd\_siginfo} che possono rientrare nel buffer. + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{\codesamplewidth} + \includecodesample{listati/FifoReporter-init.c} + \end{minipage} + \normalsize + \caption{Sezione di inizializzazione del codice del programma + \file{FifoReporter.c}.} + \label{fig:fiforeporter_code_init} +\end{figure} + +Il contenuto di \struct{signalfd\_siginfo} ricalca da vicino quella della +analoga struttura \struct{siginfo\_t} (illustrata in +fig.~\ref{fig:sig_siginfo_t}) usata dall'interfaccia ordinaria dei segnali, e +restituisce dati simili. Come per \struct{siginfo\_t} i campi che vengono +avvalorati dipendono dal tipo di segnale e ricalcano i valori che abbiamo già +illustrato in sez.~\ref{sec:sig_sigaction}.\footnote{si tenga presente però + che per un bug i kernel fino al 2.6.25 non avvalorano correttamente i campi + \var{ssi\_ptr} e \var{ssi\_int} per segnali inviati con \func{sigqueue}.} + +Come esempio di questa nuova interfaccia ed anche come esempio di applicazione +della interfaccia di \textit{epoll}, si è scritto un programma elementare che +stampi sullo \textit{standard output} sia quanto viene scritto da terzi su una +\textit{named fifo}, che l'avvenuta ricezione di alcuni segnali. Il codice +completo si trova al solito nei sorgenti allegati alla guida (nel file +\texttt{FifoReporter.c}). + +In fig.~\ref{fig:fiforeporter_code_init} si è riportata la parte iniziale del +programma in cui vengono effettuate le varie inizializzazioni necessarie per +l'uso di \textit{epoll} e \func{signalfd}, a partire (\texttt{\small 12-16}) +dalla definizione delle varie variabili e strutture necessarie. Al solito si è +tralasciata la parte dedicata alla decodifica delle opzioni che consentono ad +esempio di cambiare il nome del file associato alla \textit{fifo}. + +Il primo passo (\texttt{\small 19-20}) è la creazione di un file descriptor +\texttt{epfd} di \textit{epoll} con \func{epoll\_create} che è quello che +useremo per il controllo degli altri. É poi necessario disabilitare la +ricezione dei segnali (nel caso \signal{SIGINT}, \signal{SIGQUIT} e +\signal{SIGTERM}) per i quali si vuole la notifica tramite file +descriptor. Per questo prima li si inseriscono (\texttt{\small 22-25}) in una +maschera di segnali \texttt{sigmask} che useremo con (\texttt{\small 26}) +\func{sigprocmask} per disabilitarli. Con la stessa maschera si potrà per +passare all'uso (\texttt{\small 28-29}) di \func{signalfd} per abilitare la +notifica sul file descriptor \var{sigfd}. Questo poi (\texttt{\small 30-33}) +dovrà essere aggiunto con \func{epoll\_ctl} all'elenco di file descriptor +controllati con \texttt{epfd}. + +Occorrerà infine (\texttt{\small 35-38}) creare la \textit{named fifo} se +questa non esiste ed aprirla per la lettura (\texttt{\small 39-40}); una volta +fatto questo sarà necessario aggiungere il relativo file descriptor +(\var{fifofd}) a quelli osservati da \textit{epoll} in maniera del tutto +analoga a quanto fatto con quello relativo alla notifica dei segnali. + +\begin{figure}[!htb] + \footnotesize \centering + \begin{minipage}[c]{\codesamplewidth} + \includecodesample{listati/FifoReporter-main.c} + \end{minipage} + \normalsize + \caption{Ciclo principale del codice del programma \file{FifoReporter.c}.} + \label{fig:fiforeporter_code_body} +\end{figure} + +Una volta completata l'inizializzazione verrà eseguito indefinitamente il +ciclo principale del programma (\texttt{\small 2-45}) che si è riportato in +fig.~\ref{fig:fiforeporter_code_body}, fintanto che questo non riceva un +segnale di \signal{SIGINT} (ad esempio con la pressione di \texttt{C-c}). Il +ciclo prevede che si attenda (\texttt{\small 2-3}) la presenza di un file +descriptor pronto in lettura con \func{epoll\_wait} (si ricordi che entrambi i +file descriptor \var{fifofd} e \var{sigfd} sono stati posti in osservazioni +per eventi di tipo \const{EPOLLIN}) che si bloccherà fintanto che non siano +stati scritti dati sulla \textit{fifo} o che non sia arrivato un +segnale.\footnote{per semplificare il codice non si è trattato il caso in cui + \func{epoll\_wait} viene interrotta da un segnale, assumendo che tutti + quelli che possano interessare siano stati predisposti per la notifica + tramite file descriptor, per gli altri si otterrà semplicemente l'uscita dal + programma.} + +Anche se in questo caso i file descriptor pronti possono essere al più due, si +è comunque adottato un approccio generico in cui questi verranno letti +all'interno di un opportuno ciclo (\texttt{\small 5-44}) sul numero +restituito da \func{epoll\_wait}, esaminando i risultati presenti nel vettore +\var{events} all'interno di una catena di condizionali alternativi sul valore +del file descriptor riconosciuto come pronto, controllando cioè a quale dei +due file descriptor possibili corrisponde il campo relativo, +\var{events[i].data.fd}. + +Il primo condizionale (\texttt{\small 6-24}) è relativo al caso che si sia +ricevuto un segnale e che il file descriptor pronto corrisponda +(\texttt{\small 6}) a \var{sigfd}. Dato che in generale si possono ricevere +anche notifiche relativi a più di un singolo segnale, si è scelto di leggere +una struttura \struct{signalfd\_siginfo} alla volta, eseguendo la lettura +all'interno di un ciclo (\texttt{\small 8-24}) che prosegue fintanto che vi +siano dati da leggere. + +Per questo ad ogni lettura si esamina (\texttt{\small 9-14}) se il valore di +ritorno della funzione \func{read} è negativo, uscendo dal programma +(\texttt{\small 11}) in caso di errore reale, o terminando il ciclo +(\texttt{\small 13}) con un \texttt{break} qualora si ottenga un errore di +\errcode{EAGAIN} per via dell'esaurimento dei dati. Si ricordi infatti come +sia la \textit{fifo} che il file descriptor per i segnali siano stati aperti in +modalità non-bloccante, come previsto per l’\textit{I/O multiplexing}, +pertanto ci si aspetta di ricevere un errore di \errcode{EAGAIN} quando non vi +saranno più dati da leggere. + +In presenza di dati invece il programma proseguirà l'esecuzione stampando +(\texttt{\small 19-20}) il nome del segnale ottenuto all'interno della +struttura \struct{signalfd\_siginfo} letta in \var{siginf} ed il \textit{pid} +del processo da cui lo ha ricevuto;\footnote{per la stampa si è usato il + vettore \var{sig\_names} a ciascun elemento del quale corrisponde il nome + del segnale avente il numero corrispondente, la cui definizione si è omessa + dal codice di fig.~\ref{fig:fiforeporter_code_init} per brevità.} inoltre +(\texttt{\small 21-24}) si controllerà anche se il segnale ricevuto è +\signal{SIGINT}, che si è preso come segnale da utilizzare per la terminazione +del programma, che verrà eseguita dopo aver rimosso il file della \textit{name + fifo}. + +Il secondo condizionale (\texttt{\small 26-39}) è invece relativo al caso in +cui ci siano dati pronti in lettura sulla \textit{fifo} e che il file +descriptor pronto corrisponda (\texttt{\small 26}) a \var{fifofd}. Di nuovo si +effettueranno le letture in un ciclo (\texttt{\small 28-39}) ripetendole fin +tanto che la funzione \func{read} non restituisce un errore di +\errcode{EAGAIN} (\texttt{\small 29-35}). Il procedimento è lo stesso adottato +per il file descriptor associato al segnale, in cui si esce dal programma in +caso di errore reale, in questo caso però alla fine dei dati prima di uscire +si stampa anche (\texttt{\small 32}) un messaggio di chiusura. + +Se invece vi sono dati validi letti dalla \textit{fifo} si inserirà +(\texttt{\small 36}) una terminazione di stringa sul buffer e si stamperà il +tutto (\texttt{\small 37-38}) sullo \textit{standard output}. L'ultimo +condizionale (\texttt{\small 40-44}) è semplicemente una condizione di cattura +per una eventualità che comunque non dovrebbe mai verificarsi, e che porta +alla uscita dal programma con una opportuna segnalazione di errore. + +A questo punto si potrà eseguire il comando lanciandolo su un terminale, ed +osservarne le reazioni agli eventi generati da un altro terminale; lanciando +il programma otterremo qualcosa del tipo: +\begin{Console} +piccardi@hain:~/gapil/sources$ \textbf{./a.out} +FifoReporter starting, pid 4568 +\end{Console} +%$ +e scrivendo qualcosa sull'altro terminale con: +\begin{Console} +root@hain:~# \textbf{echo prova > /tmp/reporter.fifo} +\end{Console} +si otterrà: +\begin{Console} +Message from fifo: +prova +end message +\end{Console} +mentre inviando un segnale: +\begin{Console} +root@hain:~# \textbf{kill 4568} +\end{Console} +si avrà: +\begin{Console} +Signal received: +Got SIGTERM +From pid 3361 +\end{Console} +ed infine premendo \texttt{C-\bslash} sul terminale in cui è in esecuzione si +vedrà: +\begin{Console} +^\\Signal received: +Got SIGQUIT +From pid 0 +\end{Console} +e si potrà far uscire il programma con \texttt{C-c} ottenendo: +\begin{Console} +^CSignal received: +Got SIGINT +From pid 0 +SIGINT means exit +\end{Console} + +Lo stesso paradigma di notifica tramite file descriptor usato per i segnali è +stato adottato anche per i timer. In questo caso, rispetto a quanto visto in +sez.~\ref{sec:sig_timer_adv}, la scadenza di un timer potrà essere letta da un +file descriptor senza dover ricorrere ad altri meccanismi di notifica come un +segnale o un \textit{thread}. Di nuovo questo ha il vantaggio di poter +utilizzare le funzioni dell'\textit{I/O multiplexing} per attendere allo +stesso tempo la disponibilità di dati o la ricezione della scadenza di un +timer. In realtà per questo sarebbe già sufficiente \func{signalfd} per +ricevere i segnali associati ai timer, ma la nuova interfaccia semplifica +notevolmente la gestione e consente di fare tutto con una sola \textit{system + call}. + +Le funzioni di questa nuova interfaccia ricalcano da vicino la struttura delle +analoghe versioni ordinarie introdotte con lo standard POSIX.1-2001, che +abbiamo già illustrato in sez.~\ref{sec:sig_timer_adv}.\footnote{questa + interfaccia è stata introdotta in forma considerata difettosa con il kernel + 2.6.22, per cui è stata immediatamente tolta nel successivo 2.6.23 e + reintrodotta in una forma considerata adeguata nel kernel 2.6.25, il + supporto nelle \acr{glibc} è stato introdotto a partire dalla versione + 2.8.6, la versione del kernel 2.6.22, presente solo su questo kernel, non è + supportata e non deve essere usata.} La prima funzione di sistema prevista, +quella che consente di creare un timer, è \funcd{timerfd\_create}, il cui +prototipo è: + +\begin{funcproto}{ +\fhead{sys/timerfd.h} +\fdecl{int timerfd\_create(int clockid, int flags)} + +\fdesc{Crea un timer associato ad un file descriptor di notifica.} +} + +{La funzione ritorna un numero di file descriptor in caso di successo e $-1$ + per un errore, nel qual caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EINVAL}] l'argomento \param{clockid} non è + \const{CLOCK\_MONOTONIC} o \const{CLOCK\_REALTIME}, o + l'argomento \param{flag} non è valido, o è diverso da zero per kernel + precedenti il 2.6.27. + \item[\errcode{ENODEV}] il kernel non può montare internamente il + dispositivo per la gestione anonima degli \textit{inode} associati al file + descriptor. + \item[\errcode{ENOMEM}] non c'è memoria sufficiente per creare un nuovo file + descriptor di \func{signalfd}. + \end{errlist} + ed inoltre \errval{EMFILE} e \errval{ENFILE} nel loro significato generico. +} +\end{funcproto} + +La funzione prende come primo argomento un intero che indica il tipo di +orologio a cui il timer deve fare riferimento, i valori sono gli stessi delle +funzioni dello standard POSIX-1.2001 già illustrati in +tab.~\ref{tab:sig_timer_clockid_types}, ma al momento i soli utilizzabili sono +\const{CLOCK\_REALTIME} e \const{CLOCK\_MONOTONIC}. L'argomento \param{flags}, +come l'analogo di \func{signalfd}, consente di impostare i flag per l'I/O non +bloccante ed il \textit{close-on-exec} sul file descriptor +restituito,\footnote{il flag è stato introdotto a partire dal kernel 2.6.27, + per le versioni precedenti deve essere passato un valore nullo.} e deve +essere specificato come una maschera binaria delle costanti riportate in +tab.~\ref{tab:timerfd_flags}. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|p{8cm}|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{TFD\_NONBLOCK}& imposta sul file descriptor il flag di + \const{O\_NONBLOCK} per renderlo non bloccante.\\ + \const{TFD\_CLOEXEC}& imposta il flag di \const{O\_CLOEXEC} per la + chiusura automatica del file descriptor nella + esecuzione di \func{exec}.\\ + \hline + \end{tabular} + \caption{Valori dell'argomento \param{flags} per la funzione + \func{timerfd\_create} che consentono di impostare i flag del file + descriptor.} + \label{tab:timerfd_flags} +\end{table} + +In caso di successo la funzione restituisce un file descriptor sul quale +verranno notificate le scadenze dei timer. Come per quelli restituiti da +\func{signalfd} anche questo file descriptor segue la semantica dei sistemi +unix-like, in particolare resta aperto attraverso una \func{exec} (a meno che +non si sia impostato il flag di \textit{close-on exec} con +\const{TFD\_CLOEXEC}) e viene duplicato attraverso una \func{fork}; questa +ultima caratteristica comporta però che anche il figlio può utilizzare i dati +di un timer creato nel padre, a differenza di quanto avviene invece con i +timer impostati con le funzioni ordinarie. Si ricordi infatti che, come +illustrato in sez.~\ref{sec:proc_fork}, allarmi, timer e segnali pendenti nel +padre vengono cancellati per il figlio dopo una \func{fork}. + +Una volta creato il timer con \func{timerfd\_create} per poterlo utilizzare +occorre \textsl{armarlo} impostandone un tempo di scadenza ed una eventuale +periodicità di ripetizione, per farlo si usa una funzione di sistema omologa +di \func{timer\_settime} per la nuova interfaccia; questa è +\funcd{timerfd\_settime} ed il suo prototipo è: + +\begin{funcproto}{ +\fhead{sys/timerfd.h} +\fdecl{int timerfd\_settime(int fd, int flags, + const struct itimerspec *new\_value,\\ +\phantom{int timerfd\_settime(}struct itimerspec *old\_value)} + +\fdesc{Arma un timer associato ad un file descriptor di notifica.} +} + +{La funzione ritorna un numero di file descriptor in caso di successo e $-1$ + per un errore, nel qual caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] l'argomento \param{fd} non corrisponde ad un file + descriptor. + \item[\errcode{EFAULT}] o \param{new\_value} o \param{old\_value} non sono + puntatori validi. + \item[\errcode{EINVAL}] il file descriptor \param{fd} non è stato ottenuto + con \func{timerfd\_create}, o i valori di \param{flag} o dei campi + \var{tv\_nsec} in \param{new\_value} non sono validi. + \end{errlist} +} +\end{funcproto} + +In questo caso occorre indicare su quale timer si intende operare specificando +come primo argomento il file descriptor ad esso associato, che deve essere +stato ottenuto da una precedente chiamata a \func{timerfd\_create}. I restanti +argomenti sono del tutto analoghi a quelli della omologa funzione +\func{timer\_settime}, e prevedono l'uso di strutture \struct{itimerspec} +(vedi fig.~\ref{fig:struct_itimerspec}) per le indicazioni di temporizzazione. + +I valori ed il significato di questi argomenti sono gli stessi che sono già +stati illustrati in dettaglio in sez.~\ref{sec:sig_timer_adv} e non staremo a +ripetere quanto detto in quell'occasione; per brevità si ricordi che +con \param{new\_value.it\_value} si indica la prima scadenza del timer e +con \param{new\_value.it\_interval} la sua periodicità. L'unica differenza +riguarda l'argomento \param{flags} che serve sempre ad indicare se il tempo di +scadenza del timer è da considerarsi relativo o assoluto rispetto al valore +corrente dell'orologio associato al timer, ma che in questo caso ha come +valori possibili rispettivamente soltanto $0$ e \const{TFD\_TIMER\_ABSTIME} +(l'analogo di \const{TIMER\_ABSTIME}). + +L'ultima funzione di sistema prevista dalla nuova interfaccia è +\funcd{timerfd\_gettime}, che è l'analoga di \func{timer\_gettime}, il suo +prototipo è: + +\begin{funcproto}{ +\fhead{sys/timerfd.h} +\fdecl{int timerfd\_gettime(int fd, struct itimerspec *curr\_value)} + +\fdesc{Legge l'impostazione di un timer associato ad un file descriptor di + notifica.} +} + +{La funzione ritorna un numero di file descriptor in caso di successo e $-1$ + per un errore, nel qual caso \var{errno} assumerà uno dei valori: + \begin{errlist} + \item[\errcode{EBADF}] l'argomento \param{fd} non corrisponde ad un file + descriptor. + \item[\errcode{EINVAL}] il file descriptor \param{fd} non è stato ottenuto + con \func{timerfd\_create}. + \item[\errcode{EFAULT}] o \param{curr\_value} non è un puntatore valido. + \end{errlist} +} +\end{funcproto} + +La funzione consente di rileggere le impostazioni del timer associato al file +descriptor \param{fd} nella struttura \struct{itimerspec} puntata +da \param{curr\_value}. Il campo \var{it\_value} riporta il tempo rimanente +alla prossima scadenza del timer, che viene sempre espresso in forma relativa, +anche se lo si è armato specificando \const{TFD\_TIMER\_ABSTIME}. Un valore +nullo (di entrambi i campi di \var{it\_value}) indica invece che il timer non +è stato ancora armato. Il campo \var{it\_interval} riporta la durata +dell'intervallo di ripetizione del timer, ed un valore nullo (di entrambi i +campi) indica che il timer è stato impostato per scadere una sola volta. + +Il timer creato con \func{timerfd\_create} notificherà la sua scadenza +rendendo pronto per la lettura il file descriptor ad esso associato, che +pertanto potrà essere messo sotto controllo con una qualunque delle varie +funzioni dell'I/O multiplexing viste in precedenza. Una volta che il file +descriptor risulta pronto sarà possibile leggere il numero di volte che il +timer è scaduto con una ordinaria \func{read}. + +La funzione legge il valore in un dato di tipo \type{uint64\_t}, e necessita +pertanto che le si passi un buffer di almeno 8 byte, fallendo con +\errval{EINVAL} in caso contrario, in sostanza la lettura deve essere +effettuata con una istruzione del tipo: +\includecodesnip{listati/readtimerfd.c} + +Il valore viene restituito da \func{read} seguendo l'ordinamento dei bit +(\textit{big-endian} o \textit{little-endian}) nativo della macchina in uso, +ed indica il numero di volte che il timer è scaduto dall'ultima lettura +eseguita con successo, o, se lo si legge per la prima volta, da quando lo si è +impostato con \func{timerfd\_settime}. Se il timer non è scaduto la funzione +si blocca fino alla prima scadenza, a meno di non aver creato il file +descriptor in modalità non bloccante con \const{TFD\_NONBLOCK} o aver +impostato la stessa con \func{fcntl}, nel qual caso fallisce con l'errore di +\errval{EAGAIN}. + + +% TODO trattare qui eventfd introdotto con il 2.6.22 + + +\section{L'accesso \textsl{asincrono} ai file} +\label{sec:file_asyncronous_operation} + +Benché l'\textit{I/O multiplexing} sia stata la prima, e sia tutt'ora una fra +le più diffuse modalità di gestire l'I/O in situazioni complesse in cui si +debba operare su più file contemporaneamente, esistono altre modalità di +gestione delle stesse problematiche. In particolare sono importanti in questo +contesto le modalità di accesso ai file eseguibili in maniera +\textsl{asincrona}, quelle cioè in cui un processo non deve bloccarsi in +attesa della disponibilità dell'accesso al file, ma può proseguire +nell'esecuzione utilizzando invece un meccanismo di notifica asincrono (di +norma un segnale, ma esistono anche altre interfacce, come \itindex{inotify} +\textit{inotify}), per essere avvisato della possibilità di eseguire le +operazioni di I/O volute. + + +\subsection{Il \textit{Signal driven I/O}} +\label{sec:signal_driven_io} + +\itindbeg{signal~driven~I/O} + +Abbiamo accennato in sez.~\ref{sec:file_open_close} che è definito un flag +\const{O\_ASYNC}, che consentirebbe di aprire un file in modalità asincrona, +anche se in realtà è opportuno attivare in un secondo tempo questa modalità +impostando questo flag attraverso l'uso di \func{fcntl} con il comando +\const{F\_SETFL} (vedi sez.~\ref{sec:file_fcntl_ioctl}).\footnote{l'uso del + flag di \const{O\_ASYNC} e dei comandi \const{F\_SETOWN} e \const{F\_GETOWN} + per \func{fcntl} è specifico di Linux e BSD.} In realtà parlare di apertura +in modalità asincrona non significa che le operazioni di lettura o scrittura +del file vengono eseguite in modo asincrono (tratteremo questo, che è ciò che +più propriamente viene chiamato \textsl{I/O asincrono}, in +sez.~\ref{sec:file_asyncronous_io}), quanto dell'attivazione un meccanismo di +notifica asincrona delle variazione dello stato del file descriptor aperto in +questo modo. + +Quello che succede è che per tutti i file posti in questa modalità il sistema +genera un apposito segnale, \signal{SIGIO}, tutte le volte che diventa +possibile leggere o scrivere dal file descriptor; si tenga presente però che +essa non è utilizzabile con i file ordinari ma solo con socket, file di +terminale o pseudo terminale, ed anche, a partire dal kernel 2.6, per +\textit{fifo} e \textit{pipe}. Inoltre è possibile, come illustrato in +sez.~\ref{sec:file_fcntl_ioctl}, selezionare con il comando \const{F\_SETOWN} +di \func{fcntl} quale processo o quale gruppo di processi dovrà ricevere il +segnale. In questo modo diventa possibile effettuare le operazioni di I/O in +risposta alla ricezione del segnale, e non ci sarà più la necessità di restare +bloccati in attesa della disponibilità di accesso ai file. + +% TODO: per i thread l'uso di F_SETOWN ha un significato diverso + +Per questo motivo Stevens, ed anche le pagine di manuale di Linux, chiamano +questa modalità ``\textit{Signal driven I/O}''. Si tratta di un'altra +modalità di gestione dell'I/O, alternativa all'uso di +\textit{epoll},\footnote{anche se le prestazioni ottenute con questa tecnica + sono inferiori, il vantaggio è che questa modalità è utilizzabile anche con + kernel che non supportano \textit{epoll}, come quelli della serie 2.4, + ottenendo comunque prestazioni superiori a quelle che si hanno con + \func{poll} e \func{select}.} che consente di evitare l'uso delle funzioni +\func{poll} o \func{select} che, come illustrato in sez.~\ref{sec:file_epoll}, +quando vengono usate con un numero molto grande di file descriptor, non hanno +buone prestazioni. + +Tuttavia con l'implementazione classica dei segnali questa modalità di I/O +presenta notevoli problemi, dato che non è possibile determinare, quando i +file descriptor sono più di uno, qual è quello responsabile dell'emissione del +segnale. Inoltre dato che i segnali normali non si accodano (si ricordi quanto +illustrato in sez.~\ref{sec:sig_notification}), in presenza di più file +descriptor attivi contemporaneamente, più segnali emessi nello stesso momento +verrebbero notificati una volta sola. + +Linux però supporta le estensioni POSIX.1b dei segnali \textit{real-time}, che +vengono accodati e che permettono di riconoscere il file descriptor che li ha +emessi. In questo caso infatti si può fare ricorso alle informazioni +aggiuntive restituite attraverso la struttura \struct{siginfo\_t}, utilizzando +la forma estesa \var{sa\_sigaction} del gestore installata con il flag +\const{SA\_SIGINFO} (si riveda quanto illustrato in +sez.~\ref{sec:sig_sigaction}). + +Per far questo però occorre utilizzare le funzionalità dei segnali +\textit{real-time} (vedi sez.~\ref{sec:sig_real_time}) impostando +esplicitamente con il comando \const{F\_SETSIG} di \func{fcntl} un segnale +\textit{real-time} da inviare in caso di I/O asincrono (il segnale predefinito +è \signal{SIGIO}). In questo caso il gestore, tutte le volte che riceverà +\const{SI\_SIGIO} come valore del campo \var{si\_code} di \struct{siginfo\_t}, +troverà nel campo \var{si\_fd} il valore del file descriptor che ha generato +il segnale. Si noti che il valore di\var{si\_code} resta \const{SI\_SIGIO} +qualunque sia il segnale che si è associato all'I/O, in quanto indica che il +segnale è stato generato a causa di attività di I/O. + +Un secondo vantaggio dell'uso dei segnali \textit{real-time} è che essendo +questi ultimi dotati di una coda di consegna ogni segnale sarà associato ad +uno solo file descriptor; inoltre sarà possibile stabilire delle priorità +nella risposta a seconda del segnale usato, dato che i segnali +\textit{real-time} supportano anche questa funzionalità. In questo modo si può +identificare immediatamente un file su cui l'accesso è diventato possibile +evitando completamente l'uso di funzioni come \func{poll} e \func{select}, +almeno fintanto che non si satura la coda. + +Se infatti si eccedono le dimensioni di quest'ultima, il kernel, non potendo +più assicurare il comportamento corretto per un segnale \textit{real-time}, +invierà al suo posto un solo \signal{SIGIO}, su cui si saranno accumulati +tutti i segnali in eccesso, e si dovrà allora determinare con un ciclo quali +sono i file diventati attivi. L'unico modo per essere sicuri che questo non +avvenga è di impostare la lunghezza della coda dei segnali \textit{real-time} +ad una dimensione identica al valore massimo del numero di file descriptor +utilizzabili, vale a dire impostare il contenuto di +\sysctlfile{kernel/rtsig-max} allo stesso valore del contenuto di +\sysctlfile{fs/file-max}. + +% TODO fare esempio che usa O_ASYNC + +\itindend{signal~driven~I/O} + + + +\subsection{I meccanismi di notifica asincrona.} +\label{sec:file_asyncronous_lease} + +Una delle domande più frequenti nella programmazione in ambiente unix-like è +quella di come fare a sapere quando un file viene modificato. La risposta, o +meglio la non risposta, tanto che questa nelle Unix FAQ \cite{UnixFAQ} viene +anche chiamata una \textit{Frequently Unanswered Question}, è che +nell'architettura classica di Unix questo non è possibile. Al contrario di +altri sistemi operativi infatti un kernel unix-like classico non prevedeva +alcun meccanismo per cui un processo possa essere \textsl{notificato} di +eventuali modifiche avvenute su un file. + +Questo è il motivo per cui i demoni devono essere \textsl{avvisati} in qualche +modo se il loro file di configurazione è stato modificato, perché possano +rileggerlo e riconoscere le modifiche; in genere questo vien fatto inviandogli +un segnale di \signal{SIGHUP} che, per una convenzione adottata dalla gran +parte di detti programmi, causa la rilettura della configurazione. + +Questa scelta è stata fatta perché provvedere un simile meccanismo a livello +generico per qualunque file comporterebbe un notevole aumento di complessità +dell'architettura della gestione dei file, il tutto per fornire una +funzionalità che serve soltanto in alcuni casi particolari. Dato che +all'origine di Unix i soli programmi che potevano avere una tale esigenza +erano i demoni, attenendosi a uno dei criteri base della progettazione, che +era di far fare al kernel solo le operazioni strettamente necessarie e +lasciare tutto il resto a processi in \textit{user space}, non era stata +prevista nessuna funzionalità di notifica. + +Visto però il crescente interesse nei confronti di una funzionalità di questo +tipo, che è molto richiesta specialmente nello sviluppo dei programmi ad +interfaccia grafica quando si deve presentare all'utente lo stato del +filesystem, sono state successivamente introdotte delle estensioni che +permettessero la creazione di meccanismi di notifica più efficienti dell'unica +soluzione disponibile con l'interfaccia tradizionale, che è quella del +\textit{polling}. + +Queste nuove funzionalità sono delle estensioni specifiche, non +standardizzate, che sono disponibili soltanto su Linux (anche se altri kernel +supportano meccanismi simili). Alcune di esse sono realizzate, e solo a +partire dalla versione 2.4 del kernel, attraverso l'uso di alcuni +\textsl{comandi} aggiuntivi per la funzione \func{fcntl} (vedi +sez.~\ref{sec:file_fcntl_ioctl}), che divengono disponibili soltanto se si è +definita la macro \macro{\_GNU\_SOURCE} prima di includere \headfile{fcntl.h}. + +\itindbeg{file~lease} + +La prima di queste funzionalità è quella del cosiddetto \textit{file lease}; +questo è un meccanismo che consente ad un processo, detto \textit{lease + holder}, di essere notificato quando un altro processo, chiamato a sua volta +\textit{lease breaker}, cerca di eseguire una \func{open} o una +\func{truncate} sul file del quale l'\textit{holder} detiene il +\textit{lease}. La notifica avviene in maniera analoga a come illustrato in +precedenza per l'uso di \const{O\_ASYNC}: di default viene inviato al +\textit{lease holder} il segnale \signal{SIGIO}, ma questo segnale può essere +modificato usando il comando \const{F\_SETSIG} di \func{fcntl} (anche in +questo caso si può rispecificare lo stesso \signal{SIGIO}). + +Se si è fatto questo (ed in genere è opportuno farlo, come in precedenza, per +utilizzare segnali \textit{real-time}) e se inoltre si è installato il gestore +del segnale con \const{SA\_SIGINFO} si riceverà nel campo \var{si\_fd} della +struttura \struct{siginfo\_t} il valore del file descriptor del file sul quale +è stato compiuto l'accesso; in questo modo un processo può mantenere anche più +di un \textit{file lease}. + +Esistono due tipi di \textit{file lease}: di lettura (\textit{read lease}) e +di scrittura (\textit{write lease}). Nel primo caso la notifica avviene quando +un altro processo esegue l'apertura del file in scrittura o usa +\func{truncate} per troncarlo. Nel secondo caso la notifica avviene anche se +il file viene aperto in lettura; in quest'ultimo caso però il \textit{lease} +può essere ottenuto solo se nessun altro processo ha aperto lo stesso file. + +Come accennato in sez.~\ref{sec:file_fcntl_ioctl} il comando di \func{fcntl} +che consente di acquisire un \textit{file lease} è \const{F\_SETLEASE}, che +viene utilizzato anche per rilasciarlo. In tal caso il file +descriptor \param{fd} passato a \func{fcntl} servirà come riferimento per il +file su cui si vuole operare, mentre per indicare il tipo di operazione +(acquisizione o rilascio) occorrerà specificare come valore +dell'argomento \param{arg} di \func{fcntl} uno dei tre valori di +tab.~\ref{tab:file_lease_fctnl}. + +\begin{table}[htb] + \centering + \footnotesize + \begin{tabular}[c]{|l|l|} + \hline + \textbf{Valore} & \textbf{Significato} \\ + \hline + \hline + \const{F\_RDLCK} & Richiede un \textit{read lease}.\\ + \const{F\_WRLCK} & Richiede un \textit{write lease}.\\ + \const{F\_UNLCK} & Rilascia un \textit{file lease}.\\ + \hline + \end{tabular} + \caption{Costanti per i tre possibili valori dell'argomento \param{arg} di + \func{fcntl} quando usata con i comandi \const{F\_SETLEASE} e + \const{F\_GETLEASE}.} + \label{tab:file_lease_fctnl} +\end{table} + +Se invece si vuole conoscere lo stato di eventuali \textit{file lease} +occorrerà chiamare \func{fcntl} sul relativo file descriptor \param{fd} con il +comando \const{F\_GETLEASE}, e si otterrà indietro nell'argomento \param{arg} +uno dei valori di tab.~\ref{tab:file_lease_fctnl}, che indicheranno la +presenza del rispettivo tipo di \textit{lease}, o, nel caso di +\const{F\_UNLCK}, l'assenza di qualunque \textit{file lease}. + +Si tenga presente che un processo può mantenere solo un tipo di \textit{lease} +su un file, e che un \textit{lease} può essere ottenuto solo su file di dati +(\textit{pipe} e dispositivi sono quindi esclusi). Inoltre un processo non +privilegiato può ottenere un \textit{lease} soltanto per un file appartenente +ad un \ids{UID} corrispondente a quello del processo. Soltanto un processo con +privilegi di amministratore (cioè con la capacità \const{CAP\_LEASE}, vedi +sez.~\ref{sec:proc_capabilities}) può acquisire \textit{lease} su qualunque +file. Se su un file è presente un \textit{lease} quando il \textit{lease breaker} esegue una \func{truncate} o una \func{open} che confligge con @@ -266,7 +3106,7 @@ flag della prima parte. \const{IN\_ACCESS} &$\bullet$& C'è stato accesso al file in lettura.\\ \const{IN\_ATTRIB} &$\bullet$& Ci sono stati cambiamenti sui dati - dell'\itindex{inode} \textit{inode} + dell'\textit{inode} (o sugli attributi estesi, vedi sez.~\ref{sec:file_xattr}).\\ \const{IN\_CLOSE\_WRITE} &$\bullet$& È stato chiuso un file aperto in @@ -663,10 +3503,10 @@ rispetto a quelle usate normalmente. In generale questa interfaccia è completamente astratta e può essere implementata sia direttamente nel kernel che in \textit{user space} attraverso -l'uso di \itindex{thread} \textit{thread}. Per le versioni del kernel meno -recenti esiste una implementazione di questa interfaccia fornita completamente -delle \acr{glibc} a partire dalla versione 2.1, che è realizzata completamente -in \textit{user space}, ed è accessibile linkando i programmi con la libreria +l'uso di \textit{thread}. Per le versioni del kernel meno recenti esiste una +implementazione di questa interfaccia fornita completamente delle \acr{glibc} +a partire dalla versione 2.1, che è realizzata completamente in \textit{user + space}, ed è accessibile linkando i programmi con la libreria \file{librt}. A partire dalla versione 2.5.32 è stato introdotto nel kernel una nuova infrastruttura per l'I/O asincrono, ma ancora il supporto è parziale ed insufficiente ad implementare tutto l'AIO POSIX. @@ -1035,10 +3875,11 @@ avanzato. \label{sec:file_memory_map} \itindbeg{memory~mapping} + Una modalità alternativa di I/O, che usa una interfaccia completamente diversa rispetto a quella classica vista in sez.~\ref{sec:file_unix_interface}, è il cosiddetto \textit{memory-mapped I/O}, che attraverso il meccanismo della -\textsl{paginazione} \index{paginazione} usato dalla memoria virtuale (vedi +\textsl{paginazione} usato dalla memoria virtuale (vedi sez.~\ref{sec:proc_mem_gen}) permette di \textsl{mappare} il contenuto di un file in una sezione dello spazio di indirizzi del processo che lo ha allocato. @@ -2050,12 +4891,12 @@ processi che vi facciano riferimento, non viene alterata. A parte la presenza dell'ulteriore argomento il comportamento delle funzioni è identico alle precedenti \func{readv} e \func{writev}. -Con l'uso di queste funzioni si possono evitare eventuali -\itindex{race~condition} \textit{race condition} quando si deve eseguire la -una operazione di lettura e scrittura vettorizzata a partire da una certa -posizione su un file, mentre al contempo si possono avere in concorrenza -processi che utilizzano lo stesso file descriptor (si ricordi quanto visto in -sez.~\ref{sec:file_adv_func}) con delle chiamate a \func{lseek}. +Con l'uso di queste funzioni si possono evitare eventuali \textit{race + condition} quando si deve eseguire la una operazione di lettura e scrittura +vettorizzata a partire da una certa posizione su un file, mentre al contempo +si possono avere in concorrenza processi che utilizzano lo stesso file +descriptor (si ricordi quanto visto in sez.~\ref{sec:file_adv_func}) con delle +chiamate a \func{lseek}. diff --git a/filedir.tex b/filedir.tex index dea3f7f..e6fc42e 100644 --- a/filedir.tex +++ b/filedir.tex @@ -137,13 +137,13 @@ scopo è risolvere il nome mancante e fornire la sua \textit{dentry} che a questo punto verrà inserita nella cache. Dato che tutte le volte che si monta un filesystem la funzione \texttt{mount} -della corrispondente \kstruct{file\_system\_type} inserisce la \textit{dentry} -iniziale nel \itindex{mount~point} \textit{mount point} dello stesso, si avrà -comunque un punto di partenza. Inoltre essendo questa \textit{dentry} relativa -a quel tipo di filesystem essa farà riferimento ad un \textit{inode} di quel -filesystem, e come vedremo questo farà sì che venga eseguita una -\texttt{lookup} adatta per effettuare la risoluzione dei nomi per quel -filesystem. +(vedi sez.~\ref{sec:filesystem_mounting}) della corrispondente +\kstruct{file\_system\_type} inserisce la \textit{dentry} iniziale nel +\textit{mount point} dello stesso, si avrà comunque un punto di +partenza. Inoltre essendo questa \textit{dentry} relativa a quel tipo di +filesystem essa farà riferimento ad un \textit{inode} di quel filesystem, e +come vedremo questo farà sì che venga eseguita una \texttt{lookup} adatta per +effettuare la risoluzione dei nomi per quel filesystem. \itindend{pathname} \itindend{pathname~resolution} @@ -653,12 +653,11 @@ memorizzati. L'operazione di attivazione del filesystem è chiamata \item[\errcode{EINVAL}] il dispositivo \param{source} presenta un \itindex{superblock} \textit{superblock} non valido, o si è cercato di rimontare un filesystem non ancora montato, o di montarlo senza - che \param{target} sia un \itindex{mount~point} \textit{mount point} o di - spostarlo quando \param{target} non è un \itindex{mount~point} - \textit{mount point} o è la radice. - \item[\errcode{ELOOP}] si è cercato di spostare un \itindex{mount~point} - \textit{mount point} su una sottodirectory di \param{source} o si sono - incontrati troppi collegamenti simbolici nella risoluzione di un nome. + che \param{target} sia un \textit{mount point} o di spostarlo + quando \param{target} non è un \textit{mount point} o è la radice. + \item[\errcode{ELOOP}] si è cercato di spostare un \textit{mount point} su + una sottodirectory di \param{source} o si sono incontrati troppi + collegamenti simbolici nella risoluzione di un nome. \item[\errcode{EMFILE}] in caso di filesystem virtuale, la tabella dei dispositivi fittizi (chiamati \textit{dummy} nella documentazione inglese) è piena. @@ -674,12 +673,14 @@ memorizzati. L'operazione di attivazione del filesystem è chiamata \errval{ENOENT}, \errval{ENOTDIR} nel loro significato generico.} \end{funcproto} +\itindbeg{mount~point} + La funzione monta sulla directory indicata da \param{target}, detta -\itindex{mount~point} \textit{mount point}, il filesystem contenuto nel file -di dispositivo indicato da \param{source}. In entrambi i casi, come daremo per -assunto da qui in avanti tutte le volte che si parla di directory o file nel -passaggio di un argomento di una funzione, si intende che questi devono essere -indicati con la stringa contenente il loro \textit{pathname}. +\textit{mount point}, il filesystem contenuto nel file di dispositivo indicato +da \param{source}. In entrambi i casi, come daremo per assunto da qui in +avanti tutte le volte che si parla di directory o file nel passaggio di un +argomento di una funzione, si intende che questi devono essere indicati con la +stringa contenente il loro \textit{pathname}. Normalmente un filesystem è contenuto su un disco o una partizione, ma come illustrato in sez.~\ref{sec:file_vfs_work} la struttura del \textit{Virtual @@ -710,20 +711,20 @@ filesystem e ciascuno ha i suoi, pertanto si rimanda alla documentazione della pagina di manuale di questo comando e dei singoli filesystem. Dopo l'esecuzione della funzione il contenuto del filesystem viene resto -disponibile nella directory specificata come \itindex{mount~point} -\textit{mount point}, il precedente contenuto di detta directory viene -mascherato dal contenuto della directory radice del filesystem montato. Fino -ai kernel della serie 2.2.x non era possibile montare un filesystem se un -\textit{mount point} era già in uso. +disponibile nella directory specificata come \textit{mount point}, il +precedente contenuto di detta directory viene mascherato dal contenuto della +directory radice del filesystem montato. Fino ai kernel della serie 2.2.x non +era possibile montare un filesystem se un \textit{mount point} era già in uso. A partire dal kernel 2.4.x inoltre è divenuto possibile sia spostare -atomicamente un \itindex{mount~point} \textit{mount point} da una directory ad -un'altra, sia montare lo stesso filesystem in diversi \itindex{mount~point} -\textit{mount point}, sia montare più filesystem sullo stesso -\itindex{mount~point} \textit{mount point} impilandoli l'uno sull'altro, nel +atomicamente un \textit{mount point} da una directory ad un'altra, sia montare +lo stesso filesystem in diversi \textit{mount point}, sia montare più +filesystem sullo stesso \textit{mount point} impilandoli l'uno sull'altro, nel qual caso vale comunque quanto detto in precedenza, e cioè che solo il contenuto dell'ultimo filesystem montato sarà visibile. +\itindend{mount~point} + Oltre alle opzioni specifiche di ciascun filesystem, che si passano nella forma della lista di parole chiave indicata con l'argomento \param{data}, esistono pure alcune opzioni che si possono applicare in generale, anche se @@ -826,10 +827,9 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: comunque attivato esplicitamente per i singoli file impostando i permessi come illustrato in sez.~\ref{sec:file_mand_locking}. -\item[\const{MS\_MOVE}] Effettua uno del spostamento del \itindex{mount~point} - \textit{mount point} di un filesystem. La directory del - \itindex{mount~point} \textit{mount point} originale deve essere indicata - nell'argomento \param{source}, e la sua nuova posizione +\item[\const{MS\_MOVE}] Effettua uno del spostamento del \textit{mount point} + di un filesystem. La directory del \textit{mount point} originale deve + essere indicata nell'argomento \param{source}, e la sua nuova posizione nell'argomento \param{target}. Tutti gli altri argomenti della funzione vengono ignorati. @@ -891,36 +891,36 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: dall'amministratore.} \item[\const{MS\_NOSUID}] Viene disabilitato sul filesystem l'effetto dei bit - dei permessi \itindex{suid~bit} \acr{suid} e \itindex{sgid~bit} \acr{sgid} - (vedi sez.~\ref{sec:file_special_perm}) eventualmente presenti sui file in - esso contenuti. L'opzione viene usata come misura di precauzione per rendere - inefficace l'effetto di questi bit per filesystem in cui non ci dovrebbero - essere file dotati di questi permessi. + dei permessi \acr{suid} e \acr{sgid} (vedi sez.~\ref{sec:file_special_perm}) + eventualmente presenti sui file in esso contenuti. L'opzione viene usata + come misura di precauzione per rendere inefficace l'effetto di questi bit + per filesystem in cui non ci dovrebbero essere file dotati di questi + permessi. Di nuovo viene utilizzata, analogamente a \const{MS\_NOEXEC} e \const{MS\_NODEV}, per fornire un accesso più controllato a quei filesystem di cui gli utenti hanno il controllo dei contenuti. In questo caso si evita che un utente malizioso possa inserire su uno di questi filesystem un - eseguibile con il bit \itindex{suid~bit} \acr{suid} attivo e di proprietà - dell'amministratore o di un altro utente, che gli consentirebbe di eseguirlo - per conto di quest'ultimo. - -\item[\const{MS\_PRIVATE}] Marca un \itindex{mount~point} \textit{mount point} - come privato. Si tratta di una delle nuove opzioni (insieme a - \const{MS\_SHARED}, \const{MS\_SLAVE} e \const{MS\_UNBINDABLE}) facenti - parte dell'infrastruttura degli \itindex{shared~subtree} \textit{shared - subtree} introdotta a partire dal kernel 2.6.15, che estendono le - funzionalità dei \itindex{bind~mount} \textit{bind mount}. In questo caso + eseguibile con il bit \acr{suid} attivo e di proprietà dell'amministratore o + di un altro utente, che gli consentirebbe di eseguirlo per conto di + quest'ultimo. + +\item[\const{MS\_PRIVATE}] Marca un \textit{mount point} come privato. Si + tratta di una delle nuove opzioni (insieme a \const{MS\_SHARED}, + \const{MS\_SLAVE} e \const{MS\_UNBINDABLE}) facenti parte + dell'infrastruttura degli \itindex{shared~subtree} \textit{shared subtree} + introdotta a partire dal kernel 2.6.15, che estendono le funzionalità dei + \itindex{bind~mount} \textit{bind mount}. In questo caso \param{target} dovrà fare riferimento al \textit{mount point} che si intende marcare, e tutti gli altri argomenti verranno ignorati. Di default, finché non lo si marca altrimenti con una delle altre opzioni dell'interfaccia \itindex{shared~subtree} \textit{shared subtree}, ogni \textit{mount point} è privato. Ogni \textit{bind mount} ottenuto da un - \itindex{mount~point} \textit{mount point} di tipo \textit{private} si - comporta come descritto nella trattazione di \const{MS\_BIND}. Si usa questo - flag principalmente per revocare gli effetti delle altre opzioni e riportare - il comportamento a quello ordinario. + \textit{mount point} di tipo \textit{private} si comporta come descritto + nella trattazione di \const{MS\_BIND}. Si usa questo flag principalmente per + revocare gli effetti delle altre opzioni e riportare il comportamento a + quello ordinario. \item[\const{MS\_RDONLY}] Esegue il montaggio del filesystem in sola lettura, non sarà possibile nessuna modifica ai suoi contenuti. Viene usato tutte le @@ -929,13 +929,13 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: corrotto). All'avvio di default il kernel monta la radice in questa modalità. -\item[\const{MS\_REC}] Applica ricorsivamente a tutti i \itindex{mount~point} - \textit{mount point} presenti al di sotto del \textit{mount point} indicato - gli effetti della opzione degli \itindex{shared~subtree} \textit{shared - subtree} associata. Anche questo caso l'argomento \param{target} deve fare - riferimento ad un \itindex{mount~point} \textit{mount point} e tutti gli - altri argomenti sono ignorati, ed il flag deve essere indicato assieme ad - una fra \const{MS\_PRIVATE}, \const{MS\_SHARED}, \const{MS\_SLAVE} e +\item[\const{MS\_REC}] Applica ricorsivamente a tutti i \textit{mount point} + presenti al di sotto del \textit{mount point} indicato gli effetti della + opzione degli \itindex{shared~subtree} \textit{shared subtree} + associata. Anche questo caso l'argomento \param{target} deve fare + riferimento ad un \textit{mount point} e tutti gli altri argomenti sono + ignorati, ed il flag deve essere indicato assieme ad una fra + \const{MS\_PRIVATE}, \const{MS\_SHARED}, \const{MS\_SLAVE} e \const{MS\_UNBINDABLE}. % TODO trattare l'opzione \texttt{lazytime} introdotta con il kernel 4.0, @@ -977,15 +977,14 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: \const{MS\_NOATIME} e \const{MS\_NODIRATIME}, ed infine prima del kernel 2.4.10 anche \const{MS\_NODEV}, \const{MS\_NOEXEC} e \const{MS\_NOSUID}. -\item[\const{MS\_SHARED}] Marca un \itindex{mount~point} \textit{mount point} - come \textit{shared mount}. Si tratta di una delle nuove opzioni (insieme a +\item[\const{MS\_SHARED}] Marca un \textit{mount point} come \textit{shared + mount}. Si tratta di una delle nuove opzioni (insieme a \const{MS\_PRIVATE}, \const{MS\_SLAVE} e \const{MS\_UNBINDABLE}) facenti parte dell'infrastruttura degli \itindex{shared~subtree} \textit{shared subtree} introdotta a partire dal kernel 2.6.15, che estendono le funzionalità dei \itindex{bind~mount} \textit{bind mount}. In questo caso - \param{target} dovrà fare riferimento al \itindex{mount~point} \textit{mount - point} che si intende marcare, e tutti gli altri argomenti verranno - ignorati. + \param{target} dovrà fare riferimento al \textit{mount point} che si intende + marcare, e tutti gli altri argomenti verranno ignorati. Lo scopo dell'opzione è ottenere che tutti i successivi \itindex{bind~mount} \textit{bind mount} effettuati da un \textit{mount point} marcato da essa @@ -994,9 +993,8 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: avviene su una directory al di sotto di uno qualunque di essi. Le operazioni di montaggio e smontaggio effettuate al di sotto di un qualunque \textit{mount point} così marcato verranno ``\textsl{propagate}'' a tutti i - \itindex{mount~point} \textit{mount point} della stessa condivisione, e la - sezione di albero di file vista al di sotto di ciascuno di essi sarà sempre - identica. + \textit{mount point} della stessa condivisione, e la sezione di albero di + file vista al di sotto di ciascuno di essi sarà sempre identica. \item[\const{MS\_SILENT}] Richiede la soppressione di alcuni messaggi di avvertimento nei log del kernel (vedi sez.~\ref{sec:sess_daemon}). L'opzione @@ -1004,8 +1002,8 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: non fuorviante, la precedente \const{MS\_VERBOSE}, introdotta nel kernel 2.6.12, che aveva lo stesso effetto. -\item[\const{MS\_SLAVE}] Marca un \itindex{mount~point} \textit{mount point} - come \textit{slave mount}. Si tratta di una delle nuove opzioni (insieme a +\item[\const{MS\_SLAVE}] Marca un \textit{mount point} come \textit{slave + mount}. Si tratta di una delle nuove opzioni (insieme a \const{MS\_PRIVATE}, \const{MS\_SHARED} e \const{MS\_UNBINDABLE}) facenti parte dell'infrastruttura degli \itindex{shared~subtree} \textit{shared subtree} introdotta a partire dal kernel 2.6.15, che estendono le @@ -1021,8 +1019,7 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: questo caso vengono ``\textsl{propagate}'' soltanto dal \textit{mount point} originale (detto anche \textit{master}) verso gli \textit{slave}, mentre essi potranno eseguire al loro interno ulteriori montaggi che non saranno - propagati né negli altri né nel \itindex{mount~point} \textit{mount point} - originale. + propagati né negli altri né nel \textit{mount point} originale. \item[\const{MS\_STRICTATIME}] Ripristina il comportamento tradizionale per cui l'\textit{access time} viene aggiornato ad ogni accesso al @@ -1042,23 +1039,22 @@ con un OR aritmetico dei valori dalle costanti riportate nell'elenco seguente: compromesso in cui questo comportamento avviene solo per le directory, ed ha quindi una incidenza nettamente minore, si può usare \const{MS\_DIRSYNC}. -\item[\const{MS\_UNBINDABLE}] Marca un \itindex{mount~point} \textit{mount - point} come \textit{unbindable mount}. Si tratta di una delle nuove - opzioni (insieme a \const{MS\_PRIVATE}, \const{MS\_SHARED} e - \const{MS\_SLAVE}) facenti parte dell'infrastruttura degli - \itindex{shared~subtree} \textit{shared subtree} introdotta a partire dal - kernel 2.6.15, che estendono le funzionalità dei \itindex{bind~mount} - \textit{bind mount}. In questo caso +\item[\const{MS\_UNBINDABLE}] Marca un \textit{mount point} come + \textit{unbindable mount}. Si tratta di una delle nuove opzioni (insieme a + \const{MS\_PRIVATE}, \const{MS\_SHARED} e \const{MS\_SLAVE}) facenti parte + dell'infrastruttura degli \itindex{shared~subtree} \textit{shared subtree} + introdotta a partire dal kernel 2.6.15, che estendono le funzionalità dei + \itindex{bind~mount} \textit{bind mount}. In questo caso \param{target} dovrà fare riferimento al \textit{mount point} che si intende marcare, e tutti gli altri argomenti verranno ignorati. Un \textit{mount point} marcato in questo modo disabilita la capacità di eseguire dei \itindex{bind~mount} \textit{bind mount} del suo contenuto. Si - comporta cioè come allo stesso modo di un \itindex{mount~point} - \textit{mount point} ordinario di tipo \textit{private} con in più la - restrizione che nessuna sua sottodirectory (anche se relativa ad un - ulteriore montaggio) possa essere utilizzata per un come sorgente di un - \itindex{bind~mount} \textit{bind mount}. + comporta cioè come allo stesso modo di un \textit{mount point} ordinario di + tipo \textit{private} con in più la restrizione che nessuna sua + sottodirectory (anche se relativa ad un ulteriore montaggio) possa essere + utilizzata per un come sorgente di un \itindex{bind~mount} \textit{bind + mount}. \end{basedescript} @@ -1105,12 +1101,12 @@ non il file o il dispositivo che è stato montato,\footnote{questo è vero a funzione poteva essere usata anche specificando il file di dispositivo.} in quanto a partire dai kernel della serie 2.4.x è possibile montare lo stesso dispositivo in più punti. Nel caso più di un filesystem sia stato montato -sullo stesso \itindex{mount~point} \textit{mount point} viene smontato quello -che è stato montato per ultimo. Si tenga presente che la funzione fallisce se -il filesystem è ``\textsl{occupato}'', cioè quando ci sono ancora dei file -aperti sul filesystem, se questo contiene la directory di lavoro (vedi -sez.~\ref{sec:file_work_dir}) di un qualunque processo o il -\itindex{mount~point} \textit{mount point} di un altro filesystem. +sullo stesso \textit{mount point} viene smontato quello che è stato montato +per ultimo. Si tenga presente che la funzione fallisce se il filesystem è +``\textsl{occupato}'', cioè quando ci sono ancora dei file aperti sul +filesystem, se questo contiene la directory di lavoro (vedi +sez.~\ref{sec:file_work_dir}) di un qualunque processo o il \textit{mount + point} di un altro filesystem. Linux provvede inoltre una seconda funzione di sistema, \funcd{umount2}, che consente un maggior controllo delle operazioni, come forzare lo smontaggio di @@ -1158,10 +1154,10 @@ eseguita una sincronizzazione dei dati. blocca l'accesso ma si aspetta che il filesystem si liberi (presente dal kernel 2.4.11 e dalla \acr{glibc} 2.11).\\ - \const{MNT\_EXPIRE} & Se non occupato marca un \itindex{mount~point} - \textit{mount point} come ``\textsl{in scadenza}'' in - modo che ad una successiva chiamata senza utilizzo - del filesystem questo venga smontato (presente dal + \const{MNT\_EXPIRE} & Se non occupato marca un \textit{mount point} come + ``\textsl{in scadenza}'' in modo che ad una + successiva chiamata senza utilizzo del filesystem + questo venga smontato (presente dal kernel 2.6.8 e dalla \acr{glibc} 2.11).\\ \const{UMOUNT\_NOFOLLOW}& Non dereferenzia \param{target} se questo è un collegamento simbolico (vedi @@ -1181,14 +1177,14 @@ resta accessibile per quelli che lo hanno ancora in uso e non viene smontato fintanto che resta occupato. Con \const{MNT\_EXPIRE}, che non può essere specificato insieme agli altri -due, si marca il \itindex{mount~point} \textit{mount point} di un filesystem -non occupato come ``\textsl{in scadenza}'', in tal caso \func{umount2} ritorna -con un errore di \errcode{EAGAIN}, mentre in caso di filesystem occupato si -sarebbe ricevuto \errcode{EBUSY}. Una volta marcato, se nel frattempo non -viene fatto nessun uso del filesystem, ad una successiva chiamata con -\const{MNT\_EXPIRE} questo verrà smontato. Questo flag consente di realizzare -un meccanismo che smonti automaticamente i filesystem che restano inutilizzati -per un certo periodo di tempo. +due, si marca il \textit{mount point} di un filesystem non occupato come +``\textsl{in scadenza}'', in tal caso \func{umount2} ritorna con un errore di +\errcode{EAGAIN}, mentre in caso di filesystem occupato si sarebbe ricevuto +\errcode{EBUSY}. Una volta marcato, se nel frattempo non viene fatto nessun +uso del filesystem, ad una successiva chiamata con \const{MNT\_EXPIRE} questo +verrà smontato. Questo flag consente di realizzare un meccanismo che smonti +automaticamente i filesystem che restano inutilizzati per un certo periodo di +tempo. Infine il flag \const{UMOUNT\_NOFOLLOW} non dereferenzia \param{target} se questo è un collegamento simbolico (vedi @@ -1353,7 +1349,7 @@ deve usare la funzione di sistema \funcd{link}, il cui prototipo è: \item[\errcode{EPERM}] il filesystem che contiene \param{oldpath} e \param{newpath} non supporta i collegamenti diretti o è una directory. \item[\errcode{EXDEV}] i file \param{oldpath} e \param{newpath} non fanno - riferimento ad un filesystem montato sullo stesso \itindex{mount~point} + riferimento ad un filesystem montato sullo stesso \textit{mount point}. \end{errlist} ed inoltre \errval{EACCES}, \errval{EFAULT}, \errval{EIO}, \errval{ELOOP}, \errval{ENAMETOOLONG}, \errval{ENOENT}, \errval{ENOMEM}, @@ -1377,10 +1373,10 @@ nello stesso filesystem ed inoltre esso deve supportare gli \textit{hard link} (il meccanismo non è disponibile ad esempio con il filesystem \acr{vfat} di Windows). In realtà la funzione ha un ulteriore requisito, e cioè che non solo che i due file siano sullo stesso filesystem, ma anche che si faccia -riferimento ad essi all'interno dello stesso \itindex{mount~point} -\textit{mount point}.\footnote{si tenga presente infatti, come detto in - sez.~\ref{sec:filesystem_mounting}, che a partire dal kernel 2.4 uno stesso - filesystem può essere montato più volte su directory diverse.} +riferimento ad essi all'interno dello stesso \textit{mount point}.\footnote{si + tenga presente infatti, come detto in sez.~\ref{sec:filesystem_mounting}, + che a partire dal kernel 2.4 uno stesso filesystem può essere montato più + volte su directory diverse.} La funzione inoltre opera sia sui file ordinari che sugli altri oggetti del filesystem, con l'eccezione delle directory. In alcune versioni di Unix solo @@ -1800,8 +1796,7 @@ sistema \funcd{rename},\footnote{la funzione è definita dallo standard ANSI C, rispettivi file (o non si hanno privilegi amministrativi) oppure il filesystem non supporta l'operazione. \item[\errcode{EXDEV}] \param{oldpath} e \param{newpath} non sono sullo - stesso filesystem e sotto lo stesso \itindex{mount~point} \textit{mount - point}. + stesso filesystem e sotto lo stesso \textit{mount point}. \end{errlist} ed inoltre \errval{EFAULT}, \errval{ELOOP}, \errval{EMLINK}, \errval{ENAMETOOLONG}, \errval{ENOENT}, \errval{ENOMEM}, \errval{ENOSPC} e \errval{EROFS} nel loro significato generico.} @@ -1825,10 +1820,10 @@ temporaneamente se già esiste. Dato che opera in maniera analoga la funzione è soggetta alle stesse restrizioni di \func{link}, quindi è necessario che \param{oldpath} e \param{newpath} siano nello stesso filesystem e facciano riferimento allo -stesso \itindex{mount~point} \textit{mount point}, e che il filesystem -supporti questo tipo di operazione. Qualora questo non avvenga si dovrà -effettuare l'operazione in maniera non atomica copiando il file a destinazione -e poi cancellando l'originale. +stesso \textit{mount point}, e che il filesystem supporti questo tipo di +operazione. Qualora questo non avvenga si dovrà effettuare l'operazione in +maniera non atomica copiando il file a destinazione e poi cancellando +l'originale. Il comportamento della funzione è diverso a seconda che si voglia rinominare un file o una directory. Se ci riferisce ad un file allora \param{newpath}, se @@ -2834,18 +2829,20 @@ In molte occasioni è utile poter creare dei file temporanei; benché la cosa sembri semplice, in realtà il problema è più sottile di quanto non appaia a prima vista. Infatti anche se sembrerebbe banale generare un nome a caso e creare il file dopo aver controllato che questo non esista, nel momento fra il -controllo e la creazione si ha giusto lo spazio per una possibile -\itindex{race~condition} \textit{race condition} (si ricordi quanto visto in -sez.~\ref{sec:proc_race_cond}). +controllo e la creazione si ha giusto lo spazio per una possibile \textit{race + condition} (si ricordi quanto visto in sez.~\ref{sec:proc_race_cond}). + +\itindbeg{symlink~attack} Molti problemi di sicurezza derivano proprio da una creazione non accorta di -file temporanei che lascia aperta questa \itindex{race~condition} \textit{race - condition}. Un attaccante allora potrà sfruttarla con quello che viene -chiamato \itindex{symlink~attack} ``\textit{symlink attack}'' dove -nell'intervallo fra la generazione di un nome e l'accesso allo stesso, viene -creato un collegamento simbolico con quel nome verso un file diverso, -ottenendo, se il programma sotto attacco ne ha la capacità, un accesso -privilegiato. +file temporanei che lascia aperta questa \textit{race condition}. Un +attaccante allora potrà sfruttarla con quello che viene chiamato +``\textit{symlink attack}'' dove nell'intervallo fra la generazione di un nome +e l'accesso allo stesso, viene creato un collegamento simbolico con quel nome +verso un file diverso, ottenendo, se il programma sotto attacco ne ha la +capacità, un accesso privilegiato. + +\itindend{symlink~attack} La \acr{glibc} provvede varie funzioni per generare nomi di file temporanei, di cui si abbia certezza di unicità al momento della generazione; storicamente @@ -2898,8 +2895,8 @@ nome provvisorio. La funzione assegna come directory per il file temporaneo, verificando che esista e sia accessibile, la prima valida fra le seguenti: \begin{itemize*} \item la variabile di ambiente \envvar{TMPDIR} (non ha effetto se non è - definita o se il programma chiamante è \itindex{suid~bit} \acr{suid} o - \itindex{sgid~bit} \acr{sgid}, vedi sez.~\ref{sec:file_special_perm}), + definita o se il programma chiamante è \acr{suid} o \acr{sgid}, vedi + sez.~\ref{sec:file_special_perm}), \item il valore dell'argomento \param{dir} (se diverso da \val{NULL}), \item il valore della costante \const{P\_tmpdir}, \item la directory \file{/tmp}. @@ -2944,7 +2941,7 @@ che viene automaticamente cancellato alla sua chiusura o all'uscita dal programma. Lo standard non specifica in quale directory verrà aperto il file, ma la \acr{glibc} prima tenta con \const{P\_tmpdir} e poi con \file{/tmp}. Questa funzione è rientrante e non soffre di problemi di -\itindex{race~condition} \textit{race condition}. +\textit{race condition}. Alcune versioni meno recenti di Unix non supportano queste funzioni; in questo caso si possono usare le vecchie funzioni \funcd{mktemp} e \func{mkstemp} che @@ -2968,13 +2965,12 @@ casuale, il suo prototipo è: La funzione genera un nome univoco sostituendo le \code{XXXXXX} finali di \param{template}; dato che \param{template} deve poter essere modificata dalla funzione non si può usare una stringa costante. Tutte le avvertenze riguardo -alle possibili \itindex{race~condition} \textit{race condition} date per -\func{tmpnam} continuano a valere; inoltre in alcune vecchie implementazioni -il valore usato per sostituire le \code{XXXXXX} viene formato con il \ids{PID} -del processo più una lettera, il che mette a disposizione solo 26 possibilità -diverse per il nome del file, e rende il nome temporaneo facile da indovinare. -Per tutti questi motivi la funzione è deprecata e non dovrebbe mai essere -usata. +alle possibili \textit{race condition} date per \func{tmpnam} continuano a +valere; inoltre in alcune vecchie implementazioni il valore usato per +sostituire le \code{XXXXXX} viene formato con il \ids{PID} del processo più +una lettera, il che mette a disposizione solo 26 possibilità diverse per il +nome del file, e rende il nome temporaneo facile da indovinare. Per tutti +questi motivi la funzione è deprecata e non dovrebbe mai essere usata. La seconda funzione, \funcd{mkstemp} è sostanzialmente equivalente a \func{tmpfile}, ma restituisce un file descriptor invece di un nome; il suo @@ -3048,8 +3044,8 @@ In OpenBSD è stata introdotta un'altra funzione simile alle precedenti, La funzione crea una directory temporanea il cui nome è ottenuto sostituendo le \code{XXXXXX} finali di \param{template} con permessi \code{0700} (si veda sez.~\ref{sec:file_perm_overview} per i dettagli). Dato che la creazione della -directory è sempre esclusiva i precedenti problemi di \itindex{race~condition} -\textit{race condition} non si pongono. +directory è sempre esclusiva i precedenti problemi di \textit{race condition} +non si pongono. @@ -3236,11 +3232,12 @@ come argomento il valore di \var{st\_mode}. \const{S\_IFCHR} & 0020000 & Dispositivo a caratteri.\\ \const{S\_IFIFO} & 0010000 & Fifo.\\ \hline - \const{S\_ISUID} & 0004000 & Set user ID \itindex{suid~bit} (\acr{suid}) - bit.\\ - \const{S\_ISGID} & 0002000 & Set group ID \itindex{sgid~bit} - (\acr{sgid}) bit.\\ - \const{S\_ISVTX} & 0001000 & \itindex{sticky~bit} \acr{Sticky} bit.\\ + \const{S\_ISUID} & 0004000 & Set user ID (\acr{suid}) bit, vedi + sez.~\ref{sec:file_special_perm}).\\ + \const{S\_ISGID} & 0002000 & Set group ID (\acr{sgid}) bit, vedi + sez.~\ref{sec:file_special_perm}).\\ + \const{S\_ISVTX} & 0001000 & \acr{Sticky} bit, vedi + sez.~\ref{sec:file_special_perm}).\\ \hline \const{S\_IRWXU} & 00700 & Maschera per i permessi del proprietario.\\ \const{S\_IRUSR} & 00400 & Il proprietario ha permesso di lettura.\\ @@ -3899,11 +3896,10 @@ rispettivamente al proprietario, al gruppo, a tutti gli altri. \label{fig:file_perm_bit} \end{figure} -I restanti tre bit (noti come \itindex{suid~bit} \textit{suid bit}, -\itindex{sgid~bit} \textit{sgid bit}, e \itindex{sticky~bit} \textit{sticky - bit}) sono usati per indicare alcune caratteristiche più complesse del -meccanismo del controllo di accesso su cui torneremo in seguito (in -sez.~\ref{sec:file_special_perm}), lo schema di allocazione dei bit è +I restanti tre bit (noti come \textit{suid bit}, \textit{sgid bit}, e +\textit{sticky bit}) sono usati per indicare alcune caratteristiche più +complesse del meccanismo del controllo di accesso su cui torneremo in seguito +(in sez.~\ref{sec:file_special_perm}), lo schema di allocazione dei bit è riportato in fig.~\ref{fig:file_perm_bit}. Come tutte le altre proprietà di un file anche i permessi sono memorizzati \itindex{inode} nell'\textit{inode}, e come accennato in sez.~\ref{sec:file_types} essi sono vengono restituiti in @@ -4177,7 +4173,6 @@ sez.~\ref{sec:file_mand_locking}). \itindend{suid~bit} \itindend{sgid~bit} - \itindbeg{sticky~bit} L'ultimo dei bit rimanenti, identificato dalla costante \const{S\_ISVTX}, è in @@ -4308,14 +4303,13 @@ controllati sono disponibili. Un esempio tipico per l'uso di questa funzione è quello di un processo che sta eseguendo un programma coi privilegi di un altro utente (ad esempio attraverso -l'uso del \itindex{suid~bit} \textit{suid bit}) che vuole controllare se -l'utente originale ha i permessi per accedere ad un certo file, ma eseguire -questo controllo prima di aprire il file espone al rischio di una -\itindex{race~condition} \textit{race condition} che apre ad un possibile -\itindex{symlink~attack} \textit{symlink attack} fra il controllo e l'apertura -del file. In questo caso è sempre opportuno usare invece la funzione -\func{faccessat} che tratteremo insieme alle altre \textit{at-functions} in -sez.~\ref{sec:file_openat}. +l'uso del \textit{suid bit}) che vuole controllare se l'utente originale ha i +permessi per accedere ad un certo file, ma eseguire questo controllo prima di +aprire il file espone al rischio di una \textit{race condition} che apre ad un +possibile \itindex{symlink~attack} \textit{symlink attack} fra il controllo e +l'apertura del file. In questo caso è sempre opportuno usare invece la +funzione \func{faccessat} che tratteremo insieme alle altre +\textit{at-functions} in sez.~\ref{sec:file_openat}. Del tutto analoghe a \func{access} sono le due funzioni \funcm{euidaccess} e \funcm{eaccess} che ripetono lo stesso controllo usando però gli @@ -4370,9 +4364,9 @@ file. \textbf{\param{mode}} & \textbf{Valore} & \textbf{Significato} \\ \hline \hline - \const{S\_ISUID} & 04000 & Set user ID \itindex{suid~bit} bit.\\ - \const{S\_ISGID} & 02000 & Set group ID \itindex{sgid~bit} bit.\\ - \const{S\_ISVTX} & 01000 & Sticky \itindex{sticky~bit} bit.\\ + \const{S\_ISUID} & 04000 & Set user ID bit.\\ + \const{S\_ISGID} & 02000 & Set group ID bit.\\ + \const{S\_ISVTX} & 01000 & Sticky bit.\\ \hline \const{S\_IRWXU} & 00700 & L'utente ha tutti i permessi.\\ \const{S\_IRUSR} & 00400 & L'utente ha il permesso di lettura.\\ @@ -4409,7 +4403,7 @@ Ad esempio i permessi standard assegnati ai nuovi file (lettura e scrittura per il proprietario, sola lettura per il gruppo e gli altri) sono corrispondenti al valore ottale $0644$, un programma invece avrebbe anche il bit di esecuzione attivo, con un valore di $0755$, se si volesse attivare il -bit \itindex{suid~bit} \acr{suid} il valore da fornire sarebbe $4755$. +bit \acr{suid} il valore da fornire sarebbe $4755$. Il cambiamento dei permessi di un file eseguito attraverso queste funzioni ha comunque alcune limitazioni, previste per motivi di sicurezza. L'uso delle @@ -4439,9 +4433,9 @@ in particolare accade che: Per alcuni filesystem\footnote{i filesystem più comuni (\textsl{ext2}, \textsl{ext3}, \textsl{ext4}, \textsl{ReiserFS}) supportano questa caratteristica, che è mutuata da BSD.} è inoltre prevista un'ulteriore -misura di sicurezza, volta a scongiurare l'abuso dei \itindex{suid~bit} bit -\acr{suid} e \acr{sgid}; essa consiste nel cancellare automaticamente questi -bit dai permessi di un file qualora un processo che non appartenga +misura di sicurezza, volta a scongiurare l'abuso dei bit \acr{suid} e +\acr{sgid}; essa consiste nel cancellare automaticamente questi bit dai +permessi di un file qualora un processo che non appartenga all'amministratore\footnote{per la precisione un processo che non dispone della capacità \const{CAP\_FSETID}, vedi sez.~\ref{sec:proc_capabilities}.} effettui una scrittura. In questo modo anche se un utente malizioso scopre un @@ -4603,12 +4597,11 @@ rispetto allo standard POSIX è che specificando -1 come valore per \param{owner} e \param{group} i valori restano immutati. Quando queste funzioni sono chiamate con successo da un processo senza i -privilegi di amministratore entrambi i bit \itindex{suid~bit} \acr{suid} e -\itindex{sgid~bit} \acr{sgid} vengono cancellati. Questo non avviene per il -bit \acr{sgid} nel caso in cui esso sia usato (in assenza del corrispondente -permesso di esecuzione) per indicare che per il file è attivo il -\itindex{mandatory~locking} \textit{mandatory locking} (vedi -sez.~\ref{sec:file_mand_locking}). +privilegi di amministratore entrambi i bit \acr{suid} e \itindex{sgid~bit} +\acr{sgid} vengono cancellati. Questo non avviene per il bit \acr{sgid} nel +caso in cui esso sia usato (in assenza del corrispondente permesso di +esecuzione) per indicare che per il file è attivo il \textit{mandatory + locking} (vedi sez.~\ref{sec:file_mand_locking}). \subsection{Un quadro d'insieme sui permessi} @@ -4688,14 +4681,12 @@ Nella parte superiore di tab.~\ref{tab:file_fileperm_bits} si è riassunto il significato dei vari bit dei permessi per un file ordinario; per quanto riguarda l'applicazione dei permessi per proprietario, gruppo ed altri si ricordi quanto illustrato in sez.~\ref{sec:file_perm_overview}. Per -compattezza, nella tabella si sono specificati i bit di \itindex{suid~bit} -\textit{suid}, \itindex{sgid~bit} \textit{sgid} e \textit{sticky} -\itindex{sticky~bit} con la notazione illustrata anche in +compattezza, nella tabella si sono specificati i bit di \textit{suid}, +\textit{sgid} e \textit{sticky} con la notazione illustrata anche in fig.~\ref{fig:file_perm_bit}. Nella parte inferiore si sono invece riassunti i significati dei vari bit dei permessi per una directory; anche in questo -caso si è riapplicato ai bit di \itindex{suid~bit} \textit{suid}, -\itindex{sgid~bit} \textit{sgid} e \textit{sticky} \itindex{sticky~bit} la -notazione illustrata in fig.~\ref{fig:file_perm_bit}. +caso si è riapplicato ai bit di \textit{suid}, \textit{sgid} e \textit{sticky} +la notazione illustrata in fig.~\ref{fig:file_perm_bit}. Si ricordi infine che i permessi non hanno alcun significato per i collegamenti simbolici, mentre per i file di dispositivo hanno senso soltanto @@ -6010,8 +6001,8 @@ gestione delle quote è \funcd{quotactl}, ed il suo prototipo è: \item[\errcode{EIO}] errore di lettura/scrittura sul file delle quote. \item[\errcode{EMFILE}] non si può aprire il file delle quote avendo superato il limite sul numero di file aperti nel sistema. - \item[\errcode{ENODEV}] \param{dev} non corrisponde ad un - \itindex{mount~point} \textit{mount point} attivo. + \item[\errcode{ENODEV}] \param{dev} non corrisponde ad un \textit{mount + point} attivo. \item[\errcode{ENOPKG}] il kernel è stato compilato senza supporto per le quote. \item[\errcode{ENOTBLK}] \param{dev} non è un dispositivo a blocchi. @@ -6833,9 +6824,8 @@ opportuno dettagliare maggiormente. per tutte le operazioni privilegiate non coperte dalle precedenti \const{CAP\_DAC\_OVERRIDE} e \const{CAP\_DAC\_READ\_SEARCH}.\\ - \const{CAP\_FSETID} & Evitare la cancellazione - automatica dei bit \itindex{suid~bit} \acr{suid} - e \itindex{sgid~bit} \acr{sgid} quando un file + \const{CAP\_FSETID} & Evitare la cancellazione automatica dei bit + \acr{suid} e \acr{sgid} quando un file per i quali sono impostati viene modificato da un processo senza questa capacità e la capacità di impostare il bit \acr{sgid} su un file anche @@ -6844,8 +6834,8 @@ opportuno dettagliare maggiormente. sez.~\ref{sec:file_perm_management}).\\ \const{CAP\_KILL} & Mandare segnali a qualunque processo (vedi sez.~\ref{sec:sig_kill_raise}).\\ - \const{CAP\_SETFCAP} & Impostare le \textit{capabilities} di un file (dal kernel - 2.6.24).\\ + \const{CAP\_SETFCAP} & Impostare le \textit{capabilities} di un file + (dal kernel 2.6.24).\\ \const{CAP\_SETGID} & Manipolare i group ID dei processi, sia il principale che i supplementari, (vedi sez.~\ref{sec:proc_setgroups}) che quelli diff --git a/fileio.tex b/fileio.tex index c5f805e..9e7e960 100644 --- a/fileio.tex +++ b/fileio.tex @@ -64,32 +64,34 @@ file viene aperto la funzione \func{open} restituisce questo numero, tutte le ulteriori operazioni dovranno essere compiute specificando questo stesso numero come argomento alle varie funzioni dell'interfaccia. +\itindbeg{process~table} +\itindbeg{file~table} + Per capire come funziona il meccanismo occorre spiegare a grandi linee come il kernel gestisce l'interazione fra processi e file. Abbiamo già accennato in sez.~\ref{sec:proc_hierarchy} come il kernel mantenga un elenco di tutti -processi nella cosiddetta \itindex{process~table} \textit{process table}. Lo -stesso, come accennato in sez.~\ref{sec:file_vfs_work}, vale anche per tutti i -file aperti, il cui elenco viene mantenuto nella cosiddetta -\itindex{file~table} \textit{file table}. - -La \itindex{process~table} \textit{process table} è una tabella che contiene -una voce per ciascun processo attivo nel sistema. Ciascuna voce è costituita -dal puntatore a una struttura di tipo \kstruct{task\_struct} nella quale sono -raccolte tutte le informazioni relative al processo, fra queste informazioni -c'è anche il puntatore ad una ulteriore struttura di tipo +processi nella cosiddetta \textit{process table}. Lo stesso, come accennato in +sez.~\ref{sec:file_vfs_work}, vale anche per tutti i file aperti, il cui +elenco viene mantenuto nella cosiddetta \textit{file table}. + +La \textit{process table} è una tabella che contiene una voce per ciascun +processo attivo nel sistema. Ciascuna voce è costituita dal puntatore a una +struttura di tipo \kstruct{task\_struct} nella quale sono raccolte tutte le +informazioni relative al processo, fra queste informazioni c'è anche il +puntatore ad una ulteriore struttura di tipo \kstruct{files\_struct},\footnote{la definizione corrente di questa struttura si trova nel file \texttt{include/linux/fdtable.h} dei sorgenti del kernel, quella mostrata in fig.~\ref{fig:file_proc_file} è una versione pesantemente semplificata.} che contiene le informazioni relative ai file che il processo ha aperto. -La \itindex{file~table} \textit{file table} è una tabella che contiene una -voce per ciascun file che è stato aperto nel sistema. Come accennato in -sez.~\ref{sec:file_vfs_work} per ogni file aperto viene allocata una struttura -\kstruct{file} e la \textit{file table} è costituita da un elenco di puntatori -a ciascuna di queste strutture, che, come illustrato in -fig.~\ref{fig:kstruct_file}, contengono le informazioni necessarie per la -gestione dei file, ed in particolare: +La \textit{file table} è una tabella che contiene una voce per ciascun file +che è stato aperto nel sistema. Come accennato in sez.~\ref{sec:file_vfs_work} +per ogni file aperto viene allocata una struttura \kstruct{file} e la +\textit{file table} è costituita da un elenco di puntatori a ciascuna di +queste strutture, che, come illustrato in fig.~\ref{fig:kstruct_file}, +contengono le informazioni necessarie per la gestione dei file, ed in +particolare: \begin{itemize*} \item i flag di stato \itindex{file~status~flag} del file nel campo \var{f\_flags}. @@ -115,9 +117,9 @@ gestione dei file, ed in particolare: In fig.~\ref{fig:file_proc_file} si è riportato uno schema semplificato in cui è illustrata questa architettura, ed in cui si sono evidenziate le -interrelazioni fra la \itindex{file~table} \textit{file table}, la -\itindex{process~table} \textit{process table} e le varie strutture di dati -che il kernel mantiene per ciascun file e ciascun processo. +interrelazioni fra la \textit{file table}, la \textit{process table} e le +varie strutture di dati che il kernel mantiene per ciascun file e ciascun +processo. Come si può notare alla fine il collegamento che consente di porre in relazione i file ed i processi è effettuato attraverso i dati mantenuti nella @@ -134,11 +136,14 @@ essenziali come: In questa infrastruttura un \textit{file descriptor} non è altro che l'intero positivo che indicizza quest'ultima tabella, e che consente di recuperare il puntatore alla struttura \kstruct{file} corrispondente al file aperto dal -processo a cui era stato assegnato questo indice. Una volta ottenuta grazie -al \textit{file descriptor} la struttura \kstruct{file} corrispondente al file -voluto nella \itindex{file~table} \textit{file table}, il kernel potrà usare -le funzioni messe disposizione dal VFS per eseguire sul file tutte le -operazioni necessarie. +processo a cui era stato assegnato questo indice. Una volta ottenuta grazie al +\textit{file descriptor} la struttura \kstruct{file} corrispondente al file +voluto nella \textit{file table}, il kernel potrà usare le funzioni messe +disposizione dal VFS per eseguire sul file tutte le operazioni necessarie. + +\itindend{process~table} +\itindend{file~table} + Il meccanismo dell'apertura dei file prevede che venga sempre fornito il primo \textit{file descriptor} libero nella tabella, e per questo motivo essi @@ -467,11 +472,11 @@ sez.~\ref{sec:ipc_file_lock}). Si tenga presente che questa opzione è supportata su NFS solo a partire da NFSv3 e con il kernel 2.6, nelle versioni precedenti la funzionalità viene emulata controllando prima l'esistenza del file per cui usarla per creare \index{file!di lock} un file di lock potrebbe -dar luogo a una \itindex{race~condition} \textit{race condition}.\footnote{un - file potrebbe venir creato fra il controllo la successiva apertura con - \const{O\_CREAT}, la cosa si può risolvere comunque creando un file con un - nome univoco ed usando la funzione \func{link} per creare il \index{file!di - lock} file di lock, (vedi sez.~\ref{sec:ipc_file_lock}).} +dar luogo a una \textit{race condition}.\footnote{un file potrebbe venir + creato fra il controllo la successiva apertura con \const{O\_CREAT}, la cosa + si può risolvere comunque creando un file con un nome univoco ed usando la + funzione \func{link} per creare il \index{file!di lock} file di lock, (vedi + sez.~\ref{sec:ipc_file_lock}).} Se si usa \const{O\_EXCL} senza \const{O\_CREAT} il comportamento è indefinito. Nella creazione di un file con \const{O\_CREAT} occorre sempre @@ -500,9 +505,9 @@ si tronca il file con \const{O\_TRUNC} verranno impostati soltanto il viene sempre aggiunto al contenuto precedente. Con NFS questa funzionalità non è supportata e viene emulata, per questo possono verificarsi - \itindex{race~condition} \textit{race - condition} con una sovrapposizione dei dati se - più di un processo scrive allo stesso tempo.\\ + \textit{race condition} con una sovrapposizione dei + dati se più di un processo scrive allo stesso + tempo.\\ \const{O\_ASYNC} & Apre il file per l'I/O in modalità asincrona (vedi sez.~\ref{sec:signal_driven_io}). Quando è impostato viene generato il segnale \signal{SIGIO} @@ -518,11 +523,11 @@ si tronca il file con \const{O\_TRUNC} verranno impostati soltanto il sez.~\ref{sec:proc_exec}) sul file. Il flag è previsto dallo standard POSIX.1-2008, ed è stato introdotto con il kernel 2.6.23 per evitare una - \itindex{race~condition} \textit{race condition} - che si potrebbe verificare con i \textit{thread} - fra l'apertura del file e l'impostazione della - suddetta modalità con \func{fcntl} (vedi - sez.~\ref{sec:file_fcntl_ioctl}).\\ + \textit{race condition} che si potrebbe verificare + con i \textit{thread} fra l'apertura del file e + l'impostazione della suddetta modalità con + \func{fcntl} (vedi + sez.~\ref{sec:file_fcntl_ioctl}).\\ \const{O\_DIRECT} & Esegue l'I/O direttamente dalla memoria in \textit{user space} in maniera sincrona, in modo da scavalcare i meccanismi di bufferizzazione del @@ -1236,13 +1241,12 @@ meccanismi di sincronizzazione espliciti come il \itindex{file~locking} Un caso tipico di necessità di accesso condiviso in scrittura è quello in cui vari processi devono scrivere alla fine di un file (ad esempio un file di log). Come accennato in sez.~\ref{sec:file_lseek} impostare la posizione alla -fine del file e poi scrivere può condurre ad una \itindex{race~condition} -\textit{race condition}l infatti può succedere che un secondo processo scriva -alla fine del file fra la \func{lseek} e la \func{write}. In questo caso, come -abbiamo appena visto, il file sarà esteso, ma il primo processo, che avrà la -posizione corrente che aveva impostato con la \func{lseek} che non corrisponde -più alla fine del file, e la sua successiva \func{write} sovrascriverà i dati -del secondo processo. +fine del file e poi scrivere può condurre ad una \textit{race condition}; +infatti può succedere che un secondo processo scriva alla fine del file fra la +\func{lseek} e la \func{write}. In questo caso, come abbiamo appena visto, il +file sarà esteso, ma il primo processo, avrà una posizione corrente che aveva +impostato con la \func{lseek} che non corrisponde più alla fine del file, e la +sua successiva \func{write} sovrascriverà i dati del secondo processo. Il problema deriva dal fatto che usare due \textit{system call} in successione non è mai un'operazione atomica dato che il kernel può interrompere @@ -1350,8 +1354,8 @@ file descriptor che si vuole ottenere come duplicato; il suo prototipo è: \begin{errlist} \item[\errcode{EBADF}] \param{oldfd} non è un file aperto o \param{newfd} ha un valore fuori dall'intervallo consentito per i file descriptor. - \item[\errcode{EBUSY}] si è rilevata la possibilità di una - \itindex{race~condition} \textit{race condition}. + \item[\errcode{EBUSY}] si è rilevata la possibilità di una \textit{race + condition}. \item[\errcode{EINTR}] la funzione è stata interrotta da un segnale. \item[\errcode{EMFILE}] si è raggiunto il numero massimo consentito di file descriptor aperti. @@ -1369,24 +1373,23 @@ e si limita a restituire \param{newfd}. L'uso di \func{dup2} ha vari vantaggi rispetto alla combinazione di \func{close} e \func{dup}; anzitutto se \param{oldfd} è uguale \param{newfd} questo verrebbe chiuso e \func{dup} fallirebbe, ma soprattutto l'operazione è -atomica e consente di evitare una \itindex{race~condition} \textit{race - condition} in cui dopo la chiusura del file si potrebbe avere la ricezione -di un segnale il cui gestore (vedi sez.~\ref{sec:sig_signal_handler}) potrebbe -a sua volta aprire un file, per cui alla fine \func{dup} restituirebbe un file -descriptor diverso da quello voluto. +atomica e consente di evitare una \textit{race condition} in cui dopo la +chiusura del file si potrebbe avere la ricezione di un segnale il cui gestore +(vedi sez.~\ref{sec:sig_signal_handler}) potrebbe a sua volta aprire un file, +per cui alla fine \func{dup} restituirebbe un file descriptor diverso da +quello voluto. Con Linux inoltre la funzione prevede la possibilità di restituire l'errore \errcode{EBUSY}, che non è previsto dallo standard, quando viene rilevata la -possibilità di una \itindex{race~condition} \textit{race condition} interna in -cui si cerca di duplicare un file descriptor che è stato allocato ma per il -quale non sono state completate le operazioni di apertura.\footnote{la - condizione è abbastanza peculiare e non attinente al tipo di utilizzo - indicato, quanto piuttosto ad un eventuale tentativo di duplicare file - descriptor non ancora aperti, la condizione di errore non è prevista dallo - standard, ma in condizioni simili FreeBSD risponde con un errore di - \errval{EBADF}, mentre OpenBSD elimina la possibilità di una \textit{race - condition} al costo di una perdita di prestazioni.} In tal caso occorre -ritentare l'operazione. +possibilità di una \textit{race condition} interna in cui si cerca di +duplicare un file descriptor che è stato allocato ma per il quale non sono +state completate le operazioni di apertura.\footnote{la condizione è + abbastanza peculiare e non attinente al tipo di utilizzo indicato, quanto + piuttosto ad un eventuale tentativo di duplicare file descriptor non ancora + aperti, la condizione di errore non è prevista dallo standard, ma in + condizioni simili FreeBSD risponde con un errore di \errval{EBADF}, mentre + OpenBSD elimina la possibilità di una \textit{race condition} al costo di + una perdita di prestazioni.} In tal caso occorre ritentare l'operazione. La duplicazione dei file descriptor può essere effettuata anche usando la funzione di controllo dei file \func{fcntl} (che esamineremo in @@ -1562,10 +1565,9 @@ come per le altre funzioni che prendono come argomenti dei quando un \textit{pathname} relativo non fa riferimento ad un file posto direttamente nella directory di lavoro corrente, che alcuni dei componenti del \textit{pathname} vengano modificati in parallelo alla chiamata a \func{open}, -cosa che lascia aperta la possibilità di una \itindex{race~condition} -\textit{race condition} in cui c'è spazio per un \itindex{symlink~attack} -\textit{symlink attack} (si ricordi quanto visto per \func{access} in -sez.~\ref{sec:file_perm_management}). +cosa che lascia aperta la possibilità di una \textit{race condition} in cui +c'è spazio per un \itindex{symlink~attack} \textit{symlink attack} (si ricordi +quanto visto per \func{access} in sez.~\ref{sec:file_perm_management}). Inoltre come già accennato, la directory di lavoro corrente è una proprietà del singolo processo; questo significa che quando si lavora con i @@ -1600,14 +1602,13 @@ directory come punto di partenza per la risoluzione. In questo modo, anche quando si lavora con i \itindex{thread} \textit{thread}, si può mantenere una directory di lavoro diversa per ciascuno di essi. -Questo metodo, oltre a risolvere i problemi di \itindex{race~condition} -\textit{race condition}, consente anche di ottenere aumenti di prestazioni -significativi quando si devono eseguire molte operazioni su sezioni -dell'albero dei file che prevedono delle gerarchie di sottodirectory molto -profonde. Infatti in questo caso basta eseguire la risoluzione del -\textit{pathname} della directory di partenza una sola volta (nell'apertura -iniziale) e non tutte le volte che si deve accedere a ciascun file che essa -contiene. +Questo metodo, oltre a risolvere i problemi di \textit{race condition}, +consente anche di ottenere aumenti di prestazioni significativi quando si +devono eseguire molte operazioni su sezioni dell'albero dei file che prevedono +delle gerarchie di sottodirectory molto profonde. Infatti in questo caso basta +eseguire la risoluzione del \textit{pathname} della directory di partenza una +sola volta (nell'apertura iniziale) e non tutte le volte che si deve accedere +a ciascun file che essa contiene. La sintassi generale di queste nuove funzioni è che esse prevedono come primo argomento il file descriptor della directory da usare come base per la @@ -3093,9 +3094,8 @@ rispettivi prototipi sono: La funzione \func{getc} legge un byte da \param{stream} e lo restituisce come intero, ed in genere è implementata come una macro per cui può avere -\itindex{side~effects} \textit{side effects}, mentre \func{fgetc} è assicurato -essere sempre una funzione. Infine \func{getchar} è equivalente a -\code{getc(stdin)}. +\textit{side effects}, mentre \func{fgetc} è assicurato essere sempre una +funzione. Infine \func{getchar} è equivalente a \code{getc(stdin)}. A parte \func{getchar}, che si usa in genere per leggere un carattere da tastiera, le altre due funzioni sono sostanzialmente equivalenti. La diff --git a/ipc.tex b/ipc.tex index f742380..092d40f 100644 --- a/ipc.tex +++ b/ipc.tex @@ -228,14 +228,14 @@ direzione del flusso dei dati è data dalle frecce continue. Si potrebbe obiettare che sarebbe molto più semplice salvare il risultato intermedio su un file temporaneo. Questo però non tiene conto del fatto che un \textit{CGI} può essere eseguito più volte in contemporanea, e si avrebbe una -evidente \itindex{race~condition} \textit{race condition} in caso di accesso -simultaneo a detto file da istanze diverse. Il problema potrebbe essere -superato utilizzando un sempre diverso per il file temporaneo, che verrebbe -creato all'avvio di ogni istanza, utilizzato dai sottoprocessi, e cancellato -alla fine della sua esecuzione; ma a questo punto le cose non sarebbero più -tanto semplici. L'uso di una \textit{pipe} invece permette di risolvere il -problema in maniera semplice ed elegante, oltre ad essere molto più -efficiente, dato che non si deve scrivere su disco. +evidente \textit{race condition} in caso di accesso simultaneo a detto file da +istanze diverse. Il problema potrebbe essere superato utilizzando un sempre +diverso per il file temporaneo, che verrebbe creato all'avvio di ogni istanza, +utilizzato dai sottoprocessi, e cancellato alla fine della sua esecuzione; ma +a questo punto le cose non sarebbero più tanto semplici. L'uso di una +\textit{pipe} invece permette di risolvere il problema in maniera semplice ed +elegante, oltre ad essere molto più efficiente, dato che non si deve scrivere +su disco. Il programma ci servirà anche come esempio dell'uso delle funzioni di duplicazione dei file descriptor che abbiamo trattato in @@ -2594,10 +2594,10 @@ portabile. Il secondo flag aggiuntivo, introdotto a partire dal kernel 2.6.15, è \const{SHM\_NORESERVE}, ed ha lo stesso scopo del flag \const{MAP\_NORESERVE} di \func{mmap} (vedi sez.~\ref{sec:file_memory_map}): non vengono riservate -delle pagine di swap ad uso del meccanismo del \textit{copy on write} -\itindex{copy~on~write} per mantenere le modifiche fatte sul segmento. Questo -significa che caso di scrittura sul segmento quando non c'è più memoria -disponibile, si avrà l'emissione di un \signal{SIGSEGV}. +delle pagine di swap ad uso del meccanismo del \textit{copy on write} per +mantenere le modifiche fatte sul segmento. Questo significa che caso di +scrittura sul segmento quando non c'è più memoria disponibile, si avrà +l'emissione di un \signal{SIGSEGV}. Infine l'argomento \param{size} specifica la dimensione del segmento di memoria condivisa; il valore deve essere specificato in byte, ma verrà @@ -3341,12 +3341,12 @@ directory, \file{/var/lock}, nella standardizzazione del \textit{Filesystem prevede\footnote{questo è quanto dettato dallo standard POSIX.1, ciò non toglie che in alcune implementazioni questa tecnica possa non funzionare; in particolare per Linux, nel caso di NFS, si è comunque soggetti alla - possibilità di una \itindex{race~condition} \textit{race condition}.} che -essa ritorni un errore quando usata con i flag di \const{O\_CREAT} e -\const{O\_EXCL}. In tal modo la creazione di un \textsl{file di lock} può -essere eseguita atomicamente, il processo che crea il file con successo si può -considerare come titolare del lock (e della risorsa ad esso associata) mentre -il rilascio si può eseguire con una chiamata ad \func{unlink}. + possibilità di una \textit{race condition}.} che essa ritorni un errore +quando usata con i flag di \const{O\_CREAT} e \const{O\_EXCL}. In tal modo la +creazione di un \textsl{file di lock} può essere eseguita atomicamente, il +processo che crea il file con successo si può considerare come titolare del +lock (e della risorsa ad esso associata) mentre il rilascio si può eseguire +con una chiamata ad \func{unlink}. Un esempio dell'uso di questa funzione è mostrato dalle funzioni \func{LockFile} ed \func{UnlockFile} riportate in fig.~\ref{fig:ipc_file_lock} @@ -4145,12 +4145,12 @@ che se si vuole mantenere il meccanismo di notifica occorre ripetere la registrazione chiamando nuovamente \func{mq\_notify} all'interno del gestore del segnale di notifica. A differenza della situazione simile che si aveva con i segnali non affidabili (l'argomento è stato affrontato in -\ref{sec:sig_semantics}) questa caratteristica non configura una -\itindex{race~condition} \textit{race condition} perché l'invio di un segnale -avviene solo se la coda è vuota; pertanto se si vuole evitare di correre il -rischio di perdere eventuali ulteriori segnali inviati nel lasso di tempo che -occorre per ripetere la richiesta di notifica basta avere cura di eseguire -questa operazione prima di estrarre i messaggi presenti dalla coda. +\ref{sec:sig_semantics}) questa caratteristica non configura una \textit{race + condition} perché l'invio di un segnale avviene solo se la coda è vuota; +pertanto se si vuole evitare di correre il rischio di perdere eventuali +ulteriori segnali inviati nel lasso di tempo che occorre per ripetere la +richiesta di notifica basta avere cura di eseguire questa operazione prima di +estrarre i messaggi presenti dalla coda. L'invio del segnale di notifica avvalora alcuni campi di informazione restituiti al gestore attraverso la struttura \struct{siginfo\_t} (definita in @@ -4875,12 +4875,12 @@ notazione ottale). Infine il semaforo verrà inizializzato ad un valore nullo A questo punto (\texttt{\small 22}) si potrà inizializzare il messaggio posto nel segmento di memoria condivisa usando la stringa passata come argomento al programma. Essendo il semaforo stato creato già bloccato non ci si dovrà -preoccupare di eventuali \itindex{race~condition} \textit{race condition} -qualora il programma di modifica del messaggio venisse lanciato proprio in -questo momento. Una volta inizializzato il messaggio occorrerà però -rilasciare il semaforo (\texttt{\small 24-27}) per consentirne l'uso; in -tutte queste operazioni si provvederà ad uscire dal programma con un opportuno -messaggio in caso di errore. +preoccupare di eventuali \textit{race condition} qualora il programma di +modifica del messaggio venisse lanciato proprio in questo momento. Una volta +inizializzato il messaggio occorrerà però rilasciare il semaforo +(\texttt{\small 24-27}) per consentirne l'uso; in tutte queste operazioni si +provvederà ad uscire dal programma con un opportuno messaggio in caso di +errore. Una volta completate le inizializzazioni il ciclo principale del programma (\texttt{\small 29-47}) viene ripetuto indefinitamente (\texttt{\small 29}) @@ -4951,8 +4951,8 @@ argomento. Una volta completate con successo le precedenti inizializzazioni, il passo seguente (\texttt{\small 21-24}) è quello di acquisire il semaforo, dopo di che sarà possibile eseguire la sostituzione del messaggio (\texttt{\small 25}) -senza incorrere in possibili \itindex{race~condition} \textit{race condition} -con la stampa dello stesso da parte di \file{message\_getter}. +senza incorrere in possibili \textit{race condition} con la stampa dello +stesso da parte di \file{message\_getter}. Una volta effettuata la modifica viene stampato (\texttt{\small 26}) il tempo di attesa impostato con l'opzione ``\texttt{-t}'' dopo di che (\texttt{\small diff --git a/prochand.tex b/prochand.tex index 95df51d..a16a9ae 100644 --- a/prochand.tex +++ b/prochand.tex @@ -44,9 +44,8 @@ generazione di nuovi processi è un'operazione privilegiata, una delle caratteristiche fondanti di Unix, che esamineremo in dettaglio più avanti, è che qualunque processo può a sua volta generarne altri. Ogni processo è identificato presso il sistema da un numero univoco, il cosiddetto -\itindex{Process~ID~(PID)} \textit{Process ID} o, più brevemente, \ids{PID}, -assegnato in forma progressiva (vedi sez.~\ref{sec:proc_pid}) quando il -processo viene creato. +\textit{Process ID} o, più brevemente, \ids{PID}, assegnato in forma +progressiva (vedi sez.~\ref{sec:proc_pid}) quando il processo viene creato. Una seconda caratteristica di un sistema unix-like è che la generazione di un processo è un'operazione separata rispetto al lancio di un programma. In @@ -132,15 +131,17 @@ che è progenitore di tutti gli altri processi.\footnote{in realtà questo non \ids{PID} successivi ad uno, sono in realtà processi interni al kernel e che non rientrano in questa classificazione.} +\itindbeg{process~table} + Il kernel mantiene una tabella dei processi attivi, la cosiddetta -\itindex{process~table} \textit{process table}. Per ciascun processo viene -mantenuta una voce in questa tabella, costituita da una struttura -\kstruct{task\_struct}, che contiene tutte le informazioni rilevanti per quel -processo. Tutte le strutture usate a questo scopo sono dichiarate -nell'\textit{header file} \file{linux/sched.h}, ed uno schema semplificato, -che riporta la struttura delle principali informazioni contenute nella -\struct{task\_struct} (che in seguito incontreremo a più riprese), è mostrato -in fig.~\ref{fig:proc_task_struct}. +\textit{process table}. Per ciascun processo viene mantenuta una voce in +questa tabella, costituita da una struttura \kstruct{task\_struct}, che +contiene tutte le informazioni rilevanti per quel processo. Tutte le strutture +usate a questo scopo sono dichiarate nell'\textit{header file} +\file{linux/sched.h}, ed uno schema semplificato, che riporta la struttura +delle principali informazioni contenute nella \struct{task\_struct} (che in +seguito incontreremo a più riprese), è mostrato in +fig.~\ref{fig:proc_task_struct}. \begin{figure}[!htb] \centering \includegraphics[width=14cm]{img/task_struct} @@ -149,6 +150,8 @@ in fig.~\ref{fig:proc_task_struct}. \label{fig:proc_task_struct} \end{figure} +\itindend{process~table} + % TODO la task_struct è cambiata per qualche dettaglio vedi anche % http://www.ibm.com/developerworks/linux/library/l-linux-process-management/ % TODO completare la parte su quando viene chiamato lo scheduler. @@ -186,6 +189,8 @@ invocazione. \subsection{Gli identificatori dei processi} \label{sec:proc_pid} +\itindbeg{Process~ID~(PID)} + Come accennato nella sezione precedente ogni processo viene identificato dal sistema da un numero identificativo univoco, il \textit{process ID} o \ids{PID}. Questo è un tipo di dato standard, \type{pid\_t} che in genere è un @@ -202,19 +207,21 @@ bit, arriva ad un massimo di 32768. Oltre questo valore l'assegnazione riparte dal numero più basso disponibile a partire da un minimo di 300,\footnote{questi valori, fino al kernel 2.4.x, erano definiti dalla macro \const{PID\_MAX} nei file \file{threads.h} e \file{fork.c} dei sorgenti del - kernel, con il 2.6.x e la nuova interfaccia per i \itindex{thread} - \textit{thread} anche il meccanismo di allocazione dei \ids{PID} è stato - modificato ed il valore massimo è impostabile attraverso il file - \sysctlfile{kernel/pid\_max} e di default vale 32768.} che serve a -riservare i \ids{PID} più bassi ai processi eseguiti direttamente dal kernel. -Per questo motivo, come visto in sez.~\ref{sec:proc_hierarchy}, il processo di -avvio (\cmd{init}) ha sempre il \ids{PID} uguale a uno. + kernel, con il 2.6.x e la nuova interfaccia per i \textit{thread} anche il + meccanismo di allocazione dei \ids{PID} è stato modificato ed il valore + massimo è impostabile attraverso il file \sysctlfile{kernel/pid\_max} e di + default vale 32768.} che serve a riservare i \ids{PID} più bassi ai processi +eseguiti direttamente dal kernel. Per questo motivo, come visto in +sez.~\ref{sec:proc_hierarchy}, il processo di avvio (\cmd{init}) ha sempre il +\ids{PID} uguale a uno. + +\itindbeg{Parent~Process~ID~(PPID)} Tutti i processi inoltre memorizzano anche il \ids{PID} del genitore da cui sono stati creati, questo viene chiamato in genere \ids{PPID} (da -\itindex{Parent~Process~ID~(PPID)} \textit{Parent Process ID}). Questi due -identificativi possono essere ottenuti usando le due funzioni di sistema -\funcd{getpid} e \funcd{getppid}, i cui prototipi sono: +\textit{Parent Process ID}). Questi due identificativi possono essere +ottenuti usando le due funzioni di sistema \funcd{getpid} e \funcd{getppid}, i +cui prototipi sono: \begin{funcproto}{ \fhead{sys/types.h} @@ -258,6 +265,8 @@ seconda dei privilegi e dell'identità di chi lo ha posto in esecuzione; l'argomento è complesso e sarà affrontato in dettaglio in sez.~\ref{sec:proc_perms}. +\itindend{Process~ID~(PID)} +\itindend{Parent~Process~ID~(PPID)} \subsection{La funzione \func{fork} e le funzioni di creazione dei processi} \label{sec:proc_fork} @@ -302,17 +311,20 @@ stesso codice del padre. Si tenga presente però che la memoria è copiata e non condivisa, pertanto padre e figlio vedranno variabili diverse e le eventuali modifiche saranno totalmente indipendenti. -Per quanto riguarda la gestione della memoria, in generale il -\index{segmento!testo} segmento di testo, che è identico per i due processi, è -condiviso e tenuto in sola lettura per il padre e per i figli. Per gli altri -segmenti Linux utilizza la tecnica del \itindex{copy~on~write} \textit{copy on - write}. Questa tecnica comporta che una pagina di memoria viene -effettivamente copiata per il nuovo processo solo quando ci viene effettuata -sopra una scrittura, e si ha quindi una reale differenza fra padre e figlio. -In questo modo si rende molto più efficiente il meccanismo della creazione di -un nuovo processo, non essendo più necessaria la copia di tutto lo spazio -degli indirizzi virtuali del padre, ma solo delle pagine di memoria che sono -state modificate, e solo al momento della modifica stessa. +\itindbeg{copy~on~write} + +Per quanto riguarda la gestione della memoria, in generale il segmento di +testo, che è identico per i due processi, è condiviso e tenuto in sola lettura +per il padre e per i figli. Per gli altri segmenti Linux utilizza la tecnica +del \textit{copy on write}. Questa tecnica comporta che una pagina di memoria +viene effettivamente copiata per il nuovo processo solo quando ci viene +effettuata sopra una scrittura, e si ha quindi una reale differenza fra padre +e figlio. In questo modo si rende molto più efficiente il meccanismo della +creazione di un nuovo processo, non essendo più necessaria la copia di tutto +lo spazio degli indirizzi virtuali del padre, ma solo delle pagine di memoria +che sono state modificate, e solo al momento della modifica stessa. + +\itindend{copy~on~write} La differenza che si ha nei due processi è che nel processo padre il valore di ritorno della funzione \func{fork} è il \ids{PID} del processo figlio, mentre @@ -439,21 +451,20 @@ Pertanto non si può fare nessuna assunzione sulla sequenza di esecuzione delle istruzioni del codice fra padre e figli, né sull'ordine in cui questi potranno essere messi in esecuzione. Se è necessaria una qualche forma di precedenza occorrerà provvedere ad espliciti meccanismi di sincronizzazione, pena il -rischio di incorrere nelle cosiddette \itindex{race~condition} \textit{race - condition} (vedi sez.~\ref{sec:proc_race_cond}). +rischio di incorrere nelle cosiddette \textit{race condition} (vedi +sez.~\ref{sec:proc_race_cond}). In realtà con l'introduzione dei kernel della serie 2.6 lo \textit{scheduler} è stato modificato per eseguire sempre per primo il figlio.\footnote{i risultati precedenti infatti sono stati ottenuti usando un kernel della serie 2.4.} Questa è una ottimizzazione adottata per evitare che il padre, effettuando per primo una operazione di scrittura in memoria, attivasse il -meccanismo del \itindex{copy~on~write} \textit{copy on write}, operazione -inutile qualora il figlio venga creato solo per eseguire una \func{exec} su -altro programma che scarta completamente lo spazio degli indirizzi e rende -superflua la copia della memoria modificata dal padre. Eseguendo sempre per -primo il figlio la \func{exec} verrebbe effettuata subito, con la certezza di -utilizzare \itindex{copy~on~write} \textit{copy on write} solo quando -necessario. +meccanismo del \textit{copy on write}, operazione inutile qualora il figlio +venga creato solo per eseguire una \func{exec} su altro programma che scarta +completamente lo spazio degli indirizzi e rende superflua la copia della +memoria modificata dal padre. Eseguendo sempre per primo il figlio la +\func{exec} verrebbe effettuata subito, con la certezza di utilizzare +\textit{copy on write} solo quando necessario. Con il kernel 2.6.32 però il comportamento è stato nuovamente cambiato, stavolta facendo eseguire per primo sempre il padre. Si è realizzato infatti @@ -555,19 +566,18 @@ tutti i figli. La funzione \func{fork} infatti ha la caratteristica di duplicare nei processi figli tutti i \textit{file descriptor} (vedi sez.~\ref{sec:file_fd}) dei file aperti nel processo padre (allo stesso modo in cui lo fa la funzione \func{dup}, trattata in sez.~\ref{sec:file_dup}), il -che comporta che padre e figli condividono le stesse voci della -\itindex{file~table} \textit{file table} (tratteremo in dettaglio questi -termini in sez.~\ref{sec:file_shared_access}) fra cui c'è anche la posizione -corrente nel file. +che comporta che padre e figli condividono le stesse voci della \textit{file + table} (tratteremo in dettaglio questi termini in sez.~\ref{sec:file_fd} e +sez.~\ref{sec:file_shared_access}) fra cui c'è anche la posizione corrente nel +file. In questo modo se un processo scrive su un file aggiornerà la posizione -corrente sulla \itindex{file~table} \textit{file table}, e tutti gli altri -processi, che vedono la stessa \itindex{file~table} \textit{file table}, -vedranno il nuovo valore. In questo modo si evita, in casi come quello appena -mostrato in cui diversi processi scrivono sullo stesso file, che l'output -successivo di un processo vada a sovrapporsi a quello dei precedenti: l'output -potrà risultare mescolato, ma non ci saranno parti perdute per via di una -sovrascrittura. +corrente sulla \textit{file table}, e tutti gli altri processi, che vedono la +stessa \textit{file table}, vedranno il nuovo valore. In questo modo si evita, +in casi come quello appena mostrato in cui diversi processi scrivono sullo +stesso file, che l'output successivo di un processo vada a sovrapporsi a +quello dei precedenti: l'output potrà risultare mescolato, ma non ci saranno +parti perdute per via di una sovrascrittura. Questo tipo di comportamento è essenziale in tutti quei casi in cui il padre crea un figlio e attende la sua conclusione per proseguire, ed entrambi @@ -604,9 +614,9 @@ comune dopo l'esecuzione di una \func{fork} è la seguente: reale}, il \textsl{group-ID reale}, l'\textsl{user-ID effettivo}, il \textsl{group-ID effettivo} ed i \textsl{group-ID supplementari} (vedi sez.~\ref{sec:proc_access_id}); -\item gli identificatori per il controllo di sessione: il - \itindex{process~group} \textit{process group-ID} e il \textit{session id} - ed il terminale di controllo (vedi sez.~\ref{sec:sess_proc_group}); +\item gli identificatori per il controllo di sessione: il \textit{process + group-ID} e il \textit{session id} ed il terminale di controllo (vedi + sez.~\ref{sec:sess_proc_group}); \item la directory di lavoro (vedi sez.~\ref{sec:file_work_dir}) e la directory radice (vedi sez.~\ref{sec:file_chroot}); \item la maschera dei permessi di creazione dei file (vedi @@ -676,11 +686,11 @@ padre, che costituiva un inutile appesantimento in tutti quei casi in cui la \func{fork} veniva fatta solo per poi eseguire una \func{exec}. La funzione venne introdotta in BSD per migliorare le prestazioni. -Dato che Linux supporta il \itindex{copy~on~write} \textit{copy on write} la -perdita di prestazioni è assolutamente trascurabile, e l'uso di questa -funzione, che resta un caso speciale della \textit{system call} \func{clone} -(che tratteremo in dettaglio in sez.~\ref{sec:process_clone}) è deprecato; per -questo eviteremo di trattarla ulteriormente. +Dato che Linux supporta il \textit{copy on write} la perdita di prestazioni è +assolutamente trascurabile, e l'uso di questa funzione, che resta un caso +speciale della \textit{system call} \func{clone} (che tratteremo in dettaglio +in sez.~\ref{sec:process_clone}) è deprecato; per questo eviteremo di +trattarla ulteriormente. \subsection{La conclusione di un processo} @@ -733,8 +743,8 @@ operazioni eseguite alla chiusura di un processo è il seguente: Oltre queste operazioni è però necessario poter disporre di un meccanismo ulteriore che consenta di sapere come la terminazione è avvenuta: dato che in un sistema unix-like tutto viene gestito attraverso i processi, il meccanismo -scelto consiste nel riportare lo \itindex{termination~status} \textsl{stato di - terminazione} (il cosiddetto \textit{termination status}) al processo padre. +scelto consiste nel riportare lo \textsl{stato di terminazione} (il cosiddetto +\textit{termination status}) al processo padre. Nel caso di conclusione normale, abbiamo visto in sez.~\ref{sec:proc_conclusion} che lo stato di uscita del processo viene @@ -812,14 +822,16 @@ memorizzando alcuni dati essenziali, come il \ids{PID}, i tempi di CPU usati dal processo (vedi sez.~\ref{sec:sys_unix_time}) e lo stato di terminazione, mentre la memoria in uso ed i file aperti vengono rilasciati immediatamente. +\itindbeg{zombie} + I processi che sono terminati, ma il cui stato di terminazione non è stato -ancora ricevuto dal padre sono chiamati \itindex{zombie} \textit{zombie}, essi -restano presenti nella tabella dei processi ed in genere possono essere -identificati dall'output di \cmd{ps} per la presenza di una \texttt{Z} nella -colonna che ne indica lo stato (vedi tab.~\ref{tab:proc_proc_states}). Quando -il padre effettuerà la lettura dello stato di terminazione anche questa -informazione, non più necessaria, verrà scartata ed il processo potrà -considerarsi completamente concluso. +ancora ricevuto dal padre sono chiamati \textit{zombie}, essi restano presenti +nella tabella dei processi ed in genere possono essere identificati +dall'output di \cmd{ps} per la presenza di una \texttt{Z} nella colonna che ne +indica lo stato (vedi tab.~\ref{tab:proc_proc_states}). Quando il padre +effettuerà la lettura dello stato di terminazione anche questa informazione, +non più necessaria, verrà scartata ed il processo potrà considerarsi +completamente concluso. Possiamo utilizzare il nostro programma di prova per analizzare anche questa condizione: lanciamo il comando \cmd{forktest} in \textit{background} (vedi @@ -839,49 +851,51 @@ terminale (prima dello scadere dei 10 secondi) otterremo: %$ e come si vede, dato che non si è fatto nulla per riceverne lo stato di terminazione, i tre processi figli sono ancora presenti pur essendosi -conclusi, con lo stato di \itindex{zombie} \textit{zombie} e l'indicazione che -sono terminati (la scritta \texttt{defunct}). - -La possibilità di avere degli \itindex{zombie} \textit{zombie} deve essere -tenuta sempre presente quando si scrive un programma che deve essere mantenuto -in esecuzione a lungo e creare molti processi figli. In questo caso si deve -sempre avere cura di far leggere al programma l'eventuale stato di uscita di -tutti i figli. Una modalità comune di farlo è attraverso l'utilizzo di un -apposito \textit{signal handler} che chiami la funzione \func{wait}, (vedi +conclusi, con lo stato di \textit{zombie} e l'indicazione che sono terminati +(la scritta \texttt{defunct}). + +La possibilità di avere degli \textit{zombie} deve essere tenuta sempre +presente quando si scrive un programma che deve essere mantenuto in esecuzione +a lungo e creare molti processi figli. In questo caso si deve sempre avere +cura di far leggere al programma l'eventuale stato di uscita di tutti i +figli. Una modalità comune di farlo è attraverso l'utilizzo di un apposito +\textit{signal handler} che chiami la funzione \func{wait}, (vedi sez.~\ref{sec:proc_wait}), ne esamineremo in dettaglio un esempio (fig.~\ref{fig:sig_sigchld_handl}) in sez.~\ref{sec:sig_sigchld}. La lettura degli stati di uscita è necessaria perché anche se gli -\itindex{zombie} \textit{zombie} non consumano risorse di memoria o -processore, occupano comunque una voce nella tabella dei processi e se li si -lasciano accumulare a lungo quest'ultima potrebbe esaurirsi, con la -conseguente impossibilità di lanciare nuovi processi. +\textit{zombie} non consumano risorse di memoria o processore, occupano +comunque una voce nella tabella dei processi e se li si lasciano accumulare a +lungo quest'ultima potrebbe esaurirsi, con la conseguente impossibilità di +lanciare nuovi processi. Si noti tuttavia che quando un processo adottato da \cmd{init} termina, non -diviene mai uno \itindex{zombie} \textit{zombie}. Questo perché una delle -funzioni di \cmd{init} è appunto quella di chiamare la funzione \func{wait} -per i processi a cui fa da padre, completandone la terminazione. Questo è -quanto avviene anche quando, come nel caso del precedente esempio con -\cmd{forktest}, il padre termina con dei figli in stato di \itindex{zombie} -\textit{zombie}. Questi scompaiono quando, alla terminazione del padre dopo i -secondi programmati, tutti figli che avevamo generato, e che erano diventati -\itindex{zombie} \textit{zombie}, vengono adottati da \cmd{init}, il quale -provvede a completarne la terminazione. - -Si tenga presente infine che siccome gli \itindex{zombie} \textit{zombie} sono -processi già terminati, non c'è modo di eliminarli con il comando \cmd{kill} o -inviandogli un qualunque segnale di terminazione (l'argomento è trattato in +diviene mai uno \textit{zombie}. Questo perché una delle funzioni di +\cmd{init} è appunto quella di chiamare la funzione \func{wait} per i processi +a cui fa da padre, completandone la terminazione. Questo è quanto avviene +anche quando, come nel caso del precedente esempio con \cmd{forktest}, il +padre termina con dei figli in stato di \textit{zombie}. Questi scompaiono +quando, alla terminazione del padre dopo i secondi programmati, tutti figli +che avevamo generato, e che erano diventati \textit{zombie}, vengono adottati +da \cmd{init}, il quale provvede a completarne la terminazione. + +Si tenga presente infine che siccome gli \textit{zombie} sono processi già +terminati, non c'è modo di eliminarli con il comando \cmd{kill} o inviandogli +un qualunque segnale di terminazione (l'argomento è trattato in sez.~\ref{sec:sig_termination}). Qualora ci si trovi in questa situazione l'unica possibilità di cancellarli dalla tabella dei processi è quella di terminare il processo che li ha generati e che non sta facendo il suo lavoro, in modo che \cmd{init} possa adottarli e concluderne correttamente la -terminazione. +terminazione. Si tenga anche presente che la presenza di \textit{zombie} nella tabella dei processi non è sempre indice di un qualche malfunzionamento, in una macchina con molto carico infatti può esservi una presenza temporanea dovuta al fatto che il processo padre ancora non ha avuto il tempo di gestirli. +\itindend{zombie} + + \subsection{Le funzioni di attesa e ricezione degli stati di uscita} \label{sec:proc_wait} @@ -892,9 +906,9 @@ processi figli. Si è già sottolineato al paragrafo precedente come in questo caso diventi necessario gestire esplicitamente la conclusione dei figli onde evitare di -riempire di \itindex{zombie} \textit{zombie} la tabella dei -processi. Tratteremo in questa sezione le funzioni di sistema deputate a -questo compito; la prima è \funcd{wait} ed il suo prototipo è: +riempire di \textit{zombie} la tabella dei processi. Tratteremo in questa +sezione le funzioni di sistema deputate a questo compito; la prima è +\funcd{wait} ed il suo prototipo è: \begin{funcproto}{ \fhead{sys/types.h} @@ -927,7 +941,7 @@ abbia più figli il valore di ritorno della funzione sarà impostato al \ids{PID} del processo di cui si è ricevuto lo stato di terminazione, cosa che permette di identificare qual è il figlio che è terminato. -\itindend{termination~status} +\itindend{termination~status} Questa funzione ha il difetto di essere poco flessibile, in quanto ritorna all'uscita di un qualunque processo figlio. Nelle occasioni in cui è @@ -982,16 +996,14 @@ sono riportate anche le costanti definite per indicare alcuni di essi. \textbf{Valore} & \textbf{Costante} &\textbf{Significato}\\ \hline \hline - $<-1$& -- & Attende per un figlio il cui - \itindex{process~group} \textit{process group} - (vedi sez.~\ref{sec:sess_proc_group}) è uguale - al valore assoluto di \param{pid}.\\ + $<-1$& -- & Attende per un figlio il cui \textit{process + group} (vedi sez.~\ref{sec:sess_proc_group}) è + uguale al valore assoluto di \param{pid}.\\ $-1$&\const{WAIT\_ANY} & Attende per un figlio qualsiasi, usata in questa maniera senza specificare nessuna opzione è equivalente a \func{wait}.\\ - $ 0$&\const{WAIT\_MYPGRP}&Attende per un figlio il cui - \itindex{process~group} \textit{process group} - (vedi sez.~\ref{sec:sess_proc_group}) è + $ 0$&\const{WAIT\_MYPGRP}&Attende per un figlio il cui \textit{process + group} (vedi sez.~\ref{sec:sess_proc_group}) è uguale a quello del processo chiamante.\\ $>0$& -- & Attende per un figlio il cui \ids{PID} è uguale al valore di \param{pid}.\\ @@ -1011,7 +1023,7 @@ tabella si sono riportati anche alcune opzioni non standard specifiche di Linux, che consentono un controllo più dettagliato per i processi creati con la \textit{system call} generica \func{clone} (vedi sez.~\ref{sec:process_clone}) e che vengono usati principalmente per la -gestione della terminazione dei \itindex{thread} \textit{thread} (vedi +gestione della terminazione dei \textit{thread} (vedi sez.~\ref{sec:thread_xxx}). \begin{table}[!htb] @@ -1109,8 +1121,8 @@ attendono la terminazione di un processo figlio e ritornano il relativo In generale in un programma non si vuole essere forzati ad attendere la conclusione di un processo figlio per proseguire l'esecuzione, specie se tutto questo serve solo per leggerne lo stato di chiusura (ed evitare eventualmente -la presenza di \itindex{zombie} \textit{zombie}). Per questo la modalità più -comune di chiamare queste funzioni è quella di utilizzarle all'interno di un +la presenza di \textit{zombie}). Per questo la modalità più comune di +chiamare queste funzioni è quella di utilizzarle all'interno di un \textit{signal handler} (vedremo un esempio di come gestire \signal{SIGCHLD} con i segnali in sez.~\ref{sec:sig_example}). In questo caso infatti, dato che il segnale è generato dalla terminazione di un figlio, avremo la certezza che @@ -1398,9 +1410,9 @@ prototipo è: riconosciuto come tale, o compilato per un'altra architettura. \item[\errcode{ENOENT}] il file o una delle librerie dinamiche o l'interprete necessari per eseguirlo non esistono. - \item[\errcode{EPERM}] il file ha i bit \itindex{suid~bit} \acr{suid} o - \itindex{sgid~bit} \acr{sgid} e l'utente non è root, ed il processo viene - tracciato, oppure il filesystem è montato con l'opzione \cmd{nosuid}. + \item[\errcode{EPERM}] il file ha i bit \acr{suid} o \acr{sgid} e l'utente + non è root, ed il processo viene tracciato, oppure il filesystem è montato + con l'opzione \cmd{nosuid}. \item[\errcode{ETXTBSY}] l'eseguibile è aperto in scrittura da uno o più processi. \item[\errcode{E2BIG}] la lista degli argomenti è troppo grande. @@ -1545,8 +1557,8 @@ seguente: \item il valori di \textit{nice}, le priorità real-time e le affinità di processore (vedi sez.~\ref{sec:proc_sched_stand}; sez.~\ref{sec:proc_real_time} e sez.~\ref{sec:proc_sched_multiprocess}); -\item il \textit{session ID} (\acr{sid}) ed il \itindex{process~group} - \textit{process group ID} (\acr{pgid}), vedi sez.~\ref{sec:sess_proc_group}; +\item il \textit{session ID} (\acr{sid}) ed il \textit{process group ID} + (\acr{pgid}), vedi sez.~\ref{sec:sess_proc_group}; \item il terminale di controllo (vedi sez.~\ref{sec:sess_ctrl_term}); \item il tempo restante ad un allarme (vedi sez.~\ref{sec:sig_alarm_abort}); \item i limiti sulle risorse (vedi sez.~\ref{sec:sys_resource_limit}); @@ -1604,8 +1616,8 @@ nell'esecuzione della funzione \func{exec}, queste sono: relativi (vedi sez.~\ref{sec:thread_xxx}) rimossi; \item viene impostato il flag \const{PR\_SET\_DUMPABLE} di \func{prctl} (vedi sez.~\ref{sec:process_prctl}) a meno che il programma da eseguire non sia - \itindex{suid~bit} \acr{suid} o \itindex{sgid~bit} \acr{sgid} (vedi - sez.~\ref{sec:proc_access_id}); + \acr{suid} o \acr{sgid} (vedi sez.~\ref{sec:proc_access_id} e + sez.~\ref{sec:file_special_perm}); \item il flag \const{PR\_SET\_KEEPCAPS} di \func{prctl} (vedi sez.~\ref{sec:process_prctl}) viene cancellato; \item il nome del processo viene impostato al nome del file contenente il @@ -1632,7 +1644,6 @@ all'utente. \itindend{close-on-exec} - Il comportamento della funzione in relazione agli identificatori relativi al controllo di accesso verrà trattato in dettaglio in sez.~\ref{sec:proc_perms}, qui è sufficiente anticipare (si faccia riferimento a @@ -1641,11 +1652,11 @@ come l'\textsl{user-ID reale} ed il \textsl{group-ID reale} restano sempre gli stessi, mentre l'\textsl{user-ID salvato} ed il \textsl{group-ID salvato} vengono impostati rispettivamente all'\textsl{user-ID effettivo} ed il \textsl{group-ID effettivo}. Questi ultimi normalmente non vengono modificati, -a meno che il file di cui viene chiesta l'esecuzione non abbia o il -\itindex{suid~bit} \acr{suid} bit o lo \itindex{sgid~bit} \acr{sgid} bit -impostato, in questo caso l'\textsl{user-ID effettivo} ed il \textsl{group-ID - effettivo} vengono impostati rispettivamente all'utente o al gruppo cui il -file appartiene. +a meno che il file di cui viene chiesta l'esecuzione non abbia o il \acr{suid} +bit o lo \acr{sgid} bit impostato (vedi sez.~\ref{sec:file_special_perm}), in +questo caso l'\textsl{user-ID effettivo} ed il \textsl{group-ID effettivo} +vengono impostati rispettivamente all'utente o al gruppo cui il file +appartiene. Se il file da eseguire è in formato \emph{a.out} e necessita di librerie condivise, viene lanciato il \textit{linker} dinamico \cmd{/lib/ld.so} prima @@ -1718,8 +1729,8 @@ degli utenti, per i quali invece vengono effettuati i vari controlli di accesso. Abbiamo già accennato come il sistema associ ad ogni utente e gruppo due -identificatori univoci, lo \itindex{User~ID~(PID)} \textsl{User-ID} -(abbreviato in \ids{UID}) ed il \itindex{Group~ID~(PID)} \textsl{Group-ID} +identificatori univoci, lo \itindex{User~ID~(UID)} \textsl{User-ID} +(abbreviato in \ids{UID}) ed il \itindex{Group~ID~(GID)} \textsl{Group-ID} (abbreviato in \ids{GID}). Questi servono al kernel per identificare uno specifico utente o un gruppo di utenti, per poi poter controllare che essi siano autorizzati a compiere le operazioni richieste. Ad esempio in @@ -1803,12 +1814,11 @@ sez.~\ref{sec:file_perm_overview}). Questi identificatori normalmente sono identici ai corrispondenti del gruppo \textit{real} tranne nel caso in cui, come accennato in sez.~\ref{sec:proc_exec}, il programma che si è posto in esecuzione abbia i -bit \itindex{suid~bit} \acr{suid} o \itindex{sgid~bit} \acr{sgid} impostati -(il significato di questi bit è affrontato in dettaglio in -sez.~\ref{sec:file_special_perm}). In questo caso essi saranno impostati -all'utente e al gruppo proprietari del file. Questo consente, per programmi in -cui ci sia questa necessità, di dare a qualunque utente i privilegi o i -permessi di un altro, compreso l'amministratore. +bit \acr{suid} o \acr{sgid} impostati (il significato di questi bit è +affrontato in dettaglio in sez.~\ref{sec:file_special_perm}). In questo caso +essi saranno impostati all'utente e al gruppo proprietari del file. Questo +consente, per programmi in cui ci sia questa necessità, di dare a qualunque +utente i privilegi o i permessi di un altro, compreso l'amministratore. Come nel caso del \ids{PID} e del \ids{PPID}, anche tutti questi identificatori possono essere ottenuti da un programma attraverso altrettante @@ -1854,9 +1864,10 @@ dell'\ids{UID} \textsl{effettivo} e del \ids{GID} \textsl{effettivo} del processo padre, e vengono impostati dalla funzione \func{exec} all'avvio del processo, come copie dell'\ids{UID} \textsl{effettivo} e del \ids{GID} \textsl{effettivo} dopo che questi sono stati impostati tenendo conto di -eventuali \itindex{suid~bit} \acr{suid} o \itindex{sgid~bit} \acr{sgid}. Essi -quindi consentono di tenere traccia di quale fossero utente e gruppo effettivi -all'inizio dell'esecuzione di un nuovo programma. +eventuali permessi \acr{suid} o \acr{sgid} (su cui torneremo in +sez.~\ref{sec:file_special_perm}). Essi quindi consentono di tenere traccia +di quale fossero utente e gruppo effettivi all'inizio dell'esecuzione di un +nuovo programma. L'\ids{UID} \textsl{di filesystem} e il \ids{GID} \textsl{di filesystem} sono un'estensione introdotta in Linux per rendere più sicuro l'uso di NFS @@ -1905,8 +1916,7 @@ specificato corrisponde o all'\ids{UID} reale o all'\ids{UID} salvato. Negli altri casi viene segnalato un errore con \errcode{EPERM}. Come accennato l'uso principale di queste funzioni è quello di poter -consentire ad un programma con i bit \itindex{suid~bit} \acr{suid} o -\itindex{sgid~bit} \acr{sgid} impostati (vedi +consentire ad un programma con i bit \acr{suid} o \acr{sgid} impostati (vedi sez.~\ref{sec:file_special_perm}) di riportare l'\ids{UID} effettivo a quello dell'utente che ha lanciato il programma, effettuare il lavoro che non necessita di privilegi aggiuntivi, ed eventualmente tornare indietro. @@ -2350,7 +2360,7 @@ fintanto che esso si trova in uno qualunque degli altri stati. interrotto in nessuna circostanza.\\ \textit{stopped} & \texttt{T} & Il processo è stato fermato con un \signal{SIGSTOP}, o è tracciato.\\ - \textit{zombie}\itindex{zombie}& \texttt{Z} & Il processo è terminato ma il + \textit{zombie} & \texttt{Z} & Il processo è terminato ma il suo stato di terminazione non è ancora stato letto dal padre.\\ \textit{killable}& \texttt{D} & Un nuovo stato introdotto con il kernel @@ -2573,8 +2583,8 @@ l'utente correnti. \hline \hline \const{PRIO\_PROCESS} & \type{pid\_t} & processo \\ - \const{PRIO\_PRGR} & \type{pid\_t} & \itindex{process~group} - \textit{process group}\\ + \const{PRIO\_PRGR} & \type{pid\_t} & \textit{process group} (vedi + sez.~\ref{sec:sess_proc_group})\\ \const{PRIO\_USER} & \type{uid\_t} & utente \\ \hline \end{tabular} @@ -3048,17 +3058,18 @@ ciclo, può avere invece un forte impatto negativo per la generazione di multiprocessore} \label{sec:proc_sched_multiprocess} +\index{effetto~ping-pong|(} + Con il supporto dei sistemi multiprocessore sono state introdotte delle funzioni che permettono di controllare in maniera più dettagliata la scelta di quale processore utilizzare per eseguire un certo programma. Uno dei problemi che si pongono nei sistemi multiprocessore è infatti quello del cosiddetto -\index{effetto~ping-pong} \textsl{effetto ping-pong}. Può accadere cioè che lo -\textit{scheduler}, quando riavvia un processo precedentemente interrotto -scegliendo il primo processore disponibile, lo faccia eseguire da un -processore diverso rispetto a quello su cui era stato eseguito in -precedenza. Se il processo passa da un processore all'altro in questo modo, -cosa che avveniva abbastanza di frequente con i kernel della seria 2.4.x, si -ha l'\textsl{effetto ping-pong}. +\textsl{effetto ping-pong}. Può accadere cioè che lo \textit{scheduler}, +quando riavvia un processo precedentemente interrotto scegliendo il primo +processore disponibile, lo faccia eseguire da un processore diverso rispetto a +quello su cui era stato eseguito in precedenza. Se il processo passa da un +processore all'altro in questo modo, cosa che avveniva abbastanza di frequente +con i kernel della seria 2.4.x, si ha l'effetto ping-pong. Questo tipo di comportamento può generare dei seri problemi di prestazioni; infatti tutti i processori moderni utilizzano una memoria interna (la @@ -3073,10 +3084,9 @@ dati aggiornata rispetto alla memoria principale. Questo comporta che quando un processore inserisce un dato nella sua cache, tutti gli altri processori che hanno lo stesso dato devono invalidarlo, e questa operazione è molto costosa in termini di prestazioni. Il problema -diventa serio quando si verifica l'\textsl{effetto ping-pong}, in tal caso -infatti un processo \textsl{rimbalza} continuamente da un processore all'altro -e si ha una continua invalidazione della cache, che non diventa mai -disponibile. +diventa serio quando si verifica l'effetto ping-pong, in tal caso infatti un +processo \textsl{rimbalza} continuamente da un processore all'altro e si ha +una continua invalidazione della cache, che non diventa mai disponibile. \itindbeg{CPU~affinity} @@ -3084,10 +3094,12 @@ Per ovviare a questo tipo di problemi è nato il concetto di \textsl{affinità di processore} (o \textit{CPU affinity}); la possibilità cioè di far sì che un processo possa essere assegnato per l'esecuzione sempre allo stesso processore. Lo \textit{scheduler} dei kernel della serie 2.4.x aveva una -scarsa \textit{CPU affinity}, e \index{effetto~ping-pong} l'effetto ping-pong -era comune; con il nuovo \textit{scheduler} dei kernel della 2.6.x questo -problema è stato risolto ed esso cerca di mantenere il più possibile ciascun -processo sullo stesso processore. +scarsa \textit{CPU affinity}, e l'effetto ping-pong era comune; con il nuovo +\textit{scheduler} dei kernel della 2.6.x questo problema è stato risolto ed +esso cerca di mantenere il più possibile ciascun processo sullo stesso +processore. + +\index{effetto~ping-pong|)} In certi casi però resta l'esigenza di poter essere sicuri che un processo sia sempre eseguito dallo stesso processore,\footnote{quella che viene detta @@ -3162,14 +3174,13 @@ seconda del processore, come avviene nelle architetture NUMA (\textit{Non-Uniform Memory Access}). Infine se un gruppo di processi accede alle stesse risorse condivise (ad -esempio una applicazione con più \itindex{thread} \textit{thread}) può avere -senso usare lo stesso processore in modo da sfruttare meglio l'uso della sua -cache; questo ovviamente riduce i benefici di un sistema multiprocessore -nell'esecuzione contemporanea dei \itindex{thread} \textit{thread}, ma in -certi casi (quando i \itindex{thread} \textit{thread} sono inerentemente -serializzati nell'accesso ad una risorsa) possono esserci sufficienti vantaggi -nell'evitare la perdita della cache da rendere conveniente l'uso dell'affinità -di processore. +esempio una applicazione con più \textit{thread}) può avere senso usare lo +stesso processore in modo da sfruttare meglio l'uso della sua cache; questo +ovviamente riduce i benefici di un sistema multiprocessore nell'esecuzione +contemporanea dei \textit{thread}, ma in certi casi (quando i \textit{thread} +sono inerentemente serializzati nell'accesso ad una risorsa) possono esserci +sufficienti vantaggi nell'evitare la perdita della cache da rendere +conveniente l'uso dell'affinità di processore. Dato che il numero di processori può variare a seconda delle architetture, per semplificare l'uso dell'argomento \param{mask} la \acr{glibc} ha introdotto un @@ -3218,17 +3229,20 @@ cui operare. L'unica che ritorna un risultato è \macro{CPU\_ISSET}, che restituisce un intero da usare come valore logico (zero se la CPU non è presente, diverso da zero se è presente). +\itindbeg{side~effects} Si tenga presente che trattandosi di macro l'argomento \param{cpu} può essere valutato più volte. Questo significa ad esempio che non si può usare al suo posto una funzione o un'altra macro, altrimenti queste verrebbero eseguite più volte, l'argomento cioè non deve avere \textsl{effetti collaterali} (in gergo -\itindex{side~effects} \textit{side effects}).\footnote{nel linguaggio C si + \textit{side effects}).\footnote{nel linguaggio C si parla appunto di \textit{side effects} quando si usano istruzioni la cui valutazione comporta effetti al di fuori dell'istruzione stessa, come il caso indicato in cui si passa una funzione ad una macro che usa l'argomento al suo interno più volte, o si scrivono espressioni come \code{a=a++} in cui non è chiaro se prima avvenga l'incremento e poi l'assegnazione, ed il cui risultato dipende dall'implementazione del compilatore.} +\itindend{side~effects} + Le CPU sono numerate da zero (che indica la prima disponibile) fino ad un numero massimo che dipende dalla architettura hardware. La costante @@ -3440,8 +3454,7 @@ sez.~\ref{sec:sess_proc_group}) o tutti i processi di un utente. \hline \hline \const{IPRIO\_WHO\_PROCESS} & \type{pid\_t} & processo\\ - \const{IPRIO\_WHO\_PRGR} & \type{pid\_t} & \itindex{process~group} - \textit{process group}\\ + \const{IPRIO\_WHO\_PRGR} & \type{pid\_t} & \textit{process group}\\ \const{IPRIO\_WHO\_USER} & \type{uid\_t} & utente\\ \hline \end{tabular} @@ -3723,9 +3736,9 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. per \param{arg2} comporta che vengano cancellate, il valore 1 che vengano mantenute, questo valore viene sempre cancellato attraverso una \func{exec}. L'uso di questo flag è stato sostituito, a partire dal kernel 2.6.26, dal - flag \const{SECURE\_KEEP\_CAPS} dei \itindex{securebits} \textit{securebits} - (vedi l'uso di \const{PR\_SET\_SECUREBITS} più avanti). Introdotta a partire - dal kernel 2.2.18. + flag \const{SECURE\_KEEP\_CAPS} dei \textit{securebits} (vedi + sez.~\ref{sec:proc_capabilities} e l'uso di \const{PR\_SET\_SECUREBITS} più + avanti). Introdotta a partire dal kernel 2.2.18. \item[\const{PR\_GET\_KEEPCAPS}] Ottiene come valore di ritorno della funzione il valore del flag di controllo delle \textit{capabilities} impostato con @@ -3754,24 +3767,24 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. puntato \param{arg2}, che deve essere di tipo ``\ctyp{int *}''. Introdotta a partire dal kernel 2.3.15. -\item[\const{PR\_SET\_SECCOMP}] Imposta il cosiddetto - \itindex{secure~computing~mode} \textit{secure computing mode} per il - processo corrente. Prevede come unica possibilità che \param{arg2} sia - impostato ad 1. Una volta abilitato il \itindex{secure~computing~mode} - \textit{secure computing mode} il processo potrà utilizzare soltanto un - insieme estremamente limitato di \textit{system call}: \func{read}, - \func{write}, \func{\_exit} e \funcm{sigreturn}. Ogni altra \textit{system - call} porterà all'emissione di un \signal{SIGKILL} (vedi - sez.~\ref{sec:sig_termination}). Il \textit{secure computing mode} è stato - ideato per fornire un supporto per l'esecuzione di codice esterno non fidato - e non verificabile a scopo di calcolo;\footnote{lo scopo è quello di poter - vendere la capacità di calcolo della proprio macchina ad un qualche - servizio di calcolo distribuito senza comprometterne la sicurezza - eseguendo codice non sotto il proprio controllo.} in genere i dati vengono - letti o scritti grazie ad un socket o una \textit{pipe}, e per evitare - problemi di sicurezza non sono possibili altre operazioni se non quelle - citate. Introdotta a partire dal kernel 2.6.23, disponibile solo se si è - abilitato il supporto nel kernel con \texttt{CONFIG\_SECCOMP}. +\itindbeg{secure~computing~mode} +\item[\const{PR\_SET\_SECCOMP}] Imposta il cosiddetto \textit{secure computing + mode} per il processo corrente. Prevede come unica possibilità + che \param{arg2} sia impostato ad 1. Una volta abilitato il \textit{secure + computing mode} il processo potrà utilizzare soltanto un insieme + estremamente limitato di \textit{system call}: \func{read}, \func{write}, + \func{\_exit} e \funcm{sigreturn}. Ogni altra \textit{system call} porterà + all'emissione di un \signal{SIGKILL} (vedi sez.~\ref{sec:sig_termination}). + Il \textit{secure computing mode} è stato ideato per fornire un supporto per + l'esecuzione di codice esterno non fidato e non verificabile a scopo di + calcolo;\footnote{lo scopo è quello di poter vendere la capacità di calcolo + della proprio macchina ad un qualche servizio di calcolo distribuito senza + comprometterne la sicurezza eseguendo codice non sotto il proprio + controllo.} in genere i dati vengono letti o scritti grazie ad un socket o + una \textit{pipe}, e per evitare problemi di sicurezza non sono possibili + altre operazioni se non quelle citate. Introdotta a partire dal kernel + 2.6.23, disponibile solo se si è abilitato il supporto nel kernel con + \texttt{CONFIG\_SECCOMP}. % TODO a partire dal kernel 3.5 è stato introdotto la possibilità di usare un % terzo argomento se il secondo è SECCOMP_MODE_FILTER, vedi @@ -3784,23 +3797,23 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. \item[\const{PR\_GET\_SECCOMP}] Ottiene come valore di ritorno della funzione lo stato corrente del \textit{secure computing mode}, al momento attuale la funzione è totalmente inutile in quanto l'unico valore ottenibile è 0, dato - che la chiamata di questa funzione in \itindex{secure~computing~mode} - \textit{secure computing mode} comporterebbe l'emissione di - \signal{SIGKILL}, è stata comunque definita per eventuali estensioni future. - Introdotta a partire dal kernel 2.6.23. - -\item[\const{PR\_SET\_SECUREBITS}] Imposta i \itindex{securebits} - \textit{securebits} per il processo chiamante al valore indicato - da \param{arg2}; per i dettagli sul significato dei \textit{securebits} si - veda sez.~\ref{sec:proc_capabilities}, ed in particolare i valori di + che la chiamata di questa funzione in \textit{secure computing mode} + comporterebbe l'emissione di \signal{SIGKILL}, è stata comunque definita per + eventuali estensioni future. Introdotta a partire dal kernel 2.6.23. +\itindend{secure~computing~mode} + +\item[\const{PR\_SET\_SECUREBITS}] Imposta i \textit{securebits} per il + processo chiamante al valore indicato da \param{arg2}; per i dettagli sul + significato dei \textit{securebits} si veda + sez.~\ref{sec:proc_capabilities}, ed in particolare i valori di tab.~\ref{tab:securebits_values} e la relativa trattazione. L'operazione richiede i privilegi di amministratore (la capacità \const{CAP\_SETPCAP}), altrimenti la chiamata fallirà con un errore di \errval{EPERM}. Introdotta a partire dal kernel 2.6.26. \item[\const{PR\_GET\_SECUREBITS}] Ottiene come valore di ritorno della - funzione l'impostazione corrente per i \itindex{securebits} - \textit{securebits}. Introdotta a partire dal kernel 2.6.26. + funzione l'impostazione corrente per i \textit{securebits}. Introdotta a + partire dal kernel 2.6.26. \item[\const{PR\_SET\_TIMING}] Imposta il metodo di temporizzazione del processo da indicare con il valore di \param{arg2}, attualmente i valori @@ -3822,8 +3835,9 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. abilitare la lettura o \const{PR\_TSC\_SIGSEGV} per disabilitarla con la generazione di un segnale di \signal{SIGSEGV} (vedi sez.~\ref{sec:sig_prog_error}). La lettura viene automaticamente - disabilitata se si attiva il \itindex{secure~computing~mode} \textit{secure - computing mode}. Introdotta a partire dal kernel 2.6.26, solo su x86. + disabilitata se si attiva il \textit{secure computing mode} (vedi + \const{PR\_SET\_SECCOMP} più avanti). Introdotta a partire dal kernel + 2.6.26, solo su x86. \item[\const{PR\_GET\_TSC}] Ottiene il valore del flag che controlla la lettura del contattore dei \textit{timestamp}, salvato all'indirizzo @@ -3894,7 +3908,7 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. memoria. Tutti gli argomenti non utilizzati (al momento tutti) devono essere nulli pena la ricezione di un errore di \errval{EINVAL}. Introdotta a partire dal kernel 2.6.32. -\itindbeg{child reaper} +\itindbeg{child~reaper} \item[\const{PR\_SET\_CHILD\_SUBREAPER}] Se \param{arg2} è diverso da zero imposta l'attributo di \textit{child reaper} per il processo, se nullo lo cancella. Lo stato di \textit{child reaper} è una funzionalità, introdotta @@ -3918,7 +3932,7 @@ Introdotta a partire dal kernel 2.4.21, solo su PowerPC. come di tipo \code{int *}). Il valore viene letto come valore logico, se diverso da 0 lo stato di \textit{child reaper} è attivo altrimenti è disattivo. Introdotta a partire dal kernel 3.4. -\itindend{child reaper} +\itindend{child~reaper} % TODO documentare PR_SET_SECCOMP introdotto a partire dal kernel 3.5. Vedi: @@ -3966,10 +3980,9 @@ indicare la unità di esecuzione generica messa a disposizione del kernel che Oltre a questo la funzione consente, ad uso delle nuove funzionalità di virtualizzazione dei processi, di creare nuovi \textit{namespace} per una serie di proprietà generali dei processi (come l'elenco dei \ids{PID}, -l'albero dei file, i \itindex{mount~point} \textit{mount point}, la rete, -ecc.), che consentono di creare gruppi di processi che vivono in una sorta di -spazio separato dagli altri, che costituisce poi quello che viene chiamato un -\textit{container}. +l'albero dei file, i \textit{mount point}, la rete, ecc.), che consentono di +creare gruppi di processi che vivono in una sorta di spazio separato dagli +altri, che costituisce poi quello che viene chiamato un \textit{container}. La \textit{system call} richiede soltanto due argomenti: il primo, \param{flags}, consente di controllare le modalità di creazione del @@ -3991,19 +4004,19 @@ quanto visto in sez.~\ref{sec:proc_mem_layout} riguardo all'uso dello \textit{stack}). Per evitare di doversi garantire contro la evidente possibilità di -\itindex{race~condition} \textit{race condition} che questa situazione -comporta (vedi sez.~\ref{sec:proc_race_cond} per una spiegazione della -problematica) è necessario che il chiamante allochi preventivamente un'area di -memoria. In genere lo si fa con una \func{malloc} che allochi un buffer che -la funzione imposterà come \textit{stack} del nuovo processo, avendo -ovviamente cura di non utilizzarlo direttamente nel processo chiamante. +\textit{race condition} che questa situazione comporta (vedi +sez.~\ref{sec:proc_race_cond} per una spiegazione della problematica) è +necessario che il chiamante allochi preventivamente un'area di memoria. In +genere lo si fa con una \func{malloc} che allochi un buffer che la funzione +imposterà come \textit{stack} del nuovo processo, avendo ovviamente cura di +non utilizzarlo direttamente nel processo chiamante. In questo modo i due \textit{task} avranno degli \textit{stack} indipendenti e -non si dovranno affrontare problematiche di \itindex{race~condition} -\textit{race condition}. Si tenga presente inoltre che in molte architetture -di processore lo \textit{stack} cresce verso il basso, pertanto in tal caso -non si dovrà specificare per \param{child\_stack} il puntatore restituito da -\func{malloc}, ma un puntatore alla fine del buffer da essa allocato. +non si dovranno affrontare problematiche di \textit{race condition}. Si tenga +presente inoltre che in molte architetture di processore lo \textit{stack} +cresce verso il basso, pertanto in tal caso non si dovrà specificare +per \param{child\_stack} il puntatore restituito da \func{malloc}, ma un +puntatore alla fine del buffer da essa allocato. Dato che tutto ciò è necessario solo per i \textit{thread} che condividono la memoria, la \textit{system call}, a differenza della funzione di libreria che @@ -4011,11 +4024,10 @@ vedremo a breve, consente anche di passare per \param{child\_stack} il valore \val{NULL}, che non imposta un nuovo \textit{stack}. Se infatti si crea un processo, questo ottiene un suo nuovo spazio degli indirizzi (è sottinteso cioè che non si stia usando il flag \const{CLONE\_VM} che vedremo a breve) ed -in questo caso si applica la semantica del \itindex{copy~on~write} -\textit{copy on write} illustrata in sez.~\ref{sec:proc_fork}, per cui le -pagine dello \textit{stack} verranno automaticamente copiate come le altre e -il nuovo processo avrà un suo \textit{stack} totalmente indipendente da quello -del padre. +in questo caso si applica la semantica del \textit{copy on write} illustrata +in sez.~\ref{sec:proc_fork}, per cui le pagine dello \textit{stack} verranno +automaticamente copiate come le altre e il nuovo processo avrà un suo +\textit{stack} totalmente indipendente da quello del padre. Dato che l'uso principale della nuova \textit{system call} è quello relativo alla creazione dei \textit{thread}, la \acr{glibc} definisce una funzione di @@ -4095,17 +4107,17 @@ elenco, che illustra quelle attualmente disponibili:\footnote{si fa figlio all'indirizzo dato dall'argomento \param{ctid}. Questo flag viene utilizzato dalla librerie di gestione dei \textit{thread}. \item[\const{CLONE\_FILES}] se impostato il nuovo processo condividerà con il - padre la \itindex{file~descriptor~table} \textit{file descriptor table} - (vedi sez.~\ref{sec:file_fd}), questo significa che ogni \textit{file - descriptor} aperto da un processo verrà visto anche dall'altro e che ogni - chiusura o cambiamento dei \textit{file descriptor flag} di un \textit{file - descriptor} verrà per entrambi. + padre la \textit{file descriptor table} (vedi sez.~\ref{sec:file_fd}), + questo significa che ogni \textit{file descriptor} aperto da un processo + verrà visto anche dall'altro e che ogni chiusura o cambiamento dei + \textit{file descriptor flag} di un \textit{file descriptor} verrà per + entrambi. Se non viene impostato il processo figlio eredita una copia della - \itindex{file~descriptor~table} \textit{file descriptor table} del padre e - vale la semantica classica della gestione dei \textit{file descriptor}, che - costituisce il comportamento ordinario di un sistema unix-like e che - illustreremo in dettaglio in sez.~\ref{sec:file_shared_access}. + \textit{file descriptor table} del padre e vale la semantica classica della + gestione dei \textit{file descriptor}, che costituisce il comportamento + ordinario di un sistema unix-like e che illustreremo in dettaglio in + sez.~\ref{sec:file_shared_access}. \item[\const{CLONE\_FS}] se questo flag viene impostato il nuovo processo condividerà con il padre le informazioni relative all'albero dei file, ed in @@ -4114,7 +4126,8 @@ elenco, che illustra quelle attualmente disponibili:\footnote{si fa \textit{umask} (sez.~\ref{sec:file_perm_management}). Una modifica di una qualunque di queste caratteristiche in un processo, avrà effetto anche sull'altro. Se assente il nuovo processo riceverà una copia delle precedenti - informazioni, che saranno così indipendenti per i due processi. + informazioni, che saranno così indipendenti per i due processi, come avviene + nel comportamento ordinario di un sistema unix-like. \item[\const{CLONE\_IO}] \item[\const{CLONE\_NEWIPC}] @@ -4234,9 +4247,9 @@ di interruzione in una fase intermedia. In un ambiente multitasking il concetto è essenziale, dato che un processo può essere interrotto in qualunque momento dal kernel che mette in esecuzione un altro processo o dalla ricezione di un segnale. Occorre pertanto essere -accorti nei confronti delle possibili \itindex{race~condition} \textit{race - condition} (vedi sez.~\ref{sec:proc_race_cond}) derivanti da operazioni -interrotte in una fase in cui non erano ancora state completate. +accorti nei confronti delle possibili \textit{race condition} (vedi +sez.~\ref{sec:proc_race_cond}) derivanti da operazioni interrotte in una fase +in cui non erano ancora state completate. Nel caso dell'interazione fra processi la situazione è molto più semplice, ed occorre preoccuparsi della atomicità delle operazioni solo quando si ha a che @@ -4259,9 +4272,9 @@ sez.~\ref{sec:sig_adv_control}). Qualora invece si usino i \textit{thread}, in cui lo spazio degli indirizzi è condiviso, il problema è sempre presente, perché qualunque \textit{thread} può interromperne un altro in qualunque momento e l'atomicità di qualunque -operazione è messa in discussione, per cui l'assenza di eventuali -\itindex{race~condition} \textit{race condition} deve essere sempre verificata -nei minimi dettagli. +operazione è messa in discussione, per cui l'assenza di eventuali \textit{race + condition} (vedi sez.~\ref{sec:proc_race_cond}) deve essere sempre +verificata nei minimi dettagli. In questo caso il sistema provvede un tipo di dato, il \type{sig\_atomic\_t}, il cui accesso è assicurato essere atomico. In pratica comunque si può diff --git a/session.tex b/session.tex index 10cc5cf..93f7d5e 100644 --- a/session.tex +++ b/session.tex @@ -295,8 +295,8 @@ sia dal processo padre, per impostare il valore nel figlio, che da quest'ultimo, per sé stesso, in modo che il cambiamento di \textit{process group} sia immediato per entrambi; una delle due chiamate sarà ridondante, ma non potendo determinare quale dei due processi viene eseguito per primo, -occorre eseguirle comunque entrambe per evitare di esporsi ad una -\itindex{race~condition} \textit{race condition}. +occorre eseguirle comunque entrambe per evitare di esporsi ad una \textit{race + condition}. Si noti come nessuna delle funzioni esaminate finora permetta di spostare un processo da una sessione ad un altra; infatti l'unico modo di far cambiare diff --git a/signal.tex b/signal.tex index 493bf44..bde6dfc 100644 --- a/signal.tex +++ b/signal.tex @@ -115,20 +115,20 @@ gestore non verrebbe eseguita. Questa è la ragione per cui l'implementazione dei segnali secondo questa semantica viene chiamata \textsl{inaffidabile}: infatti la ricezione del segnale e la reinstallazione del suo gestore non sono operazioni atomiche, e -sono sempre possibili delle \itindex{race~condition} \textit{race condition} -(si ricordi sez.~\ref{sec:proc_multi_prog}). Un altro problema è che in -questa semantica non esiste un modo per bloccare i segnali quando non si vuole -che arrivino; i processi possono ignorare il segnale, ma non è possibile -istruire il sistema a non fare nulla in occasione di un segnale, pur -mantenendo memoria del fatto che è avvenuto. +sono sempre possibili delle \textit{race condition} (si ricordi +sez.~\ref{sec:proc_multi_prog}). Un altro problema è che in questa semantica +non esiste un modo per bloccare i segnali quando non si vuole che arrivino; i +processi possono ignorare il segnale, ma non è possibile istruire il sistema a +non fare nulla in occasione di un segnale, pur mantenendo memoria del fatto +che è avvenuto. Nella semantica \textsl{affidabile} (quella utilizzata da Linux e da ogni Unix moderno) il gestore una volta installato resta attivo e non si hanno tutti i problemi precedenti. In questa semantica i segnali vengono \textsl{generati} dal kernel per un processo all'occorrenza dell'evento che causa il segnale. In genere questo viene fatto dal kernel impostando un apposito campo della -\struct{task\_struct} del processo nella \itindex{process~table} -\textit{process table} (si veda fig.~\ref{fig:proc_task_struct}). +\struct{task\_struct} del processo nella \textit{process table} (si veda +fig.~\ref{fig:proc_task_struct}). Si dice che il segnale viene \textsl{consegnato} al processo (dall'inglese \textit{delivered}) quando viene eseguita l'azione per esso prevista, mentre @@ -258,7 +258,7 @@ sez.~\ref{sec:sig_signal} e sez.~\ref{sec:sig_sigaction}. Se si è installato un gestore sarà quest'ultimo ad essere eseguito alla notifica del segnale. Inoltre il sistema farà si che mentre viene eseguito il gestore di un segnale, quest'ultimo venga automaticamente bloccato, così si possono evitare alla -radice possibili \itindex{race~condition} \textit{race condition}. +radice possibili \textit{race condition}. Nel caso non sia stata specificata un'azione, viene utilizzata la cosiddetta azione predefinita che, come vedremo in sez.~\ref{sec:sig_standard}, è propria @@ -1675,13 +1675,13 @@ generale dunque, quando non interessa elaborare lo stato di uscita di un processo, si può completare la gestione della terminazione installando un gestore per \signal{SIGCHLD} il cui unico compito sia quello di chiamare \func{waitpid} per completare la procedura di terminazione in modo da evitare -la formazione di \itindex{zombie} \textit{zombie}.\footnote{si ricordi - comunque che dal kernel 2.6 seguendo lo standard POSIX.1-2001 per evitare di - dover ricevere gli stati di uscita che non interessano basta impostare come - azione predefinita quella di ignorare \signal{SIGCHLD}, nel qual caso viene - assunta la semantica di System V, in cui il segnale non viene inviato, il - sistema non genera \itindex{zombie} \textit{zombie} e lo stato di - terminazione viene scartato senza dover chiamare una \func{wait}.} +la formazione di \textit{zombie}.\footnote{si ricordi comunque che dal kernel + 2.6 seguendo lo standard POSIX.1-2001 per evitare di dover ricevere gli + stati di uscita che non interessano basta impostare come azione predefinita + quella di ignorare \signal{SIGCHLD}, nel qual caso viene assunta la + semantica di System V, in cui il segnale non viene inviato, il sistema non + genera \textit{zombie} e lo stato di terminazione viene scartato senza dover + chiamare una \func{wait}.} In fig.~\ref{fig:sig_sigchld_handl} è mostrato il codice contenente una implementazione generica di una funzione di gestione per \signal{SIGCHLD}, @@ -1689,7 +1689,7 @@ implementazione generica di una funzione di gestione per \signal{SIGCHLD}, test di sez.~\ref{sec:proc_termination}, invocando \cmd{forktest} con l'opzione \cmd{-s} (che si limita ad effettuare l'installazione di questa funzione come gestore di \signal{SIGCHLD}) potremo verificare che non si ha -più la creazione di \itindex{zombie} \textit{zombie}. +più la creazione di \textit{zombie}. \begin{figure}[!htbp] \footnotesize \centering @@ -1730,8 +1730,7 @@ rimosso verrà recapitato un solo segnale. Allora, nel caso della terminazione dei processi figli, se si chiamasse \func{waitpid} una sola volta, essa leggerebbe lo stato di terminazione per un solo processo, anche se i processi terminati sono più di uno, e gli altri -resterebbero in stato di \itindex{zombie} \textit{zombie} per un tempo -indefinito. +resterebbero in stato di \textit{zombie} per un tempo indefinito. Per questo occorre ripetere la chiamata di \func{waitpid} fino a che essa non ritorni un valore nullo, segno che non resta nessun processo di cui si debba @@ -1747,9 +1746,9 @@ tutti gli stati di terminazione sono stati ricevuti. Le funzioni esaminate finora fanno riferimento alle modalità più elementari della gestione dei segnali; non si sono pertanto ancora prese in -considerazione le tematiche più complesse, collegate alle varie -\itindex{race~condition} \textit{race condition} che i segnali possono -generare e alla natura asincrona degli stessi. +considerazione le tematiche più complesse, collegate alle varie \textit{race + condition} che i segnali possono generare e alla natura asincrona degli +stessi. Affronteremo queste problematiche in questa sezione, partendo da un esempio che le evidenzi, per poi prendere in esame le varie funzioni che permettono di @@ -1790,13 +1789,13 @@ l'interruzione di \func{pause} venisse causata da un altro segnale. Questo codice però, a parte il non gestire il caso in cui si è avuta una precedente chiamata a \func{alarm} (che si è tralasciato per brevità), -presenta una pericolosa \itindex{race~condition} \textit{race condition}. -Infatti, se il processo viene interrotto fra la chiamata di \func{alarm} e -\func{pause}, può capitare (ad esempio se il sistema è molto carico) che il -tempo di attesa scada prima dell'esecuzione di quest'ultima, cosicché essa -sarebbe eseguita dopo l'arrivo di \signal{SIGALRM}. In questo caso ci si -troverebbe di fronte ad un \itindex{deadlock} deadlock, in quanto \func{pause} -non verrebbe mai più interrotta (se non in caso di un altro segnale). +presenta una pericolosa \textit{race condition}. Infatti, se il processo +viene interrotto fra la chiamata di \func{alarm} e \func{pause}, può capitare +(ad esempio se il sistema è molto carico) che il tempo di attesa scada prima +dell'esecuzione di quest'ultima, cosicché essa sarebbe eseguita dopo l'arrivo +di \signal{SIGALRM}. In questo caso ci si troverebbe di fronte ad un +\textit{deadlock}, in quanto \func{pause} non verrebbe mai più interrotta (se +non in caso di un altro segnale). Questo problema può essere risolto (ed è la modalità con cui veniva fatto in SVr2) usando la funzione \func{longjmp} (vedi sez.~\ref{sec:proc_longjmp}) per @@ -1854,12 +1853,12 @@ l'occorrenza o meno del segnale, ed eseguire le azioni conseguenti \end{figure} Questo è il tipico esempio di caso, già citato in -sez.~\ref{sec:proc_race_cond}, in cui si genera una \itindex{race~condition} -\textit{race condition}. Infatti, in una situazione in cui un segnale è già -arrivato (e quindi \var{flag} è già stata impostata ad 1 nel gestore) se un -altro segnale arriva immediatamente dopo l'esecuzione del controllo -(\texttt{\small 6}) ma prima della cancellazione di \var{flag} fatta subito -dopo (\texttt{\small 7}), la sua occorrenza sarà perduta. +sez.~\ref{sec:proc_race_cond}, in cui si genera una \textit{race + condition}. Infatti, in una situazione in cui un segnale è già arrivato (e +quindi \var{flag} è già stata impostata ad 1 nel gestore) se un altro segnale +arriva immediatamente dopo l'esecuzione del controllo (\texttt{\small 6}) ma +prima della cancellazione di \var{flag} fatta subito dopo (\texttt{\small 7}), +la sua occorrenza sarà perduta. Questi esempi ci mostrano come per poter eseguire una gestione effettiva dei segnali occorrono delle funzioni più sofisticate di quelle finora @@ -2099,13 +2098,13 @@ tab.~\ref{tab:sig_sa_flag}. quando si imposta un gestore per \signal{SIGCHLD}.\\ \const{SA\_NOCLDWAIT}& Se il segnale è \signal{SIGCHLD} e si richiede di ignorare il segnale con \const{SIG\_IGN} allora i - processi figli non diventano \itindex{zombie} - \textit{zombie} quando terminano; questa - funzionalità è stata introdotta nel kernel 2.6 e va - a modificare il comportamento di \func{waitpid} - come illustrato in sez.~\ref{sec:proc_wait}, se si - installa un gestore con questo flag attivo il - segnale \signal{SIGCHLD} viene comunque generato.\\ + processi figli non diventano \textit{zombie} quando + terminano; questa funzionalità è stata introdotta + nel kernel 2.6 e va a modificare il comportamento + di \func{waitpid} come illustrato in + sez.~\ref{sec:proc_wait}, se si installa un gestore + con questo flag attivo il segnale \signal{SIGCHLD} + viene comunque generato.\\ \const{SA\_NODEFER} & Evita che il segnale corrente sia bloccato durante l'esecuzione del gestore.\\ \const{SA\_NOMASK} & Nome obsoleto e sinonimo non standard di @@ -2518,11 +2517,11 @@ fine (\texttt{\small 22}), e al contempo si prepara la maschera dei segnali \var{sleep\_mask} per riattivare \signal{SIGALRM} all'esecuzione di \func{sigsuspend}. -In questo modo non sono più possibili \itindex{race~condition} \textit{race - condition} dato che \signal{SIGALRM} viene disabilitato con -\func{sigprocmask} fino alla chiamata di \func{sigsuspend}. Questo metodo è -assolutamente generale e può essere applicato a qualunque altra situazione in -cui si deve attendere per un segnale, i passi sono sempre i seguenti: +In questo modo non sono più possibili \textit{race condition} dato che +\signal{SIGALRM} viene disabilitato con \func{sigprocmask} fino alla chiamata +di \func{sigsuspend}. Questo metodo è assolutamente generale e può essere +applicato a qualunque altra situazione in cui si deve attendere per un +segnale, i passi sono sempre i seguenti: \begin{enumerate*} \item leggere la maschera dei segnali corrente e bloccare il segnale voluto con \func{sigprocmask}; @@ -2531,9 +2530,8 @@ cui si deve attendere per un segnale, i passi sono sempre i seguenti: \item ripristinare la maschera dei segnali originaria. \end{enumerate*} Per quanto possa sembrare strano bloccare la ricezione di un segnale per poi -riabilitarla immediatamente dopo, in questo modo si evita il -\itindex{deadlock} deadlock dovuto all'arrivo del segnale prima -dell'esecuzione di \func{sigsuspend}. +riabilitarla immediatamente dopo, in questo modo si evita il \textit{deadlock} +dovuto all'arrivo del segnale prima dell'esecuzione di \func{sigsuspend}. \index{maschera dei segnali|)} diff --git a/tcpsock.tex b/tcpsock.tex index fe2891f..5d0a01b 100644 --- a/tcpsock.tex +++ b/tcpsock.tex @@ -2039,17 +2039,17 @@ esaminato in sez.~\ref{sec:proc_termination}). In questo caso avremo l'invio del segnale \signal{SIGCHLD} al padre, ma dato che non si è installato un gestore e che l'azione predefinita per questo segnale è quella di essere ignorato, non avendo predisposto la ricezione dello stato di terminazione, -otterremo che il processo figlio entrerà nello stato di \itindex{zombie} -\textit{zombie} (si riveda quanto illustrato in sez.~\ref{sec:sig_sigchld}), -come risulterà ripetendo il comando \cmd{ps}: +otterremo che il processo figlio entrerà nello stato di \textit{zombie} (si +riveda quanto illustrato in sez.~\ref{sec:sig_sigchld}), come risulterà +ripetendo il comando \cmd{ps}: \begin{verbatim} 2356 pts/0 S 0:00 ./echod 2359 pts/0 Z 0:00 [echod ] \end{verbatim} -Dato che non è il caso di lasciare processi \itindex{zombie} \textit{zombie}, -occorrerà ricevere opportunamente lo stato di terminazione del processo (si -veda sez.~\ref{sec:proc_wait}), cosa che faremo utilizzando \signal{SIGCHLD} +Dato che non è il caso di lasciare processi \textit{zombie}, occorrerà +ricevere opportunamente lo stato di terminazione del processo (si veda +sez.~\ref{sec:proc_wait}), cosa che faremo utilizzando \signal{SIGCHLD} secondo quanto illustrato in sez.~\ref{sec:sig_sigchld}. Una prima modifica al nostro server è pertanto quella di inserire la gestione della terminazione dei processi figli attraverso l'uso di un gestore. Per questo useremo la funzione @@ -2070,9 +2070,9 @@ un errore di \errcode{EINTR}. Vediamo allora cosa comporta tutto questo nel nostro caso: quando si chiude il client, il processo figlio che gestisce la connessione terminerà, ed il padre, -per evitare la creazione di \itindex{zombie} \textit{zombie}, riceverà il -segnale \signal{SIGCHLD} eseguendo il relativo gestore. Al ritorno del gestore -però l'esecuzione nel padre ripartirà subito con il ritorno della funzione +per evitare la creazione di \textit{zombie}, riceverà il segnale +\signal{SIGCHLD} eseguendo il relativo gestore. Al ritorno del gestore però +l'esecuzione nel padre ripartirà subito con il ritorno della funzione \func{accept} (a meno di un caso fortuito in cui il segnale arriva durante l'esecuzione del programma in risposta ad una connessione) con un errore di \errcode{EINTR}. Non avendo previsto questa eventualità il programma considera