TODO dal 2.6.32

[gapil.git] / fileadv.tex
diff --git a/fileadv.tex b/fileadv.tex

index 983a14ccef9e0ad773ef044061c22d500dda1112..31856f65bb3f770c25538d6ded347f9d0194fdff 100644 (file)
--- a/fileadv.tex
+++ b/fileadv.tex
@@ -192,7 +192,7 @@ bloccher
  ritornerà subito con un errore di \errcode{EWOULDBLOCK}. Per rilasciare un
  \textit{file lock} si dovrà invece usare \const{LOCK\_UN}.
  
-Si tenga presente che non esite una modalità per eseguire atomicamente un
+Si tenga presente che non esiste una modalità per eseguire atomicamente un
  cambiamento del tipo di blocco (da \textit{shared lock} a \textit{esclusive
    lock}), il blocco deve essere prima rilasciato e poi richiesto, ed è sempre
  possibile che nel frattempo abbia successo un'altra richiesta pendente,
@@ -1612,7 +1612,7 @@ quest'ultima serve sia in ingresso (quando usata con \func{epoll\_ctl}) ad
  impostare quali eventi osservare, che in uscita (nei risultati ottenuti con
  \func{epoll\_wait}) per ricevere le notifiche degli eventi avvenuti.  La sua
  definizione è riportata in fig.~\ref{fig:epoll_event}. 
-«
+
  Il primo campo, \var{events}, è una maschera binaria in cui ciascun bit
  corrisponde o ad un tipo di evento, o una modalità di notifica; detto campo
  deve essere specificato come OR aritmetico delle costanti riportate in
@@ -1775,13 +1775,14 @@ anche con il fatto che sono stati restituiti meno dati di quelli richiesti.
  
  Come già per \func{select} e \func{poll} anche per l'interfaccia di
  \textit{epoll} si pone il problema di gestire l'attesa di segnali e di dati
-contemponeamente, per far questo di nuovo è necessaria una variante della
+contemporaneamente, per far questo di nuovo è necessaria una variante della
  funzione di attesa che consenta di reimpostare all'uscita una maschera di
  segnali, analoga alle precedenti estensioni \func{pselect} e \func{ppoll}; in
-questo caso la funzione si chiama \funcd{epoll\_pwait} ed il suo prototipo è:
-\begin{prototype}{sys/epoll.h}
+questo caso la funzione si chiama \funcd{epoll\_pwait}\footnote{introdotta a
+  partire dal kernel 2.6.19.} ed il suo prototipo è:
+\begin{prototype}{sys/epoll.h} 
    {int epoll\_pwait(int epfd, struct epoll\_event * events, int maxevents, 
-    int timeout, const sigset_t *sigmask)}
+    int timeout, const sigset\_t *sigmask)}
  
    Attende che uno dei file descriptor osservati sia pronto, mascherando i
    segnali. 
@@ -1793,9 +1794,10 @@ questo caso la funzione si chiama \funcd{epoll\_pwait} ed il suo prototipo 
  \end{prototype}
  
  La funzione è del tutto analoga \funcd{epoll\_wait}, soltanto che alla sua
-uscita viene ripristinata la maschera di segnali impostata con
-l'argomento \param{sigmask}, in sostanza la chiamata a questa funzione è
-equivalente al seguente codice, eseguito però in maniera atomica:
+uscita viene ripristinata la maschera di segnali originale, sostituita durante
+l'esecuzione da quella impostata con l'argomento \param{sigmask}; in sostanza
+la chiamata a questa funzione è equivalente al seguente codice, eseguito però
+in maniera atomica:
  \includecodesnip{listati/epoll_pwait_means.c} 
  
  Si tenga presente che come le precedenti funzioni di \textit{I/O multiplexing}
@@ -1836,26 +1838,28 @@ l'uso del flag \const{O\_ASYNC},\footnote{l'uso del flag di \const{O\_ASYNC} e
    specifico di Linux e BSD.} aprire un file in modalità asincrona, così come è
  possibile attivare in un secondo tempo questa modalità impostando questo flag
  attraverso l'uso di \func{fcntl} con il comando \const{F\_SETFL} (vedi
-sez.~\ref{sec:file_fcntl}).
-
-In realtà parlare di apertura in modalità asincrona non significa che le
-operazioni di lettura o scrittura del file vengono eseguite in modo asincrono
-(tratteremo questo, che è ciò che più propriamente viene chiamato \textsl{I/O
-  asincrono}, in sez.~\ref{sec:file_asyncronous_io}), quanto dell'attivazione
-un meccanismo di notifica asincrona delle variazione dello stato del file
-descriptor aperto in questo modo.  Quello che succede in questo caso è che il
-sistema genera un segnale (normalmente \const{SIGIO}, ma è possibile usarne
-altri con il comando \const{F\_SETSIG} di \func{fcntl}) tutte le volte che
-diventa possibile leggere o scrivere dal file descriptor che si è posto in
-questa modalità.\footnote{questa modalità non è utilizzabile con i file
-  ordinari ma solo con socket, file di terminale o pseudo terminale, e, a
-  partire dal kernel 2.6, anche per fifo e pipe.}
-
-Si può inoltre selezionare, con il comando \const{F\_SETOWN} di \func{fcntl},
-quale processo (o gruppo di processi) riceverà il segnale. Se pertanto si
-effettuano le operazioni di I/O in risposta alla ricezione del segnale non ci
-sarà più la necessità di restare bloccati in attesa della disponibilità di
-accesso ai file. 
+sez.~\ref{sec:file_fcntl}). In realtà parlare di apertura in modalità
+asincrona non significa che le operazioni di lettura o scrittura del file
+vengono eseguite in modo asincrono (tratteremo questo, che è ciò che più
+propriamente viene chiamato \textsl{I/O asincrono}, in
+sez.~\ref{sec:file_asyncronous_io}), quanto dell'attivazione un meccanismo di
+notifica asincrona delle variazione dello stato del file descriptor aperto in
+questo modo.  
+
+Quello che succede è che per tutti i file posti in questa modalità\footnote{si
+  tenga presente però che essa non è utilizzabile con i file ordinari ma solo
+  con socket, file di terminale o pseudo terminale, ed anche, a partire dal
+  kernel 2.6, anche per fifo e pipe.} il sistema genera un apposito segnale,
+\const{SIGIO}, tutte le volte che diventa possibile leggere o scrivere dal
+file descriptor che si è posto in questa modalità. Inoltre è possibile, come
+illustrato in sez.~\ref{sec:file_fcntl}, selezionare con il comando
+\const{F\_SETOWN} di \func{fcntl} quale processo o quale gruppo di processi
+dovrà ricevere il segnale. In questo modo diventa possibile effettuare le
+operazioni di I/O in risposta alla ricezione del segnale, e non ci sarà più la
+necessità di restare bloccati in attesa della disponibilità di accesso ai
+file.
+
+% TODO: per i thread l'uso di F_SETOWN ha un significato diverso
  
  Per questo motivo Stevens, ed anche le pagine di manuale di Linux, chiamano
  questa modalità ``\textit{Signal driven I/O}''.  Si tratta di un'altra
@@ -1988,7 +1992,7 @@ Esistono due tipi di \textit{file lease}: di lettura (\textit{read lease}) e
  di scrittura (\textit{write lease}). Nel primo caso la notifica avviene quando
  un altro processo esegue l'apertura del file in scrittura o usa
  \func{truncate} per troncarlo. Nel secondo caso la notifica avviene anche se
-il file viene aperto il lettura; in quest'ultimo caso però il \textit{lease}
+il file viene aperto in lettura; in quest'ultimo caso però il \textit{lease}
  può essere ottenuto solo se nessun altro processo ha aperto lo stesso file.
  
  Come accennato in sez.~\ref{sec:file_fcntl} il comando di \func{fcntl} che
@@ -3036,11 +3040,11 @@ rispetto a quella classica vista in cap.~\ref{cha:file_unix_interface}, 
  cosiddetto \textit{memory-mapped I/O}, che, attraverso il meccanismo della
  \textsl{paginazione} \index{paginazione} usato dalla memoria virtuale (vedi
  sez.~\ref{sec:proc_mem_gen}), permette di \textsl{mappare} il contenuto di un
-file in una sezione dello spazio di indirizzi del processo. 
- che lo ha allocato
+file in una sezione dello spazio di indirizzi del processo che lo ha allocato.
+
  \begin{figure}[htb]
    \centering
-  \includegraphics[width=12cm]{img/mmap_layout}
+  \includegraphics[width=14cm]{img/mmap_layout}
    \caption{Disposizione della memoria di un processo quando si esegue la
    mappatura in memoria di un file.}
    \label{fig:file_mmap_layout}
@@ -3130,7 +3134,6 @@ partire da \param{offset} per \param{lenght} byte, preferibilmente
  all'indirizzo \param{start}. Il valore di \param{offset} deve essere un
  multiplo della dimensione di una pagina di memoria. 
  
-
  \begin{table}[htb]
    \centering
    \footnotesize
@@ -3225,7 +3228,7 @@ tab.~\ref{tab:file_mmap_flag}.
                               ignorati.\footnotemark\\
      \const{MAP\_ANON}      & Sinonimo di \const{MAP\_ANONYMOUS}, deprecato.\\
      \const{MAP\_FILE}      & Valore di compatibilità, ignorato.\\
-    \const{MAP\_32BIT}     & Esegue la mappatura sui primi 2GiB dello spazio
+    \const{MAP\_32BIT}     & Esegue la mappatura sui primi 2Gb dello spazio
                               degli indirizzi, viene supportato solo sulle
                               piattaforme \texttt{x86-64} per compatibilità con
                               le applicazioni a 32 bit. Viene ignorato se si è
@@ -3244,6 +3247,17 @@ tab.~\ref{tab:file_mmap_flag}.
    \label{tab:file_mmap_flag}
  \end{table}
  
+\footnotetext[68]{dato che tutti faranno riferimento alle stesse pagine di
+  memoria.}  
+
+\footnotetext[69]{l'uso di questo flag con \const{MAP\_SHARED} è stato
+  implementato in Linux a partire dai kernel della serie 2.4.x; esso consente
+  di creare segmenti di memoria condivisa e torneremo sul suo utilizzo in
+  sez.~\ref{sec:ipc_mmap_anonymous}.}
+
+\footnotetext{questo flag ed il precedente \const{MAP\_POPULATE} sono stati
+  introdotti nel kernel 2.5.46 insieme alla mappatura non lineare di cui
+  parleremo più avanti.}
  
  Gli effetti dell'accesso ad una zona di memoria mappata su file possono essere
  piuttosto complessi, essi si possono comprendere solo tenendo presente che
@@ -3258,32 +3272,19 @@ tipo di accesso.
  regione di cui si è richiesta la mappatura. A prima vista infatti si potrebbe
  ritenere che anch'essi debbano generare un segnale di violazione di accesso;
  questo però non tiene conto del fatto che, essendo basata sul meccanismo della
-paginazione \index{paginazione}, la mappatura in memoria non può che essere
+\index{paginazione} paginazione, la mappatura in memoria non può che essere
  eseguita su un segmento di dimensioni rigorosamente multiple di quelle di una
  pagina, ed in generale queste potranno non corrispondere alle dimensioni
  effettive del file o della sezione che si vuole mappare.
  
-\footnotetext[68]{dato che tutti faranno riferimento alle stesse pagine di
-  memoria.}  
-
-\footnotetext[69]{l'uso di questo flag con \const{MAP\_SHARED} è stato
-  implementato in Linux a partire dai kernel della serie 2.4.x; esso consente
-  di creare segmenti di memoria condivisa e torneremo sul suo utilizzo in
-  sez.~\ref{sec:ipc_mmap_anonymous}.}
-
-\footnotetext{questo flag ed il precedente \const{MAP\_POPULATE} sono stati
-  introdotti nel kernel 2.5.46 insieme alla mappatura non lineare di cui
-  parleremo più avanti.}
-
  \begin{figure}[!htb] 
    \centering
-  \includegraphics[height=6cm]{img/mmap_boundary}
+  \includegraphics[height=6.5cm]{img/mmap_boundary}
    \caption{Schema della mappatura in memoria di una sezione di file di
      dimensioni non corrispondenti al bordo di una pagina.}
    \label{fig:file_mmap_boundary}
  \end{figure}
  
-
  Il caso più comune è quello illustrato in fig.~\ref{fig:file_mmap_boundary},
  in cui la sezione di file non rientra nei confini di una pagina: in tal caso
  verrà il file sarà mappato su un segmento di memoria che si estende fino al
@@ -3393,25 +3394,6 @@ relativi tempi di modifica. In questo modo si 
  di \func{msync} le funzioni dell'interfaccia standard troveranno un contenuto
  del file aggiornato.
  
-\begin{table}[htb]
-  \centering
-  \footnotesize
-  \begin{tabular}[c]{|l|l|}
-    \hline
-    \textbf{Valore} & \textbf{Significato} \\
-    \hline
-    \hline
-    \const{MS\_ASYNC}     & Richiede la sincronizzazione.\\
-    \const{MS\_SYNC}      & Attende che la sincronizzazione si eseguita.\\
-    \const{MS\_INVALIDATE}& Richiede che le altre mappature dello stesso file
-                            siano invalidate.\\
-    \hline    
-  \end{tabular}
-  \caption{Le costanti che identificano i bit per la maschera binaria
-    dell'argomento \param{flag} di \func{msync}.}
-  \label{tab:file_mmap_rsync}
-\end{table}
-
  L'argomento \param{flag} è specificato come maschera binaria composta da un OR
  dei valori riportati in tab.~\ref{tab:file_mmap_rsync}, di questi però
  \const{MS\_ASYNC} e \const{MS\_SYNC} sono incompatibili; con il primo valore
@@ -3649,9 +3631,128 @@ mappatura che gi
    essere utile per il linker dinamico, in particolare quando viene effettuato
    il \textit{prelink} delle applicazioni.}
  
+Per i vantaggi illustrati all'inizio del paragrafo l'interfaccia del
+\textit{memory mapped I/O} viene usata da una grande varietà di programmi,
+spesso con esigenze molto diverse fra di loro riguardo le modalità con cui
+verranno eseguiti gli accessi ad un file; è ad esempio molto comune per i
+database effettuare accessi ai dati in maniera pressoché casuale, mentre un
+riproduttore audio o video eseguirà per lo più letture sequenziali.
+
+Per migliorare le prestazioni a seconda di queste modalità di accesso è
+disponibile una apposita funzione, \funcd{madvise},\footnote{tratteremo in
+  sez.~\ref{sec:file_fadvise} le funzioni che consentono di ottimizzare
+  l'accesso ai file con l'interfaccia classica.} che consente di fornire al
+kernel delle indicazioni su dette modalità, così che possano essere adottate
+le opportune strategie di ottimizzazione. Il suo prototipo è:
+\begin{functions}  
+  \headdecl{sys/mman.h} 
+
+  \funcdecl{int madvise(void *start, size\_t length, int advice)}
+  
+  Fornisce indicazioni sull'uso previsto di un \textit{memory mapping}.
+
+  \bodydesc{La funzione restituisce 0 in caso di successo e $-1$ in caso di
+    errore, nel qual caso \var{errno} assumerà uno dei valori:
+    \begin{errlist}
+    \item[\errcode{EBADF}] la mappatura esiste ma non corrisponde ad un file.
+    \item[\errcode{EINVAL}] \param{start} non è allineato alla dimensione di
+      una pagina, \param{length} ha un valore negativo, o \param{advice} non è
+      un valore valido, o si è richiesto il rilascio (con
+      \const{MADV\_DONTNEED}) di pagine bloccate o condivise.
+    \item[\errcode{EIO}] la paginazione richiesta eccederebbe i limiti (vedi
+      sez.~\ref{sec:sys_resource_limit}) sulle pagine residenti in memoria del
+      processo (solo in caso di \const{MADV\_WILLNEED}).
+    \item[\errcode{ENOMEM}] gli indirizzi specificati non sono mappati, o, in
+      caso \const{MADV\_WILLNEED}, non c'è sufficiente memoria per soddisfare
+      la richiesta.
+    \end{errlist}
+    ed inoltre \errval{EAGAIN} e \errval{ENOSYS}.
+  }
+\end{functions}
+
+La sezione di memoria sulla quale si intendono fornire le indicazioni deve
+essere indicata con l'indirizzo iniziale \param{start} e l'estensione
+\param{lenght}, il valore di \param{start} deve essere allineato,
+mentre \param{length} deve essere un numero positivo.\footnote{la versione di
+  Linux consente anche un valore nullo per \param{lenght}, inoltre se una
+  parte dell'intervallo non è mappato in memoria l'indicazione viene comunque
+  applicata alle restanti parti, anche se la funzione ritorna un errore di
+  \errval{ENOMEM}.} L'indicazione viene espressa dall'argomento \param{advice}
+che deve essere specificato con uno dei valori\footnote{si tenga presente che
+  gli ultimi tre valori sono specifici di Linux (introdotti a partire dal
+  kernel 2.6.16) e non previsti dallo standard POSIX.1b.} riportati in
+tab.~\ref{tab:madvise_advice_values}.
+
+\begin{table}[htb]
+  \centering
+  \footnotesize
+  \begin{tabular}[c]{|l|p{10 cm}|}
+    \hline
+    \textbf{Valore} & \textbf{Significato} \\
+    \hline
+    \hline
+    \const{MADV\_NORMAL}  & nessuna indicazione specifica, questo è il valore
+                            di default usato quando non si è chiamato
+                            \func{madvise}.\\
+    \const{MADV\_RANDOM}  & ci si aspetta un accesso casuale all'area
+                            indicata, pertanto l'applicazione di una lettura
+                            anticipata con il meccanismo del
+                            \itindex{read-ahead} \textit{read-ahead} (vedi
+                            sez.~\ref{sec:file_fadvise}) è di
+                            scarsa utilità.\\
+    \const{MADV\_SEQUENTIAL}& ci si aspetta un accesso sequenziale al file,
+                            quindi da una parte sarà opportuno eseguire una
+                            lettura anticipata, e dall'altra si potranno
+                            scartare immediatamente le pagine una volta che
+                            queste siano state lette.\\
+    \const{MADV\_WILLNEED}& ci si aspetta un accesso nell'immediato futuro,
+                            pertanto l'applicazione del \textit{read-ahead}
+                            deve essere incentivata.\\
+    \const{MADV\_DONTNEED}& non ci si aspetta nessun accesso nell'immediato
+                            futuro, pertanto le pagine possono essere
+                            liberate dal kernel non appena necessario; l'area
+                            di memoria resterà accessibile, ma un accesso
+                            richiederà che i dati vengano ricaricati dal file
+                            a cui la mappatura fa riferimento.\\
+    \hline
+    \const{MADV\_REMOVE}  & libera un intervallo di pagine di memoria ed il
+                            relativo supporto sottostante; è supportato
+                            soltanto sui filesystem in RAM \textit{tmpfs} e
+                            \textit{shmfs}.\footnotemark\\ 
+    \const{MADV\_DONTFORK}& impedisce che l'intervallo specificato venga
+                            ereditato dal processo figlio dopo una
+                            \func{fork}; questo consente di evitare che il
+                            meccanismo del \itindex{copy~on~write}
+                            \textit{copy on write} effettui la rilocazione
+                            delle pagine quando un il padre scrive sull'area
+                            di memoria dopo la \func{fork}, cosa che può
+                            causare problemi per l'hardware che esegue
+                            operazioni in DMA su quelle pagine.\\
+    \const{MADV\_DOFORK}  & rimuove l'effetto della precedente
+                            \const{MADV\_DONTFORK}.\\ 
+    \hline
+  \end{tabular}
+  \caption{Valori dell'argomento \param{advice} di \func{madvise}.}
+  \label{tab:madvise_advice_values}
+\end{table}
+
+%TODO aggiungere MADV_MERGEABLE, vedi http://kernelnewbies.org/Linux_2_6_32
+
+\footnotetext{se usato su altri tipi di filesystem causa un errore di
+  \errcode{ENOSYS}.}
+
+La funzione non ha, tranne il caso di \const{MADV\_DONTFORK}, nessun effetto
+sul comportamento di un programma, ma può influenzarne le prestazioni fornendo
+al kernel indicazioni sulle esigenze dello stesso, così che sia possibile
+scegliere le opportune strategie per la gestione del \itindex{read-ahead}
+\textit{read-ahead} e del caching dei dati. A differenza da quanto specificato
+nello standard POSIX.1b, per il quale l'uso di \func{madvise} è a scopo
+puramente indicativo, Linux considera queste richieste come imperative, per
+cui ritorna un errore qualora non possa soddisfarle.\footnote{questo
+  comportamento differisce da quanto specificato nello standard.}
+
  \itindend{memory~mapping}
  
-% TODO documentare \func{madvise}
  
  \subsection{I/O vettorizzato: \func{readv} e \func{writev}}
  \label{sec:file_multiple_io}
@@ -4295,6 +4396,8 @@ questa sezione una serie funzioni che consentono ai programmi di ottimizzare
  il loro accesso ai dati dei file e controllare la gestione del relativo
  \textit{caching}.
  
+\itindbeg{read-ahead}
+
  Una prima funzione che può essere utilizzata per modificare la gestione
  ordinaria dell'I/O su un file è \funcd{readahead},\footnote{questa è una
    funzione specifica di Linux, introdotta con il kernel 2.4.13, e non deve
@@ -4328,12 +4431,12 @@ La funzione richiede che venga letto in anticipo il contenuto del file
  corrispondenti alle dimensioni delle pagine di memoria, ed i valori di
  \param{offset} e \param{count} arrotondati di conseguenza.
  
-La funzione estende quello che è un comportamento normale del
-kernel\footnote{per ottimizzare gli accessi al disco il kernel quando si legge
-  un file, aspettandosi che l'accesso prosegua, esegue sempre una lettura
-  anticipata di una certa quantità di dati; questo meccanismo viene chiamato
-  \textit{readahead}, da cui deriva il nome della funzione.} effettuando la
-lettura in cache della sezione richiesta e bloccandosi fintanto che questa non
+La funzione estende quello che è un comportamento normale del kernel che
+quando si legge un file, aspettandosi che l'accesso prosegua, esegue sempre
+una lettura preventiva di una certa quantità di dati; questo meccanismo di
+lettura anticipata viene chiamato \textit{read-ahead}, da cui deriva il nome
+della funzione. La funzione, ottimizzare gli accessi a disco, effettua la
+lettura in cache della sezione richiesta e si blocca fintanto che questa non
  viene completata.  La posizione corrente sul file non viene modificata ed
  indipendentemente da quanto indicato con \param{count} la lettura dei dati si
  interrompe una volta raggiunta la fine del file.
@@ -4344,6 +4447,8 @@ dati saranno necessari in seguito. Si potr
  momento (ad esempio in fase di inizializzazione) la lettura, così da ottenere
  una migliore risposta nelle operazioni successive.
  
+\itindend{read-ahead}
+
  Il concetto di \func{readahead} viene generalizzato nello standard
  POSIX.1-2001 dalla funzione \funcd{posix\_fadvise},\footnote{anche se
    l'argomento \param{len} è stato modificato da \ctyp{size\_t} a \ctyp{off\_t}
@@ -4554,6 +4659,8 @@ mancanza di spazio disco.
  % LocalWords:  Jens Anxboe vmsplice seek ESPIPE GIFT TCP CORK MSG splicecp nr
  % LocalWords:  nwrite segs patch readahead posix fadvise TC advice FADV NORMAL
  % LocalWords:  SEQUENTIAL NOREUSE WILLNEED DONTNEED streaming fallocate EFBIG
+% LocalWords:  POLLRDHUP half close pwait Gb madvise MADV ahead REMOVE
+% LocalWords:  DONTFORK DOFORK
  
  
  %%% Local Variables: