process.tex

   1 %% process.tex
   2 %%
   3 %% Copyright (C) 2000-2011 Simone Piccardi.  Permission is granted to
   4 %% copy, distribute and/or modify this document under the terms of the GNU Free
   5 %% Documentation License, Version 1.1 or any later version published by the
   6 %% Free Software Foundation; with the Invariant Sections being "Un preambolo",
   7 %% with no Front-Cover Texts, and with no Back-Cover Texts.  A copy of the
   8 %% license is included in the section entitled "GNU Free Documentation
   9 %% License".
  10 %%
  11
  12 \chapter{L'interfaccia base con i processi}
  13 \label{cha:process_interface}
  14
  15 Come accennato nell'introduzione il \textsl{processo} è l'unità di base con
  16 cui un sistema unix-like alloca ed utilizza le risorse.  Questo capitolo
  17 tratterà l'interfaccia base fra il sistema e i processi, come vengono passati
  18 gli argomenti, come viene gestita e allocata la memoria, come un processo può
  19 richiedere servizi al sistema e cosa deve fare quando ha finito la sua
  20 esecuzione. Nella sezione finale accenneremo ad alcune problematiche generiche
  21 di programmazione.
  22
  23 In genere un programma viene eseguito quando un processo lo fa partire
  24 eseguendo una funzione della famiglia \func{exec}; torneremo su questo e sulla
  25 creazione e gestione dei processi nel prossimo capitolo. In questo
  26 affronteremo l'avvio e il funzionamento di un singolo processo partendo dal
  27 punto di vista del programma che viene messo in esecuzione.
  28
  29
  30 \section{Esecuzione e conclusione di un programma}
  31
  32 Uno dei concetti base di Unix è che un processo esegue sempre uno ed un solo
  33 programma: si possono avere più processi che eseguono lo stesso programma ma
  34 ciascun processo vedrà la sua copia del codice (in realtà il kernel fa sì che
  35 tutte le parti uguali siano condivise), avrà un suo spazio di indirizzi,
  36 variabili proprie e sarà eseguito in maniera completamente indipendente da
  37 tutti gli altri. Questo non è del tutto vero nel caso di un programma
  38 \textit{multi-thread}, ma la gestione dei \itindex{thread} \textit{thread} in
  39 Linux sarà trattata a parte in cap.~\ref{cha:threads}.
  40
  41
  42 \subsection{L'avvio e l'esecuzione di un programma}
  43 \label{sec:proc_main}
  44
  45 \itindbeg{link-loader}
  46
  47 Quando un programma viene messo in esecuzione cosa che può essere fatta solo
  48 con una funzione della famiglia \func{exec} (vedi sez.~\ref{sec:proc_exec}) il
  49 kernel esegue un opportuno codice di avvio, il cosiddetto
  50 \textit{link-loader}, costituito dal programma \cmd{ld-linux.so}. Questo
  51 programma è una parte fondamentale del sistema il cui compito è quello della
  52 gestione delle cosiddette \textsl{librerie condivise}, quelle che nel mondo
  53 Windows sono chiamate DLL (\textit{Dinamic Link Library}), e che invece in un
  54 sistema unix-like vengono chiamate \textit{shared objects}.
  55
  56 Infatti, a meno di non aver specificato il flag \texttt{-static} durante la
  57 compilazione, tutti i programmi in Linux sono compilati facendo riferimento a
  58 librerie condivise, in modo da evitare di duplicare lo stesso codice nei
  59 relativi eseguibili e consentire un uso più efficiente della memoria, dato che
  60 il codice di uno \itindex{shared~objects} \textit{shared objects} viene
  61 caricato in memoria dal kernel una sola volta per tutti i programmi che lo
  62 usano.
  63
  64 Questo significa però che normalmente il codice di un programma è incompleto,
  65 contenendo solo i riferimenti alle funzioni di libreria che vuole utilizzare e
  66 non il relativo codice. Per questo motivo all'avvio del programma è necessario
  67 l'intervento del \textit{link-loader} il cui compito è
  68 caricare in memoria le librerie condivise eventualmente assenti, ed effettuare
  69 poi il collegamento dinamico del codice del programma alle funzioni di
  70 libreria da esso utilizzate prima di metterlo in esecuzione.
  71
  72 Il funzionamento di \cmd{ld-linux.so} è controllato da alcune variabili di
  73 ambiente e dal contenuto del file \conffile{/etc/ld.so.conf}, che consentono
  74 di elencare le directory un cui cercare le librerie e determinare quali
  75 verranno utilizzate.  In particolare con la variabile di ambiente
  76 \texttt{LD\_LIBRARY\_PATH} si possono indicare ulteriori directory rispetto a
  77 quelle di sistema in cui inserire versioni personali delle librerie che hanno
  78 la precedenza su quelle di sistema, mentre con la variabile di ambiente
  79 \texttt{LD\_PRELOAD} si può passare direttamente una lista di file di librerie
  80 condivise da usare al posto di quelli di sistema. In questo modo è possibile
  81 effettuare lo sviluppo o il test di nuove librerie senza dover sostituire
  82 quelle di sistema. Ulteriori dettagli sono riportati nella pagina di manuale
  83 di \cmd{ld.so} e per un approfondimento dell'argomento si può consultare
  84 sez.~3.1.2 di \cite{AGL}.
  85
  86 Una volta completate le operazioni di inizializzazione di \cmd{ld-linux.so}, il
  87 sistema fa partire qualunque programma chiamando la funzione \func{main}. Sta
  88 al programmatore chiamare così la funzione principale del programma da cui si
  89 suppone che inizi l'esecuzione. In ogni caso senza questa funzione lo stesso
  90 \textit{link-loader} darebbe luogo ad errori.  Lo standard ISO C specifica che
  91 la funzione \func{main} può non avere argomenti o prendere due argomenti che
  92 rappresentano gli argomenti passati da linea di comando (su cui torneremo in
  93 sez.~\ref{sec:proc_par_format}), in sostanza un prototipo che va sempre bene è
  94 il seguente:
  95 \includecodesnip{listati/main_def.c}
  96
  97 \itindend{link-loader}
  98
  99 In realtà nei sistemi Unix esiste un altro modo per definire la funzione
 100 \func{main}, che prevede la presenza di un terzo argomento, \code{char
 101   *envp[]}, che fornisce l'\textsl{ambiente} del programma; questa forma però
 102 non è prevista dallo standard POSIX.1 per cui se si vogliono scrivere
 103 programmi portabili è meglio evitarla. Per accedere all'ambiente, come vedremo
 104 in sez.~\ref{sec:proc_environ} si usa in genere una variabile globale che
 105 viene sempre definita automaticamente.
 106
 107 Ogni programma viene fatto partire mettendo in esecuzione il codice contenuto
 108 nella funzione \func{main}, ogni altra funzione usata dal programma, che sia
 109 ottenuta da una libreria condivisa, o che sia direttamente definita nel
 110 codice, dovrà essere invocata a partire dal codice di \func{main}. Nel caso di
 111 funzioni definite nel programma occorre tenere conto che, nel momento stesso
 112 in cui si usano le librerie di sistema (vale a dire la \acr{glibc}) alcuni
 113 nomi sono riservati e non possono essere utilizzati.
 114
 115 In particolare sono riservati a priori e non possono essere mai ridefiniti in
 116 nessun caso i nomi di tutte le funzioni, le variabili, le macro di
 117 preprocessore, ed i tipi di dati previsti dallo standard ISO C. Lo stesso
 118 varrà per tutti i nomi definiti negli \textit{header file} che si sono
 119 esplicitamente inclusi nel programma (vedi sez.~\ref{sec:proc_syscall}), ma
 120 anche se è possibile riutilizzare nomi definiti in altri \textit{header file}
 121 la pratica è da evitare nella maniera più assoluta per non generare ambiguità.
 122
 123 Oltre ai nomi delle funzioni di libreria sono poi riservati in maniera
 124 generica tutti i nomi di variabili o funzioni globali che iniziano con il
 125 carattere di sottolineato (``\texttt{\_}''), e qualunque nome che inizi con il
 126 doppio sottolineato (``\texttt{\_\_}'') o con il sottolineato seguito da
 127 lettera maiuscola. Questi identificativi infatti sono utilizzati per i nomi
 128 usati internamente in forma privata dalle librerie, ed evitandone l'uso si
 129 elimina il rischio di conflitti.
 130
 131 Infine esiste una serie di classi di nomi che sono riservati per un loro
 132 eventuale uso futuro da parte degli standard ISO C e POSIX.1, questi in teoria
 133 possono essere usati senza problemi oggi, ma potrebbero dare un conflitto con
 134 una revisione futura di questi standard, per cui è comunque opportuno
 135 evitarli, in particolare questi sono:
 136 \begin{itemize*}
 137 \item i nomi che iniziano per ``\texttt{E}'' costituiti da lettere maiuscole e
 138   numeri, che potrebbero essere utilizzati per nuovi codici di errore (vedi
 139   sez.~\ref{sec:sys_errors}),
 140 \item i nomi che iniziano con ``\texttt{is}'' o ``\texttt{to}'' e costituiti
 141   da lettere minuscole che potrebbero essere utilizzati da nuove funzioni per
 142   il controllo e la conversione del tipo di caratteri,
 143 \item i nomi che iniziano con ``\texttt{LC\_}'' e costituiti
 144   da lettere maiuscole che possono essere usato per macro attinenti la
 145   localizzazione (vedi sez.~\ref{sec:proc_localization}),
 146 \item nomi che iniziano con ``\texttt{SIG}'' o ``\texttt{SIG\_}'' e costituiti
 147   da lettere maiuscole che potrebbero essere usati per nuovi nomi di segnale
 148   (vedi sez.~\ref{sec:sig_classification}),
 149 \item nomi che iniziano con ``\texttt{str}'', ``\texttt{mem}'', o
 150   ``\texttt{wcs}'' e costituiti da lettere minuscole che possono essere
 151   utilizzati per funzioni attinenti la manipolazione delle stringhe e delle
 152   aree di memoria,
 153 \item nomi che terminano in ``\texttt{\_t}'' che potrebbero essere utilizzati
 154   per la definizione di nuovi tipi di dati di sistema oltre quelli di
 155   tab.~\ref{tab:intro_primitive_types}).
 156 \end{itemize*}
 157
 158
 159 \subsection{Chiamate a funzioni e \textit{system call}}
 160 \label{sec:proc_syscall}
 161
 162 Come accennato in sez.~\ref{sec:intro_syscall} un programma può utilizzare le
 163 risorse che il sistema gli mette a disposizione attraverso l'uso delle
 164 opportune \textit{system call}. Abbiamo inoltre appena visto come all'avvio un
 165 programma venga messo in grado di chiamare le funzioni fornite da eventuali
 166 librerie condivise da esso utilizzate.
 167
 168 Vedremo nel resto della guida quali sono le risorse del sistema accessibili
 169 attraverso le \textit{system call} e tratteremo buona parte delle funzioni
 170 messe a disposizione dalla Libreria Standard del C, in questa sezione però si
 171 forniranno alcune indicazioni generali sul come fare perché un programma possa
 172 utilizzare queste funzioni.
 173
 174 \itindbeg{header~file}
 175
 176 In sez.~\ref{sec:intro_standard} abbiamo accennato come le funzioni definite
 177 nei vari standard siano definite in una serie di \textit{header file} (in
 178 italiano \textsl{file di intestazione}).  Vengono chiamati in questo modo quei
 179 file, forniti insieme al codice delle librerie, che contengono le
 180 dichiarazioni delle variabili, dei tipi di dati, delle macro di preprocessore
 181 e soprattutto delle funzioni che fanno parte di una libreria.
 182
 183 Questi file sono necessari al compilatore del linguaggio C per ottenere i
 184 riferimenti ai nomi delle funzioni (e alle altre risorse) definite in una
 185 libreria, per questo quando si vogliono usare le funzioni di una libreria
 186 occorre includere nel proprio codice gli \textit{header file} che le
 187 definiscono con la direttiva \code{\#include}. Dato che le funzioni devono
 188 essere definite prima di poterle usare in genere gli \textit{header file}
 189 vengono inclusi all'inizio del programma. Se inoltre si vogliono utilizzare le
 190 macro di controllo delle funzionalità fornite dai vari standard illustrate in
 191 sez.~\ref{sec:intro_gcc_glibc_std} queste, come accennato, dovranno a loro
 192 volta essere definite prima delle varie inclusioni.
 193
 194 Ogni libreria fornisce i propri file di intestazione per i quali si deve
 195 consultare la documentazione, ma in tab.~\ref{tab:intro_posix_header} si sono
 196 riportati i principali \textit{header file} definiti nella Libreria Standard
 197 del C (nel caso la \acr{glibc}) che contengono le varie funzioni previste
 198 negli standard POSIX ed ANSI C, e che prevedono la definizione sia delle
 199 funzioni di utilità generica che delle interfacce alle \textit{system call}. In
 200 seguito per ciascuna funzione o \textit{system call} che tratteremo
 201 indicheremo anche quali sono gli \textit{header file} contenenti le necessarie
 202 definizioni.
 203
 204 \begin{table}[htb]
 205   \footnotesize
 206   \centering
 207   \begin{tabular}[c]{|l|c|c|l|}
 208     \hline
 209     \multirow{2}{*}{\textbf{Header}}&
 210     \multicolumn{2}{|c|}{\textbf{Standard}}&
 211     \multirow{2}{*}{\textbf{Contenuto}} \\
 212     \cline{2-3}
 213     & ANSI C& POSIX& \\
 214     \hline
 215     \hline
 216     \file{assert.h}&$\bullet$&    --   & Verifica le asserzioni fatte in un
 217                                          programma.\\
 218     \file{ctype.h} &$\bullet$&    --   & Tipi standard.\\
 219     \file{dirent.h}&   --    &$\bullet$& Manipolazione delle directory.\\
 220     \file{errno.h} &   --    &$\bullet$& Errori di sistema.\\
 221     \file{fcntl.h} &   --    &$\bullet$& Controllo sulle opzioni dei file.\\
 222     \file{limits.h}&   --    &$\bullet$& Limiti e parametri del sistema.\\
 223     \file{malloc.h}&$\bullet$&    --   & Allocazione della memoria.\\
 224     \file{setjmp.h}&$\bullet$&    --   & Salti non locali.\\
 225     \file{signal.h}&   --    &$\bullet$& Gestione dei segnali.\\
 226     \file{stdarg.h}&$\bullet$&    --   & Gestione di funzioni a argomenti
 227                                          variabili.\\
 228     \file{stdio.h} &$\bullet$&    --   & I/O bufferizzato in standard ANSI C.\\
 229     \file{stdlib.h}&$\bullet$&    --   & Definizioni della libreria standard.\\
 230     \file{string.h}&$\bullet$&    --   & Manipolazione delle stringhe.\\
 231     \file{time.h}  &   --    &$\bullet$& Gestione dei tempi.\\
 232     \file{times.h} &$\bullet$&    --   & Gestione dei tempi.\\
 233     \file{unistd.h}&   --    &$\bullet$& Unix standard library.\\
 234     \file{utmp.h}  &   --    &$\bullet$& Registro connessioni utenti.\\
 235     \hline
 236   \end{tabular}
 237   \caption{Elenco dei principali \textit{header file} definiti dagli standard
 238     POSIX e ANSI C.}
 239   \label{tab:intro_posix_header}
 240 \end{table}
 241
 242 Un esempio di inclusione di questi file, preso da uno dei programmi di
 243 esempio, è il seguente, e si noti come gli \textit{header file} possano essere
 244 referenziati con il nome fra parentesi angolari, nel qual caso si indica l'uso
 245 di quelli installati con il sistema,\footnote{in un sistema GNU/Linux che
 246   segue le specifiche del \textit{Filesystem Hierarchy Standard} (per maggiori
 247   informazioni si consulti sez.~1.2.3 di \cite{AGL}) si trovano sotto
 248   \texttt{/usr/include}.} o fra virgolette, nel qual caso si fa riferimento ad
 249 una versione locale, da indicare con un pathname relativo:
 250 \includecodesnip{listati/main_include.c}
 251
 252 Si tenga presente che oltre ai nomi riservati a livello generale di cui si è
 253 parlato in sez.~\ref{sec:proc_main}, alcuni di questi \textit{header file}
 254 riservano degli ulteriori identificativi, il cui uso sarà da evitare, ad
 255 esempio si avrà che:
 256 \begin{itemize*}
 257 \item in \file{dirent.h} vengono riservati i nomi che iniziano con
 258   ``\texttt{d\_}'' e costituiti da lettere minuscole,
 259 \item in \file{fcntl.h} vengono riservati i nomi che iniziano con
 260   ``\texttt{l\_}'', ``\texttt{F\_}'',``\texttt{O\_}'' e ``\texttt{S\_}'',
 261 \item in \file{limits.h} vengono riservati i nomi che finiscono in
 262   ``\texttt{\_MAX}'',
 263 \item in \file{signal.h} vengono riservati i nomi che iniziano con
 264   ``\texttt{sa\_}'' e ``\texttt{SA\_}'',
 265 \item in \file{sys/stat.h} vengono riservati i nomi che iniziano con
 266   ``\texttt{st\_}'' e ``\texttt{S\_}'',
 267 \item in \file{sys/times.h} vengono riservati i nomi che iniziano con
 268   ``\texttt{tms\_}'',
 269 \item in \file{termios.h} vengono riservati i nomi che iniziano con
 270   ``\texttt{c\_}'', ``\texttt{V}'', ``\texttt{I}'', ``\texttt{O}'' e
 271   ``\texttt{TC}'' e con ``\texttt{B}'' seguito da un numero,
 272 \item in \file{grp.h} vengono riservati i nomi che iniziano con
 273   ``\texttt{gr\_}'',
 274 \item in \file{pwd.h}vengono riservati i nomi che iniziano con
 275   ``\texttt{pw\_}'',
 276 \end{itemize*}
 277
 278 \itindend{header~file}
 279
 280 Una volta inclusi gli \textit{header file} necessari un programma potrà
 281 richiamare le funzioni di libreria direttamente nel proprio codice ed accedere
 282 ai servizi del kernel; come accennato infatti normalmente ogni \textit{system
 283   call} è associata ad una omonima funzione di libreria, che è quella che si
 284 usa normalmente per invocarla.
 285
 286 Occorre però tenere presente che anche se dal punto di vista della scrittura
 287 del codice la chiamata di una \textit{system call} non è diversa da quella di
 288 una qualunque funzione ordinaria, la situazione è totalmente diversa
 289 nell'esecuzione del programma. Una funzione ordinaria infatti viene eseguita,
 290 esattamente come il codice che si è scritto nel corpo del programma, in
 291 \textit{user space}. Quando invece si esegue una \textit{system call}
 292 l'esecuzione ordinaria del programma viene interrotta, i dati forniti (come
 293 argomenti della chiamata) vengono trasferiti al kernel che esegue il codice
 294 della \textit{system call} (che è codice del kernel) in \textit{kernel space}.
 295
 296 Dato che il passaggio dei dati ed il salvataggio del contesto di esecuzione
 297 del programma che consentirà di riprenderne l'esecuzione ordinaria al
 298 completamento della \textit{system call} sono operazioni critiche per le
 299 prestazioni del sistema, per rendere il più veloce possibile questa
 300 operazione, usualmente chiamata \textit{context switch} sono state sviluppate
 301 una serie di ottimizzazioni che richiedono alcune preparazioni abbastanza
 302 complesse dei dati, che in genere dipendono dall'architettura del processore
 303 sono scritte direttamente in \textit{assembler}.
 304
 305 %
 306 % TODO:trattare qui, quando sarà il momento vsyscall e vDSO, vedi:
 307 % http://davisdoesdownunder.blogspot.com/2011/02/linux-syscall-vsyscall-and-vdso-oh-my.html
 308 % http://www.win.tue.nl/~aeb/linux/lk/lk-4.html
 309 %
 310
 311 Inoltre alcune \textit{system call} sono state modificate nel corso degli anni
 312 con lo sviluppo del kernel per aggiungere ad esempio funzionalità in forma di
 313 nuovi argomenti, o per consolidare diverse varianti in una interfaccia
 314 generica.  Per questo motivo dovendo utilizzare una \textit{system call} è
 315 sempre preferibile usare l'interfaccia fornita dalla \textsl{glibc}, che si
 316 cura di mantenere una uniformità chiamando le versioni più aggiornate.
 317
 318 Ci sono alcuni casi però in cui può essere necessario evitare questa
 319 associazione, e lavorare a basso livello con una specifica versione, oppure si
 320 può voler utilizzare una \textit{system call} che non è stata ancora associata
 321 ad una funzione di libreria.  In tal caso, per evitare di dover effettuare
 322 esplicitamente le operazioni di preparazione citate, all'interno della
 323 \textsl{glibc} è fornita una specifica funzione, \funcd{syscall}, che consente
 324 eseguire direttamente una \textit{system call}; il suo prototipo, accessibile
 325 se si è definita la macro \macro{\_GNU\_SOURCE}, è:
 326
 327 \begin{funcproto}{
 328   \fhead{unistd.h}
 329   \fhead{sys/syscall.h}
 330   \fdecl{int syscall(int number, ...)}
 331   \fdesc{Esegue la \textit{system call} indicata da \param{number}.}
 332 }
 333 {La funzione ritorna un intero dipendente dalla \textit{system call} invocata,
 334 in generale $0$ indica il successo e un valore negativo un errore.}
 335 \end{funcproto}
 336
 337 La funzione richiede come primo argomento il numero della \textit{system call}
 338 da invocare, seguita dagli argomenti da passare alla stessa, che ovviamente
 339 dipendono da quest'ultima, e restituisce il codice di ritorno della
 340 \textit{system call} invocata. In generale un valore nullo indica il successo
 341 ed un valore negativo è un codice di errore che poi viene memorizzato nella
 342 variabile \var{errno} (sulla gestione degli errori torneremo in dettaglio in
 343 sez.~\ref{sec:sys_errors}).
 344
 345 Il valore di \param{number} dipende sia dalla versione di kernel che
 346 dall'architettura,\footnote{in genere le vecchie \textit{system call} non
 347   vengono eliminate e se ne aggiungono di nuove con nuovi numeri.}  ma
 348 ciascuna \textit{system call} viene in genere identificata da una costante
 349 nella forma \texttt{SYS\_*} dove al prefisso viene aggiunto il nome che spesso
 350 corrisponde anche alla omonima funzione di libreria. Queste costanti sono
 351 definite nel file \texttt{sys/syscall.h}, ma si possono anche usare
 352 direttamente valori numerici.
 353
 354
 355 \subsection{La terminazione di un programma}
 356 \label{sec:proc_conclusion}
 357
 358 Normalmente un programma conclude la sua esecuzione quando si fa ritornare la
 359 funzione \func{main}, si usa cioè l'istruzione \texttt{return} del linguaggio
 360 C all'interno della stessa, o se si richiede esplicitamente la chiusura
 361 invocando direttamente la funzione \func{exit}. Queste due modalità sono
 362 assolutamente equivalenti, dato che \func{exit} viene chiamata in maniera
 363 trasparente anche quando \func{main} ritorna, passandogli come argomento il
 364 valore di ritorno (che essendo .
 365
 366 La funzione \funcd{exit}, che è completamente generale, essendo definita dallo
 367 standard ANSI C, è quella che deve essere invocata per una terminazione
 368 ``\textit{normale}'', il suo prototipo è:
 369
 370 \begin{funcproto}{
 371   \fhead{unistd.h}
 372   \fdecl{void exit(int status)}
 373   \fdesc{Causa la conclusione ordinaria del programma.}
 374 }
 375 {La funzione non ritorna, il processo viene terminato.}
 376 \end{funcproto}
 377
 378 La funzione è pensata per eseguire una conclusione pulita di un programma che
 379 usi la Libreria Standard del C; essa esegue tutte le funzioni che sono state
 380 registrate con \func{atexit} e \func{on\_exit} (vedi
 381 sez.~\ref{sec:proc_atexit}), chiude tutti gli stream effettuando il
 382 salvataggio dei dati sospesi (chiamando \func{fclose}, vedi
 383 sez.~\ref{sec:file_fopen}), infine passa il controllo al kernel chiamando la
 384 \textit{system call} \func{\_exit} (che vedremo a breve) che completa la
 385 terminazione del processo.
 386
 387 \itindbeg{exit~status}
 388
 389 Il valore dell'argomento \param{status} o il valore di ritorno di \func{main},
 390 costituisce quello che viene chiamato lo \textsl{stato di uscita}
 391 (l'\textit{exit status}) del processo. In generale si usa questo valore per
 392 fornire al processo padre (come vedremo in sez.~\ref{sec:proc_wait}) delle
 393 informazioni generiche sulla riuscita o il fallimento del programma appena
 394 terminato.
 395
 396 Anche se l'argomento \param{status} (ed il valore di ritorno di \func{main})
 397 sono numeri interi di tipo \ctyp{int}, si deve tener presente che il valore
 398 dello stato di uscita viene comunque troncato ad 8 bit, per cui deve essere
 399 sempre compreso fra 0 e 255. Si tenga presente che se si raggiunge la fine
 400 della funzione \func{main} senza ritornare esplicitamente si ha un valore di
 401 uscita indefinito, è pertanto consigliabile di concludere sempre in maniera
 402 esplicita detta funzione.
 403
 404 Non esiste un valore significato intrinseco della stato di uscita, ma una
 405 convenzione in uso pressoché universale è quella di restituire 0 in caso di
 406 successo e 1 in caso di fallimento. Una eccezione a questa convenzione è per i
 407 programmi che effettuano dei confronti (come \cmd{diff}), che usano 0 per
 408 indicare la corrispondenza, 1 per indicare la non corrispondenza e 2 per
 409 indicare l'incapacità di effettuare il confronto. Un'altra convenzione riserva
 410 i valori da 128 a 256 per usi speciali: ad esempio 128 viene usato per
 411 indicare l'incapacità di eseguire un altro programma in un
 412 sottoprocesso. Benché le convenzioni citate non siano seguite universalmente è
 413 una buona idea tenerle presenti ed adottarle a seconda dei casi.
 414
 415 Si tenga presente inoltre che non è una buona idea usare eventuali codici di
 416 errore restituiti nella variabile \var{errno} (vedi sez.~\ref{sec:sys_errors})
 417 come \textit{exit status}. In generale infatti non ci si cura del valore dello
 418 stato di uscita di un processo se non per vedere se è diverso da zero, come
 419 indicazione di un qualche errore.  Dato che viene troncato ad 8 bit utilizzare
 420 un intero di valore generico può comportare il rischio, qualora si vada ad
 421 usare un multiplo di 256, di avere uno stato di uscita uguale a zero, che
 422 verrebbe interpretato come un successo.
 423
 424 Per questo motivo in \file{stdlib.h} sono definite, seguendo lo standard
 425 POSIX, le due costanti \const{EXIT\_SUCCESS} e \const{EXIT\_FAILURE}, da usare
 426 sempre per specificare lo stato di uscita di un processo. Su Linux, ed in
 427 generale in qualunque sistema POSIX, ad esse sono assegnati rispettivamente i
 428 valori 0 e 1.
 429
 430 \itindend{exit~status}
 431
 432 Una forma alternativa per effettuare una terminazione esplicita di un
 433 programma è quella di chiamare direttamente la \textit{system call}
 434 \func{\_exit}, che restituisce il controllo direttamente al kernel,
 435 concludendo immediatamente il processo, il suo prototipo è:
 436
 437 \begin{funcproto}{ \fhead{unistd.h} \fdecl{void \_exit(int status)}
 438     \fdesc{Causa la conclusione immediata del programma.}  } {La funzione non
 439     ritorna, il processo viene terminato.}
 440 \end{funcproto}
 441
 442 La funzione termina immediatamente il processo e le eventuali funzioni
 443 registrate con \func{atexit} e \func{on\_exit} non vengono eseguite. La
 444 funzione chiude tutti i file descriptor appartenenti al processo, cosa che
 445 però non comporta il salvataggio dei dati eventualmente presenti nei buffer
 446 degli stream, (torneremo sulle due interfacce dei file a partire da
 447 cap.~\ref{cha:file_intro}). Infine fa sì che ogni figlio del processo sia
 448 adottato da \cmd{init} (vedi cap.~\ref{cha:process_handling}), manda un
 449 segnale \const{SIGCHLD} al processo padre (vedi
 450 sez.~\ref{sec:sig_job_control}) e ritorna lo stato di uscita specificato
 451 in \param{status} che può essere raccolto usando la funzione \func{wait} (vedi
 452 sez.~\ref{sec:proc_wait}).
 453
 454 Si tenga presente infine che oltre alla conclusione ``\textsl{normale}''
 455 appena illustrata esiste anche la possibilità di una conclusione
 456 ``\textsl{anomala}'' del programma a causa della ricezione di un segnale
 457 (tratteremo i segnali in cap.~\ref{cha:signals}) o della chiamata alla
 458 funzione \func{abort}; torneremo su questo in sez.~\ref{sec:proc_termination}.
 459
 460
 461 \subsection{Esecuzione di funzioni preliminari all'uscita}
 462 \label{sec:proc_atexit}
 463
 464 Un'esigenza comune che si incontra è quella di dover effettuare una serie di
 465 operazioni di pulizia (ad esempio salvare dei dati, ripristinare delle
 466 impostazioni, eliminare dei file temporanei, ecc.) prima della conclusione di
 467 un programma. In genere queste operazioni vengono fatte in un'apposita sezione
 468 del programma, ma quando si realizza una libreria diventa antipatico dover
 469 richiedere una chiamata esplicita ad una funzione di pulizia al programmatore
 470 che la utilizza.
 471
 472 È invece molto meno soggetto ad errori, e completamente trasparente
 473 all'utente, avere la possibilità di fare effettuare automaticamente la
 474 chiamata ad una funzione che effettui tali operazioni all'uscita dal
 475 programma. A questo scopo lo standard ANSI C prevede la possibilità di
 476 registrare un certo numero di funzioni che verranno eseguite all'uscita dal
 477 programma,\footnote{nel caso di \func{atexit} lo standard POSIX.1-2001
 478   richiede che siano registrabili almeno \const{ATEXIT\_MAX} funzioni (il
 479   valore può essere ottenuto con \func{sysconf}, vedi
 480   sez.~\ref{sec:sys_sysconf}).} sia per la chiamata ad \func{exit} che per il
 481 ritorno di \func{main}. La prima funzione che si può utilizzare a tal fine è
 482 \funcd{atexit}, il cui prototipo è:
 483
 484 \begin{funcproto}{ \fhead{stdlib.h} \fdecl{void (*function)(void)}
 485     \fdesc{Registra la funzione \param{function} per la chiamata all'uscita
 486       dal programma.}  } {La funzione restituisce $0$ in caso di successo e
 487     $-1$ in caso di fallimento, \var{errno} non viene modificata.}
 488 \end{funcproto}
 489
 490 La funzione richiede come argomento \param{function} l'indirizzo di una
 491 opportuna funzione di pulizia da chiamare all'uscita del programma, che non
 492 deve prendere argomenti e non deve ritornare niente. In sostanza deve la
 493 funzione di pulizia dovrà essere definita come \code{void function(void)}.
 494
 495 Un'estensione di \func{atexit} è la funzione \funcd{on\_exit}, che le
 496 \acr{glibc} includono per compatibilità con SunOS ma che non è detto sia
 497 definita su altri sistemi,\footnote{non essendo prevista dallo standard POSIX
 498   è in genere preferibile evitarne l'uso.} il suo prototipo è:
 499
 500 \begin{funcproto}{
 501 \fhead{stdlib.h}
 502 \fdecl{void (*function)(int , void *), void *arg)}
 503 \fdesc{Registra la funzione \param{function} per la chiamata all'uscita dal
 504   programma.} }{La funzione restituisce $0$ in caso di successo e $-1$ in caso
 505 di fallimento, \var{errno} non viene modificata.}
 506 \end{funcproto}
 507
 508 In questo caso la funzione da chiamare all'uscita prende i due argomenti
 509 specificati nel prototipo, un intero ed un puntatore; dovrà cioè essere
 510 definita come \code{void function(int status, void *argp)}. Il primo argomento
 511 sarà inizializzato allo stato di uscita con cui è stata chiamata \func{exit}
 512 ed il secondo al puntatore \param{arg} passato come secondo argomento di
 513 \func{on\_exit}.  Così diventa possibile passare dei dati alla funzione di
 514 chiusura.
 515
 516 Nella sequenza di chiusura tutte le funzioni registrate verranno chiamate in
 517 ordine inverso rispetto a quello di registrazione, ed una stessa funzione
 518 registrata più volte sarà chiamata più volte. Siccome entrambe le funzioni
 519 \func{atexit} e \func{on\_exit} fanno riferimento alla stessa lista, l'ordine
 520 di esecuzione sarà riferito alla registrazione in quanto tale,
 521 indipendentemente dalla funzione usata per farla.
 522
 523 Una volta completata l'esecuzione di tutte le funzioni registrate verranno
 524 chiusi tutti gli stream aperti ed infine verrà chiamata \func{\_exit} per la
 525 terminazione del programma. Questa è la sequenza ordinaria, eseguita a meno
 526 che una delle funzioni registrate non esegua al suo interno \func{\_exit}, nel
 527 qual caso la terminazione del programma sarà immediata ed anche le successive
 528 funzioni registrate non saranno invocate.
 529
 530 Se invece all'interno di una delle funzioni registrate si chiama un'altra
 531 volta \func{exit} lo standard POSIX.1-2001 prescrive un comportamento
 532 indefinito, con la possibilità (che su Linux comunque non c'è) di una
 533 ripetizione infinita. Pertanto questa eventualità è da evitare nel modo più
 534 assoluto. Una altro comportamento indefinito si può avere se si termina
 535 l'esecuzione di una delle funzioni registrate con \func{longjmp} (vedi
 536 sez.~\ref{sec:proc_longjmp}).
 537
 538 Si tenga presente infine che in caso di terminazione anomala di un processo
 539 (ad esempio a causa di un segnale) nessuna delle funzioni registrate verrà
 540 eseguita e che se invece si crea un nuovo processo con \func{fork} (vedi
 541 sez.~\ref{sec:proc_fork}) questo manterrà tutte le funzioni già registrate.
 542
 543
 544 \subsection{Un riepilogo}
 545 \label{sec:proc_term_conclusion}
 546
 547 Data l'importanza dell'argomento è opportuno un piccolo riepilogo dei fatti
 548 essenziali relativi alla esecuzione di un programma. Il primo punto da
 549 sottolineare è che in un sistema unix-like l'unico modo in cui un programma
 550 può essere eseguito dal kernel è attraverso la chiamata alla \textit{system
 551   call} \func{execve}, sia direttamente che attraverso una delle funzioni
 552 della famiglia \func{exec} che ne semplificano l'uso (vedi
 553 sez.~\ref{sec:proc_exec}).
 554
 555 Allo stesso modo l'unico modo in cui un programma può concludere
 556 volontariamente la propria esecuzione è attraverso una chiamata alla
 557 \textit{system call} \func{\_exit}, sia che questa venga fatta esplicitamente,
 558 o in maniera indiretta attraverso l'uso di \func{exit} o il ritorno di
 559 \func{main}.
 560
 561 Uno schema riassuntivo che illustra le modalità con cui si avvia e conclude
 562 normalmente un programma è riportato in fig.~\ref{fig:proc_prog_start_stop}.
 563
 564 \begin{figure}[htb]
 565   \centering
 566 %  \includegraphics[width=9cm]{img/proc_beginend}
 567   \begin{tikzpicture}[>=stealth]
 568     \filldraw[fill=black!35] (-0.3,0) rectangle (12,1);
 569     \draw(5.5,0.5) node {\large{kernel}};
 570
 571     \filldraw[fill=black!15] (1.5,2) rectangle (4,3);
 572     \draw (2.75,2.5) node {\texttt{ld-linux.so}};
 573     \draw [->] (2.75,1) -- (2.75,2);
 574     \draw (2.75,1.5) node [anchor=west]{\texttt{execve}};
 575
 576     \filldraw[fill=black!15,rounded corners] (1.5,4) rectangle (4,5);
 577     \draw (2.75,4.5) node {\texttt{main}};
 578
 579     \draw [<->, dashed] (2.75,3) -- (2.75,4);
 580     \draw [->] (1.5,4.5) -- (0.3,4.5) -- (0.3,1);
 581     \draw (0.9,4.5) node [anchor=south] {\texttt{\_exit}};
 582
 583     \filldraw[fill=black!15,rounded corners] (1.5,6) rectangle (4,7);
 584     \draw (2.75,6.5) node {\texttt{funzione}};
 585
 586     \draw [<->, dashed] (2.75,5) -- (2.75,6);
 587     \draw [->] (1.5,6.5) -- (0.05,6.5) -- (0.05,1);
 588     \draw (0.9,6.5) node [anchor=south] {\texttt{\_exit}};
 589
 590     \draw (6.75,4.5) node (exit) [rectangle,fill=black!15,minimum width=2.5cm,minimum height=1cm,rounded corners, draw]{\texttt{exit}};
 591
 592     \draw[->] (4,6.5) -- node[anchor=south west]{\texttt{exit}} (exit);
 593     \draw[->] (4,4.5) -- node[anchor=south]{\texttt{exit}} (exit);
 594     \draw[->] (exit) -- node[anchor=east]{\texttt{\_exit}}(6.75,1);
 595
 596     \draw (10,4.5) node (exithandler1) [rectangle,fill=black!15,rounded corners, draw]{exit handler};
 597     \draw (10,5.5) node (exithandler2) [rectangle,fill=black!15,rounded corners, draw]{exit handler};
 598     \draw (10,3.5) node (stream) [rectangle,fill=black!15,rounded corners, draw]{chiusura stream};
 599
 600     \draw[<->, dashed] (exithandler1) -- (exit);
 601     \draw[<->, dashed] (exithandler2) -- (exit);
 602     \draw[<->, dashed] (stream) -- (exit);
 603   \end{tikzpicture}
 604   \caption{Schema dell'avvio e della conclusione di un programma.}
 605   \label{fig:proc_prog_start_stop}
 606 \end{figure}
 607
 608 Si ricordi infine che un programma può anche essere interrotto dall'esterno
 609 attraverso l'uso di un segnale (modalità di conclusione non mostrata in
 610 fig.~\ref{fig:proc_prog_start_stop}); tratteremo nei dettagli i segnali e la
 611 loro gestione nel capitolo \ref{cha:signals}.
 612
 613
 614
 615 \section{I processi e l'uso della memoria}
 616 \label{sec:proc_memory}
 617
 618 Una delle risorse più importanti che ciascun processo ha a disposizione è la
 619 memoria, e la gestione della memoria è appunto uno degli aspetti più complessi
 620 di un sistema unix-like. In questa sezione, dopo una breve introduzione ai
 621 concetti di base, esamineremo come la memoria viene vista da parte di un
 622 programma in esecuzione, e le varie funzioni utilizzabili per la sua gestione.
 623
 624
 625 \subsection{I concetti generali}
 626 \label{sec:proc_mem_gen}
 627
 628 Ci sono vari modi in cui i sistemi operativi organizzano la memoria, ed i
 629 dettagli di basso livello dipendono spesso in maniera diretta
 630 dall'architettura dell'hardware, ma quello più tipico, usato dai sistemi
 631 unix-like come Linux è la cosiddetta \index{memoria~virtuale} \textsl{memoria
 632   virtuale} che consiste nell'assegnare ad ogni processo uno spazio virtuale
 633 di indirizzamento lineare, in cui gli indirizzi vanno da zero ad un qualche
 634 valore massimo.\footnote{nel caso di Linux fino al kernel 2.2 detto massimo
 635   era, per macchine a 32bit, di 2Gb. Con il kernel 2.4 ed il supporto per la
 636   \textit{high-memory} il limite è stato esteso anche per macchine a 32 bit.}
 637
 638 Come accennato nel cap.~\ref{cha:intro_unix} questo spazio di indirizzi è
 639 virtuale e non corrisponde all'effettiva posizione dei dati nella RAM del
 640 computer. In generale detto spazio non è neppure continuo, cioè non tutti gli
 641 indirizzi possibili sono utilizzabili, e quelli usabili non sono
 642 necessariamente adiacenti.
 643
 644 Per la gestione da parte del kernel la memoria viene divisa in pagine di
 645 dimensione fissa,\footnote{inizialmente questi erano di 4kb sulle macchine a
 646   32 bit e di 8kb sulle alpha, con le versioni più recenti del kernel è
 647   possibile anche utilizzare pagine di dimensioni maggiori (4Mb), per sistemi
 648   con grandi quantitativi di memoria in cui l'uso di pagine troppo piccole
 649   comporta una perdita di prestazioni.} e ciascuna pagina nello spazio di
 650 indirizzi virtuale è associata ad un supporto che può essere una pagina di
 651 memoria reale o ad un dispositivo di stoccaggio secondario (come lo spazio
 652 disco riservato alla \textit{swap}, o i file che contengono il codice). Per
 653 ciascun processo il kernel si cura di mantenere un mappa di queste
 654 corrispondenze nella cosiddetta \itindex{page~table} \textit{page
 655   table}.\footnote{questa è una semplificazione brutale, il meccanismo è molto
 656   più complesso; una buona trattazione di come Linux gestisce la memoria
 657   virtuale si trova su \cite{LinVM}.}
 658
 659 Una stessa pagina di memoria reale può fare da supporto a diverse pagine di
 660 memoria virtuale appartenenti a processi diversi, come accade in genere per le
 661 pagine che contengono il codice delle librerie condivise. Ad esempio il codice
 662 della funzione \func{printf} starà su una sola pagina di memoria reale che
 663 farà da supporto a tutte le pagine di memoria virtuale di tutti i processi che
 664 hanno detta funzione nel loro codice.
 665
 666 La corrispondenza fra le pagine della \index{memoria~virtuale} memoria
 667 virtuale di un processo e quelle della memoria fisica della macchina viene
 668 gestita in maniera trasparente dal kernel.\footnote{in genere con l'ausilio
 669   dell'hardware di gestione della memoria (la \textit{Memory Management Unit}
 670   del processore), con i kernel della serie 2.6 è comunque diventato possibile
 671   utilizzare Linux anche su architetture che non dispongono di una MMU.}
 672 Poiché in genere la memoria fisica è solo una piccola frazione della memoria
 673 virtuale, è necessario un meccanismo che permetta di trasferire le pagine che
 674 servono dal supporto su cui si trovano in memoria, eliminando quelle che non
 675 servono.  Questo meccanismo è detto \index{paginazione} \textsl{paginazione}
 676 (o \textit{paging}), ed è uno dei compiti principali del kernel.
 677
 678 Quando un processo cerca di accedere ad una pagina che non è nella memoria
 679 reale, avviene quello che viene chiamato un \itindex{page~fault} \textit{page
 680   fault}; la gestione della memoria genera un'interruzione e passa il
 681 controllo al kernel il quale sospende il processo e si incarica di mettere in
 682 RAM la pagina richiesta, effettuando tutte le operazioni necessarie per
 683 reperire lo spazio necessario, per poi restituire il controllo al processo.
 684
 685 Dal punto di vista di un processo questo meccanismo è completamente
 686 trasparente, e tutto avviene come se tutte le pagine fossero sempre
 687 disponibili in memoria.  L'unica differenza avvertibile è quella dei tempi di
 688 esecuzione, che passano dai pochi nanosecondi necessari per l'accesso in RAM
 689 se la pagina è direttamente disponibile, a tempi estremamente più lunghi,
 690 dovuti all'intervento del kernel, qualora sia necessario reperire pagine
 691 riposte nella \textit{swap}.
 692
 693 Normalmente questo è il prezzo da pagare per avere un multitasking reale, ed
 694 in genere il sistema è molto efficiente in questo lavoro; quando però ci siano
 695 esigenze specifiche di prestazioni è possibile usare delle funzioni che
 696 permettono di bloccare il meccanismo della \index{paginazione} paginazione e
 697 mantenere fisse delle pagine in memoria (vedi sez.~\ref{sec:proc_mem_lock}).
 698
 699
 700 \subsection{La struttura della memoria di un processo}
 701 \label{sec:proc_mem_layout}
 702
 703 Benché lo spazio di indirizzi virtuali copra un intervallo molto ampio, solo
 704 una parte di essi è effettivamente allocato ed utilizzabile dal processo; il
 705 tentativo di accedere ad un indirizzo non allocato è un tipico errore che si
 706 commette quando si è manipolato male un puntatore e genera quella che viene
 707 chiamata una \itindex{segment~violation} \textit{segment violation}. Se si
 708 tenta cioè di leggere o scrivere con un indirizzo per il quale non esiste
 709 un'associazione nella memoria virtuale, il kernel risponde al relativo
 710 \itindex{page~fault} \textit{page fault} mandando un segnale \const{SIGSEGV}
 711 al processo, che normalmente ne causa la terminazione immediata.
 712
 713 È pertanto importante capire come viene strutturata \index{memoria~virtuale}
 714 la memoria virtuale di un processo. Essa viene divisa in \textsl{segmenti},
 715 cioè un insieme contiguo di indirizzi virtuali ai quali il processo può
 716 accedere.  Solitamente un programma C viene suddiviso nei seguenti segmenti:
 717
 718 \begin{enumerate}
 719 \item Il \index{segmento!testo} segmento di testo o \textit{text segment}.
 720   Contiene il codice del programma, delle funzioni di librerie da esso
 721   utilizzate, e le costanti.  Normalmente viene condiviso fra tutti i processi
 722   che eseguono lo stesso programma e nel caso delle librerie anche da processi
 723   che eseguono altri programmi.  Viene marcato in sola lettura per evitare
 724   sovrascritture accidentali (o maliziose) che ne modifichino le istruzioni.
 725
 726   Viene allocato da \func{execve} all'avvio del programma e resta invariato
 727   per tutto il tempo dell'esecuzione.
 728
 729 \item Il \index{segmento!dati} segmento dei dati o \textit{data segment}.
 730   Contiene le variabili globali, cioè quelle definite al di fuori di tutte le
 731   funzioni che compongono il programma, e le variabili statiche, cioè quelle
 732   dichiarate con l'attributo \ctyp{static}. Di norma è diviso in due parti.
 733
 734   La prima parte è il segmento dei dati inizializzati, che contiene le
 735   variabili il cui valore è stato assegnato esplicitamente. Ad esempio
 736   se si definisce:
 737 \includecodesnip{listati/pi.c}
 738   questo valore sarà immagazzinato in questo segmento. La memoria di questo
 739   segmento viene preallocata all'avvio del programma e inizializzata ai valori
 740   specificati.
 741
 742   La seconda parte è il segmento dei dati non inizializzati, che contiene le
 743   variabili il cui valore non è stato assegnato esplicitamente. Ad esempio se
 744   si definisce:
 745 \includecodesnip{listati/vect.c}
 746   questo vettore sarà immagazzinato in questo segmento. Anch'esso viene
 747   allocato all'avvio, e tutte le variabili vengono inizializzate a zero (ed i
 748   puntatori a \val{NULL}).\footnote{si ricordi che questo vale solo per le
 749     variabili che vanno nel segmento dati, e non è affatto vero in generale.}
 750
 751   Storicamente questa seconda parte del segmento dati viene chiamata BSS (da
 752   \textit{Block Started by Symbol}). La sua dimensione è fissa.
 753
 754 \item Lo \itindex{heap} \textit{heap}. Tecnicamente lo si può considerare
 755   l'estensione del segmento dati, a cui di solito è posto giusto di seguito. È
 756   qui che avviene l'allocazione dinamica della memoria; può essere
 757   ridimensionato allocando e disallocando la memoria dinamica con le apposite
 758   funzioni (vedi sez.~\ref{sec:proc_mem_alloc}), ma il suo limite inferiore,
 759   quello adiacente al segmento dati, ha una posizione fissa.
 760
 761 \item Il segmento di \itindex{stack} \textit{stack}, che contiene quello che
 762   viene chiamato \textit{stack} del programma.  Tutte le volte che si effettua
 763   una chiamata ad una funzione è qui che viene salvato l'indirizzo di ritorno
 764   e le informazioni dello stato del chiamante (come il contenuto di alcuni
 765   registri della CPU), poi la funzione chiamata alloca qui lo spazio per le
 766   sue variabili locali. Tutti questi dati vengono \textit{impilati} (da questo
 767   viene il nome \itindex{stack} \textit{stack}) in sequenza uno sull'altro; in
 768   questo modo le funzioni possono essere chiamate ricorsivamente. Al ritorno
 769   della funzione lo spazio è automaticamente rilasciato e
 770   ``\textsl{ripulito}''.\footnote{il compilatore si incarica di generare
 771     automaticamente il codice necessario, seguendo quella che viene chiamata
 772     una \textit{calling convention}; quella standard usata con il C ed il C++
 773     è detta \textit{cdecl} e prevede che gli argomenti siano caricati nello
 774     \textit{stack} dal chiamante da destra a sinistra, e che sia il chiamante
 775     stesso ad eseguire la ripulitura dello \textit{stack} al ritorno della
 776     funzione, se ne possono però utilizzare di alternative (ad esempio nel
 777     Pascal gli argomenti sono inseriti da sinistra a destra ed è compito del
 778     chiamato ripulire lo \textit{stack}), in genere non ci si deve preoccupare
 779     di questo fintanto che non si mescolano funzioni scritte con linguaggi
 780     diversi.}
 781
 782   La dimensione di questo segmento aumenta seguendo la crescita dello
 783   \itindex{stack} \textit{stack} del programma, ma non viene ridotta quando
 784   quest'ultimo si restringe.
 785 \end{enumerate}
 786
 787 \begin{figure}[htb]
 788   \centering
 789 %  \includegraphics[height=12cm]{img/memory_layout}
 790   \begin{tikzpicture}
 791   \draw (0,0) rectangle (4,1);
 792   \draw (2,0.5) node {text};
 793   \draw (0,1) rectangle (4,2.5);
 794   \draw (2,1.75) node {dati inizializzati};
 795   \draw (0,2.5) rectangle (4,5);
 796   \draw (2,3.75) node {dati non inizializzati};
 797   \draw (0,5) rectangle (4,9);
 798   \draw[dashed] (0,6) -- (4,6);
 799   \draw[dashed] (0,8) -- (4,8);
 800   \draw (2,5.5) node {heap};
 801   \draw (2,8.5) node {stack};
 802   \draw [->] (2,6) -- (2,6.5);
 803   \draw [->] (2,8) -- (2,7.5);
 804   \draw (0,9) rectangle (4,10);
 805   \draw (2,9.5) node {environment};
 806   \draw (4,0) node [anchor=west] {\texttt{0x08000000}};
 807   \draw (4,5) node [anchor=west] {\texttt{0x08xxxxxx}};
 808   \draw (4,9) node [anchor=west] {\texttt{0xC0000000}};
 809   \end{tikzpicture}
 810   \caption{Disposizione tipica dei segmenti di memoria di un processo.}
 811   \label{fig:proc_mem_layout}
 812 \end{figure}
 813
 814 Una disposizione tipica dei vari segmenti (testo, \itindex{heap}
 815 \textit{heap}, \itindex{stack} \textit{stack}, ecc.) è riportata in
 816 fig.~\ref{fig:proc_mem_layout}. Usando il comando \cmd{size} su un programma
 817 se ne può stampare le dimensioni dei segmenti di testo e di dati
 818 (inizializzati e BSS); si tenga presente però che il BSS non è mai salvato sul
 819 file che contiene l'eseguibile, dato che viene sempre inizializzato a zero al
 820 caricamento del programma.
 821
 822
 823 \subsection{Allocazione della memoria per i programmi C}
 824 \label{sec:proc_mem_alloc}
 825
 826 Il C supporta direttamente, come linguaggio di programmazione, soltanto due
 827 modalità di allocazione della memoria: l'\textsl{allocazione statica} e
 828 l'\textsl{allocazione automatica}.
 829
 830 L'\textsl{allocazione statica} è quella con cui sono memorizzate le variabili
 831 globali e le variabili statiche, cioè le variabili il cui valore deve essere
 832 mantenuto per tutta la durata del programma. Come accennato queste variabili
 833 vengono allocate nel \index{segmento!dati} segmento dei dati all'avvio del
 834 programma come parte delle operazioni svolte da \func{exec}, e lo spazio da
 835 loro occupato non viene liberato fino alla sua conclusione.
 836
 837 L'\textsl{allocazione automatica} è quella che avviene per gli argomenti di
 838 una funzione e per le sue variabili locali (le cosiddette \textsl{variabili
 839   automatiche}), che esistono solo per la durata della funzione.  Lo spazio
 840 per queste variabili viene allocato nello \itindex{stack} \textit{stack} quando
 841 viene eseguita la funzione e liberato quando si esce dalla medesima.
 842
 843 Esiste però un terzo tipo di allocazione, l'\textsl{allocazione dinamica}
 844 della memoria, che non è prevista direttamente all'interno del linguaggio C,
 845 ma che è necessaria quando il quantitativo di memoria che serve è
 846 determinabile solo durante il corso dell'esecuzione del programma. Il C non
 847 consente di usare variabili allocate dinamicamente, non è possibile cioè
 848 definire in fase di programmazione una variabile le cui dimensioni possano
 849 essere modificate durante l'esecuzione del programma. Per questo la Libreria
 850 Standard del C fornisce una serie opportuna di funzioni per eseguire
 851 l'allocazione dinamica di memoria (in genere nello \itindex{heap}
 852 \textit{heap}).
 853
 854 Le variabili il cui contenuto è allocato in questo modo non potranno essere
 855 usate direttamente come le altre (quelle nello \itindex{stack}
 856 \textit{stack}), ma l'accesso sarà possibile solo in maniera indiretta,
 857 attraverso i puntatori alla memoria loro riservata che si sono ottenuti dalle
 858 funzioni di allocazione.
 859
 860 Le funzioni previste dallo standard ANSI C per la gestione della memoria sono
 861 quattro: \func{malloc}, \func{calloc}, \func{realloc} e \func{free}. Le prime
 862 due, \funcd{malloc} e \funcd{calloc} allocano in nuovo spazio di memoria; i
 863 rispettivi prototipi sono:
 864
 865 \begin{funcproto}{
 866 \fhead{stdlib.h}
 867 \fdecl{void *calloc(size\_t nmemb, size\_t size)}
 868 \fdesc{Alloca un'area di memoria inizializzata a 0.}
 869 \fdecl{void *malloc(size\_t size)}
 870 \fdesc{Alloca un'area di memoria non inizializzata.}
 871 }
 872 {Entrambe le funzioni restituiscono il puntatore alla zona di memoria allocata
 873 in caso di successo e \val{NULL} in caso di fallimento, nel qual caso
 874   \var{errno} assumerà il valore \errval{ENOMEM}.}
 875 \end{funcproto}
 876
 877 In genere si usano \func{malloc} e \func{calloc} per allocare dinamicamente
 878 un'area di memoria.\footnote{queste funzioni presentano un comportamento
 879   diverso fra le \acr{glibc} e le \acr{uClib} quando il valore di \param{size}
 880   è nullo.  Nel primo caso viene comunque restituito un puntatore valido,
 881   anche se non è chiaro a cosa esso possa fare riferimento, nel secondo caso
 882   viene restituito \val{NULL}. Il comportamento è analogo con
 883   \code{realloc(NULL, 0)}.}  Dato che i puntatori ritornati sono di tipo
 884 generico non è necessario effettuare un cast per assegnarli a puntatori al
 885 tipo di variabile per la quale si effettua l'allocazione, inoltre le funzioni
 886 garantiscono che i puntatori siano allineati correttamente per tutti i tipi di
 887 dati; ad esempio sulle macchine a 32 bit in genere è allineato a multipli di 4
 888 byte e sulle macchine a 64 bit a multipli di 8 byte.
 889
 890 Nel caso di \func{calloc} l'area di memoria viene allocata nello \textit{heap}
 891 come un vettore di \param{nmemb} membri di \param{size} byte di dimensione, e
 892 preventivamente inizializzata a zero, nel caso di \func{malloc} invece vengono
 893 semplicemente allocati \param{size} byte e l'area di memoria non viene
 894 inizializzata.
 895
 896 Una volta che non sia più necessaria la memoria allocata dinamicamente deve
 897 essere esplicitamente rilasciata usando la funzione \func{free},\footnote{le
 898   glibc provvedono anche una funzione \func{cfree} definita per compatibilità
 899   con SunOS, che è deprecata.} il suo prototipo è:
 900
 901 \begin{funcproto}{
 902 \fhead{stdlib.h}
 903 \fdecl{void free(void *ptr)}
 904 \fdesc{Disalloca un'area di memoria precedentemente allocata.}
 905 }
 906 {La funzione non ritorna nulla e non riporta errori.}
 907 \end{funcproto}
 908
 909 Questa funzione vuole come argomento \var{ptr} il puntatore restituito da una
 910 precedente chiamata ad una qualunque delle funzioni di allocazione che non sia
 911 già stato liberato da un'altra chiamata a \func{free}. Se il valore
 912 di \param{ptr} è \val{NULL} la funzione non fa niente, mentre se l'area di
 913 memoria era già stata liberata da un precedente chiamata il comportamento
 914 della funzione è dichiarato indefinito, ma in genere comporta la corruzione
 915 dei dati di gestione dell'allocazione, che può dar luogo a problemi gravi, ad
 916 esempio un \textit{segmentation fault} in una successiva chiamata di una di
 917 queste funzioni.
 918
 919 Dato che questo errore, chiamato in gergo \textit{double free}, è abbastanza
 920 frequente specie quando si manipolano vettori di puntatori, e dato che le
 921 conseguenze possono essere pesanti ed inaspettate, si suggerisce come
 922 soluzione precauzionale di assegnare sempre a \val{NULL} ogni puntatore su cui
 923 sia stata eseguita \func{free} immediatamente dopo l'esecuzione della
 924 funzione. In questo modo, dato che quando l'argomento è un puntatore nullo
 925 \func{free} non esegue nessuna operazione, si evitano i problemi del
 926 \textit{double free}.
 927
 928 Infine la funzione \funcd{realloc} consente di modificare (in genere
 929 aumentare) la dimensione di un'area di memoria precedentemente allocata, il
 930 suo prototipo è:
 931
 932 \begin{funcproto}{
 933 \fhead{stdlib.h}
 934 \fdecl{void *realloc(void *ptr, size\_t size)}
 935 \fdesc{Cambia la dimensione di un'area di memoria precedentemente allocata.}
 936 }  {La funzione restituisce il puntatore alla zona di memoria allocata in caso
 937   di successo e \val{NULL} in caso di fallimento, nel qual caso \var{errno}
 938   assumerà il valore \errval{ENOMEM}.}
 939 \end{funcproto}
 940
 941 La funzione vuole come primo argomento il puntatore restituito da una
 942 precedente chiamata a \func{malloc} o \func{calloc} e come secondo argomento
 943 la nuova dimensione (in byte) che si intende ottenere. Se si passa
 944 per \param{ptr} il valore \val{NULL} allora la funzione si comporta come
 945 \func{malloc}.\footnote{questo è vero per Linux e l'implementazione secondo lo
 946   standard ANSI C, ma non è vero per alcune vecchie implementazioni, inoltre
 947   alcune versioni delle librerie del C consentivano di usare \func{realloc}
 948   anche per un puntatore liberato con \func{free} purché non ci fossero state
 949   nel frattempo altre chiamate a funzioni di allocazione, questa funzionalità
 950   è totalmente deprecata e non è consentita sotto Linux.}
 951
 952 La funzione si usa ad esempio quando si deve far crescere la dimensione di un
 953 vettore. In questo caso se è disponibile dello spazio adiacente al precedente
 954 la funzione lo utilizza, altrimenti rialloca altrove un blocco della
 955 dimensione voluta, copiandoci automaticamente il contenuto; lo spazio aggiunto
 956 non viene inizializzato. Se la funzione fallisce l'area di memoria originale
 957 non viene assolutamente toccata.
 958
 959 Si deve sempre avere ben presente il fatto che il blocco di memoria restituito
 960 da \func{realloc} può non essere un'estensione di quello che gli si è passato
 961 in ingresso; per questo si dovrà \emph{sempre} eseguire la riassegnazione di
 962 \param{ptr} al valore di ritorno della funzione, e reinizializzare o provvedere
 963 ad un adeguato aggiornamento di tutti gli altri puntatori all'interno del
 964 blocco di dati ridimensionato.
 965
 966 La \acr{glibc} ha un'implementazione delle funzioni di allocazione che è
 967 controllabile dall'utente attraverso alcune variabili di ambiente (vedi
 968 sez.~\ref{sec:proc_environ}), in particolare diventa possibile tracciare
 969 questo tipo di errori usando la variabile di ambiente \val{MALLOC\_CHECK\_}
 970 che quando viene definita mette in uso una versione meno efficiente delle
 971 funzioni suddette, che però è più tollerante nei confronti di piccoli errori
 972 come quello di chiamate doppie a \func{free}.  In particolare:
 973 \begin{itemize}
 974 \item se la variabile è posta a zero gli errori vengono ignorati;
 975 \item se è posta ad 1 viene stampato un avviso sullo \textit{standard error}
 976   (vedi sez.~\ref{sec:file_std_stream});
 977 \item se è posta a 2 viene chiamata \func{abort}, che in genere causa
 978   l'immediata conclusione del programma.
 979 \end{itemize}
 980
 981 Il problema più comune e più difficile da risolvere che si incontra con le
 982 funzioni di allocazione è quando non viene opportunamente liberata la memoria
 983 non più utilizzata, quello che in inglese viene chiamato \itindex{memory~leak}
 984 \textit{memory leak}, cioè una \textsl{perdita di memoria}.
 985
 986 Un caso tipico che illustra il problema è quello in cui in una subroutine si
 987 alloca della memoria per uso locale senza liberarla prima di uscire. La
 988 memoria resta così allocata fino alla terminazione del processo.  Chiamate
 989 ripetute alla stessa subroutine continueranno ad effettuare altre allocazioni,
 990 causando a lungo andare un esaurimento della memoria disponibile (e la
 991 probabile impossibilità di proseguire l'esecuzione del programma).
 992
 993 Il problema è che l'esaurimento della memoria può avvenire in qualunque
 994 momento, in corrispondenza ad una qualunque chiamata di \func{malloc} che può
 995 essere in una sezione del codice che non ha alcuna relazione con la subroutine
 996 che contiene l'errore. Per questo motivo è sempre molto difficile trovare un
 997 \itindex{memory~leak} \textit{memory leak}.
 998
 999 In C e C++ il problema è particolarmente sentito. In C++, per mezzo della
1000 programmazione ad oggetti, il problema dei \itindex{memory~leak}
1001 \textit{memory leak} è notevolmente ridimensionato attraverso l'uso accurato
1002 di appositi oggetti come gli \textit{smartpointers}.  Questo però in genere va
1003 a scapito delle prestazioni dell'applicazione in esecuzione.
1004
1005 % TODO decidere cosa fare di questo che segue
1006 % In altri linguaggi come il java e recentemente il C\# il problema non si pone
1007 % nemmeno perché la gestione della memoria viene fatta totalmente in maniera
1008 % automatica, ovvero il programmatore non deve minimamente preoccuparsi di
1009 % liberare la memoria allocata precedentemente quando non serve più, poiché
1010 % l'infrastruttura del linguaggio gestisce automaticamente la cosiddetta
1011 % \index{\textit{garbage~collection}} \textit{garbage collection}. In tal caso,
1012 % attraverso meccanismi simili a quelli del \textit{reference counting}, quando
1013 % una zona di memoria precedentemente allocata non è più riferita da nessuna
1014 % parte del codice in esecuzione, può essere deallocata automaticamente in
1015 % qualunque momento dall'infrastruttura.
1016
1017 % Anche questo va a scapito delle prestazioni dell'applicazione in esecuzione
1018 % (inoltre le applicazioni sviluppate con tali linguaggi di solito non sono
1019 % eseguibili compilati, come avviene invece per il C ed il C++, ed è necessaria
1020 % la presenza di una infrastruttura per la loro interpretazione e pertanto hanno
1021 % di per sé delle prestazioni più scadenti rispetto alle stesse applicazioni
1022 % compilate direttamente).  Questo comporta però il problema della non
1023 % predicibilità del momento in cui viene deallocata la memoria precedentemente
1024 % allocata da un oggetto.
1025
1026 Per limitare l'impatto di questi problemi, e semplificare la ricerca di
1027 eventuali errori, l'implementazione delle funzioni di allocazione delle
1028 \acr{glibc} mette a disposizione una serie di funzionalità che permettono di
1029 tracciare le allocazioni e le disallocazioni, e definisce anche una serie di
1030 possibili \textit{hook} (\textsl{ganci}) che permettono di sostituire alle
1031 funzioni di libreria una propria versione (che può essere più o meno
1032 specializzata per il debugging). Esistono varie librerie che forniscono dei
1033 sostituti opportuni delle funzioni di allocazione in grado, senza neanche
1034 ricompilare il programma,\footnote{esempi sono \textit{Dmalloc}
1035   \href{http://dmalloc.com/}{\textsf{http://dmalloc.com/}} di Gray Watson ed
1036   \textit{Electric Fence} di Bruce Perens.} di eseguire diagnostiche anche
1037 molto complesse riguardo l'allocazione della memoria. Vedremo alcune delle
1038 funzionalità di ausilio presenti nelle \acr{glibc} in
1039 sez.~\ref{sec:proc_memory_adv_management}.
1040
1041 Una possibile alternativa all'uso di \func{malloc}, per evitare di soffrire
1042 dei problemi di \itindex{memory~leak} \textit{memory leak} descritti in
1043 precedenza, è di allocare la memoria nel segmento di \itindex{stack}
1044 \textit{stack} della funzione corrente invece che nello \itindex{heap}
1045 \textit{heap}, per farlo si può usare la funzione \funcd{alloca}, la cui
1046 sintassi è identica a quella di \func{malloc}; il suo prototipo è:
1047
1048 \begin{funcproto}{
1049 \fhead{stdlib.h}
1050 \fdecl{void *alloca(size\_t size)}
1051 \fdesc{Alloca un'area di memoria nello \textit{stack}}
1052 }
1053 {La funzione restituisce il puntatore alla zona di memoria allocata, in caso
1054   di fallimento il comportamento è indefinito.}
1055 \end{funcproto}
1056
1057 La funzione alloca la quantità di memoria (non inizializzata) richiesta
1058 dall'argomento \param{size} nel segmento di \itindex{stack} \textit{stack}
1059 della funzione chiamante.  Con questa funzione non è più necessario liberare
1060 la memoria allocata (e quindi non esiste un analogo della \func{free}) in
1061 quanto essa viene rilasciata automaticamente al ritorno della funzione.
1062
1063 Come è evidente questa funzione ha alcuni vantaggi, anzitutto permette di
1064 evitare alla radice i problemi di \itindex{memory~leak} \textit{memory leak},
1065 dato che non serve più la deallocazione esplicita; inoltre la deallocazione
1066 automatica funziona anche quando si usa \func{longjmp} per uscire da una
1067 subroutine con un salto non locale da una funzione (vedi
1068 sez.~\ref{sec:proc_longjmp}).
1069
1070 Un altro vantaggio è che in Linux la funzione è molto più veloce di
1071 \func{malloc} e non viene sprecato spazio, infatti non è necessario gestire un
1072 pool di memoria da riservare e si evitano così anche i problemi di
1073 frammentazione di quest'ultimo, che comportano inefficienze sia
1074 nell'allocazione della memoria che nell'esecuzione dell'allocazione.
1075
1076 Gli svantaggi sono che questa funzione non è disponibile su tutti gli Unix, e
1077 non è inserita né nello standard POSIX né in SUSv3 (ma è presente in BSD), il
1078 suo utilizzo quindi limita la portabilità dei programmi. Inoltre la funzione
1079 non può essere usata nella lista degli argomenti di una funzione, perché lo
1080 spazio verrebbe allocato nel mezzo degli stessi.
1081
1082 Inoltre non è chiaramente possibile usare \func{alloca} per allocare memoria
1083 che deve poi essere usata anche al di fuori della funzione in cui essa viene
1084 chiamata, dato che all'uscita dalla funzione lo spazio allocato diventerebbe
1085 libero, e potrebbe essere sovrascritto all'invocazione di nuove funzioni.
1086 Questo è lo stesso problema che si può avere con le variabili automatiche, su
1087 cui torneremo in sez.~\ref{sec:proc_auto_var}.
1088
1089 Infine non esiste un modo di sapere se l'allocazione ha avuto successo, la
1090 funzione infatti viene realizzata inserendo del codice \textit{inline} nel
1091 programma\footnote{questo comporta anche il fatto che non è possibile
1092   sostituirla con una propria versione o modificarne il comportamento
1093   collegando il proprio programma con un'altra libreria.} che si limita a
1094 modificare il puntatore nello \itindex{stack} \textit{stack} e non c'è modo di
1095 sapere se se ne sono superate le dimensioni, per cui in caso di fallimento
1096 nell'allocazione il comportamento del programma può risultare indefinito,
1097 dando luogo ad una \itindex{segment~violation} \textit{segment violation} la
1098 prima volta che cercherà di accedere alla memoria non effettivamente
1099 disponibile.
1100
1101 Le due funzioni seguenti\footnote{le due funzioni sono state definite con BSD
1102   4.3, sono marcate obsolete in SUSv2 e non fanno parte delle librerie
1103   standard del C e mentre sono state esplicitamente rimosse dallo standard
1104   POSIX/1-2001.} vengono utilizzate soltanto quando è necessario effettuare
1105 direttamente la gestione della memoria associata allo spazio dati di un
1106 processo, ad esempio qualora si debba implementare la propria versione delle
1107 funzioni di allocazione della memoria. Per poterle utilizzare è necessario
1108 definire una della macro di funzionalità (vedi
1109 sez.~\ref{sec:intro_gcc_glibc_std}) fra \macro{\_BSD\_SOURCE},
1110 \macro{\_SVID\_SOURCE} e \macro{\_XOPEN\_SOURCE} (ad un valore maggiore o
1111 uguale di 500). La prima funzione è \funcd{brk}, ed il suo prototipo è:
1112 \begin{prototype}{unistd.h}{int brk(void *end\_data\_segment)}
1113   Sposta la fine del segmento dei dati.
1114
1115   \bodydesc{La funzione restituisce 0 in caso di successo e $-1$ in caso di
1116     fallimento, nel qual caso \var{errno} assumerà il valore \errval{ENOMEM}.}
1117 \end{prototype}
1118
1119 La funzione è un'interfaccia all'omonima system call ed imposta l'indirizzo
1120 finale del \index{segmento!dati} segmento dati di un processo all'indirizzo
1121 specificato da \param{end\_data\_segment}. Quest'ultimo deve essere un valore
1122 ragionevole, ed inoltre la dimensione totale del segmento non deve comunque
1123 eccedere un eventuale limite (si veda sez.~\ref{sec:sys_resource_limit})
1124 imposto sulle dimensioni massime dello spazio dati del processo.
1125
1126 Il valore di ritorno della funzione fa riferimento alla versione fornita dalle
1127 \acr{glibc}, in realtà in Linux la \textit{system call} corrispondente
1128 restituisce come valore di ritorno il nuovo valore della fine del
1129 \index{segmento!dati} segmento dati in caso di successo e quello corrente in
1130 caso di fallimento, è la funzione di interfaccia usata dalle \acr{glibc} che
1131 fornisce i valori di ritorno appena descritti, questo può non accadere se si
1132 usano librerie diverse.
1133
1134 Una seconda funzione per la manipolazione diretta delle dimensioni
1135 \index{segmento!dati} del segmento dati\footnote{in questo caso si tratta
1136   soltanto di una funzione di libreria, e non di una system call.} è
1137 \funcd{sbrk}, ed il suo prototipo è:
1138 \begin{prototype}{unistd.h}{void *sbrk(ptrdiff\_t increment)}
1139   Incrementa la dimensione dello spazio dati.
1140
1141   \bodydesc{La funzione restituisce il puntatore all'inizio della nuova zona
1142     di memoria allocata in caso di successo e \val{NULL} in caso di
1143     fallimento, nel qual caso \var{errno} assumerà il valore \errval{ENOMEM}.}
1144 \end{prototype}
1145 \noindent la funzione incrementa la dimensione lo spazio dati di un programma
1146 di \param{increment} byte, restituendo il nuovo indirizzo finale dello stesso.
1147 Un valore nullo permette di ottenere l'attuale posizione della fine del
1148 \index{segmento!dati} segmento dati.
1149
1150 Queste funzioni sono state deliberatamente escluse dallo standard POSIX.1 e
1151 per i programmi normali è sempre opportuno usare le funzioni di allocazione
1152 standard descritte in precedenza, che sono costruite su di esse.
1153
1154
1155 \subsection{Il controllo della memoria virtuale}
1156 \label{sec:proc_mem_lock}
1157
1158 \index{memoria~virtuale|(}
1159
1160 Come spiegato in sez.~\ref{sec:proc_mem_gen} il kernel gestisce la memoria
1161 virtuale in maniera trasparente ai processi, decidendo quando rimuovere pagine
1162 dalla memoria per metterle nello swap, sulla base dell'utilizzo corrente da
1163 parte dei vari processi.
1164
1165 Nell'uso comune un processo non deve preoccuparsi di tutto ciò, in quanto il
1166 meccanismo della \index{paginazione} paginazione riporta in RAM, ed in maniera
1167 trasparente, tutte le pagine che gli occorrono; esistono però esigenze
1168 particolari in cui non si vuole che questo meccanismo si attivi. In generale i
1169 motivi per cui si possono avere di queste necessità sono due:
1170 \begin{itemize}
1171 \item \textsl{La velocità}. Il processo della \index{paginazione} paginazione
1172   è trasparente solo se il programma in esecuzione non è sensibile al tempo
1173   che occorre a riportare la pagina in memoria; per questo motivo processi
1174   critici che hanno esigenze di tempo reale o tolleranze critiche nelle
1175   risposte (ad esempio processi che trattano campionamenti sonori) possono non
1176   essere in grado di sopportare le variazioni della velocità di accesso dovuta
1177   alla paginazione.
1178
1179   In certi casi poi un programmatore può conoscere meglio dell'algoritmo di
1180   allocazione delle pagine le esigenze specifiche del suo programma e decidere
1181   quali pagine di memoria è opportuno che restino in memoria per un aumento
1182   delle prestazioni. In genere queste sono esigenze particolari e richiedono
1183   anche un aumento delle priorità in esecuzione del processo (vedi
1184   sez.~\ref{sec:proc_real_time}).
1185
1186 \item \textsl{La sicurezza}. Se si hanno password o chiavi segrete in chiaro
1187   in memoria queste possono essere portate su disco dal meccanismo della
1188   \index{paginazione} paginazione. Questo rende più lungo il periodo di tempo
1189   in cui detti segreti sono presenti in chiaro e più complessa la loro
1190   cancellazione (un processo può cancellare la memoria su cui scrive le sue
1191   variabili, ma non può toccare lo spazio disco su cui una pagina di memoria
1192   può essere stata salvata). Per questo motivo di solito i programmi di
1193   crittografia richiedono il blocco di alcune pagine di memoria.
1194 \end{itemize}
1195
1196 Per ottenere informazioni sulle modalità in cui un programma sta usando la
1197 memoria virtuale è disponibile una apposita funzione, \funcd{mincore}, che
1198 però non è standardizzata da POSIX e pertanto non è disponibile su tutte le
1199 versioni di kernel unix-like;\footnote{nel caso di Linux devono essere
1200   comunque definite le macro \macro{\_BSD\_SOURCE} e \macro{\_SVID\_SOURCE}.}
1201 il suo prototipo è:
1202 % \begin{functions}
1203 %   \headdecl{unistd.h}
1204 %   \headdecl{sys/mman.h}
1205
1206 %   \funcdecl{int mincore(void *addr, size\_t length, unsigned char *vec)}
1207 %   Ritorna lo stato delle pagine di memoria occupate da un processo.
1208
1209 %   \bodydesc{La funzione ritorna 0 in caso di successo e $-1$ in caso di
1210 %     errore, nel qual caso \var{errno} assumerà uno dei valori seguenti:
1211 %   \begin{errlist}
1212 %   \item[\errcode{ENOMEM}] o \param{addr} + \param{length} eccede la dimensione
1213 %     della memoria usata dal processo o l'intervallo di indirizzi specificato
1214 %     non è mappato.
1215 %   \item[\errcode{EINVAL}] \param{addr} non è un multiplo delle dimensioni di
1216 %     una pagina.
1217 %   \item[\errcode{EFAULT}] \param{vec} punta ad un indirizzo non valido.
1218 %   \item[\errcode{EAGAIN}] il kernel è temporaneamente non in grado di fornire
1219 %     una risposta.
1220 %   \end{errlist}
1221 % }
1222 % \end{functions}
1223
1224 \begin{funcproto}{
1225 \fhead{unistd.h}
1226 \fhead{sys/mman.h}
1227 \fdecl{int mincore(void *addr, size\_t length, unsigned char *vec)}
1228 \fdesc{Ritorna lo stato delle pagine di memoria occupate da un processo.}
1229 }
1230 {La funzione ritorna 0 in caso di successo e $-1$ in caso di errore, nel qual
1231 caso \var{errno} assumerà uno dei valori seguenti:
1232 \begin{errlist}
1233    \item[\errcode{ENOMEM}] o \param{addr} + \param{length} eccede la dimensione
1234      della memoria usata dal processo o l'intervallo di indirizzi specificato
1235      non è mappato.
1236    \item[\errcode{EINVAL}] \param{addr} non è un multiplo delle dimensioni di
1237      una pagina.
1238    \item[\errcode{EFAULT}] \param{vec} punta ad un indirizzo non valido.
1239    \item[\errcode{EAGAIN}] il kernel è temporaneamente non in grado di fornire
1240      una risposta.
1241 \end{errlist}}
1242 \end{funcproto}
1243
1244 La funzione permette di ottenere le informazioni sullo stato della mappatura
1245 della memoria per il processo chiamante, specificando l'intervallo da
1246 esaminare con l'indirizzo iniziale (indicato con l'argomento \param{addr}) e
1247 la lunghezza (indicata con l'argomento \param{length}). L'indirizzo iniziale
1248 deve essere un multiplo delle dimensioni di una pagina, mentre la lunghezza
1249 può essere qualunque, fintanto che si resta nello spazio di indirizzi del
1250 processo,\footnote{in caso contrario si avrà un errore di \errcode{ENOMEM};
1251   fino al kernel 2.6.11 in questo caso veniva invece restituito
1252   \errcode{EINVAL}, in considerazione che il caso più comune in cui si
1253   verifica questo errore è quando si usa per sbaglio un valore negativo
1254   di \param{length}, che nel caso verrebbe interpretato come un intero
1255   positivo di grandi dimensioni.}  ma il risultato verrà comunque fornito per
1256 l'intervallo compreso fino al multiplo successivo.
1257
1258 I risultati della funzione vengono forniti nel vettore puntato da \param{vec},
1259 che deve essere allocato preventivamente e deve essere di dimensione
1260 sufficiente a contenere tanti byte quante sono le pagine contenute
1261 nell'intervallo di indirizzi specificato.\footnote{la dimensione cioè deve
1262   essere almeno pari a \code{(length+PAGE\_SIZE-1)/PAGE\_SIZE}. } Al ritorno
1263 della funzione il bit meno significativo di ciascun byte del vettore sarà
1264 acceso se la pagina di memoria corrispondente è al momento residente in
1265 memoria, o cancellato altrimenti. Il comportamento sugli altri bit è
1266 indefinito, essendo questi al momento riservati per usi futuri. Per questo
1267 motivo in genere è comunque opportuno inizializzare a zero il contenuto del
1268 vettore, così che le pagine attualmente residenti in memoria saranno indicata
1269 da un valore non nullo del byte corrispondente.
1270
1271 Dato che lo stato della memoria di un processo può cambiare continuamente, il
1272 risultato di \func{mincore} è assolutamente provvisorio e lo stato delle
1273 pagine potrebbe essere già cambiato al ritorno stesso della funzione, a meno
1274 che, come vedremo ora, non si sia attivato il meccanismo che forza il
1275 mantenimento di una pagina sulla memoria.
1276
1277 \itindbeg{memory~locking}
1278
1279 Il meccanismo che previene la \index{paginazione} paginazione di parte della
1280 memoria virtuale di un processo è chiamato \textit{memory locking} (o
1281 \textsl{blocco della memoria}). Il blocco è sempre associato alle pagine della
1282 memoria virtuale del processo, e non al segmento reale di RAM su cui essa
1283 viene mantenuta.  La regola è che se un segmento di RAM fa da supporto ad
1284 almeno una pagina bloccata allora esso viene escluso dal meccanismo della
1285 \index{paginazione} paginazione. I blocchi non si accumulano, se si blocca due
1286 volte la stessa pagina non è necessario sbloccarla due volte, una pagina o è
1287 bloccata oppure no.
1288
1289 Il \textit{memory lock} persiste fintanto che il processo che detiene la
1290 memoria bloccata non la sblocca. Chiaramente la terminazione del processo
1291 comporta anche la fine dell'uso della sua memoria virtuale, e quindi anche di
1292 tutti i suoi \textit{memory lock}.  Infine i \textit{memory lock} non sono
1293 ereditati dai processi figli,\footnote{ma siccome Linux usa il
1294   \itindex{copy~on~write} \textit{copy on write} (vedi
1295   sez.~\ref{sec:proc_fork}) gli indirizzi virtuali del figlio sono mantenuti
1296   sullo stesso segmento di RAM del padre, quindi fintanto che un figlio non
1297   scrive su un segmento, può usufruire del \textit{memory lock} del padre.} e
1298 vengono automaticamente rimossi se si pone in esecuzione un altro programma
1299 con \func{exec} (vedi sez.~\ref{sec:proc_exec}).
1300
1301 Siccome la richiesta di un \textit{memory lock} da parte di un processo riduce
1302 la memoria fisica disponibile nel sistema, questo ha un evidente impatto su
1303 tutti gli altri processi, per cui fino al kernel 2.6.9 solo un processo con i
1304 privilegi opportuni (la \itindex{capabilities} \textit{capability}
1305 \const{CAP\_IPC\_LOCK}, vedi sez.~\ref{sec:proc_capabilities}) aveva la
1306 capacità di bloccare una pagina.
1307
1308 Il sistema pone dei limiti all'ammontare di memoria di un processo che può
1309 essere bloccata e al totale di memoria fisica che si può dedicare a questo, lo
1310 standard POSIX.1 richiede che sia definita in \file{unistd.h} la macro
1311 \macro{\_POSIX\_MEMLOCK\_RANGE} per indicare la capacità di eseguire il
1312 \textit{memory locking}. Inoltre in alcuni sistemi è definita la costante
1313 \const{PAGE\_SIZE} in \file{limits.h} per indicare la dimensione di una pagina
1314 in byte.\footnote{con Linux questo non avviene e si deve ricorrere alla
1315   funzione \func{getpagesize}, vedi sez.~\ref{sec:sys_memory_res}.}
1316
1317 A partire dal kernel 2.6.9 anche un processo normale può bloccare la propria
1318 memoria\footnote{la funzionalità è stata introdotta per non essere costretti a
1319   dare privilegi eccessivi a programmi di crittografia, che necessitano di
1320   questa funzionalità, ma che devono essere usati da utenti normali.} ma
1321 mentre un processo privilegiato non ha limiti sulla quantità di memoria che
1322 può bloccare, un processo normale è soggetto al limite della risorsa
1323 \const{RLIMIT\_MEMLOCK} (vedi sez.~\ref{sec:sys_resource_limit}). In generale
1324 poi ogni processo può sbloccare le pagine relative alla propria memoria, se
1325 però diversi processi bloccano la stessa pagina questa resterà bloccata
1326 fintanto che ci sarà almeno un processo che la blocca.
1327
1328 Le funzioni per bloccare e sbloccare la \index{paginazione} paginazione di
1329 singole sezioni di memoria sono \funcd{mlock} e \funcd{munlock}; i loro
1330 prototipi sono:
1331 % \begin{functions}
1332 %   \headdecl{sys/mman.h}
1333
1334 %   \funcdecl{int mlock(const void *addr, size\_t len)}
1335 %   Blocca la paginazione su un intervallo di memoria.
1336
1337 %   \funcdecl{int munlock(const void *addr, size\_t len)}
1338 %   Rimuove il blocco della paginazione su un intervallo di memoria.
1339
1340 %   \bodydesc{Entrambe le funzioni ritornano 0 in caso di successo e $-1$ in
1341 %     caso di errore, nel qual caso \var{errno} assumerà uno dei
1342 %     valori seguenti:
1343 %   \begin{errlist}
1344 %   \item[\errcode{ENOMEM}] alcuni indirizzi dell'intervallo specificato non
1345 %     corrispondono allo spazio di indirizzi del processo o si è ecceduto
1346 %     il numero massimo consentito di pagine bloccate.
1347 %   \item[\errcode{EINVAL}] \param{len} non è un valore positivo.
1348 %   \item[\errcode{EPERM}] con un kernel successivo al 2.6.9 il processo non è
1349 %     privilegiato e si un limite nullo per \const{RLIMIT\_MEMLOCK}.
1350 %   \end{errlist}
1351 %   e, per \func{mlock}, anche \errval{EPERM} quando il processo non ha i
1352 %   privilegi richiesti per l'operazione.}
1353 % \end{functions}
1354
1355 \begin{funcproto}{
1356   \fhead{sys/mman.h}
1357   \fdecl{int mlock(const void *addr, size\_t len)}
1358   \fdesc{Blocca la paginazione su un intervallo di memoria.}
1359
1360   \fdecl{int munlock(const void *addr, size\_t len)}
1361   \fdesc{Rimuove il blocco della paginazione su un intervallo di memoria.}
1362   }
1363 {Entrambe le funzioni ritornano 0 in caso di successo e $-1$ in
1364     caso di errore, nel qual caso \var{errno} assumerà uno dei
1365     valori seguenti:
1366   \begin{errlist}
1367   \item[\errcode{ENOMEM}] alcuni indirizzi dell'intervallo specificato non
1368     corrispondono allo spazio di indirizzi del processo o si è ecceduto
1369     il numero massimo consentito di pagine bloccate.
1370   \item[\errcode{EINVAL}] \param{len} non è un valore positivo.
1371   \item[\errcode{EPERM}] con un kernel successivo al 2.6.9 il processo non è
1372     privilegiato e si un limite nullo per \const{RLIMIT\_MEMLOCK}.
1373   \end{errlist}
1374   e, per \func{mlock}, anche \errval{EPERM} quando il processo non ha i
1375   privilegi richiesti per l'operazione.}
1376 \end{funcproto}
1377
1378
1379 Le due funzioni permettono rispettivamente di bloccare e sbloccare la
1380 \index{paginazione} paginazione per l'intervallo di memoria specificato dagli
1381 argomenti, che ne indicano nell'ordine l'indirizzo iniziale e la lunghezza.
1382 Tutte le pagine che contengono una parte dell'intervallo bloccato sono
1383 mantenute in RAM per tutta la durata del blocco.\footnote{con altri kernel si
1384   può ottenere un errore di \errcode{EINVAL} se \param{addr} non è un multiplo
1385   della dimensione delle pagine di memoria.}
1386
1387 Altre due funzioni, \funcd{mlockall} e \funcd{munlockall}, consentono di
1388 bloccare genericamente la \index{paginazione} paginazione per l'intero spazio
1389 di indirizzi di un processo.  I prototipi di queste funzioni sono:
1390 \begin{functions}
1391   \headdecl{sys/mman.h}
1392
1393   \funcdecl{int mlockall(int flags)}
1394   Blocca la paginazione per lo spazio di indirizzi del processo corrente.
1395
1396   \funcdecl{int munlockall(void)}
1397   Sblocca la paginazione per lo spazio di indirizzi del processo corrente.
1398
1399   \bodydesc{Codici di ritorno ed errori sono gli stessi di \func{mlock} e
1400     \func{munlock}, con un kernel successivo al 2.6.9 l'uso di
1401     \func{munlockall} senza la \itindex{capabilities} \textit{capability}
1402 \const{CAP\_IPC\_LOCK} genera un errore di \errcode{EPERM}.}
1403 \end{functions}
1404
1405 L'argomento \param{flags} di \func{mlockall} permette di controllarne il
1406 comportamento; esso può essere specificato come l'OR aritmetico delle due
1407 costanti:
1408 \begin{basedescript}{\desclabelwidth{2.5cm}}
1409 \item[\const{MCL\_CURRENT}] blocca tutte le pagine correntemente mappate nello
1410   spazio di indirizzi del processo.
1411 \item[\const{MCL\_FUTURE}] blocca tutte le pagine che verranno mappate nello
1412   spazio di indirizzi del processo.
1413 \end{basedescript}
1414
1415 Con \func{mlockall} si possono bloccare tutte le pagine mappate nello spazio
1416 di indirizzi del processo, sia che comprendano il \index{segmento!dati}
1417 \index{segmento!testo} segmento di testo, di dati, lo \itindex{stack}
1418 \textit{stack}, lo \itindex{heap} \textit{heap} e pure le funzioni di libreria
1419 chiamate, i file mappati in memoria, i dati del kernel mappati in user space,
1420 la memoria condivisa.  L'uso dei flag permette di selezionare con maggior
1421 finezza le pagine da bloccare, ad esempio limitandosi a tutte le pagine
1422 allocate a partire da un certo momento.
1423
1424 In ogni caso un processo real-time che deve entrare in una
1425 \index{sezione~critica} sezione critica deve provvedere a riservare memoria
1426 sufficiente prima dell'ingresso, per scongiurare l'occorrenza di un eventuale
1427 \itindex{page~fault} \textit{page fault} causato dal meccanismo di
1428 \itindex{copy~on~write} \textit{copy on write}.  Infatti se nella
1429 \index{sezione~critica} sezione critica si va ad utilizzare memoria che non è
1430 ancora stata riportata in RAM si potrebbe avere un \itindex{page~fault}
1431 \textit{page fault} durante l'esecuzione della stessa, con conseguente
1432 rallentamento (probabilmente inaccettabile) dei tempi di esecuzione.
1433
1434 In genere si ovvia a questa problematica chiamando una funzione che ha
1435 allocato una quantità sufficientemente ampia di variabili automatiche, in modo
1436 che esse vengano mappate in RAM dallo \itindex{stack} \textit{stack}, dopo di
1437 che, per essere sicuri che esse siano state effettivamente portate in memoria,
1438 ci si scrive sopra.
1439
1440 \itindend{memory~locking}
1441
1442 \index{memoria~virtuale|)}
1443
1444
1445 \subsection{Gestione avanzata dell'allocazione della memoria}
1446 \label{sec:proc_memory_adv_management}
1447
1448 La trattazione delle funzioni di allocazione di sez.~\ref{sec:proc_mem_alloc}
1449 si è limitata a coprire le esigenze generiche di un programma, in cui non si
1450 hanno dei requisiti specifici e si lascia il controllo delle modalità di
1451 allocazione alle funzioni di libreria.  Tuttavia esistono una serie di casi in
1452 cui può essere necessario avere un controllo più dettagliato delle modalità
1453 con cui la memoria viene allocata; nel qual caso potranno venire in aiuto le
1454 funzioni trattate in questa sezione.
1455
1456 Le prime funzioni che tratteremo sono quelle che consentono di richiedere di
1457 allocare un blocco di memoria ``\textsl{allineato}'' ad un multiplo una certa
1458 dimensione. Questo tipo di esigenza emerge usualmente quando si devono
1459 allocare dei buffer da utilizzare per eseguire dell'I/O diretto su dispositivi
1460 a blocchi. In questo caso infatti il trasferimento di dati viene eseguito per
1461 blocchi di dimensione fissa, ed è richiesto che l'indirizzo di partenza del
1462 buffer sia un multiplo intero di questa dimensione, usualmente 512 byte. In
1463 tal caso l'uso di \func{malloc} non è sufficiente, ed occorre utilizzare una
1464 funzione specifica.
1465
1466 Tradizionalmente per rispondere a questa esigenza sono state create due
1467 funzioni diverse, \funcd{memalign} e \funcd{valloc}, oggi obsolete; i
1468 rispettivi prototipi sono:
1469 \begin{functions}
1470   \headdecl{malloc.h}
1471
1472   \funcdecl{void *valloc(size\_t size)} Alloca un blocco di memoria allineato
1473   alla dimensione di una pagina di memoria.
1474
1475   \funcdecl{void *memalign(size\_t boundary, size\_t size)}
1476   Alloca un blocco di memoria allineato ad un multiplo di \param{boundary}.
1477
1478   \bodydesc{Entrambe le funzioni ritornano un puntatore al blocco di memoria
1479     allocato in caso di successo e \val{NULL} in caso di errore, nel qual
1480     caso \var{errno} assumerà uno dei valori seguenti:
1481   \begin{errlist}
1482   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per l'allocazione.
1483   \item[\errcode{EINVAL}] \param{boundary} non è multiplo di due.
1484   \end{errlist}
1485 }
1486 \end{functions}
1487
1488 Le funzioni restituiscono il puntatore al buffer di memoria allocata, che per
1489 \func{memalign} sarà un multiplo di \param{boundary} mentre per \func{valloc}
1490 un multiplo della dimensione di una pagina di memoria. Nel caso della versione
1491 fornita dalle \acr{glibc} la memoria allocata con queste funzioni deve essere
1492 liberata con \func{free}, cosa che non è detto accada con altre
1493 implementazioni.
1494
1495 Nessuna delle due funzioni ha una chiara standardizzazione (nessuna delle due
1496 compare in POSIX.1), ed inoltre ci sono indicazioni discordi sui file che ne
1497 contengono la definizione;\footnote{secondo SUSv2 \func{valloc} è definita in
1498   \texttt{stdlib.h}, mentre sia le \acr{glibc} che le precedenti \acr{libc4} e
1499   \acr{libc5} la dichiarano in \texttt{malloc.h}, lo stesso vale per
1500   \func{memalign} che in alcuni sistemi è dichiarata in \texttt{stdlib.h}.}
1501 per questo motivo il loro uso è sconsigliato, essendo state sostituite dalla
1502 nuova \funcd{posix\_memalign}, che è stata standardizzata in POSIX.1d; il suo
1503 prototipo è:
1504 \begin{prototype}{stdlib.h}{posix\_memalign(void **memptr, size\_t alignment,
1505     size\_t size) }
1506   Alloca un buffer di memoria allineato ad un multiplo di \param{alignment}.
1507
1508   \bodydesc{La funzione restituisce 0 in caso di successo e \val{NULL} in caso
1509     di fallimento, o uno dei due codici di errore \errcode{ENOMEM} o
1510     \errcode{EINVAL}; \var{errno} non viene impostata.}
1511 \end{prototype}
1512
1513 La funzione restituisce il puntatore al buffer allocato all'indirizzo indicato
1514 da \param{memptr}. La funzione fallisce nelle stesse condizioni delle due
1515 funzioni precedenti, ma a differenza di \func{memalign} restituisce un codice
1516 di errore \errcode{EINVAL} anche se \param{alignment} non è un multiplo della
1517 la dimensione di \code{sizeof(void *)}. Come per le precedenti la memoria
1518 allocata con \func{posix\_memalign} può essere disallocata con
1519 \func{free}.\footnote{che in questo caso è quanto richiesto dallo standard.}
1520
1521 Un secondo caso in cui risulta estremamente utile poter avere un maggior
1522 controllo delle modalità di allocazione della memoria è quello in cui cercano
1523 errori di programmazione. Esempi di questi errori sono chiamate doppie alla
1524 funzione \func{free} con lo stesso puntatore, o i cosiddetti
1525 \itindex{buffer~overrun} \textit{buffer overrun}, cioè le scritture su un buffer
1526 oltre le dimensioni della sua allocazione,\footnote{entrambe queste operazioni
1527   causano in genere la corruzione dei dati di controllo delle funzioni di
1528   allocazione, che vengono anch'essi mantenuti nello \itindex{heap}
1529   \textit{heap} per tenere traccia delle zone di memoria allocata.} o i
1530 classici \itindex{memory~leak} \textit{memory leak}.
1531
1532 Una prima funzionalità di ausilio nella ricerca di questi errori viene fornita
1533 dalla \acr{glibc} tramite l'uso della variabile di ambiente
1534 \var{MALLOC\_CHECK\_}. Quando questa viene definita al posto della versione
1535 ordinaria delle funzioni di allocazione (\func{malloc}, \func{calloc},
1536 \func{realloc}, e \func{free}) viene usata una versione meno efficiente ma in
1537 grado di rilevare (e tollerare) alcuni degli errori più semplici, come le
1538 doppie chiamate a \func{free} o i \itindex{buffer~overrun} \textit{buffer
1539   overrun} di un byte.\footnote{uno degli errori più comuni, causato ad
1540   esempio dalla scrittura di una stringa di dimensione pari a quella del
1541   buffer, in cui ci si dimentica dello zero di terminazione finale.}
1542
1543 In questo caso a seconda del valore assegnato a \var{MALLOC\_CHECK\_} si
1544 avranno diversi comportamenti: con 0 l'errore sarà ignorato, con 1 verrà
1545 stampato un messaggio sullo \textit{standard error} (vedi
1546 sez.~\ref{sec:file_std_stream}), con 2 verrà invocata la funzione \func{abort}
1547 (vedi sez.~\ref{sec:sig_alarm_abort}) che termina il programma, con 3 viene
1548 sia stampato il messaggio d'errore che abortito il programma. In genere è
1549 opportuno definire la variabile ad un valore diverso da zero che consente di
1550 rilevare un errore nel momento in cui avviene.
1551
1552 Una modalità alternativa per effettuare dei controlli di consistenza sullo
1553 stato delle allocazioni di memoria eseguite con \func{malloc}, anche questa
1554 fornita come estensione specifica (e non standard) delle \acr{glibc}, è quella
1555 di utilizzare la funzione \funcd{mcheck}, che deve essere chiamata prima di
1556 eseguire qualunque allocazione con \func{malloc}; il suo prototipo è:
1557 \begin{prototype}{mcheck.h}{mcheck(void (*abortfn) (enum mcheck\_status
1558     status))}
1559   Attiva i controlli di consistenza delle allocazioni eseguite da \func{malloc}.
1560
1561   \bodydesc{La funzione restituisce 0 in caso di successo e $-1$ in caso di
1562     fallimento; \var{errno} non viene impostata.}
1563 \end{prototype}
1564
1565 La funzione consente di registrare una funzione di emergenza, da passare come
1566 argomento, che verrà eseguita tutte le volte che, in una successiva esecuzione
1567 di \func{malloc}, venissero trovate delle inconsistenze, come delle operazioni
1568 di scrittura oltre i limiti dei buffer allocati. Per questo motivo la funzione
1569 deve essere chiamata prima di qualunque allocazione di memoria, altrimenti
1570 fallirà con un valore di ritorno pari a $-1$.
1571
1572 Se come argomento di \func{mcheck} si passa \val{NULL} verrà utilizzata una
1573 funzione predefinita che stampa un messaggio di errore ed invoca la funzione
1574 \func{abort} (vedi sez.~\ref{sec:sig_alarm_abort}), altrimenti si dovrà create
1575 una funzione personalizzata che verrà eseguita ricevendo un unico argomento di
1576 tipo \type{mcheck\_status},\footnote{trattasi in sostanza di un codice di
1577   errore che la funzione di emergenza potrà utilizzare per prendere le
1578   opportune azioni.} un tipo enumerato che può assumere soltanto i valori di
1579 tab.~\ref{tab:mcheck_status_value}.
1580
1581 \begin{table}[htb]
1582   \centering
1583   \footnotesize
1584   \begin{tabular}[c]{|l|p{7cm}|}
1585     \hline
1586     \textbf{Valore} & \textbf{Significato} \\
1587     \hline
1588     \hline
1589     \macro{MCHECK\_OK}      & riportato (a \func{mprobe}) se nessuna
1590                               inconsistenza è presente.\\
1591     \macro{MCHECK\_DISABLED}& riportato (a \func{mprobe}) se si è chiamata
1592                               \func{mcheck} dopo aver già usato
1593                               \func{malloc}.\\
1594     \macro{MCHECK\_HEAD}    & i dati immediatamente precedenti il buffer sono
1595                               stati modificati, avviene in genere quando si
1596                               decrementa eccessivamente il valore di un
1597                               puntatore scrivendo poi prima dell'inizio del
1598                               buffer.\\
1599     \macro{MCHECK\_TAIL}    & i dati immediatamente seguenti il buffer sono
1600                               stati modificati, succede quando si va scrivere
1601                               oltre la dimensione corretta del buffer.\\
1602     \macro{MCHECK\_FREE}    & il buffer è già stato disallocato.\\
1603     \hline
1604   \end{tabular}
1605   \caption{Valori dello stato dell'allocazione di memoria ottenibili dalla
1606     funzione di terminazione installata con \func{mcheck}.}
1607   \label{tab:mcheck_status_value}
1608 \end{table}
1609
1610 Una volta che si sia chiamata \func{mcheck} con successo si può anche
1611 controllare esplicitamente lo stato delle allocazioni (senza aspettare un
1612 errore nelle relative funzioni) utilizzando la funzione \funcd{mprobe}, il cui
1613 prototipo è:
1614 \begin{prototype}{mcheck.h}{enum mcheck\_status mprobe(ptr)}
1615   Esegue un controllo di consistenza delle allocazioni.
1616
1617   \bodydesc{La funzione restituisce un codice fra quelli riportati in
1618     tab.\ref{tab:mcheck_status_value}.}
1619 \end{prototype}
1620
1621 La funzione richiede che si passi come argomento un puntatore ad un blocco di
1622 memoria precedentemente allocato con \func{malloc} o \func{realloc}, e
1623 restituisce lo stesso codice di errore che si avrebbe per la funzione di
1624 emergenza ad una successiva chiamata di una funzione di allocazione, e poi i
1625 primi due codici che indicano rispettivamente quando tutto è a posto o il
1626 controllo non è possibile per non aver chiamato \func{mcheck} in tempo.
1627
1628 % TODO: trattare le altre funzionalità avanzate di \func{malloc}, mallopt,
1629 % mtrace, muntrace, mallinfo e gli hook con le glibc 2.10 c'è pure malloc_info
1630 % a sostituire mallinfo, vedi http://udrepper.livejournal.com/20948.html
1631
1632
1633 \section{Argomenti, ambiente ed altre proprietà di un processo}
1634 \label{sec:proc_options}
1635
1636
1637 In questa sezione esamineremo le funzioni che permettono di gestire gli
1638 argomenti e le opzioni, e quelle che consentono di manipolare ed utilizzare le
1639 variabili di ambiente. Accenneremo infine alle modalità con cui si può gestire
1640 la localizzazione di un programma modificandone il comportamento a seconda
1641 della lingua o del paese a cui si vuole faccia riferimento nelle sue
1642 operazioni.
1643
1644 \subsection{Il formato degli argomenti}
1645 \label{sec:proc_par_format}
1646
1647 Tutti i programmi hanno la possibilità di ricevere argomenti e opzioni quando
1648 vengono lanciati. Il passaggio degli argomenti e delle opzioni è effettuato
1649 attraverso gli argomenti \param{argc} e \param{argv} della funzione
1650 \func{main}, che vengono passati al programma dalla shell (o dal processo che
1651 esegue la \func{exec}, secondo le modalità che vedremo in
1652 sez.~\ref{sec:proc_exec}) quando questo viene messo in esecuzione.
1653
1654 In genere il passaggio di argomenti ed opzioni ad un programma viene
1655 effettuato dalla shell, che si incarica di leggere la linea di comando e di
1656 effettuarne la scansione (il cosiddetto \textit{parsing}) per individuare le
1657 parole che la compongono, ciascuna delle quali potrà essere considerata un
1658 argomento o un'opzione. Di norma per individuare le parole che andranno a
1659 costituire la lista degli argomenti viene usato come carattere di separazione
1660 lo spazio o il tabulatore, ma la cosa dipende ovviamente dalle modalità con
1661 cui si effettua la scansione.
1662
1663 \begin{figure}[htb]
1664   \centering
1665 %  \includegraphics[width=13cm]{img/argv_argc}
1666 %  \includegraphics[width=13cm]{img/argv_argc}
1667   \begin{tikzpicture}[>=stealth]
1668   \draw (0.5,2.5) rectangle (3.5,3);
1669   \draw (2,2.75) node {\texttt{argc = 5}};
1670   \draw (5,2.5) rectangle (8,3);
1671   \draw (6.5,2.75) node {\texttt{argv[0]}};
1672   \draw [->] (8,2.75) -- (9,2.75);
1673   \draw (9,2.75) node [anchor=west] {\texttt{"touch"}};
1674   \draw (5,2) rectangle (8,2.5);
1675   \draw (6.5,2.25) node {\texttt{argv[1]}};
1676   \draw [->] (8,2.25) -- (9,2.25);
1677   \draw (9,2.25) node [anchor=west] {\texttt{"-r"}};
1678   \draw (5,1.5) rectangle (8,2);
1679   \draw (6.5,1.75) node {\texttt{argv[2]}};
1680   \draw [->] (8,1.75) -- (9,1.75);
1681   \draw (9,1.75) node [anchor=west] {\texttt{"riferimento.txt"}};
1682   \draw (5,1.0) rectangle (8,1.5);
1683   \draw (6.5,1.25) node {\texttt{argv[3]}};
1684   \draw [->] (8,1.25) -- (9,1.25);
1685   \draw (9,1.25) node [anchor=west] {\texttt{"-m"}};
1686   \draw (5,0.5) rectangle (8,1.0);
1687   \draw (6.5,0.75) node {\texttt{argv[4]}};
1688   \draw [->] (8,0.75) -- (9,0.75);
1689   \draw (9,0.75) node [anchor=west] {\texttt{"questofile.txt"}};
1690   \draw (4.25,3.5) node{\texttt{"touch -r riferimento.txt -m questofile.txt"}};
1691
1692   \end{tikzpicture}
1693   \caption{Esempio dei valori di \param{argv} e \param{argc} generati nella
1694     scansione di una riga di comando.}
1695   \label{fig:proc_argv_argc}
1696 \end{figure}
1697
1698 Indipendentemente da come viene eseguita, il risultato della scansione deve
1699 essere la costruzione del vettore di puntatori \param{argv} in cui si devono
1700 inserire in successione i puntatori alle stringhe costituenti i vari argomenti
1701 ed opzioni, e della variabile \param{argc} che deve essere inizializzata al
1702 numero di stringhe passate. Nel caso della shell questo comporta che il primo
1703 argomento sia sempre il nome del programma; un esempio di questo meccanismo è
1704 mostrato in fig.~\ref{fig:proc_argv_argc}.
1705
1706
1707 \subsection{La gestione delle opzioni}
1708 \label{sec:proc_opt_handling}
1709
1710 In generale un programma Unix riceve da linea di comando sia gli argomenti che
1711 le opzioni, queste ultime sono standardizzate per essere riconosciute come
1712 tali: un elemento di \param{argv} che inizia con il carattere \texttt{'-'} e
1713 che non sia un singolo \texttt{'-'} o un \texttt{'-{}-'} viene considerato
1714 un'opzione.  In genere le opzioni sono costituite da una lettera singola
1715 (preceduta dal carattere \cmd{'-'}) e possono avere o no un parametro
1716 associato; un comando tipico può essere quello mostrato in
1717 fig.~\ref{fig:proc_argv_argc}. In quel caso le opzioni sono \cmd{-r} e \cmd{-m}
1718 e la prima vuole un parametro mentre la seconda no (\cmd{questofile.txt} è un
1719 argomento del programma, non un parametro di \cmd{-m}).
1720
1721 Per gestire le opzioni all'interno dei argomenti a linea di comando passati in
1722 \param{argv} le librerie standard del C forniscono la funzione \funcd{getopt},
1723 che ha il seguente prototipo:
1724 \begin{prototype}{unistd.h}
1725 {int getopt(int argc, char *const argv[], const char *optstring)}
1726 Esegue il parsing degli argomenti passati da linea di comando
1727 riconoscendo le possibili opzioni segnalate con \param{optstring}.
1728
1729 \bodydesc{Ritorna il carattere che segue l'opzione, \cmd{':'} se manca un
1730   parametro all'opzione, \cmd{'?'} se l'opzione è sconosciuta, e $-1$ se non
1731   esistono altre opzioni.}
1732 \end{prototype}
1733
1734 Questa funzione prende come argomenti le due variabili \param{argc} e
1735 \param{argv} passate a \func{main} ed una stringa che indica quali sono le
1736 opzioni valide; la funzione effettua la scansione della lista degli argomenti
1737 ricercando ogni stringa che comincia con \cmd{-} e ritorna ogni volta che
1738 trova un'opzione valida.
1739
1740 La stringa \param{optstring} indica quali sono le opzioni riconosciute ed è
1741 costituita da tutti i caratteri usati per identificare le singole opzioni, se
1742 l'opzione ha un parametro al carattere deve essere fatto seguire un segno di
1743 due punti \texttt{':'}; nel caso di fig.~\ref{fig:proc_argv_argc} ad esempio la
1744 stringa di opzioni avrebbe dovuto contenere \texttt{"r:m"}.
1745
1746 La modalità di uso di \func{getopt} è pertanto quella di chiamare più volte la
1747 funzione all'interno di un ciclo, fintanto che essa non ritorna il valore $-1$
1748 che indica che non ci sono più opzioni. Nel caso si incontri un'opzione non
1749 dichiarata in \param{optstring} viene ritornato il carattere \texttt{'?'}
1750 mentre se un'opzione che lo richiede non è seguita da un parametro viene
1751 ritornato il carattere \texttt{':'}, infine se viene incontrato il valore
1752 \texttt{'-{}-'} la scansione viene considerata conclusa, anche se vi sono altri
1753 elementi di \param{argv} che cominciano con il carattere \texttt{'-'}.
1754
1755 \begin{figure}[!htbp]
1756   \footnotesize \centering
1757   \begin{minipage}[c]{\codesamplewidth}
1758   \includecodesample{listati/option_code.c}
1759   \end{minipage}
1760   \normalsize
1761   \caption{Esempio di codice per la gestione delle opzioni.}
1762   \label{fig:proc_options_code}
1763 \end{figure}
1764
1765 Quando la funzione trova un'opzione essa ritorna il valore numerico del
1766 carattere, in questo modo si possono eseguire azioni specifiche usando uno
1767 \code{switch}; \func{getopt} inoltre inizializza alcune variabili globali:
1768 \begin{itemize*}
1769 \item \var{char *optarg} contiene il puntatore alla stringa parametro
1770   dell'opzione.
1771 \item \var{int optind} alla fine della scansione restituisce l'indice del
1772   primo elemento di \param{argv} che non è un'opzione.
1773 \item \var{int opterr} previene, se posto a zero, la stampa di un messaggio
1774   di errore in caso di riconoscimento di opzioni non definite.
1775 \item \var{int optopt} contiene il carattere dell'opzione non riconosciuta.
1776 \end{itemize*}
1777
1778 In fig.~\ref{fig:proc_options_code} è mostrata la sezione del programma
1779 \file{ForkTest.c} (che useremo nel prossimo capitolo per effettuare dei test
1780 sulla creazione dei processi) deputata alla decodifica delle opzioni a riga di
1781 comando.
1782
1783 Si può notare che si è anzitutto (\texttt{\small 1}) disabilitata la stampa di
1784 messaggi di errore per opzioni non riconosciute, per poi passare al ciclo per
1785 la verifica delle opzioni (\texttt{\small 2-27}); per ciascuna delle opzioni
1786 possibili si è poi provveduto ad un'azione opportuna, ad esempio per le tre
1787 opzioni che prevedono un parametro si è effettuata la decodifica del medesimo
1788 (il cui indirizzo è contenuto nella variabile \var{optarg}) avvalorando la
1789 relativa variabile (\texttt{\small 12-14}, \texttt{\small 15-17} e
1790 \texttt{\small 18-20}). Completato il ciclo troveremo in \var{optind} l'indice
1791 in \code{argv[]} del primo degli argomenti rimanenti nella linea di comando.
1792
1793 Normalmente \func{getopt} compie una permutazione degli elementi di
1794 \param{argv} cosicché alla fine della scansione gli elementi che non sono
1795 opzioni sono spostati in coda al vettore. Oltre a questa esistono altre due
1796 modalità di gestire gli elementi di \param{argv}; se \param{optstring} inizia
1797 con il carattere \texttt{'+'} (o è impostata la variabile di ambiente
1798 \macro{POSIXLY\_CORRECT}) la scansione viene fermata non appena si incontra un
1799 elemento che non è un'opzione.
1800
1801 L'ultima modalità, usata quando un programma può gestire la mescolanza fra
1802 opzioni e argomenti, ma se li aspetta in un ordine definito, si attiva
1803 quando \param{optstring} inizia con il carattere \texttt{'-'}. In questo caso
1804 ogni elemento che non è un'opzione viene considerato comunque un'opzione e
1805 associato ad un valore di ritorno pari ad 1, questo permette di identificare
1806 gli elementi che non sono opzioni, ma non effettua il riordinamento del
1807 vettore \param{argv}.
1808
1809
1810 \subsection{Le variabili di ambiente}
1811 \label{sec:proc_environ}
1812
1813 Oltre agli argomenti passati a linea di comando esiste un'altra modalità che
1814 permette di trasferire ad un processo delle informazioni in modo da
1815 modificarne il comportamento.  Ogni processo infatti riceve dal sistema, oltre
1816 alle variabili \param{argv} e \param{argc} anche un \textsl{ambiente} (in
1817 inglese \textit{environment}); questo viene espresso nella forma di una lista
1818 (chiamata \textit{environment list}) delle cosiddette \textsl{variabili di
1819   ambiente}, i valori di queste variabili possono essere poi usati dal
1820 programma.
1821
1822 Anche in questo caso la lista delle \textsl{variabili di ambiente} deve essere
1823 costruita ed utilizzata nella chiamata alla funzione \func{exec} (torneremo su
1824 questo in sez.~\ref{sec:proc_exec}) quando questo viene lanciato. Come per la
1825 lista degli argomenti anche questa lista è un vettore di puntatori a
1826 caratteri, ciascuno dei quali punta ad una stringa, terminata da un
1827 \val{NULL}. A differenza di \code{argv[]} in questo caso non si ha una
1828 lunghezza del vettore data da un equivalente di \param{argc}, ma la lista è
1829 terminata da un puntatore nullo.
1830
1831 L'indirizzo della lista delle variabili di ambiente è passato attraverso la
1832 variabile globale \var{environ}, che viene definita automaticamente per
1833 ciascun processo, e a cui si può accedere attraverso una semplice
1834 dichiarazione del tipo:
1835 \includecodesnip{listati/env_ptr.c}
1836 un esempio della struttura di questa lista, contenente alcune delle variabili
1837 più comuni che normalmente sono definite dal sistema, è riportato in
1838 fig.~\ref{fig:proc_envirno_list}.
1839 \begin{figure}[htb]
1840   \centering
1841 %  \includegraphics[width=15 cm]{img/environ_var}
1842   \begin{tikzpicture}[>=stealth]
1843   \draw (2,3.5) node {\textsf{Environment pointer}};
1844   \draw (6,3.5) node {\textsf{Environment list}};
1845   \draw (10.5,3.5) node {\textsf{Environment string}};
1846   \draw (0.5,2.5) rectangle (3.5,3);
1847   \draw (2,2.75) node {\texttt{environ}};
1848   \draw [->] (3.5,2.75) -- (4.5,2.75);
1849   \draw (4.5,2.5) rectangle (7.5,3);
1850   \draw (6,2.75) node {\texttt{environ[0]}};
1851   \draw (4.5,2) rectangle (7.5,2.5);
1852   \draw (6,2.25) node {\texttt{environ[1]}};
1853   \draw (4.5,1.5) rectangle (7.5,2);
1854   \draw (4.5,1) rectangle (7.5,1.5);
1855   \draw (4.5,0.5) rectangle (7.5,1);
1856   \draw (4.5,0) rectangle (7.5,0.5);
1857   \draw (6,0.25) node {\texttt{NULL}};
1858   \draw [->] (7.5,2.75) -- (8.5,2.75);
1859   \draw (8.5,2.75) node[right] {\texttt{HOME=/home/piccardi}};
1860   \draw [->] (7.5,2.25) -- (8.5,2.25);
1861   \draw (8.5,2.25) node[right] {\texttt{PATH=:/bin:/usr/bin}};
1862   \draw [->] (7.5,1.75) -- (8.5,1.75);
1863   \draw (8.5,1.75) node[right] {\texttt{SHELL=/bin/bash}};
1864   \draw [->] (7.5,1.25) -- (8.5,1.25);
1865   \draw (8.5,1.25) node[right] {\texttt{EDITOR=emacs}};
1866   \draw [->] (7.5,0.75) -- (8.5,0.75);
1867   \draw (8.5,0.75) node[right] {\texttt{OSTYPE=linux-gnu}};
1868   \end{tikzpicture}
1869   \caption{Esempio di lista delle variabili di ambiente.}
1870   \label{fig:proc_envirno_list}
1871 \end{figure}
1872
1873 Per convenzione le stringhe che definiscono l'ambiente sono tutte del tipo
1874 \textsl{\texttt{nome=valore}} ed in questa forma che le funzioni di gestione
1875 che vedremo a breve se le aspettano, se pertanto si dovesse costruire
1876 manualmente un ambiente si abbia cura di rispettare questa convenzione.
1877 Inoltre alcune variabili, come quelle elencate in
1878 fig.~\ref{fig:proc_envirno_list}, sono definite dal sistema per essere usate
1879 da diversi programmi e funzioni: per queste c'è l'ulteriore convenzione di
1880 usare nomi espressi in caratteri maiuscoli.\footnote{ma si tratta solo di una
1881   convenzione, niente vieta di usare caratteri minuscoli.}
1882
1883 Il kernel non usa mai queste variabili, il loro uso e la loro interpretazione è
1884 riservata alle applicazioni e ad alcune funzioni di libreria; in genere esse
1885 costituiscono un modo comodo per definire un comportamento specifico senza
1886 dover ricorrere all'uso di opzioni a linea di comando o di file di
1887 configurazione. É di norma cura della shell, quando esegue un comando, passare
1888 queste variabili al programma messo in esecuzione attraverso un uso opportuno
1889 delle relative chiamate (si veda sez.~\ref{sec:proc_exec}).
1890
1891 La shell ad esempio ne usa molte per il suo funzionamento, come \texttt{PATH}
1892 per indicare la lista delle directory in cui effettuare la ricerca dei comandi
1893 o \texttt{PS1} per impostare il proprio \textit{prompt}. Alcune di esse, come
1894 \texttt{HOME}, \texttt{USER}, ecc. sono invece definite al login (per i
1895 dettagli si veda sez.~\ref{sec:sess_login}), ed in genere è cura della propria
1896 distribuzione definire le opportune variabili di ambiente in uno script di
1897 avvio. Alcune servono poi come riferimento generico per molti programmi, come
1898 \texttt{EDITOR} che indica l'editor preferito da invocare in caso di
1899 necessità. Una in particolare, \texttt{LANG}, serve a controllare la
1900 localizzazione del programma (su cui torneremo in
1901 sez.~\ref{sec:proc_localization}) per adattarlo alla lingua ed alle convezioni
1902 dei vari paesi.
1903
1904 Gli standard POSIX e XPG3 definiscono alcune di queste variabili (le più
1905 comuni), come riportato in tab.~\ref{tab:proc_env_var}. GNU/Linux le supporta
1906 tutte e ne definisce anche altre, in particolare poi alcune funzioni di
1907 libreria prevedono la presenza di specifiche variabili di ambiente che ne
1908 modificano il comportamento, come quelle usate per indicare una localizzazione
1909 e quelle per indicare un fuso orario; una lista più completa che comprende
1910 queste ed ulteriori variabili si può ottenere con il comando \cmd{man 7
1911   environ}.
1912
1913 \begin{table}[htb]
1914   \centering
1915   \footnotesize
1916   \begin{tabular}[c]{|l|c|c|c|p{7cm}|}
1917     \hline
1918     \textbf{Variabile} & \textbf{POSIX} & \textbf{XPG3}
1919     & \textbf{Linux} & \textbf{Descrizione} \\
1920     \hline
1921     \hline
1922     \texttt{USER}   &$\bullet$&$\bullet$&$\bullet$& Nome utente\\
1923     \texttt{LOGNAME}&$\bullet$&$\bullet$&$\bullet$& Nome di login\\
1924     \texttt{HOME}   &$\bullet$&$\bullet$&$\bullet$& Directory base
1925                                                     dell'utente\\
1926     \texttt{LANG}   &$\bullet$&$\bullet$&$\bullet$& Localizzazione\\
1927     \texttt{PATH}   &$\bullet$&$\bullet$&$\bullet$& Elenco delle directory
1928                                                     dei programmi\\
1929     \texttt{PWD}    &$\bullet$&$\bullet$&$\bullet$& Directory corrente\\
1930     \texttt{SHELL}  &$\bullet$&$\bullet$&$\bullet$& Shell in uso\\
1931     \texttt{TERM}   &$\bullet$&$\bullet$&$\bullet$& Tipo di terminale\\
1932     \texttt{PAGER}  &$\bullet$&$\bullet$&$\bullet$& Programma per vedere i
1933                                                     testi\\
1934     \texttt{EDITOR} &$\bullet$&$\bullet$&$\bullet$& Editor preferito\\
1935     \texttt{BROWSER}&$\bullet$&$\bullet$&$\bullet$& Browser preferito\\
1936     \texttt{TMPDIR} &$\bullet$&$\bullet$&$\bullet$& Directory dei file
1937                                                     temporanei\\
1938     \hline
1939   \end{tabular}
1940   \caption{Esempi delle variabili di ambiente più comuni definite da vari
1941     standard.}
1942   \label{tab:proc_env_var}
1943 \end{table}
1944
1945 Lo standard ANSI C prevede l'esistenza di un ambiente, e pur non entrando
1946 nelle specifiche di come sono strutturati i contenuti, definisce la funzione
1947 \funcd{getenv} che permette di ottenere i valori delle variabili di ambiente;
1948 il suo prototipo è:
1949 \begin{prototype}{stdlib.h}{char *getenv(const char *name)}
1950   Esamina l'ambiente del processo cercando una stringa che corrisponda a
1951   quella specificata da \param{name}.
1952
1953   \bodydesc{La funzione ritorna \val{NULL} se non trova nulla, o il
1954     puntatore alla stringa che corrisponde (di solito nella forma
1955     \cmd{NOME=valore}).}
1956 \end{prototype}
1957
1958 Oltre a questa funzione di lettura, che è l'unica definita dallo standard ANSI
1959 C, nell'evoluzione dei sistemi Unix ne sono state proposte altre, da
1960 utilizzare per impostare e per cancellare le variabili di ambiente. Uno schema
1961 delle funzioni previste nei vari standard e disponibili in Linux è riportato
1962 in tab.~\ref{tab:proc_env_func}.
1963
1964 \begin{table}[htb]
1965   \centering
1966   \footnotesize
1967   \begin{tabular}[c]{|l|c|c|c|c|c|c|}
1968     \hline
1969     \textbf{Funzione} & \textbf{ANSI C} & \textbf{POSIX.1} & \textbf{XPG3} &
1970     \textbf{SVr4} & \textbf{BSD} & \textbf{Linux} \\
1971     \hline
1972     \hline
1973     \func{getenv}  & $\bullet$ & $\bullet$ & $\bullet$
1974                    & $\bullet$ & $\bullet$ & $\bullet$ \\
1975     \func{setenv}  &    --     &    --     &   --
1976                    &    --     & $\bullet$ & $\bullet$ \\
1977     \func{unsetenv}&    --     &    --     &   --
1978                    &    --     & $\bullet$ & $\bullet$ \\
1979     \func{putenv}  &    --     & opz.      & $\bullet$
1980                    &    --     & $\bullet$ & $\bullet$ \\
1981     \func{clearenv}&    --     & opz.      &   --
1982                    &    --     &    --     & $\bullet$ \\
1983     \hline
1984   \end{tabular}
1985   \caption{Funzioni per la gestione delle variabili di ambiente.}
1986   \label{tab:proc_env_func}
1987 \end{table}
1988
1989 In Linux\footnote{in realtà nelle libc4 e libc5 sono definite solo le prime
1990   quattro, \func{clearenv} è stata introdotta con le \acr{glibc} 2.0.} sono
1991 definite tutte le funzioni elencate in tab.~\ref{tab:proc_env_func}. La prima,
1992 \func{getenv}, l'abbiamo appena esaminata; delle restanti le prime due,
1993 \funcd{putenv} e \funcd{setenv}, servono per assegnare nuove variabili di
1994 ambiente, i loro prototipi sono i seguenti:
1995 \begin{functions}
1996   \headdecl{stdlib.h}
1997
1998   \funcdecl{int setenv(const char *name, const char *value, int overwrite)}
1999   Imposta la variabile di ambiente \param{name} al valore \param{value}.
2000
2001   \funcdecl{int putenv(char *string)} Aggiunge la stringa \param{string}
2002   all'ambiente.
2003
2004   \bodydesc{Entrambe le funzioni ritornano 0 in caso di successo e $-1$ per un
2005     errore, che è sempre \errval{ENOMEM}.}
2006 \end{functions}
2007
2008 La terza funzione della lista, \funcd{unsetenv}, serve a cancellare una
2009 variabile dall'ambiente, il suo prototipo è:
2010 \begin{functions}
2011   \headdecl{stdlib.h}
2012
2013   \funcdecl{void unsetenv(const char *name)} Rimuove la variabile di ambiente
2014   \param{name}.
2015 \end{functions}
2016
2017 \noindent la funzione elimina ogni occorrenza della variabile specificata; se la
2018 variabile non esiste non succede nulla. Non è prevista (dato che la funzione è
2019 \ctyp{void}) nessuna segnalazione di errore.
2020
2021 Per modificare o aggiungere una variabile di ambiente si possono usare sia
2022 \func{setenv} che \func{putenv}. La prima permette di specificare
2023 separatamente nome e valore della variabile di ambiente, inoltre il valore di
2024 \param{overwrite} specifica il comportamento della funzione nel caso la
2025 variabile esista già, sovrascrivendola se diverso da zero, lasciandola
2026 immutata se uguale a zero.
2027
2028 La seconda funzione prende come argomento una stringa analoga a quella
2029 restituita da \func{getenv}, e sempre nella forma \code{NOME=valore}. Se la
2030 variabile specificata non esiste la stringa sarà aggiunta all'ambiente, se
2031 invece esiste il suo valore sarà impostato a quello specificato da
2032 \param{string}.
2033
2034 Si tenga presente che, seguendo lo standard SUSv2, le \acr{glibc} successive
2035 alla versione 2.1.2 aggiungono \param{string} alla lista delle variabili di
2036 ambiente;\footnote{il comportamento è lo stesso delle vecchie \acr{libc4} e
2037   \acr{libc5}; nelle \acr{glibc}, dalla versione 2.0 alla 2.1.1, veniva invece
2038   fatta una copia, seguendo il comportamento di BSD4.4; dato che questo può
2039   dar luogo a perdite di memoria e non rispetta lo standard. Il comportamento
2040   è stato modificato a partire dalle 2.1.2, eliminando anche, sempre in
2041   conformità a SUSv2, l'attributo \direct{const} dal prototipo.} pertanto ogni
2042 cambiamento alla stringa in questione si riflette automaticamente
2043 sull'ambiente, e quindi si deve evitare di passare a questa funzione una
2044 variabile automatica (per evitare i problemi esposti in
2045 sez.~\ref{sec:proc_auto_var}). Si tenga infine presente che se si passa a
2046 \func{putenv} solo il nome di una variabile (cioè \param{string} è nella forma
2047 \texttt{NAME} e non contiene un carattere \texttt{'='}) allora questa viene
2048 cancellata dall'ambiente.
2049
2050 Infine quando chiamata a \func{putenv} comporta la necessità di creare una
2051 nuova versione del vettore \var{environ} questo sarà allocato automaticamente,
2052 ma la versione corrente sarà deallocata solo se anch'essa è risultante da
2053 un'allocazione fatta in precedenza da un'altra \func{putenv}. Questo avviene
2054 perché il vettore delle variabili di ambiente iniziale, creato dalla chiamata
2055 ad \func{exec} (vedi sez.~\ref{sec:proc_exec}) è piazzato nella memoria al di
2056 sopra dello \itindex{stack} stack, (vedi fig.~\ref{fig:proc_mem_layout}) e non
2057 nello \itindex{heap} \textit{heap} e quindi non può essere deallocato.
2058 Inoltre la memoria associata alle variabili di ambiente eliminate non viene
2059 liberata.
2060
2061 L'ultima funzione per la gestione dell'ambiente è \funcd{clearenv}, che viene
2062 usata per cancellare completamente tutto l'ambiente; il suo prototipo è:
2063 \begin{functions}
2064   \headdecl{stdlib.h}
2065
2066   \funcdecl{int clearenv(void)}
2067   Cancella tutto l'ambiente.
2068
2069   \bodydesc{la funzione restituisce 0 in caso di successo e un valore diverso
2070     da zero per un errore.}
2071 \end{functions}
2072
2073 In genere si usa questa funzione in maniera precauzionale per evitare i
2074 problemi di sicurezza connessi nel trasmettere ai programmi che si invocano un
2075 ambiente che può contenere dei dati non controllati. In tal caso si provvede
2076 alla cancellazione di tutto l'ambiente per costruirne una versione
2077 ``\textsl{sicura}'' da zero.
2078
2079 \subsection{La localizzazione}
2080 \label{sec:proc_localization}
2081
2082 Abbiamo accennato in sez.~\ref{sec:proc_environ} come la variabile di ambiente
2083 \texttt{LANG} sia usata per indicare ai processi il valore della cosiddetta
2084 \textsl{localizzazione}. Si tratta di una funzionalità fornita dalle librerie
2085 di sistema\footnote{prenderemo in esame soltanto il caso delle \acr{glibc}.}
2086 che consente di gestire in maniera automatica sia la lingua in cui vengono
2087 stampati i vari messaggi (come i messaggi associati agli errori che vedremo in
2088 sez.~\ref{sec:sys_strerror}) che le convenzioni usate nei vari paesi per una
2089 serie di aspetti come il formato dell'ora, quello delle date, gli ordinamenti
2090 alfabetici, le espressioni della valute, ecc.
2091
2092 La localizzazione di un programma si può selezionare con la
2093
2094
2095 In realtà perché un programma sia effettivamente localizzato non è sufficiente
2096
2097 % TODO trattare, quando ci sarà tempo, setlocale ed il resto
2098
2099
2100 %\subsection{Opzioni in formato esteso}
2101 %\label{sec:proc_opt_extended}
2102
2103 %Oltre alla modalità ordinaria di gestione delle opzioni trattata in
2104 %sez.~\ref{sec:proc_opt_handling} le \acr{glibc} forniscono una modalità
2105 %alternativa costituita dalle cosiddette \textit{long-options}, che consente di
2106 %esprimere le opzioni in una forma più descrittiva che nel caso più generale è
2107 %qualcosa del tipo di ``\texttt{-{}-option-name=parameter}''.
2108
2109 %(NdA: questa parte verrà inserita in seguito).
2110
2111 % TODO opzioni in formato esteso
2112
2113 \section{Problematiche di programmazione generica}
2114 \label{sec:proc_gen_prog}
2115
2116 Benché questo non sia un libro di C, è opportuno affrontare alcune delle
2117 problematiche generali che possono emergere nella programmazione e di quali
2118 precauzioni o accorgimenti occorre prendere per risolverle. Queste
2119 problematiche non sono specifiche di sistemi unix-like o multitasking, ma
2120 avendo trattato in questo capitolo il comportamento dei processi visti come
2121 entità a sé stanti, le riportiamo qui.
2122
2123
2124 \subsection{Il passaggio delle variabili e dei valori di ritorno}
2125 \label{sec:proc_var_passing}
2126
2127 Una delle caratteristiche standard del C è che le variabili vengono passate
2128 alle subroutine attraverso un meccanismo che viene chiamato \textit{by value}
2129 (diverso ad esempio da quanto avviene con il Fortran, dove le variabili sono
2130 passate, come suol dirsi, \textit{by reference}, o dal C++ dove la modalità
2131 del passaggio può essere controllata con l'operatore \cmd{\&}).
2132
2133 Il passaggio di una variabile \textit{by value} significa che in realtà quello
2134 che viene passato alla subroutine è una copia del valore attuale di quella
2135 variabile, copia che la subroutine potrà modificare a piacere, senza che il
2136 valore originale nella funzione chiamante venga toccato. In questo modo non
2137 occorre preoccuparsi di eventuali effetti delle operazioni della subroutine
2138 sulla variabile passata come argomento.
2139
2140 Questo però va inteso nella maniera corretta. Il passaggio \textit{by value}
2141 vale per qualunque variabile, puntatori compresi; quando però in una
2142 subroutine si usano dei puntatori (ad esempio per scrivere in un buffer) in
2143 realtà si va a modificare la zona di memoria a cui essi puntano, per cui anche
2144 se i puntatori sono copie, i dati a cui essi puntano sono sempre gli stessi, e
2145 le eventuali modifiche avranno effetto e saranno visibili anche nella funzione
2146 chiamante.
2147
2148 Nella maggior parte delle funzioni di libreria e delle system call i puntatori
2149 vengono usati per scambiare dati (attraverso buffer o strutture) e le
2150 variabili semplici vengono usate per specificare argomenti; in genere le
2151 informazioni a riguardo dei risultati vengono passate alla funzione chiamante
2152 attraverso il valore di ritorno.  È buona norma seguire questa pratica anche
2153 nella programmazione normale.
2154
2155 Talvolta però è necessario che la funzione possa restituire indietro alla
2156 funzione chiamante un valore relativo ad uno dei suoi argomenti.  Per far
2157 questo si usa il cosiddetto \itindex{value~result~argument} \textit{value
2158   result argument}, si passa cioè, invece di una normale variabile, un
2159 puntatore alla stessa; vedremo alcuni esempi di questa modalità nelle funzioni
2160 che gestiscono i socket (in sez.~\ref{sec:TCP_functions}), in cui, per
2161 permettere al kernel di restituire informazioni sulle dimensioni delle
2162 strutture degli indirizzi utilizzate, viene usato questo meccanismo.
2163
2164
2165 \subsection{Il passaggio di un numero variabile di argomenti}
2166 \label{sec:proc_variadic}
2167
2168 Come vedremo nei capitoli successivi, non sempre è possibile specificare un
2169 numero fisso di argomenti per una funzione.  Lo standard ISO C prevede nella
2170 sua sintassi la possibilità di definire delle \index{variadic}
2171 \textit{variadic function} che abbiano un numero variabile di argomenti,
2172 attraverso l'uso nella dichiarazione della funzione dello speciale costrutto
2173 ``\texttt{\textellipsis}'', che viene chiamato \textit{ellipsis}.
2174
2175 Lo standard però non provvede a livello di linguaggio alcun meccanismo con cui
2176 dette funzioni possono accedere ai loro argomenti.  L'accesso viene pertanto
2177 realizzato a livello delle librerie standard del C che provvedono gli
2178 strumenti adeguati.  L'uso di una \textit{variadic function} prevede quindi
2179 tre punti:
2180 \begin{itemize*}
2181 \item \textsl{Dichiarare} la funzione come \textit{variadic} usando un
2182   prototipo che contenga una \textit{ellipsis}.
2183 \item \textsl{Definire} la funzione come \textit{variadic} usando la stessa
2184   \textit{ellipsis}, ed utilizzare le apposite macro che consentono la
2185   gestione di un numero variabile di argomenti.
2186 \item \textsl{Invocare} la funzione specificando prima gli argomenti fissi, ed
2187   a seguire quelli addizionali.
2188 \end{itemize*}
2189
2190 Lo standard ISO C prevede che una \index{variadic} \textit{variadic function}
2191 abbia sempre almeno un argomento fisso; prima di effettuare la dichiarazione
2192 deve essere incluso l'apposito header file \file{stdarg.h}; un esempio di
2193 dichiarazione è il prototipo della funzione \func{execl} che vedremo in
2194 sez.~\ref{sec:proc_exec}:
2195 \includecodesnip{listati/exec_sample.c}
2196 in questo caso la funzione prende due argomenti fissi ed un numero variabile
2197 di altri argomenti (che verranno a costituire gli elementi successivi al primo
2198 del vettore \param{argv} passato al nuovo processo). Lo standard ISO C
2199 richiede inoltre che l'ultimo degli argomenti fissi sia di tipo
2200 \textit{self-promoting}\footnote{il linguaggio C prevede che quando si
2201   mescolano vari tipi di dati, alcuni di essi possano essere \textsl{promossi}
2202   per compatibilità; ad esempio i tipi \ctyp{float} vengono convertiti
2203   automaticamente a \ctyp{double} ed i \ctyp{char} e gli \ctyp{short} ad
2204   \ctyp{int}. Un tipo \textit{self-promoting} è un tipo che verrebbe promosso
2205   a sé stesso.} il che esclude vettori, puntatori a funzioni e interi di tipo
2206 \ctyp{char} o \ctyp{short} (con segno o meno). Una restrizione ulteriore di
2207 alcuni compilatori è di non dichiarare l'ultimo argomento fisso come
2208 \direct{register}.
2209
2210 Una volta dichiarata la funzione il secondo passo è accedere ai vari argomenti
2211 quando la si va a definire. Gli argomenti fissi infatti hanno un loro nome, ma
2212 quelli variabili vengono indicati in maniera generica dalla \textit{ellipsis}.
2213
2214 L'unica modalità in cui essi possono essere recuperati è pertanto quella
2215 sequenziale; essi verranno estratti dallo \itindex{stack} \textit{stack}
2216 secondo l'ordine in cui sono stati scritti. Per fare questo in \file{stdarg.h}
2217 sono definite delle apposite macro; la procedura da seguire è la seguente:
2218 \begin{enumerate*}
2219 \item Inizializzare un puntatore alla lista degli argomenti di tipo
2220   \macro{va\_list} attraverso la macro \macro{va\_start}.
2221 \item Accedere ai vari argomenti opzionali con chiamate successive alla macro
2222   \macro{va\_arg}, la prima chiamata restituirà il primo argomento, la seconda
2223   il secondo e così via.
2224 \item Dichiarare la conclusione dell'estrazione degli argomenti invocando la
2225   macro \macro{va\_end}.
2226 \end{enumerate*}
2227
2228 In generale è perfettamente legittimo richiedere meno argomenti di quelli che
2229 potrebbero essere stati effettivamente forniti, e nella esecuzione delle
2230 \macro{va\_arg} ci si può fermare in qualunque momento ed i restanti argomenti
2231 saranno ignorati; se invece si richiedono più argomenti di quelli forniti si
2232 otterranno dei valori indefiniti. Nel caso del \cmd{gcc} l'uso di
2233 \macro{va\_end} è inutile, ma si consiglia di usarla ugualmente per
2234 compatibilità. Le definizioni delle macro citate sono le seguenti:
2235 \begin{functions}
2236   \headdecl{stdarg.h}
2237
2238   \funcdecl{void va\_start(va\_list ap, last)} Inizializza il puntatore alla
2239   lista di argomenti \param{ap}; il parametro \param{last} \emph{deve} essere
2240   l'ultimo degli argomenti fissi.
2241
2242   \funcdecl{type va\_arg(va\_list ap, type)} Restituisce il valore del
2243   successivo argomento opzionale, modificando opportunamente \param{ap}; la
2244   macro richiede che si specifichi il tipo dell'argomento attraverso il
2245   parametro \param{type} che deve essere il nome del tipo dell'argomento in
2246   questione. Il tipo deve essere \textit{self-promoting}.
2247
2248   \funcdecl{void va\_end(va\_list ap)} Conclude l'uso di \param{ap}.
2249 \end{functions}
2250
2251 In generale si possono avere più puntatori alla lista degli argomenti,
2252 ciascuno andrà inizializzato con \macro{va\_start} e letto con \macro{va\_arg}
2253 e ciascuno potrà scandire la lista degli argomenti per conto suo. Dopo l'uso
2254 di \macro{va\_end} la variabile \param{ap} diventa indefinita e successive
2255 chiamate a \macro{va\_arg} non funzioneranno. Si avranno risultati indefiniti
2256 anche chiamando \macro{va\_arg} specificando un tipo che non corrisponde a
2257 quello dell'argomento.
2258
2259 Un altro limite delle macro è che i passi 1) e 3) devono essere eseguiti nel
2260 corpo principale della funzione, il passo 2) invece può essere eseguito anche
2261 in una subroutine passandole il puntatore alla lista di argomenti; in questo
2262 caso però si richiede che al ritorno della funzione il puntatore non venga più
2263 usato (lo standard richiederebbe la chiamata esplicita di \macro{va\_end}),
2264 dato che il valore di \param{ap} risulterebbe indefinito.
2265
2266 Esistono dei casi in cui è necessario eseguire più volte la scansione degli
2267 argomenti e poter memorizzare una posizione durante la stessa. In questo caso
2268 sembrerebbe naturale copiarsi il puntatore alla lista degli argomenti con una
2269 semplice assegnazione. Dato che una delle realizzazioni più comuni di
2270 \macro{va\_list} è quella di un puntatore nello \itindex{stack} \textit{stack}
2271 all'indirizzo dove sono stati salvati gli argomenti, è assolutamente normale
2272 pensare di poter effettuare questa operazione.
2273
2274 In generale però possono esistere anche realizzazioni diverse, per questo
2275 motivo \macro{va\_list} è definito come \index{tipo!opaco} \textsl{tipo opaco}
2276 e non può essere assegnato direttamente ad un'altra variabile dello stesso
2277 tipo. Per risolvere questo problema lo standard ISO C99\footnote{alcuni
2278   sistemi che non hanno questa macro provvedono al suo posto
2279   \macro{\_\_va\_copy} che era il nome proposto in una bozza dello standard.}
2280 ha previsto una macro ulteriore che permette di eseguire la copia di un
2281 puntatore alla lista degli argomenti:
2282 \begin{prototype}{stdarg.h}{void va\_copy(va\_list dest, va\_list src)}
2283   Copia l'attuale valore \param{src} del puntatore alla lista degli argomenti
2284   su \param{dest}.
2285 \end{prototype}
2286 \noindent anche in questo caso è buona norma chiudere ogni esecuzione di una
2287 \macro{va\_copy} con una corrispondente \macro{va\_end} sul nuovo puntatore
2288 alla lista degli argomenti.
2289
2290 La chiamata di una funzione con un numero variabile di argomenti, posto che la
2291 si sia dichiarata e definita come tale, non prevede nulla di particolare;
2292 l'invocazione è identica alle altre, con gli argomenti, sia quelli fissi che
2293 quelli opzionali, separati da virgole. Quello che però è necessario tenere
2294 presente è come verranno convertiti gli argomenti variabili.
2295
2296 In Linux gli argomenti dello stesso tipo sono passati allo stesso modo, sia
2297 che siano fissi sia che siano opzionali (alcuni sistemi trattano diversamente
2298 gli opzionali), ma dato che il prototipo non può specificare il tipo degli
2299 argomenti opzionali, questi verranno sempre promossi, pertanto nella ricezione
2300 dei medesimi occorrerà tenerne conto (ad esempio un \ctyp{char} verrà visto da
2301 \macro{va\_arg} come \ctyp{int}).
2302
2303 Uno dei problemi che si devono affrontare con le funzioni con un numero
2304 variabile di argomenti è che non esiste un modo generico che permetta di
2305 stabilire quanti sono gli argomenti passati effettivamente in una chiamata.
2306
2307 Esistono varie modalità per affrontare questo problema; una delle più
2308 immediate è quella di specificare il numero degli argomenti opzionali come uno
2309 degli argomenti fissi. Una variazione di questo metodo è l'uso di un argomento
2310 per specificare anche il tipo degli argomenti (come fa la stringa di formato
2311 per \func{printf}).
2312
2313 Una modalità diversa, che può essere applicata solo quando il tipo degli
2314 argomenti lo rende possibile, è quella che prevede di usare un valore speciale
2315 come ultimo argomento (come fa ad esempio \func{execl} che usa un puntatore
2316 \val{NULL} per indicare la fine della lista degli argomenti).
2317
2318
2319 \subsection{Potenziali problemi con le variabili automatiche}
2320 \label{sec:proc_auto_var}
2321
2322 Uno dei possibili problemi che si possono avere con le subroutine è quello di
2323 restituire alla funzione chiamante dei dati che sono contenuti in una
2324 variabile automatica.  Ovviamente quando la subroutine ritorna la sezione
2325 dello \itindex{stack} \textit{stack} che conteneva la variabile automatica
2326 potrà essere riutilizzata da una nuova funzione, con le immaginabili
2327 conseguenze di sovrapposizione e sovrascrittura dei dati.
2328
2329 Per questo una delle regole fondamentali della programmazione in C è che
2330 all'uscita di una funzione non deve restare nessun riferimento alle variabili
2331 locali; qualora sia necessario utilizzare variabili che possano essere viste
2332 anche dalla funzione chiamante queste devono essere allocate esplicitamente, o
2333 in maniera statica (usando variabili di tipo \ctyp{static} o \ctyp{extern}), o
2334 dinamicamente con una delle funzioni della famiglia \func{malloc}.
2335
2336
2337 \subsection{Il controllo di flusso non locale}
2338 \label{sec:proc_longjmp}
2339
2340 Il controllo del flusso di un programma in genere viene effettuato con le
2341 varie istruzioni del linguaggio C; fra queste la più bistrattata è il
2342 \code{goto}, che viene deprecato in favore dei costrutti della programmazione
2343 strutturata, che rendono il codice più leggibile e mantenibile. Esiste però un
2344 caso in cui l'uso di questa istruzione porta all'implementazione più
2345 efficiente e più chiara anche dal punto di vista della struttura del
2346 programma: quello dell'uscita in caso di errore.
2347
2348 \index{salto~non-locale|(}
2349
2350 Il C però non consente di effettuare un salto ad una etichetta definita in
2351 un'altra funzione, per cui se l'errore avviene in una funzione, e la sua
2352 gestione ordinaria è in un'altra, occorre usare quello che viene chiamato un
2353 \textsl{salto non-locale}.  Il caso classico in cui si ha questa necessità,
2354 citato sia in \cite{APUE} che in \cite{glibc}, è quello di un programma nel
2355 cui corpo principale vengono letti dei dati in ingresso sui quali viene
2356 eseguita, tramite una serie di funzioni di analisi, una scansione dei
2357 contenuti, da cui si ottengono le indicazioni per l'esecuzione di opportune
2358 operazioni.
2359
2360 Dato che l'analisi può risultare molto complessa, ed opportunamente suddivisa
2361 in fasi diverse, la rilevazione di un errore nei dati in ingresso può accadere
2362 all'interno di funzioni profondamente annidate l'una nell'altra. In questo
2363 caso si dovrebbe gestire, per ciascuna fase, tutta la casistica del passaggio
2364 all'indietro di tutti gli errori rilevabili dalle funzioni usate nelle fasi
2365 successive.  Questo comporterebbe una notevole complessità, mentre sarebbe
2366 molto più comodo poter tornare direttamente al ciclo di lettura principale,
2367 scartando l'input come errato.\footnote{a meno che, come precisa \cite{glibc},
2368   alla chiusura di ciascuna fase non siano associate operazioni di pulizia
2369   specifiche (come deallocazioni, chiusure di file, ecc.), che non potrebbero
2370   essere eseguite con un salto non-locale.}
2371
2372 Tutto ciò può essere realizzato proprio con un salto non-locale; questo di
2373 norma viene realizzato salvando il contesto dello \itindex{stack}
2374 \textit{stack} nel punto in cui si vuole tornare in caso di errore, e
2375 ripristinandolo, in modo da tornare nella funzione da cui si era partiti,
2376 quando serve.  La funzione che permette di salvare il contesto dello
2377 \itindex{stack} \textit{stack} è \funcd{setjmp}, il cui prototipo è:
2378 \begin{functions}
2379   \headdecl{setjmp.h}
2380   \funcdecl{int setjmp(jmp\_buf env)}
2381
2382   Salva il contesto dello stack.
2383
2384   \bodydesc{La funzione ritorna zero quando è chiamata direttamente e un
2385     valore diverso da zero quando ritorna da una chiamata di \func{longjmp}
2386     che usa il contesto salvato in precedenza.}
2387 \end{functions}
2388
2389 Quando si esegue la funzione il contesto corrente dello \itindex{stack}
2390 \textit{stack} viene salvato nell'argomento \param{env}, una variabile di tipo
2391 \type{jmp\_buf}\footnote{questo è un classico esempio di variabile di
2392   \index{tipo!opaco} \textsl{tipo opaco}. Si definiscono così strutture ed
2393   altri oggetti usati da una libreria, la cui struttura interna non deve
2394   essere vista dal programma chiamante (da cui il nome) che li devono
2395   utilizzare solo attraverso dalle opportune funzioni di gestione.}  che deve
2396 essere stata definita in precedenza. In genere le variabili di tipo
2397 \type{jmp\_buf} vengono definite come variabili globali in modo da poter
2398 essere viste in tutte le funzioni del programma.
2399
2400 Quando viene eseguita direttamente la funzione ritorna sempre zero, un valore
2401 diverso da zero viene restituito solo quando il ritorno è dovuto ad una
2402 chiamata di \func{longjmp} in un'altra parte del programma che ripristina lo
2403 \itindex{stack} \textit{stack} effettuando il salto non-locale. Si tenga conto
2404 che il contesto salvato in \param{env} viene invalidato se la funzione che ha
2405 chiamato \func{setjmp} ritorna, nel qual caso un successivo uso di
2406 \func{longjmp} può comportare conseguenze imprevedibili (e di norma fatali)
2407 per il processo.
2408
2409 Come accennato per effettuare un salto non-locale ad
2410 un punto precedentemente stabilito con \func{setjmp} si usa la funzione
2411 \funcd{longjmp}; il suo prototipo è:
2412 \begin{functions}
2413   \headdecl{setjmp.h}
2414   \funcdecl{void longjmp(jmp\_buf env, int val)}
2415
2416   Ripristina il contesto dello stack.
2417
2418   \bodydesc{La funzione non ritorna.}
2419 \end{functions}
2420
2421 La funzione ripristina il contesto dello \itindex{stack} \textit{stack}
2422 salvato da una chiamata a \func{setjmp} nell'argomento \param{env}. Dopo
2423 l'esecuzione della funzione il programma prosegue nel codice successivo al
2424 ritorno della \func{setjmp} con cui si era salvato \param{env}, che restituirà
2425 il valore
2426 \param{val} invece di zero.  Il valore di \param{val} specificato nella
2427 chiamata deve essere diverso da zero, se si è specificato 0 sarà comunque
2428 restituito 1 al suo posto.
2429
2430 In sostanza un \func{longjmp} è analogo ad un \code{return}, solo che invece
2431 di ritornare alla riga successiva della funzione chiamante, il programma
2432 ritorna alla posizione della relativa \func{setjmp}, l'altra differenza è che
2433 il ritorno può essere effettuato anche attraverso diversi livelli di funzioni
2434 annidate.
2435
2436 L'implementazione di queste funzioni comporta alcune restrizioni dato che esse
2437 interagiscono direttamente con la gestione dello \itindex{stack}
2438 \textit{stack} ed il funzionamento del compilatore stesso. In particolare
2439 \func{setjmp} è implementata con una macro, pertanto non si può cercare di
2440 ottenerne l'indirizzo, ed inoltre delle chiamate a questa funzione sono sicure
2441 solo in uno dei seguenti casi:
2442 \begin{itemize*}
2443 \item come espressione di controllo in un comando condizionale, di selezione
2444   o di iterazione (come \code{if}, \code{switch} o \code{while});
2445 \item come operando per un operatore di uguaglianza o confronto in una
2446   espressione di controllo di un comando condizionale, di selezione o di
2447   iterazione;
2448 \item come operando per l'operatore di negazione (\code{!}) in una espressione
2449   di controllo di un comando condizionale, di selezione o di iterazione;
2450 \item come espressione a sé stante.
2451 \end{itemize*}
2452
2453 In generale, dato che l'unica differenza fra la chiamata diretta e quella
2454 ottenuta nell'uscita con un \func{longjmp} è costituita dal valore di ritorno
2455 di \func{setjmp}, quest'ultima usualmente viene chiamata all'interno di un
2456 comando \code{if}.
2457
2458 Uno dei punti critici dei salti non-locali è quello del valore delle
2459 variabili, ed in particolare quello delle variabili automatiche della funzione
2460 a cui si ritorna. In generale le variabili globali e statiche mantengono i
2461 valori che avevano al momento della chiamata di \func{longjmp}, ma quelli
2462 delle variabili automatiche (o di quelle dichiarate
2463 \direct{register}\footnote{la direttiva \direct{register} del compilatore
2464   chiede che la variabile dichiarata tale sia mantenuta, nei limiti del
2465   possibile, all'interno di un registro del processore. Questa direttiva è
2466   originaria dell'epoca dai primi compilatori, quando stava al programmatore
2467   scrivere codice ottimizzato, riservando esplicitamente alle variabili più
2468   usate l'uso dei registri del processore. Oggi questa direttiva è in disuso
2469   dato che tutti i compilatori sono normalmente in grado di valutare con
2470   maggior efficacia degli stessi programmatori quando sia il caso di eseguire
2471   questa ottimizzazione.}) sono in genere indeterminati.
2472
2473 Quello che succede infatti è che i valori delle variabili che sono tenute in
2474 memoria manterranno il valore avuto al momento della chiamata di
2475 \func{longjmp}, mentre quelli tenuti nei registri del processore (che nella
2476 chiamata ad un'altra funzione vengono salvati nel contesto nello
2477 \itindex{stack} \textit{stack}) torneranno al valore avuto al momento della
2478 chiamata di \func{setjmp}; per questo quando si vuole avere un comportamento
2479 coerente si può bloccare l'ottimizzazione che porta le variabili nei registri
2480 dichiarandole tutte come \direct{volatile}.\footnote{la direttiva
2481   \direct{volatile} informa il compilatore che la variabile che è dichiarata
2482   può essere modificata, durante l'esecuzione del nostro, da altri programmi.
2483   Per questo motivo occorre dire al compilatore che non deve essere mai
2484   utilizzata l'ottimizzazione per cui quanto opportuno essa viene mantenuta in
2485   un registro, poiché in questo modo si perderebbero le eventuali modifiche
2486   fatte dagli altri programmi (che avvengono solo in una copia posta in
2487   memoria).}
2488
2489 \index{salto~non-locale|)}
2490
2491
2492 \subsection{La \textit{endianess}}
2493 \label{sec:sock_endianess}
2494
2495 \itindbeg{endianess}
2496
2497 Uno dei problemi di programmazione che può dar luogo ad effetti imprevisti è
2498 quello relativo alla cosiddetta \textit{endianess}.  Questa è una
2499 caratteristica generale dell'architettura hardware di un computer che dipende
2500 dal fatto che la rappresentazione di un numero binario può essere fatta in due
2501 modi, chiamati rispettivamente \textit{big endian} e \textit{little endian} a
2502 seconda di come i singoli bit vengono aggregati per formare le variabili
2503 intere (ed in genere in diretta corrispondenza a come sono poi in realtà
2504 cablati sui bus interni del computer).
2505
2506 \begin{figure}[!htb]
2507   \centering \includegraphics[height=3cm]{img/endianess}
2508   \caption{Schema della disposizione dei dati in memoria a seconda della
2509     \textit{endianess}.}
2510   \label{fig:sock_endianess}
2511 \end{figure}
2512
2513 Per capire meglio il problema si consideri un intero a 32 bit scritto in una
2514 locazione di memoria posta ad un certo indirizzo. Come illustrato in
2515 fig.~\ref{fig:sock_endianess} i singoli bit possono essere disposti in memoria
2516 in due modi: a partire dal più significativo o a partire dal meno
2517 significativo.  Così nel primo caso si troverà il byte che contiene i bit più
2518 significativi all'indirizzo menzionato e il byte con i bit meno significativi
2519 nell'indirizzo successivo; questo ordinamento è detto \textit{big endian},
2520 dato che si trova per prima la parte più grande. Il caso opposto, in cui si
2521 parte dal bit meno significativo è detto per lo stesso motivo \textit{little
2522   endian}.
2523
2524 Si può allora verificare quale tipo di \textit{endianess} usa il proprio
2525 computer con un programma elementare che si limita ad assegnare un valore ad
2526 una variabile per poi ristamparne il contenuto leggendolo un byte alla volta.
2527 Il codice di detto programma, \file{endtest.c}, è nei sorgenti allegati,
2528 allora se lo eseguiamo su un normale PC compatibile, che è \textit{little
2529   endian} otterremo qualcosa del tipo:
2530 \begin{verbatim}
2531 [piccardi@gont sources]$ ./endtest
2532 Using value ABCDEF01
2533 val[0]= 1
2534 val[1]=EF
2535 val[2]=CD
2536 val[3]=AB
2537 \end{verbatim}%$
2538 mentre su un vecchio Macintosh con PowerPC, che è \textit{big endian} avremo
2539 qualcosa del tipo:
2540 \begin{verbatim}
2541 piccardi@anarres:~/gapil/sources$ ./endtest
2542 Using value ABCDEF01
2543 val[0]=AB
2544 val[1]=CD
2545 val[2]=EF
2546 val[3]= 1
2547 \end{verbatim}%$
2548
2549 L'attenzione alla \textit{endianess} nella programmazione è importante, perché
2550 se si fanno assunzioni relative alla propria architettura non è detto che
2551 queste restino valide su un'altra architettura. Inoltre, come vedremo ad
2552 esempio in sez.~\ref{sec:sock_addr_func}, si possono avere problemi quando ci
2553 si trova a usare valori di un formato con una infrastruttura che ne usa
2554 un altro.
2555
2556 La \textit{endianess} di un computer dipende essenzialmente dalla architettura
2557 hardware usata; Intel e Digital usano il \textit{little endian}, Motorola,
2558 IBM, Sun (sostanzialmente tutti gli altri) usano il \textit{big endian}. Il
2559 formato dei dati contenuti nelle intestazioni dei protocolli di rete (il
2560 cosiddetto \textit{network order} è anch'esso \textit{big endian}; altri
2561 esempi di uso di questi due diversi formati sono quello del bus PCI, che è
2562 \textit{little endian}, o quello del bus VME che è \textit{big endian}.
2563
2564 Esistono poi anche dei processori che possono scegliere il tipo di formato
2565 all'avvio e alcuni che, come il PowerPC o l'Intel i860, possono pure passare
2566 da un tipo di ordinamento all'altro con una specifica istruzione. In ogni caso
2567 in Linux l'ordinamento è definito dall'architettura e dopo l'avvio del sistema
2568 in genere resta sempre lo stesso,\footnote{su architettura PowerPC è possibile
2569   cambiarlo, si veda sez.~\ref{sec:process_prctl}.} anche quando il processore
2570 permetterebbe di eseguire questi cambiamenti.
2571
2572 \begin{figure}[!htbp]
2573   \footnotesize \centering
2574   \begin{minipage}[c]{\codesamplewidth}
2575     \includecodesample{listati/endian.c}
2576   \end{minipage}
2577   \normalsize
2578   \caption{La funzione \func{endian}, usata per controllare il tipo di
2579     architettura della macchina.}
2580   \label{fig:sock_endian_code}
2581 \end{figure}
2582
2583 Per controllare quale tipo di ordinamento si ha sul proprio computer si è
2584 scritta una piccola funzione di controllo, il cui codice è riportato
2585 fig.~\ref{fig:sock_endian_code}, che restituisce un valore nullo (falso) se
2586 l'architettura è \textit{big endian} ed uno non nullo (vero) se l'architettura
2587 è \textit{little endian}.
2588
2589 Come si vede la funzione è molto semplice, e si limita, una volta assegnato
2590 (\texttt{\small 9}) un valore di test pari a \texttt{0xABCD} ad una variabile
2591 di tipo \ctyp{short} (cioè a 16 bit), a ricostruirne una copia byte a byte.
2592 Per questo prima (\texttt{\small 10}) si definisce il puntatore \var{ptr} per
2593 accedere al contenuto della prima variabile, ed infine calcola (\texttt{\small
2594   11}) il valore della seconda assumendo che il primo byte sia quello meno
2595 significativo (cioè, per quanto visto in fig.~\ref{fig:sock_endianess}, che sia
2596 \textit{little endian}). Infine la funzione restituisce (\texttt{\small 12})
2597 il valore del confronto delle due variabili.
2598 \itindend{endianess}
2599
2600
2601
2602 % LocalWords:  like exec kernel thread main ld linux static linker char envp Gb
2603 % LocalWords:  sez POSIX exit system call cap abort shell diff errno stdlib int
2604 % LocalWords:  SUCCESS FAILURE void atexit stream fclose unistd descriptor init
2605 % LocalWords:  SIGCHLD wait function glibc SunOS arg argp execve fig high kb Mb
2606 % LocalWords:  memory alpha swap table printf Unit MMU paging fault SIGSEGV BSS
2607 % LocalWords:  multitasking text segment NULL Block Started Symbol fill black
2608 % LocalWords:  heap stack calling convention size malloc calloc realloc nmemb
2609 % LocalWords:  ENOMEM ptr uClib cfree error leak smartpointers hook Dmalloc brk
2610 % LocalWords:  Gray Watson Electric Fence Bruce Perens sbrk longjmp SUSv BSD ap
2611 % LocalWords:  ptrdiff increment locking lock copy write capabilities IPC mlock
2612 % LocalWords:  capability MEMLOCK limits getpagesize RLIMIT munlock sys const
2613 % LocalWords:  addr len EINVAL EPERM mlockall munlockall flags l'OR CURRENT IFS
2614 % LocalWords:  argc argv parsing questofile txt getopt optstring switch optarg
2615 % LocalWords:  optind opterr optopt ForkTest POSIXLY CORRECT long options NdA
2616 % LocalWords:  option parameter list environ PATH HOME XPG tab LOGNAME LANG PWD
2617 % LocalWords:  TERM PAGER TMPDIR getenv name SVr setenv unsetenv putenv opz gcc
2618 % LocalWords:  clearenv libc value overwrite string reference result argument
2619 % LocalWords:  socket variadic ellipsis header stdarg execl self promoting last
2620 % LocalWords:  float double short register type dest src extern setjmp jmp buf
2621 % LocalWords:  env return if while Di page cdecl  rectangle node anchor west PS
2622 % LocalWords:  environment rounded corners dashed south width height draw east
2623 % LocalWords:  exithandler handler violation inline SOURCE SVID XOPEN mincore
2624 % LocalWords:  length unsigned vec EFAULT EAGAIN dell'I memalign valloc posix
2625 % LocalWords:  boundary memptr alignment sizeof overrun mcheck abortfn enum big
2626 % LocalWords:  mprobe DISABLED HEAD TAIL touch right emacs OSTYPE endianess IBM
2627 % LocalWords:  endian little endtest Macintosh PowerPC Intel Digital Motorola
2628 % LocalWords:  Sun order VME  loader Windows DLL shared objects PRELOAD termios
2629 % LocalWords:  is to LC SIG str mem wcs assert ctype dirent fcntl signal stdio
2630 % LocalWords:  times library utmp syscall number Filesystem Hierarchy pathname
2631
2632 %%% Local Variables:
2633 %%% mode: latex
2634 %%% TeX-master: "gapil"
2635 %%% End:
2636 % LocalWords:  context assembler sysconf fork