process.tex

   1 %% process.tex
   2 %%
   3 %% Copyright (C) 2000-2011 Simone Piccardi.  Permission is granted to
   4 %% copy, distribute and/or modify this document under the terms of the GNU Free
   5 %% Documentation License, Version 1.1 or any later version published by the
   6 %% Free Software Foundation; with the Invariant Sections being "Un preambolo",
   7 %% with no Front-Cover Texts, and with no Back-Cover Texts.  A copy of the
   8 %% license is included in the section entitled "GNU Free Documentation
   9 %% License".
  10 %%
  11
  12 \chapter{L'interfaccia base con i processi}
  13 \label{cha:process_interface}
  14
  15 Come accennato nell'introduzione il \textsl{processo} è l'unità di base con
  16 cui un sistema unix-like alloca ed utilizza le risorse.  Questo capitolo
  17 tratterà l'interfaccia base fra il sistema e i processi, come vengono passati
  18 gli argomenti, come viene gestita e allocata la memoria, come un processo può
  19 richiedere servizi al sistema e cosa deve fare quando ha finito la sua
  20 esecuzione. Nella sezione finale accenneremo ad alcune problematiche generiche
  21 di programmazione.
  22
  23 In genere un programma viene eseguito quando un processo lo fa partire
  24 eseguendo una funzione della famiglia \func{exec}; torneremo su questo e sulla
  25 creazione e gestione dei processi nel prossimo capitolo. In questo
  26 affronteremo l'avvio e il funzionamento di un singolo processo partendo dal
  27 punto di vista del programma che viene messo in esecuzione.
  28
  29
  30 \section{Esecuzione e conclusione di un programma}
  31
  32 Uno dei concetti base di Unix è che un processo esegue sempre uno ed un solo
  33 programma: si possono avere più processi che eseguono lo stesso programma ma
  34 ciascun processo vedrà la sua copia del codice (in realtà il kernel fa sì che
  35 tutte le parti uguali siano condivise), avrà un suo spazio di indirizzi,
  36 variabili proprie e sarà eseguito in maniera completamente indipendente da
  37 tutti gli altri. Questo non è del tutto vero nel caso di un programma
  38 \textit{multi-thread}, ma la gestione dei \itindex{thread} \textit{thread} in
  39 Linux sarà trattata a parte in cap.~\ref{cha:threads}.
  40
  41
  42 \subsection{L'avvio e l'esecuzione di un programma}
  43 \label{sec:proc_main}
  44
  45 \itindbeg{link-loader}
  46
  47 Quando un programma viene messo in esecuzione cosa che può essere fatta solo
  48 con una funzione della famiglia \func{exec} (vedi sez.~\ref{sec:proc_exec}) il
  49 kernel esegue un opportuno codice di avvio, il cosiddetto
  50 \textit{link-loader}, costituito dal programma \cmd{ld-linux.so}. Questo
  51 programma è una parte fondamentale del sistema il cui compito è quello della
  52 gestione delle cosiddette \textsl{librerie condivise}, quelle che nel mondo
  53 Windows sono chiamate DLL (\textit{Dinamic Link Library}), e che invece in un
  54 sistema unix-like vengono chiamate \textit{shared objects}.
  55
  56 Infatti, a meno di non aver specificato il flag \texttt{-static} durante la
  57 compilazione, tutti i programmi in Linux sono compilati facendo riferimento a
  58 librerie condivise, in modo da evitare di duplicare lo stesso codice nei
  59 relativi eseguibili e consentire un uso più efficiente della memoria, dato che
  60 il codice di uno \itindex{shared~objects} \textit{shared objects} viene
  61 caricato in memoria dal kernel una sola volta per tutti i programmi che lo
  62 usano.
  63
  64 Questo significa però che normalmente il codice di un programma è incompleto,
  65 contenendo solo i riferimenti alle funzioni di libreria che vuole utilizzare e
  66 non il relativo codice. Per questo motivo all'avvio del programma è necessario
  67 l'intervento del \textit{link-loader} il cui compito è
  68 caricare in memoria le librerie condivise eventualmente assenti, ed effettuare
  69 poi il collegamento dinamico del codice del programma alle funzioni di
  70 libreria da esso utilizzate prima di metterlo in esecuzione.
  71
  72 Il funzionamento di \cmd{ld-linux.so} è controllato da alcune variabili di
  73 ambiente e dal contenuto del file \conffile{/etc/ld.so.conf}, che consentono
  74 di elencare le directory un cui cercare le librerie e determinare quali
  75 verranno utilizzate.  In particolare con la variabile di ambiente
  76 \texttt{LD\_LIBRARY\_PATH} si possono indicare ulteriori directory rispetto a
  77 quelle di sistema in cui inserire versioni personali delle librerie che hanno
  78 la precedenza su quelle di sistema, mentre con la variabile di ambiente
  79 \texttt{LD\_PRELOAD} si può passare direttamente una lista di file di librerie
  80 condivise da usare al posto di quelli di sistema. In questo modo è possibile
  81 effettuare lo sviluppo o il test di nuove librerie senza dover sostituire
  82 quelle di sistema. Ulteriori dettagli sono riportati nella pagina di manuale
  83 di \cmd{ld.so} e per un approfondimento dell'argomento si può consultare
  84 sez.~3.1.2 di \cite{AGL}.
  85
  86 Una volta completate le operazioni di inizializzazione di \cmd{ld-linux.so}, il
  87 sistema fa partire qualunque programma chiamando la funzione \func{main}. Sta
  88 al programmatore chiamare così la funzione principale del programma da cui si
  89 suppone che inizi l'esecuzione. In ogni caso senza questa funzione lo stesso
  90 \textit{link-loader} darebbe luogo ad errori.  Lo standard ISO C specifica che
  91 la funzione \func{main} può non avere argomenti o prendere due argomenti che
  92 rappresentano gli argomenti passati da linea di comando (su cui torneremo in
  93 sez.~\ref{sec:proc_par_format}), in sostanza un prototipo che va sempre bene è
  94 il seguente:
  95 \includecodesnip{listati/main_def.c}
  96
  97 \itindend{link-loader}
  98
  99 In realtà nei sistemi Unix esiste un altro modo per definire la funzione
 100 \func{main}, che prevede la presenza di un terzo argomento, \code{char
 101   *envp[]}, che fornisce l'\textsl{ambiente} del programma; questa forma però
 102 non è prevista dallo standard POSIX.1 per cui se si vogliono scrivere
 103 programmi portabili è meglio evitarla. Per accedere all'ambiente, come vedremo
 104 in sez.~\ref{sec:proc_environ} si usa in genere una variabile globale che
 105 viene sempre definita automaticamente.
 106
 107 Ogni programma viene fatto partire mettendo in esecuzione il codice contenuto
 108 nella funzione \func{main}, ogni altra funzione usata dal programma, che sia
 109 ottenuta da una libreria condivisa, o che sia direttamente definita nel
 110 codice, dovrà essere invocata a partire dal codice di \func{main}. Nel caso di
 111 funzioni definite nel programma occorre tenere conto che, nel momento stesso
 112 in cui si usano le librerie di sistema (vale a dire la \acr{glibc}) alcuni
 113 nomi sono riservati e non possono essere utilizzati.
 114
 115 In particolare sono riservati a priori e non possono essere mai ridefiniti in
 116 nessun caso i nomi di tutte le funzioni, le variabili, le macro di
 117 preprocessore, ed i tipi di dati previsti dallo standard ISO C. Lo stesso
 118 varrà per tutti i nomi definiti negli \textit{header file} che si sono
 119 esplicitamente inclusi nel programma (vedi sez.~\ref{sec:proc_syscall}), ma
 120 anche se è possibile riutilizzare nomi definiti in altri \textit{header file}
 121 la pratica è da evitare nella maniera più assoluta per non generare ambiguità.
 122
 123 Oltre ai nomi delle funzioni di libreria sono poi riservati in maniera
 124 generica tutti i nomi di variabili o funzioni globali che iniziano con il
 125 carattere di sottolineato (``\texttt{\_}''), e qualunque nome che inizi con il
 126 doppio sottolineato (``\texttt{\_\_}'') o con il sottolineato seguito da
 127 lettera maiuscola. Questi identificativi infatti sono utilizzati per i nomi
 128 usati internamente in forma privata dalle librerie, ed evitandone l'uso si
 129 elimina il rischio di conflitti.
 130
 131 Infine esiste una serie di classi di nomi che sono riservati per un loro
 132 eventuale uso futuro da parte degli standard ISO C e POSIX.1, questi in teoria
 133 possono essere usati senza problemi oggi, ma potrebbero dare un conflitto con
 134 una revisione futura di questi standard, per cui è comunque opportuno
 135 evitarli, in particolare questi sono:
 136 \begin{itemize*}
 137 \item i nomi che iniziano per ``\texttt{E}'' costituiti da lettere maiuscole e
 138   numeri, che potrebbero essere utilizzati per nuovi codici di errore (vedi
 139   sez.~\ref{sec:sys_errors}),
 140 \item i nomi che iniziano con ``\texttt{is}'' o ``\texttt{to}'' e costituiti
 141   da lettere minuscole che potrebbero essere utilizzati da nuove funzioni per
 142   il controllo e la conversione del tipo di caratteri,
 143 \item i nomi che iniziano con ``\texttt{LC\_}'' e costituiti
 144   da lettere maiuscole che possono essere usato per macro attinenti la
 145   localizzazione (vedi sez.~\ref{sec:proc_localization}),
 146 \item nomi che iniziano con ``\texttt{SIG}'' o ``\texttt{SIG\_}'' e costituiti
 147   da lettere maiuscole che potrebbero essere usati per nuovi nomi di segnale
 148   (vedi sez.~\ref{sec:sig_classification}),
 149 \item nomi che iniziano con ``\texttt{str}'', ``\texttt{mem}'', o
 150   ``\texttt{wcs}'' e costituiti da lettere minuscole che possono essere
 151   utilizzati per funzioni attinenti la manipolazione delle stringhe e delle
 152   aree di memoria,
 153 \item nomi che terminano in ``\texttt{\_t}'' che potrebbero essere utilizzati
 154   per la definizione di nuovi tipi di dati di sistema oltre quelli di
 155   tab.~\ref{tab:intro_primitive_types}).
 156 \end{itemize*}
 157
 158
 159 \subsection{Chiamate a funzioni e \textit{system call}}
 160 \label{sec:proc_syscall}
 161
 162 Come accennato in sez.~\ref{sec:intro_syscall} un programma può utilizzare le
 163 risorse che il sistema gli mette a disposizione attraverso l'uso delle
 164 opportune \textit{system call}. Abbiamo inoltre appena visto come all'avvio un
 165 programma venga messo in grado di chiamare le funzioni fornite da eventuali
 166 librerie condivise da esso utilizzate.
 167
 168 Vedremo nel resto della guida quali sono le risorse del sistema accessibili
 169 attraverso le \textit{system call} e tratteremo buona parte delle funzioni
 170 messe a disposizione dalla libreria standard del C, in questa sezione però si
 171 forniranno alcune indicazioni generali sul come fare perché un programma possa
 172 utilizzare queste funzioni.
 173
 174 \itindbeg{header~file}
 175
 176 In sez.~\ref{sec:intro_standard} abbiamo accennato come le funzioni definite
 177 nei vari standard siano definite in una serie di \textit{header file} (in
 178 italiano \textsl{file di intestazione}).  Vengono chiamati in questo modo quei
 179 file, forniti insieme al codice delle librerie, che contengono le
 180 dichiarazioni delle variabili, dei tipi di dati, delle macro di preprocessore
 181 e soprattutto delle funzioni che fanno parte di una libreria.
 182
 183 Questi file sono necessari al compilatore del linguaggio C per ottenere i
 184 riferimenti ai nomi delle funzioni (e alle altre risorse) definite in una
 185 libreria, per questo quando si vogliono usare le funzioni di una libreria
 186 occorre includere nel proprio codice gli \textit{header file} che le
 187 definiscono con la direttiva \code{\#include}. Dato che le funzioni devono
 188 essere definite prima di poterle usare in genere gli \textit{header file}
 189 vengono inclusi all'inizio del programma. Se inoltre si vogliono utilizzare le
 190 macro di controllo delle funzionalità fornite dai vari standard illustrate in
 191 sez.~\ref{sec:intro_gcc_glibc_std} queste, come accennato, dovranno a loro
 192 volta essere definite prima delle varie inclusioni.
 193
 194 Ogni libreria fornisce i propri file di intestazione per i quali si deve
 195 consultare la documentazione, ma in tab.~\ref{tab:intro_posix_header} si sono
 196 riportati i principali \textit{header file} definiti nella libreria standard
 197 del C (nel caso la \acr{glibc}) che contengono le varie funzioni previste
 198 negli standard POSIX ed ANSI C, e che prevedono la definizione sia delle
 199 funzioni di utilità generica che delle interfacce alle \textit{system call}. In
 200 seguito per ciascuna funzione o \textit{system call} che tratteremo
 201 indicheremo anche quali sono gli \textit{header file} contenenti le necessarie
 202 definizioni.
 203
 204 \begin{table}[htb]
 205   \footnotesize
 206   \centering
 207   \begin{tabular}[c]{|l|c|c|l|}
 208     \hline
 209     \multirow{2}{*}{\textbf{Header}}&
 210     \multicolumn{2}{|c|}{\textbf{Standard}}&
 211     \multirow{2}{*}{\textbf{Contenuto}} \\
 212     \cline{2-3}
 213     & ANSI C& POSIX& \\
 214     \hline
 215     \hline
 216     \file{assert.h}&$\bullet$&    --   & Verifica le asserzioni fatte in un
 217                                          programma.\\
 218     \file{ctype.h} &$\bullet$&    --   & Tipi standard.\\
 219     \file{dirent.h}&   --    &$\bullet$& Manipolazione delle directory.\\
 220     \file{errno.h} &   --    &$\bullet$& Errori di sistema.\\
 221     \file{fcntl.h} &   --    &$\bullet$& Controllo sulle opzioni dei file.\\
 222     \file{limits.h}&   --    &$\bullet$& Limiti e parametri del sistema.\\
 223     \file{malloc.h}&$\bullet$&    --   & Allocazione della memoria.\\
 224     \file{setjmp.h}&$\bullet$&    --   & Salti non locali.\\
 225     \file{signal.h}&   --    &$\bullet$& Gestione dei segnali.\\
 226     \file{stdarg.h}&$\bullet$&    --   & Gestione di funzioni a argomenti
 227                                          variabili.\\
 228     \file{stdio.h} &$\bullet$&    --   & I/O bufferizzato in standard ANSI C.\\
 229     \file{stdlib.h}&$\bullet$&    --   & Definizioni della libreria standard.\\
 230     \file{string.h}&$\bullet$&    --   & Manipolazione delle stringhe.\\
 231     \file{time.h}  &   --    &$\bullet$& Gestione dei tempi.\\
 232     \file{times.h} &$\bullet$&    --   & Gestione dei tempi.\\
 233     \file{unistd.h}&   --    &$\bullet$& Unix standard library.\\
 234     \file{utmp.h}  &   --    &$\bullet$& Registro connessioni utenti.\\
 235     \hline
 236   \end{tabular}
 237   \caption{Elenco dei principali \textit{header file} definiti dagli standard
 238     POSIX e ANSI C.}
 239   \label{tab:intro_posix_header}
 240 \end{table}
 241
 242 Un esempio di inclusione di questi file, preso da uno dei programmi di
 243 esempio, è il seguente, e si noti come gli \textit{header file} possano essere
 244 referenziati con il nome fra parentesi angolari, nel qual caso si indica l'uso
 245 di quelli installati con il sistema,\footnote{in un sistema GNU/Linux che
 246   segue le specifiche del \textit{Filesystem Hierarchy Standard} (per maggiori
 247   informazioni si consulti sez.~1.2.3 di \cite{AGL}) si trovano sotto
 248   \texttt{/usr/include}.} o fra virgolette, nel qual caso si fa riferimento ad
 249 una versione locale, da indicare con un pathname relativo:
 250 \includecodesnip{listati/main_include.c}
 251
 252 Si tenga presente che oltre ai nomi riservati a livello generale di cui si è
 253 parlato in sez.~\ref{sec:proc_main}, alcuni di questi \textit{header file}
 254 riservano degli ulteriori identificativi, il cui uso sarà da evitare, ad
 255 esempio si avrà che:
 256 \begin{itemize*}
 257 \item in \file{dirent.h} vengono riservati i nomi che iniziano con
 258   ``\texttt{d\_}'' e costituiti da lettere minuscole,
 259 \item in \file{fcntl.h} vengono riservati i nomi che iniziano con
 260   ``\texttt{l\_}'', ``\texttt{F\_}'',``\texttt{O\_}'' e ``\texttt{S\_}'',
 261 \item in \file{limits.h} vengono riservati i nomi che finiscono in
 262   ``\texttt{\_MAX}'',
 263 \item in \file{signal.h} vengono riservati i nomi che iniziano con
 264   ``\texttt{sa\_}'' e ``\texttt{SA\_}'',
 265 \item in \file{sys/stat.h} vengono riservati i nomi che iniziano con
 266   ``\texttt{st\_}'' e ``\texttt{S\_}'',
 267 \item in \file{sys/times.h} vengono riservati i nomi che iniziano con
 268   ``\texttt{tms\_}'',
 269 \item in \file{termios.h} vengono riservati i nomi che iniziano con
 270   ``\texttt{c\_}'', ``\texttt{V}'', ``\texttt{I}'', ``\texttt{O}'' e
 271   ``\texttt{TC}'' e con ``\texttt{B}'' seguito da un numero,
 272 \item in \file{grp.h} vengono riservati i nomi che iniziano con
 273   ``\texttt{gr\_}'',
 274 \item in \file{pwd.h}vengono riservati i nomi che iniziano con
 275   ``\texttt{pw\_}'',
 276 \end{itemize*}
 277
 278 \itindend{header~file}
 279
 280 Una volta inclusi gli \textit{header file} necessari un programma potrà
 281 richiamare le funzioni di libreria direttamente nel proprio codice ed accedere
 282 ai servizi del kernel; come accennato infatti normalmente ogni \textit{system
 283   call} è associata ad una omonima funzione di libreria, che è quella che si
 284 usa normalmente per invocarla.
 285
 286 Occorre però tenere presente che anche se dal punto di vista della scrittura
 287 del codice la chiamata di una \textit{system call} non è diversa da quella di
 288 una qualunque funzione ordinaria, la situazione è totalmente diversa
 289 nell'esecuzione del programma. Una funzione ordinaria infatti viene eseguita,
 290 esattamente come il codice che si è scritto nel corpo del programma, in
 291 \textit{user space}. Quando invece si esegue una \textit{system call}
 292 l'esecuzione ordinaria del programma viene interrotta, i dati forniti (come
 293 argomenti della chiamata) vengono trasferiti al kernel che esegue il codice
 294 della \textit{system call} (che è codice del kernel) in \textit{kernel space}.
 295
 296 Dato che il passaggio dei dati ed il salvataggio del contesto di esecuzione
 297 del programma che consentirà di riprenderne l'esecuzione ordinaria al
 298 completamento della \textit{system call} sono operazioni critiche per le
 299 prestazioni del sistema, per rendere il più veloce possibile questa
 300 operazione, usualmente chiamata \textit{context switch} sono state sviluppate
 301 una serie di ottimizzazioni che richiedono alcune preparazioni abbastanza
 302 complesse dei dati, che in genere dipendono dall'architettura del processore
 303 sono scritte direttamente in \textit{assembler}.
 304
 305 %
 306 % TODO:trattare qui, quando sarà il momento vsyscall e vDSO, vedi:
 307 % http://davisdoesdownunder.blogspot.com/2011/02/linux-syscall-vsyscall-and-vdso-oh-my.html
 308 % http://www.win.tue.nl/~aeb/linux/lk/lk-4.html
 309 %
 310
 311 Inoltre alcune \textit{system call} sono state modificate nel corso degli anni
 312 con lo sviluppo del kernel per aggiungere ad esempio funzionalità in forma di
 313 nuovi argomenti, o per consolidare diverse varianti in una interfaccia
 314 generica.  Per questo motivo dovendo utilizzare una \textit{system call} è
 315 sempre preferibile usare l'interfaccia fornita dalla \textsl{glibc}, che si
 316 cura di mantenere una uniformità chiamando le versioni più aggiornate.
 317
 318 Ci sono alcuni casi però in cui può essere necessario evitare questa
 319 associazione, e lavorare a basso livello con una specifica versione, oppure si
 320 può voler utilizzare una \textit{system call} che non è stata ancora associata
 321 ad una funzione di libreria.  In tal caso, per evitare di dover effettuare
 322 esplicitamente le operazioni di preparazione citate, all'interno della
 323 \textsl{glibc} è fornita una specifica funzione, \funcd{syscall}, che consente
 324 eseguire direttamente una \textit{system call}; il suo prototipo, accessibile
 325 se si è definita la macro \macro{\_GNU\_SOURCE}, è:
 326
 327 \begin{funcproto}{
 328   \fhead{unistd.h}
 329   \fhead{sys/syscall.h}
 330   \fdecl{int syscall(int number, ...)}
 331   \fdesc{Esegue la \textit{system call} indicata da \param{number}.}
 332 }
 333 {La funzione ritorna un intero dipendente dalla \textit{system call} invocata,
 334 in generale $0$ indica il successo e un valore negativo un errore.}
 335 \end{funcproto}
 336
 337 La funzione richiede come primo argomento il numero della \textit{system call}
 338 da invocare, seguita dagli argomenti da passare alla stessa, che ovviamente
 339 dipendono da quest'ultima, e restituisce il codice di ritorno della
 340 \textit{system call} invocata. In generale un valore nullo indica il successo
 341 ed un valore negativo è un codice di errore che poi viene memorizzato nella
 342 variabile \var{errno} (sulla gestione degli errori torneremo in dettaglio in
 343 sez.~\ref{sec:sys_errors}).
 344
 345 Il valore di \param{number} dipende sia dalla versione di kernel che
 346 dall'architettura,\footnote{in genere le vecchie \textit{system call} non
 347   vengono eliminate e se ne aggiungono di nuove con nuovi numeri.}  ma
 348 ciascuna \textit{system call} viene in genere identificata da una costante
 349 nella forma \texttt{SYS\_*} dove al prefisso viene aggiunto il nome che spesso
 350 corrisponde anche alla omonima funzione di libreria. Queste costanti sono
 351 definite nel file \texttt{sys/syscall.h}, ma si possono anche usare
 352 direttamente valori numerici.
 353
 354
 355 \subsection{La terminazione di un programma}
 356 \label{sec:proc_conclusion}
 357
 358 Normalmente un programma conclude la sua esecuzione quando si fa ritornare la
 359 funzione \func{main}, si usa cioè l'istruzione \instruction{return} del
 360 linguaggio C all'interno della stessa, o se si richiede esplicitamente la
 361 chiusura invocando direttamente la funzione \func{exit}. Queste due modalità
 362 sono assolutamente equivalenti, dato che \func{exit} viene chiamata in maniera
 363 trasparente anche quando \func{main} ritorna, passandogli come argomento il
 364 valore di ritorno (che essendo .
 365
 366 La funzione \funcd{exit}, che è completamente generale, essendo definita dallo
 367 standard ANSI C, è quella che deve essere invocata per una terminazione
 368 ``\textit{normale}'', il suo prototipo è:
 369
 370 \begin{funcproto}{
 371   \fhead{unistd.h}
 372   \fdecl{void exit(int status)}
 373   \fdesc{Causa la conclusione ordinaria del programma.}
 374 }
 375 {La funzione non ritorna, il processo viene terminato.}
 376 \end{funcproto}
 377
 378 La funzione è pensata per eseguire una conclusione pulita di un programma che
 379 usi la libreria standard del C; essa esegue tutte le funzioni che sono state
 380 registrate con \func{atexit} e \func{on\_exit} (vedi
 381 sez.~\ref{sec:proc_atexit}), chiude tutti gli stream effettuando il
 382 salvataggio dei dati sospesi (chiamando \func{fclose}, vedi
 383 sez.~\ref{sec:file_fopen}), infine passa il controllo al kernel chiamando la
 384 \textit{system call} \func{\_exit} (che vedremo a breve) che completa la
 385 terminazione del processo.
 386
 387 \itindbeg{exit~status}
 388
 389 Il valore dell'argomento \param{status} o il valore di ritorno di \func{main},
 390 costituisce quello che viene chiamato lo \textsl{stato di uscita}
 391 (l'\textit{exit status}) del processo. In generale si usa questo valore per
 392 fornire al processo padre (come vedremo in sez.~\ref{sec:proc_wait}) delle
 393 informazioni generiche sulla riuscita o il fallimento del programma appena
 394 terminato.
 395
 396 Anche se l'argomento \param{status} (ed il valore di ritorno di \func{main})
 397 sono numeri interi di tipo \ctyp{int}, si deve tener presente che il valore
 398 dello stato di uscita viene comunque troncato ad 8 bit, per cui deve essere
 399 sempre compreso fra 0 e 255. Si tenga presente che se si raggiunge la fine
 400 della funzione \func{main} senza ritornare esplicitamente si ha un valore di
 401 uscita indefinito, è pertanto consigliabile di concludere sempre in maniera
 402 esplicita detta funzione.
 403
 404 Non esiste un valore significato intrinseco della stato di uscita, ma una
 405 convenzione in uso pressoché universale è quella di restituire 0 in caso di
 406 successo e 1 in caso di fallimento. Una eccezione a questa convenzione è per i
 407 programmi che effettuano dei confronti (come \cmd{diff}), che usano 0 per
 408 indicare la corrispondenza, 1 per indicare la non corrispondenza e 2 per
 409 indicare l'incapacità di effettuare il confronto. Un'altra convenzione riserva
 410 i valori da 128 a 256 per usi speciali: ad esempio 128 viene usato per
 411 indicare l'incapacità di eseguire un altro programma in un
 412 sottoprocesso. Benché le convenzioni citate non siano seguite universalmente è
 413 una buona idea tenerle presenti ed adottarle a seconda dei casi.
 414
 415 Si tenga presente inoltre che non è una buona idea usare eventuali codici di
 416 errore restituiti nella variabile \var{errno} (vedi sez.~\ref{sec:sys_errors})
 417 come \textit{exit status}. In generale infatti non ci si cura del valore dello
 418 stato di uscita di un processo se non per vedere se è diverso da zero, come
 419 indicazione di un qualche errore.  Dato che viene troncato ad 8 bit utilizzare
 420 un intero di valore generico può comportare il rischio, qualora si vada ad
 421 usare un multiplo di 256, di avere uno stato di uscita uguale a zero, che
 422 verrebbe interpretato come un successo.
 423
 424 Per questo motivo in \file{stdlib.h} sono definite, seguendo lo standard
 425 POSIX, le due costanti \const{EXIT\_SUCCESS} e \const{EXIT\_FAILURE}, da usare
 426 sempre per specificare lo stato di uscita di un processo. Su Linux, ed in
 427 generale in qualunque sistema POSIX, ad esse sono assegnati rispettivamente i
 428 valori 0 e 1.
 429
 430 \itindend{exit~status}
 431
 432 Una forma alternativa per effettuare una terminazione esplicita di un
 433 programma è quella di chiamare direttamente la \textit{system call}
 434 \func{\_exit}, che restituisce il controllo direttamente al kernel,
 435 concludendo immediatamente il processo, il suo prototipo è:
 436
 437 \begin{funcproto}{ \fhead{unistd.h} \fdecl{void \_exit(int status)}
 438     \fdesc{Causa la conclusione immediata del programma.}  } {La funzione non
 439     ritorna, il processo viene terminato.}
 440 \end{funcproto}
 441
 442 La funzione termina immediatamente il processo e le eventuali funzioni
 443 registrate con \func{atexit} e \func{on\_exit} non vengono eseguite. La
 444 funzione chiude tutti i file descriptor appartenenti al processo, cosa che
 445 però non comporta il salvataggio dei dati eventualmente presenti nei buffer
 446 degli stream, (torneremo sulle due interfacce dei file a partire da
 447 cap.~\ref{cha:file_intro}). Infine fa sì che ogni figlio del processo sia
 448 adottato da \cmd{init} (vedi cap.~\ref{cha:process_handling}), manda un
 449 segnale \signal{SIGCHLD} al processo padre (vedi
 450 sez.~\ref{sec:sig_job_control}) e ritorna lo stato di uscita specificato
 451 in \param{status} che può essere raccolto usando la funzione \func{wait} (vedi
 452 sez.~\ref{sec:proc_wait}).
 453
 454 Si tenga presente infine che oltre alla conclusione ``\textsl{normale}''
 455 appena illustrata esiste anche la possibilità di una conclusione
 456 ``\textsl{anomala}'' del programma a causa della ricezione di un segnale
 457 (tratteremo i segnali in cap.~\ref{cha:signals}) o della chiamata alla
 458 funzione \func{abort}; torneremo su questo in sez.~\ref{sec:proc_termination}.
 459
 460
 461 \subsection{Esecuzione di funzioni preliminari all'uscita}
 462 \label{sec:proc_atexit}
 463
 464 Un'esigenza comune che si incontra è quella di dover effettuare una serie di
 465 operazioni di pulizia (ad esempio salvare dei dati, ripristinare delle
 466 impostazioni, eliminare dei file temporanei, ecc.) prima della conclusione di
 467 un programma. In genere queste operazioni vengono fatte in un'apposita sezione
 468 del programma, ma quando si realizza una libreria diventa antipatico dover
 469 richiedere una chiamata esplicita ad una funzione di pulizia al programmatore
 470 che la utilizza.
 471
 472 È invece molto meno soggetto ad errori, e completamente trasparente
 473 all'utente, avere la possibilità di fare effettuare automaticamente la
 474 chiamata ad una funzione che effettui tali operazioni all'uscita dal
 475 programma. A questo scopo lo standard ANSI C prevede la possibilità di
 476 registrare un certo numero di funzioni che verranno eseguite all'uscita dal
 477 programma,\footnote{nel caso di \func{atexit} lo standard POSIX.1-2001
 478   richiede che siano registrabili almeno \const{ATEXIT\_MAX} funzioni (il
 479   valore può essere ottenuto con \func{sysconf}, vedi
 480   sez.~\ref{sec:sys_sysconf}).} sia per la chiamata ad \func{exit} che per il
 481 ritorno di \func{main}. La prima funzione che si può utilizzare a tal fine è
 482 \funcd{atexit}, il cui prototipo è:
 483
 484 \begin{funcproto}{ \fhead{stdlib.h} \fdecl{void (*function)(void)}
 485     \fdesc{Registra la funzione \param{function} per la chiamata all'uscita
 486       dal programma.}  } {La funzione restituisce $0$ in caso di successo e
 487     $-1$ in caso di fallimento, \var{errno} non viene modificata.}
 488 \end{funcproto}
 489
 490 La funzione richiede come argomento \param{function} l'indirizzo di una
 491 opportuna funzione di pulizia da chiamare all'uscita del programma, che non
 492 deve prendere argomenti e non deve ritornare niente. In sostanza deve la
 493 funzione di pulizia dovrà essere definita come \code{void function(void)}.
 494
 495 Un'estensione di \func{atexit} è la funzione \funcd{on\_exit}, che le
 496 \acr{glibc} includono per compatibilità con SunOS ma che non è detto sia
 497 definita su altri sistemi,\footnote{non essendo prevista dallo standard POSIX
 498   è in genere preferibile evitarne l'uso.} il suo prototipo è:
 499
 500 \begin{funcproto}{
 501 \fhead{stdlib.h}
 502 \fdecl{void (*function)(int , void *), void *arg)}
 503 \fdesc{Registra la funzione \param{function} per la chiamata all'uscita dal
 504   programma.} }{La funzione restituisce $0$ in caso di successo e $-1$ in caso
 505 di fallimento, \var{errno} non viene modificata.}
 506 \end{funcproto}
 507
 508 In questo caso la funzione da chiamare all'uscita prende i due argomenti
 509 specificati nel prototipo, un intero ed un puntatore; dovrà cioè essere
 510 definita come \code{void function(int status, void *argp)}. Il primo argomento
 511 sarà inizializzato allo stato di uscita con cui è stata chiamata \func{exit}
 512 ed il secondo al puntatore \param{arg} passato come secondo argomento di
 513 \func{on\_exit}.  Così diventa possibile passare dei dati alla funzione di
 514 chiusura.
 515
 516 Nella sequenza di chiusura tutte le funzioni registrate verranno chiamate in
 517 ordine inverso rispetto a quello di registrazione, ed una stessa funzione
 518 registrata più volte sarà chiamata più volte. Siccome entrambe le funzioni
 519 \func{atexit} e \func{on\_exit} fanno riferimento alla stessa lista, l'ordine
 520 di esecuzione sarà riferito alla registrazione in quanto tale,
 521 indipendentemente dalla funzione usata per farla.
 522
 523 Una volta completata l'esecuzione di tutte le funzioni registrate verranno
 524 chiusi tutti gli stream aperti ed infine verrà chiamata \func{\_exit} per la
 525 terminazione del programma. Questa è la sequenza ordinaria, eseguita a meno
 526 che una delle funzioni registrate non esegua al suo interno \func{\_exit}, nel
 527 qual caso la terminazione del programma sarà immediata ed anche le successive
 528 funzioni registrate non saranno invocate.
 529
 530 Se invece all'interno di una delle funzioni registrate si chiama un'altra
 531 volta \func{exit} lo standard POSIX.1-2001 prescrive un comportamento
 532 indefinito, con la possibilità (che su Linux comunque non c'è) di una
 533 ripetizione infinita. Pertanto questa eventualità è da evitare nel modo più
 534 assoluto. Una altro comportamento indefinito si può avere se si termina
 535 l'esecuzione di una delle funzioni registrate con \func{longjmp} (vedi
 536 sez.~\ref{sec:proc_longjmp}).
 537
 538 Si tenga presente infine che in caso di terminazione anomala di un processo
 539 (ad esempio a causa di un segnale) nessuna delle funzioni registrate verrà
 540 eseguita e che se invece si crea un nuovo processo con \func{fork} (vedi
 541 sez.~\ref{sec:proc_fork}) questo manterrà tutte le funzioni già registrate.
 542
 543
 544 \subsection{Un riepilogo}
 545 \label{sec:proc_term_conclusion}
 546
 547 Data l'importanza dell'argomento è opportuno un piccolo riepilogo dei fatti
 548 essenziali relativi alla esecuzione di un programma. Il primo punto da
 549 sottolineare è che in un sistema unix-like l'unico modo in cui un programma
 550 può essere eseguito dal kernel è attraverso la chiamata alla \textit{system
 551   call} \func{execve}, sia direttamente che attraverso una delle funzioni
 552 della famiglia \func{exec} che ne semplificano l'uso (vedi
 553 sez.~\ref{sec:proc_exec}).
 554
 555 Allo stesso modo l'unico modo in cui un programma può concludere
 556 volontariamente la propria esecuzione è attraverso una chiamata alla
 557 \textit{system call} \func{\_exit}, sia che questa venga fatta esplicitamente,
 558 o in maniera indiretta attraverso l'uso di \func{exit} o il ritorno di
 559 \func{main}.
 560
 561 Uno schema riassuntivo che illustra le modalità con cui si avvia e conclude
 562 normalmente un programma è riportato in fig.~\ref{fig:proc_prog_start_stop}.
 563
 564 \begin{figure}[htb]
 565   \centering
 566 %  \includegraphics[width=9cm]{img/proc_beginend}
 567   \begin{tikzpicture}[>=stealth]
 568     \filldraw[fill=black!35] (-0.3,0) rectangle (12,1);
 569     \draw(5.5,0.5) node {\large{kernel}};
 570
 571     \filldraw[fill=black!15] (1.5,2) rectangle (4,3);
 572     \draw (2.75,2.5) node {\texttt{ld-linux.so}};
 573     \draw [->] (2.75,1) -- (2.75,2);
 574     \draw (2.75,1.5) node [anchor=west]{\texttt{execve}};
 575
 576     \filldraw[fill=black!15,rounded corners] (1.5,4) rectangle (4,5);
 577     \draw (2.75,4.5) node {\texttt{main}};
 578
 579     \draw [<->, dashed] (2.75,3) -- (2.75,4);
 580     \draw [->] (1.5,4.5) -- (0.3,4.5) -- (0.3,1);
 581     \draw (0.9,4.5) node [anchor=south] {\texttt{\_exit}};
 582
 583     \filldraw[fill=black!15,rounded corners] (1.5,6) rectangle (4,7);
 584     \draw (2.75,6.5) node {\texttt{funzione}};
 585
 586     \draw [<->, dashed] (2.75,5) -- (2.75,6);
 587     \draw [->] (1.5,6.5) -- (0.05,6.5) -- (0.05,1);
 588     \draw (0.9,6.5) node [anchor=south] {\texttt{\_exit}};
 589
 590     \draw (6.75,4.5) node (exit) [rectangle,fill=black!15,minimum width=2.5cm,minimum height=1cm,rounded corners, draw]{\texttt{exit}};
 591
 592     \draw[->] (4,6.5) -- node[anchor=south west]{\texttt{exit}} (exit);
 593     \draw[->] (4,4.5) -- node[anchor=south]{\texttt{exit}} (exit);
 594     \draw[->] (exit) -- node[anchor=east]{\texttt{\_exit}}(6.75,1);
 595
 596     \draw (10,4.5) node (exithandler1) [rectangle,fill=black!15,rounded corners, draw]{exit handler};
 597     \draw (10,5.5) node (exithandler2) [rectangle,fill=black!15,rounded corners, draw]{exit handler};
 598     \draw (10,3.5) node (stream) [rectangle,fill=black!15,rounded corners, draw]{chiusura stream};
 599
 600     \draw[<->, dashed] (exithandler1) -- (exit);
 601     \draw[<->, dashed] (exithandler2) -- (exit);
 602     \draw[<->, dashed] (stream) -- (exit);
 603   \end{tikzpicture}
 604   \caption{Schema dell'avvio e della conclusione di un programma.}
 605   \label{fig:proc_prog_start_stop}
 606 \end{figure}
 607
 608 Si ricordi infine che un programma può anche essere interrotto dall'esterno
 609 attraverso l'uso di un segnale (modalità di conclusione non mostrata in
 610 fig.~\ref{fig:proc_prog_start_stop}); tratteremo nei dettagli i segnali e la
 611 loro gestione nel capitolo \ref{cha:signals}.
 612
 613
 614
 615 \section{I processi e l'uso della memoria}
 616 \label{sec:proc_memory}
 617
 618 Una delle risorse più importanti che ciascun processo ha a disposizione è la
 619 memoria, e la gestione della memoria è appunto uno degli aspetti più complessi
 620 di un sistema unix-like. In questa sezione, dopo una breve introduzione ai
 621 concetti di base, esamineremo come la memoria viene vista da parte di un
 622 programma in esecuzione, e le varie funzioni utilizzabili per la sua gestione.
 623
 624
 625 \subsection{I concetti generali}
 626 \label{sec:proc_mem_gen}
 627
 628 Ci sono vari modi in cui i sistemi operativi organizzano la memoria, ed i
 629 dettagli di basso livello dipendono spesso in maniera diretta
 630 dall'architettura dell'hardware, ma quello più tipico, usato dai sistemi
 631 unix-like come Linux è la cosiddetta \index{memoria~virtuale} \textsl{memoria
 632   virtuale} che consiste nell'assegnare ad ogni processo uno spazio virtuale
 633 di indirizzamento lineare, in cui gli indirizzi vanno da zero ad un qualche
 634 valore massimo.\footnote{nel caso di Linux fino al kernel 2.2 detto massimo
 635   era, per macchine a 32bit, di 2Gb. Con il kernel 2.4 ed il supporto per la
 636   \textit{high-memory} il limite è stato esteso anche per macchine a 32 bit.}
 637
 638
 639 Come accennato nel cap.~\ref{cha:intro_unix} questo spazio di indirizzi è
 640 virtuale e non corrisponde all'effettiva posizione dei dati nella RAM del
 641 computer. In generale detto spazio non è neppure continuo, cioè non tutti gli
 642 indirizzi possibili sono utilizzabili, e quelli usabili non sono
 643 necessariamente adiacenti.
 644
 645 Per la gestione da parte del kernel la memoria viene divisa in pagine di
 646 dimensione fissa. Inizialmente queste pagine erano di 4kb sulle macchine a 32
 647 bit e di 8kb sulle alpha. Con le versioni più recenti del kernel è possibile
 648 anche utilizzare pagine di dimensioni maggiori (di 4Mb, dette \textit{huge
 649   page}), per sistemi con grandi quantitativi di memoria in cui l'uso di
 650 pagine troppo piccole comporta una perdita di prestazioni. In alcuni sistemi
 651 la costante \const{PAGE\_SIZE}, definita in \file{limits.h}, indica la
 652 dimensione di una pagina in byte, con Linux questo non avviene e per ottenere
 653 questa dimensione si deve ricorrere alla funzione \func{getpagesize} (vedi
 654 sez.~\ref{sec:sys_memory_res}).
 655
 656 Ciascuna pagina di memoria nello spazio di indirizzi virtuale è associata ad
 657 un supporto che può essere una pagina di memoria reale o ad un dispositivo di
 658 stoccaggio secondario (come lo spazio disco riservato alla \textit{swap}, o i
 659 file che contengono il codice). Per ciascun processo il kernel si cura di
 660 mantenere un mappa di queste corrispondenze nella cosiddetta
 661 \itindex{page~table} \textit{page table}.\footnote{questa è una
 662   semplificazione brutale, il meccanismo è molto più complesso; una buona
 663   trattazione di come Linux gestisce la memoria virtuale si trova su
 664   \cite{LinVM}.}
 665
 666 Una stessa pagina di memoria reale può fare da supporto a diverse pagine di
 667 memoria virtuale appartenenti a processi diversi, come accade in genere per le
 668 pagine che contengono il codice delle librerie condivise. Ad esempio il codice
 669 della funzione \func{printf} starà su una sola pagina di memoria reale che
 670 farà da supporto a tutte le pagine di memoria virtuale di tutti i processi che
 671 hanno detta funzione nel loro codice.
 672
 673 La corrispondenza fra le pagine della \index{memoria~virtuale} memoria
 674 virtuale di un processo e quelle della memoria fisica della macchina viene
 675 gestita in maniera trasparente dal kernel.\footnote{in genere con l'ausilio
 676   dell'hardware di gestione della memoria (la \textit{Memory Management Unit}
 677   del processore), con i kernel della serie 2.6 è comunque diventato possibile
 678   utilizzare Linux anche su architetture che non dispongono di una MMU.}
 679 Poiché in genere la memoria fisica è solo una piccola frazione della memoria
 680 virtuale, è necessario un meccanismo che permetta di trasferire le pagine che
 681 servono dal supporto su cui si trovano in memoria, eliminando quelle che non
 682 servono.  Questo meccanismo è detto \index{paginazione} \textsl{paginazione}
 683 (o \textit{paging}), ed è uno dei compiti principali del kernel.
 684
 685 Quando un processo cerca di accedere ad una pagina che non è nella memoria
 686 reale, avviene quello che viene chiamato un \itindex{page~fault} \textit{page
 687   fault}; la gestione della memoria genera un'interruzione e passa il
 688 controllo al kernel il quale sospende il processo e si incarica di mettere in
 689 RAM la pagina richiesta, effettuando tutte le operazioni necessarie per
 690 reperire lo spazio necessario, per poi restituire il controllo al processo.
 691
 692 Dal punto di vista di un processo questo meccanismo è completamente
 693 trasparente, e tutto avviene come se tutte le pagine fossero sempre
 694 disponibili in memoria.  L'unica differenza avvertibile è quella dei tempi di
 695 esecuzione, che passano dai pochi nanosecondi necessari per l'accesso in RAM
 696 se la pagina è direttamente disponibile, a tempi estremamente più lunghi,
 697 dovuti all'intervento del kernel, qualora sia necessario reperire pagine
 698 riposte nella \textit{swap}.
 699
 700 Normalmente questo è il prezzo da pagare per avere un multitasking reale, ed
 701 in genere il sistema è molto efficiente in questo lavoro; quando però ci siano
 702 esigenze specifiche di prestazioni è possibile usare delle funzioni che
 703 permettono di bloccare il meccanismo della \index{paginazione} paginazione e
 704 mantenere fisse delle pagine in memoria (vedi sez.~\ref{sec:proc_mem_lock}).
 705
 706
 707 \subsection{La struttura della memoria di un processo}
 708 \label{sec:proc_mem_layout}
 709
 710 Benché lo spazio di indirizzi virtuali copra un intervallo molto ampio, solo
 711 una parte di essi è effettivamente allocato ed utilizzabile dal processo; il
 712 tentativo di accedere ad un indirizzo non allocato è un tipico errore che si
 713 commette quando si è manipolato male un puntatore e genera quella che viene
 714 chiamata una \itindex{segment~violation} \textit{segment violation}. Se si
 715 tenta cioè di leggere o scrivere con un indirizzo per il quale non esiste
 716 un'associazione nella memoria virtuale, il kernel risponde al relativo
 717 \itindex{page~fault} \textit{page fault} mandando un segnale \signal{SIGSEGV}
 718 al processo, che normalmente ne causa la terminazione immediata.
 719
 720 È pertanto importante capire come viene strutturata \index{memoria~virtuale}
 721 la memoria virtuale di un processo. Essa viene divisa in \textsl{segmenti},
 722 cioè un insieme contiguo di indirizzi virtuali ai quali il processo può
 723 accedere.  Solitamente un programma C viene suddiviso nei seguenti segmenti:
 724 \begin{enumerate*}
 725 \item Il \index{segmento!testo} segmento di testo o \textit{text segment}.
 726   Contiene il codice del programma, delle funzioni di librerie da esso
 727   utilizzate, e le costanti.  Normalmente viene condiviso fra tutti i processi
 728   che eseguono lo stesso programma e nel caso delle librerie anche da processi
 729   che eseguono altri programmi.
 730
 731   Quando l'architettura hardware lo supporta viene marcato in sola lettura per
 732   evitare sovrascritture accidentali (o maliziose) che ne modifichino le
 733   istruzioni.  Viene allocato da \func{execve} all'avvio del programma e resta
 734   invariato per tutto il tempo dell'esecuzione.
 735
 736 \item Il \index{segmento!dati} segmento dei dati o \textit{data
 737     segment}. Contiene tutti i dati del programma, come le
 738   \index{variabili!globali} variabili globali, cioè quelle definite al di
 739   fuori di tutte le funzioni che compongono il programma, e le
 740   \index{variabili!statiche} variabili statiche, cioè quelle dichiarate con
 741   l'attributo \direct{static},\footnote{la direttiva \direct{static} indica al
 742     compilatore C che una variabile così dichiarata all'interno di una
 743     funzione deve essere mantenuta staticamente in memoria (nel
 744     \index{segmento!dati} segmento dati appunto); questo significa che la
 745     variabile verrà inizializzata una sola volta alla prima invocazione della
 746     funzione e che il suo valore sarà mantenuto fra diverse esecuzioni della
 747     funzione stessa, la differenza con una \index{variabili!globali} variabile
 748     globale è che essa può essere vista solo all'interno della funzione in cui
 749     è dichiarata.} e la memoria allocata dinamicamente. Di norma è diviso in
 750   tre parti:
 751
 752   \begin{itemize*}
 753   \item Il segmento dei dati inizializzati, che contiene le variabili il cui
 754     valore è stato assegnato esplicitamente. Ad esempio se si definisce:
 755     \includecodesnip{listati/pi.c}
 756     questo valore sarà immagazzinato in questo segmento. La memoria di questo
 757     segmento viene preallocata all'avvio del programma e inizializzata ai valori
 758     specificati.
 759   \item Il segmento dei dati non inizializzati, che contiene le variabili il
 760     cui valore non è stato assegnato esplicitamente. Ad esempio se si
 761     definisce:
 762     \includecodesnip{listati/vect.c}
 763     questo vettore sarà immagazzinato in questo segmento. Anch'esso viene
 764     allocato all'avvio, e tutte le variabili vengono inizializzate a zero (ed
 765     i puntatori a \val{NULL}).\footnote{si ricordi che questo vale solo per le
 766       variabili che vanno nel \index{segmento!dati} segmento dati, e non è
 767       affatto vero in generale.}  Storicamente questa seconda parte del
 768     \index{segmento!dati} segmento dati viene chiamata BSS (da \textit{Block
 769       Started by Symbol}). La sua dimensione è fissa.
 770   \item Lo \itindex{heap} \textit{heap}, detto anche \textit{free
 771       store}. Tecnicamente lo si può considerare l'estensione del segmento dei
 772     dati non inizializzati, a cui di solito è posto giusto di seguito. Questo
 773     è il segmento che viene utilizzato per l'allocazione dinamica della
 774     memoria.  Lo \textit{heap} può essere ridimensionato allargandolo e
 775     restringendolo per allocare e disallocare la memoria dinamica con le
 776     apposite funzioni (vedi sez.~\ref{sec:proc_mem_alloc}), ma il suo limite
 777     inferiore, quello adiacente al segmento dei dati non inizializzati, ha una
 778     posizione fissa.
 779   \end{itemize*}
 780
 781 \item Il segmento di \itindex{stack} \textit{stack}, che contiene quello che
 782   viene chiamato \textit{stack} del programma.  Tutte le volte che si effettua
 783   una chiamata ad una funzione è qui che viene salvato l'indirizzo di ritorno
 784   e le informazioni dello stato del chiamante (come il contenuto di alcuni
 785   registri della CPU), poi la funzione chiamata alloca qui lo spazio per le
 786   sue variabili locali. Tutti questi dati vengono \textit{impilati} (da questo
 787   viene il nome \itindex{stack} \textit{stack}) in sequenza uno sull'altro; in
 788   questo modo le funzioni possono essere chiamate ricorsivamente. Al ritorno
 789   della funzione lo spazio è automaticamente rilasciato e
 790   ``\textsl{ripulito}''.\footnote{il compilatore si incarica di generare
 791     automaticamente il codice necessario, seguendo quella che viene chiamata
 792     una \textit{calling convention}; quella standard usata con il C ed il C++
 793     è detta \textit{cdecl} e prevede che gli argomenti siano caricati nello
 794     \textit{stack} dal chiamante da destra a sinistra, e che sia il chiamante
 795     stesso ad eseguire la ripulitura dello \textit{stack} al ritorno della
 796     funzione, se ne possono però utilizzare di alternative (ad esempio nel
 797     Pascal gli argomenti sono inseriti da sinistra a destra ed è compito del
 798     chiamato ripulire lo \textit{stack}), in genere non ci si deve preoccupare
 799     di questo fintanto che non si mescolano funzioni scritte con linguaggi
 800     diversi.}
 801
 802   La dimensione di questo segmento aumenta seguendo la crescita dello
 803   \itindex{stack} \textit{stack} del programma, ma non viene ridotta quando
 804   quest'ultimo si restringe.
 805 \end{enumerate*}
 806
 807 \begin{figure}[htb]
 808   \centering
 809 %  \includegraphics[height=12cm]{img/memory_layout}
 810   \begin{tikzpicture}
 811   \draw (0,0) rectangle (4,1);
 812   \draw (2,0.5) node {\textit{text}};
 813   \draw (0,1) rectangle (4,2.5);
 814   \draw (2,1.75) node {dati inizializzati};
 815   \draw (0,2.5) rectangle (4,5);
 816   \draw (2,3.75) node {dati non inizializzati};
 817   \draw (0,5) rectangle (4,9);
 818   \draw[dashed] (0,6) -- (4,6);
 819   \draw[dashed] (0,8) -- (4,8);
 820   \draw (2,5.5) node {\textit{heap}};
 821   \draw (2,8.5) node {\textit{stack}};
 822   \draw [->] (2,6) -- (2,6.5);
 823   \draw [->] (2,8) -- (2,7.5);
 824   \draw (0,9) rectangle (4,10);
 825   \draw (2,9.5) node {\textit{environment}};
 826   \draw (4,0) node [anchor=west] {\texttt{0x08000000}};
 827   \draw (4,5) node [anchor=west] {\texttt{0x08xxxxxx}};
 828   \draw (4,9) node [anchor=west] {\texttt{0xC0000000}};
 829   \end{tikzpicture}
 830   \caption{Disposizione tipica dei segmenti di memoria di un processo.}
 831   \label{fig:proc_mem_layout}
 832 \end{figure}
 833
 834 Una disposizione tipica dei vari segmenti (testo, dati inizializzati e non
 835 inizializzati, \itindex{heap} \textit{heap}, \itindex{stack} \textit{stack},
 836 ecc.) è riportata in fig.~\ref{fig:proc_mem_layout}. Si noti come in figura
 837 sia indicata una ulteriore regione, marcata \textit{environment}, che è quella
 838 che contiene i dati relativi alle variabili di ambiente passate al programma
 839 al suo avvio (torneremo su questo argomento in sez.~\ref{sec:proc_environ}).
 840
 841 Usando il comando \cmd{size} su un programma se ne può stampare le dimensioni
 842 dei \index{segmento!testo} segmenti di testo e \index{segmento!dati} di dati
 843 (solo però per i dati inizializzati ed il BSS, dato che lo \itindex{heap}
 844 \textit{heap} ha una dimensione dinamica). Si tenga presente comunque che il
 845 BSS, contrariamente al segmento dei dati inizializzati, non è mai salvato sul
 846 file che contiene l'eseguibile, dato che viene sempre inizializzato a zero al
 847 caricamento del programma.
 848
 849
 850 \subsection{Allocazione della memoria per i programmi C}
 851 \label{sec:proc_mem_alloc}
 852
 853 Il C supporta direttamente, come linguaggio di programmazione, soltanto due
 854 modalità di allocazione della memoria: l'\textsl{allocazione statica} e
 855 l'\textsl{allocazione automatica}.
 856
 857 L'\textsl{allocazione statica} è quella con cui sono memorizzate le
 858 \index{variabili!globali} variabili globali e le \index{variabili!statiche}
 859 variabili statiche, cioè le variabili il cui valore deve essere mantenuto per
 860 tutta la durata del programma. Come accennato queste variabili vengono
 861 allocate nel \index{segmento!dati} segmento dei dati all'avvio del programma
 862 come parte delle operazioni svolte da \func{exec}, e lo spazio da loro
 863 occupato non viene liberato fino alla sua conclusione.
 864
 865 L'\textsl{allocazione automatica} è quella che avviene per gli argomenti di
 866 una funzione e per le sue variabili locali, quelle che vengono definite
 867 all'interno della funzione che esistono solo per la durata della sua esecuzione
 868 e che per questo vengono anche dette \index{variabili!automatiche}
 869 \textsl{variabili automatiche}.  Lo spazio per queste variabili viene allocato
 870 nello \itindex{stack} \textit{stack} quando viene eseguita la funzione e
 871 liberato quando si esce dalla medesima.
 872
 873 Esiste però un terzo tipo di allocazione, l'\textsl{allocazione dinamica}
 874 della memoria, che non è prevista direttamente all'interno del linguaggio C,
 875 ma che è necessaria quando il quantitativo di memoria che serve è
 876 determinabile solo durante il corso dell'esecuzione del programma. Il C non
 877 consente di usare variabili allocate dinamicamente, non è possibile cioè
 878 definire in fase di programmazione una variabile le cui dimensioni possano
 879 essere modificate durante l'esecuzione del programma. Per questo la libreria
 880 standard del C fornisce una opportuna serie di funzioni per eseguire
 881 l'allocazione dinamica di memoria, che come accennato avviene nello
 882 \itindex{heap} \textit{heap}.
 883
 884 Le variabili il cui contenuto è allocato in questo modo non potranno essere
 885 usate direttamente come le altre (quelle nello \itindex{stack}
 886 \textit{stack}), ma l'accesso sarà possibile solo in maniera indiretta,
 887 attraverso i puntatori alla memoria loro riservata che si sono ottenuti dalle
 888 funzioni di allocazione.
 889
 890 Le funzioni previste dallo standard ANSI C per la gestione della memoria sono
 891 quattro: \func{malloc}, \func{calloc}, \func{realloc} e \func{free}. Le prime
 892 due, \funcd{malloc} e \funcd{calloc} allocano nuovo spazio di memoria; i
 893 rispettivi prototipi sono:
 894
 895 \begin{funcproto}{
 896 \fhead{stdlib.h}
 897 \fdecl{void *calloc(size\_t nmemb, size\_t size)}
 898 \fdesc{Alloca un'area di memoria inizializzata a 0.}
 899 \fdecl{void *malloc(size\_t size)}
 900 \fdesc{Alloca un'area di memoria non inizializzata.}
 901 }
 902 {Entrambe le funzioni restituiscono il puntatore alla zona di memoria allocata
 903 in caso di successo e \val{NULL} in caso di fallimento, nel qual caso
 904   \var{errno} assumerà il valore \errval{ENOMEM}.}
 905 \end{funcproto}
 906
 907 In genere si usano \func{malloc} e \func{calloc} per allocare dinamicamente
 908 un'area di memoria.\footnote{queste funzioni presentano un comportamento
 909   diverso fra le \acr{glibc} e le \acr{uClib} quando il valore di \param{size}
 910   è nullo.  Nel primo caso viene comunque restituito un puntatore valido,
 911   anche se non è chiaro a cosa esso possa fare riferimento, nel secondo caso
 912   viene restituito \val{NULL}. Il comportamento è analogo con
 913   \code{realloc(NULL, 0)}.}  Dato che i puntatori ritornati sono di tipo
 914 generico non è necessario effettuare un cast per assegnarli a puntatori al
 915 tipo di variabile per la quale si effettua l'allocazione, inoltre le funzioni
 916 garantiscono che i puntatori siano allineati correttamente per tutti i tipi di
 917 dati; ad esempio sulle macchine a 32 bit in genere sono allineati a multipli
 918 di 4 byte e sulle macchine a 64 bit a multipli di 8 byte.
 919
 920 Nel caso di \func{calloc} l'area di memoria viene allocata nello \textit{heap}
 921 come un vettore di \param{nmemb} membri di \param{size} byte di dimensione, e
 922 preventivamente inizializzata a zero, nel caso di \func{malloc} invece vengono
 923 semplicemente allocati \param{size} byte e l'area di memoria non viene
 924 inizializzata.
 925
 926 Una volta che non sia più necessaria la memoria allocata dinamicamente deve
 927 essere esplicitamente rilasciata usando la funzione \func{free},\footnote{le
 928   glibc provvedono anche una funzione \func{cfree} definita per compatibilità
 929   con SunOS, che è deprecata.} il suo prototipo è:
 930
 931 \begin{funcproto}{
 932 \fhead{stdlib.h}
 933 \fdecl{void free(void *ptr)}
 934 \fdesc{Disalloca un'area di memoria precedentemente allocata.}
 935 }
 936 {La funzione non ritorna nulla e non riporta errori.}
 937 \end{funcproto}
 938
 939 Questa funzione vuole come argomento \var{ptr} il puntatore restituito da una
 940 precedente chiamata ad una qualunque delle funzioni di allocazione che non sia
 941 già stato liberato da un'altra chiamata a \func{free}. Se il valore
 942 di \param{ptr} è \val{NULL} la funzione non fa niente, mentre se l'area di
 943 memoria era già stata liberata da un precedente chiamata il comportamento
 944 della funzione è dichiarato indefinito, ma in genere comporta la corruzione
 945 dei dati di gestione dell'allocazione, che può dar luogo a problemi gravi, ad
 946 esempio un \textit{segmentation fault} in una successiva chiamata di una di
 947 queste funzioni.
 948
 949 Dato che questo errore, chiamato in gergo \itindex{double~free} \textit{double
 950   free}, è abbastanza frequente, specie quando si manipolano vettori di
 951 puntatori, e dato che le conseguenze possono essere pesanti ed inaspettate, si
 952 suggerisce come soluzione precauzionale di assegnare sempre a \val{NULL} ogni
 953 puntatore su cui sia stata eseguita \func{free} immediatamente dopo
 954 l'esecuzione della funzione. In questo modo, dato che con un puntatore nullo
 955 \func{free} non esegue nessuna operazione, si evitano i problemi del
 956 \itindex{double~free} \textit{double free}.
 957
 958 Infine la funzione \funcd{realloc} consente di modificare, in genere di
 959 aumentare, la dimensione di un'area di memoria precedentemente allocata; il
 960 suo prototipo è:
 961
 962 \begin{funcproto}{
 963 \fhead{stdlib.h}
 964 \fdecl{void *realloc(void *ptr, size\_t size)}
 965 \fdesc{Cambia la dimensione di un'area di memoria precedentemente allocata.}
 966 }  {La funzione restituisce il puntatore alla zona di memoria allocata in caso
 967   di successo e \val{NULL} in caso di fallimento, nel qual caso \var{errno}
 968   assumerà il valore \errval{ENOMEM}.}
 969 \end{funcproto}
 970
 971 La funzione vuole come primo argomento il puntatore restituito da una
 972 precedente chiamata a \func{malloc} o \func{calloc} e come secondo argomento
 973 la nuova dimensione (in byte) che si intende ottenere. Se si passa
 974 per \param{ptr} il valore \val{NULL} allora la funzione si comporta come
 975 \func{malloc}.\footnote{questo è vero per Linux e l'implementazione secondo lo
 976   standard ANSI C, ma non è vero per alcune vecchie implementazioni, inoltre
 977   alcune versioni delle librerie del C consentivano di usare \func{realloc}
 978   anche per un puntatore liberato con \func{free} purché non ci fossero state
 979   nel frattempo altre chiamate a funzioni di allocazione, questa funzionalità
 980   è totalmente deprecata e non è consentita sotto Linux.}
 981
 982 La funzione si usa ad esempio quando si deve far crescere la dimensione di un
 983 vettore. In questo caso se è disponibile dello spazio adiacente al precedente
 984 la funzione lo utilizza, altrimenti rialloca altrove un blocco della
 985 dimensione voluta, copiandoci automaticamente il contenuto; lo spazio aggiunto
 986 non viene inizializzato. Se la funzione fallisce l'area di memoria originale
 987 non viene assolutamente toccata.
 988
 989 Si deve sempre avere ben presente il fatto che il blocco di memoria restituito
 990 da \func{realloc} può non essere un'estensione di quello che gli si è passato
 991 in ingresso; per questo si dovrà \emph{sempre} eseguire la riassegnazione di
 992 \param{ptr} al valore di ritorno della funzione, e reinizializzare o provvedere
 993 ad un adeguato aggiornamento di tutti gli altri puntatori all'interno del
 994 blocco di dati ridimensionato.
 995
 996 La \acr{glibc} ha un'implementazione delle funzioni di allocazione che è
 997 controllabile dall'utente attraverso alcune variabili di ambiente (vedi
 998 sez.~\ref{sec:proc_environ}), in particolare diventa possibile tracciare
 999 questo tipo di errori usando la variabile di ambiente \val{MALLOC\_CHECK\_}
1000 che quando viene definita mette in uso una versione meno efficiente delle
1001 funzioni suddette, che però è più tollerante nei confronti di piccoli errori
1002 come quello dei \itindex{double~free} \textit{double~free} o i
1003 \itindex{buffer~overrun} \textit{buffer overrun} di un byte.\footnote{uno
1004   degli errori più comuni, causato ad esempio dalla scrittura di una stringa
1005   di dimensione pari a quella del buffer, in cui ci si dimentica dello zero di
1006   terminazione finale.}  In particolare:
1007 \begin{itemize*}
1008 \item se la variabile è posta a $0$ gli errori vengono ignorati;
1009 \item se la variabile è posta a $1$ viene stampato un avviso sullo
1010   \textit{standard error} (vedi sez.~\ref{sec:file_std_stream});
1011 \item se la variabile è posta a $2$ viene chiamata la funzione \func{abort}
1012   (vedi sez.~\ref{sec:sig_alarm_abort}), che in genere causa l'immediata
1013   terminazione del programma;
1014 \item se la variabile è posta a $3$ viene stampato l'avviso e chiamata
1015   \func{abort}.
1016 \end{itemize*}
1017
1018 L'errore di programmazione più comune e più difficile da risolvere che si
1019 incontra con le funzioni di allocazione è quando non viene opportunamente
1020 liberata la memoria non più utilizzata, quello che in inglese viene chiamato
1021 \itindex{memory~leak} \textit{memory leak}, cioè una \textsl{perdita di
1022   memoria}.
1023
1024 Un caso tipico che illustra il problema è quello in cui in una propria
1025 funzione si alloca della memoria per uso locale senza liberarla prima di
1026 uscire. La memoria resta così allocata fino alla terminazione del processo.
1027 Chiamate ripetute alla stessa funzione continueranno ad effettuare altre
1028 allocazioni, che si accumuleranno causando a lungo andare un esaurimento della
1029 memoria disponibile e la probabile impossibilità di proseguire l'esecuzione
1030 del programma.
1031
1032 Il problema è che l'esaurimento della memoria può avvenire in qualunque
1033 momento, in corrispondenza ad una qualunque chiamata di \func{malloc} che può
1034 essere in una sezione del codice che non ha alcuna relazione con la funzione
1035 che contiene l'errore. Per questo motivo è sempre molto difficile trovare un
1036 \itindex{memory~leak} \textit{memory leak}.
1037
1038 In C e C++ il problema è particolarmente sentito. In C++, per mezzo della
1039 programmazione ad oggetti, il problema dei \itindex{memory~leak}
1040 \textit{memory leak} si può notevolmente ridimensionare attraverso l'uso
1041 accurato di appositi oggetti come gli \textit{smartpointers}.  Questo però in
1042 genere va a scapito delle prestazioni dell'applicazione in esecuzione.
1043
1044 % TODO decidere cosa fare di questo che segue
1045 % In altri linguaggi come il java e recentemente il C\# il problema non si pone
1046 % nemmeno perché la gestione della memoria viene fatta totalmente in maniera
1047 % automatica, ovvero il programmatore non deve minimamente preoccuparsi di
1048 % liberare la memoria allocata precedentemente quando non serve più, poiché
1049 % l'infrastruttura del linguaggio gestisce automaticamente la cosiddetta
1050 % \index{\textit{garbage~collection}} \textit{garbage collection}. In tal caso,
1051 % attraverso meccanismi simili a quelli del \textit{reference counting}, quando
1052 % una zona di memoria precedentemente allocata non è più riferita da nessuna
1053 % parte del codice in esecuzione, può essere deallocata automaticamente in
1054 % qualunque momento dall'infrastruttura.
1055
1056 % Anche questo va a scapito delle prestazioni dell'applicazione in esecuzione
1057 % (inoltre le applicazioni sviluppate con tali linguaggi di solito non sono
1058 % eseguibili compilati, come avviene invece per il C ed il C++, ed è necessaria
1059 % la presenza di una infrastruttura per la loro interpretazione e pertanto hanno
1060 % di per sé delle prestazioni più scadenti rispetto alle stesse applicazioni
1061 % compilate direttamente).  Questo comporta però il problema della non
1062 % predicibilità del momento in cui viene deallocata la memoria precedentemente
1063 % allocata da un oggetto.
1064
1065 Per limitare l'impatto di questi problemi, e semplificare la ricerca di
1066 eventuali errori, l'implementazione delle funzioni di allocazione nella
1067 \acr{glibc} mette a disposizione una serie di funzionalità che permettono di
1068 tracciare le allocazioni e le disallocazioni, e definisce anche una serie di
1069 possibili \textit{hook} (\textsl{ganci}) che permettono di sostituire alle
1070 funzioni di libreria una propria versione (che può essere più o meno
1071 specializzata per il debugging). Esistono varie librerie che forniscono dei
1072 sostituti opportuni delle funzioni di allocazione in grado, senza neanche
1073 ricompilare il programma,\footnote{esempi sono \textit{Dmalloc}
1074   \href{http://dmalloc.com/}{\textsf{http://dmalloc.com/}} di Gray Watson ed
1075   \textit{Electric Fence} di Bruce Perens.} di eseguire diagnostiche anche
1076 molto complesse riguardo l'allocazione della memoria. Vedremo alcune delle
1077 funzionalità di ausilio presenti nella \acr{glibc} in
1078 sez.~\ref{sec:proc_memory_adv_management}.
1079
1080 Una possibile alternativa all'uso di \func{malloc}, per evitare di soffrire
1081 dei problemi di \itindex{memory~leak} \textit{memory leak} descritti in
1082 precedenza, è di allocare la memoria nel segmento di \itindex{stack}
1083 \textit{stack} della funzione corrente invece che nello \itindex{heap}
1084 \textit{heap}. Per farlo si può usare la funzione \funcd{alloca}, la cui
1085 sintassi è identica a quella di \func{malloc}; il suo prototipo è:
1086
1087 \begin{funcproto}{
1088 \fhead{stdlib.h}
1089 \fdecl{void *alloca(size\_t size)}
1090 \fdesc{Alloca un'area di memoria nello \textit{stack}.}
1091 }
1092 {La funzione restituisce il puntatore alla zona di memoria allocata, in caso
1093   di fallimento il comportamento è indefinito.}
1094 \end{funcproto}
1095
1096 La funzione alloca la quantità di memoria (non inizializzata) richiesta
1097 dall'argomento \param{size} nel segmento di \itindex{stack} \textit{stack}
1098 della funzione chiamante.  Con questa funzione non è più necessario liberare
1099 la memoria allocata, e quindi non esiste un analogo della \func{free}, in
1100 quanto essa viene rilasciata automaticamente al ritorno della funzione.
1101
1102 Come è evidente questa funzione ha alcuni vantaggi interessanti, anzitutto
1103 permette di evitare alla radice i problemi di \itindex{memory~leak}
1104 \textit{memory leak}, dato che non serve più la deallocazione esplicita;
1105 inoltre la deallocazione automatica funziona anche quando si usa
1106 \func{longjmp} per uscire da una subroutine con un salto non locale da una
1107 funzione (vedi sez.~\ref{sec:proc_longjmp}).  Un altro vantaggio è che in
1108 Linux la funzione è molto più veloce di \func{malloc} e non viene sprecato
1109 spazio, infatti non è necessario gestire un pool di memoria da riservare e si
1110 evitano così anche i problemi di frammentazione di quest'ultimo, che
1111 comportano inefficienze sia nell'allocazione della memoria che nell'esecuzione
1112 dell'allocazione.
1113
1114 Gli svantaggi sono che questa funzione non è disponibile su tutti gli Unix, e
1115 non è inserita né nello standard POSIX né in SUSv3 (ma è presente in BSD), il
1116 suo utilizzo quindi limita la portabilità dei programmi. Inoltre la funzione
1117 non può essere usata nella lista degli argomenti di una funzione, perché lo
1118 spazio verrebbe allocato nel mezzo degli stessi.  Inoltre non è chiaramente
1119 possibile usare \func{alloca} per allocare memoria che deve poi essere usata
1120 anche al di fuori della funzione in cui essa viene chiamata, dato che
1121 all'uscita dalla funzione lo spazio allocato diventerebbe libero, e potrebbe
1122 essere sovrascritto all'invocazione di nuove funzioni.  Questo è lo stesso
1123 problema che si può avere con le \index{variabili!automatiche} variabili
1124 automatiche, su cui torneremo in sez.~\ref{sec:proc_var_passing}.
1125
1126 Infine non esiste un modo di sapere se l'allocazione ha avuto successo, la
1127 funzione infatti viene realizzata inserendo del codice \textit{inline} nel
1128 programma\footnote{questo comporta anche il fatto che non è possibile
1129   sostituirla con una propria versione o modificarne il comportamento
1130   collegando il proprio programma con un'altra libreria.} che si limita a
1131 modificare il puntatore nello \itindex{stack} \textit{stack} e non c'è modo di
1132 sapere se se ne sono superate le dimensioni, per cui in caso di fallimento
1133 nell'allocazione il comportamento del programma può risultare indefinito,
1134 dando luogo ad una \itindex{segment~violation} \textit{segment violation} la
1135 prima volta che cercherà di accedere alla memoria non effettivamente
1136 disponibile.
1137
1138 Le due funzioni seguenti\footnote{le due funzioni sono state definite con BSD
1139   4.3, sono marcate obsolete in SUSv2 e non fanno parte delle librerie
1140   standard del C e mentre sono state esplicitamente rimosse dallo standard
1141   POSIX.1-2001.} vengono utilizzate soltanto quando è necessario effettuare
1142 direttamente la gestione della memoria associata allo spazio dati di un
1143 processo, per poterle utilizzare è necessario definire una della macro di
1144 funzionalità (vedi sez.~\ref{sec:intro_gcc_glibc_std}) fra
1145 \macro{\_BSD\_SOURCE}, \macro{\_SVID\_SOURCE} e \macro{\_XOPEN\_SOURCE} (ad un
1146 valore maggiore o uguale di 500). La prima funzione è \funcd{brk}, ed il suo
1147 prototipo è:
1148
1149 \begin{funcproto}{
1150 \fhead{unistd.h}
1151 \fdecl{int brk(void *addr)}
1152 \fdesc{Sposta la fine del segmento dati del processo.}
1153 }
1154 {La funzione restituisce 0 in caso di successo e $-1$ in caso di fallimento,
1155   nel qual caso \var{errno} assumerà il valore \errval{ENOMEM}.}
1156 \end{funcproto}
1157
1158 La funzione è un'interfaccia all'omonima \textit{system call} ed imposta
1159 l'indirizzo finale del \index{segmento!dati} segmento dati di un processo (più
1160 precisamente dello \itindex{heap} \textit{heap}) all'indirizzo specificato
1161 da \param{addr}. Quest'ultimo deve essere un valore ragionevole, e la
1162 dimensione totale non deve comunque eccedere un eventuale limite (vedi
1163 sez.~\ref{sec:sys_resource_limit}) imposto sulle dimensioni massime del
1164 \index{segmento!dati} segmento dati del processo.
1165
1166 Il valore di ritorno della funzione fa riferimento alla versione fornita dalla
1167 \acr{glibc}, in realtà in Linux la \textit{system call} corrispondente
1168 restituisce come valore di ritorno il nuovo valore della fine del
1169 \index{segmento!dati} segmento dati in caso di successo e quello corrente in
1170 caso di fallimento, è la funzione di interfaccia usata dalla \acr{glibc} che
1171 fornisce i valori di ritorno appena descritti; se si usano librerie diverse
1172 questo potrebbe non accadere.
1173
1174 Una seconda funzione per la manipolazione diretta delle dimensioni
1175 \index{segmento!dati} del segmento dati\footnote{in questo caso si tratta
1176   soltanto di una funzione di libreria, anche se basata sulla stessa
1177   \textit{system call}.} è \funcd{sbrk}, ed il suo prototipo è:
1178
1179 \begin{funcproto}{
1180 \fhead{unistd.h}
1181 \fdecl{void *sbrk(intptr\_t increment)}
1182 \fdesc{Incrementa la dimensione del segmento dati del processo.}
1183 }
1184 {La funzione restituisce il puntatore all'inizio della nuova zona di memoria
1185   allocata in caso di successo e \val{NULL} in caso di fallimento, nel qual
1186   caso \var{errno} assumerà il valore \errval{ENOMEM}.}
1187 \end{funcproto}
1188
1189 La funzione incrementa la dimensione dello \itindex{heap} \textit{heap} di un
1190 programma del valore indicato dall'argomento \param{increment}, restituendo il
1191 nuovo indirizzo finale dello stesso.  L'argomento è definito come di tipo
1192 \type{intptr\_t}, ma a seconda della versione delle librerie e del sistema può
1193 essere indicato con una serie di tipi equivalenti come \type{ptrdiff\_t},
1194 \type{ssize\_t}, \ctyp{int}. Se invocata con un valore nullo la funzone
1195 permette di ottenere l'attuale posizione della fine del \index{segmento!dati}
1196 segmento dati.
1197
1198 Queste due funzioni sono state deliberatamente escluse dallo standard POSIX.1
1199 dato che per i normali programmi è sempre opportuno usare le funzioni di
1200 allocazione standard descritte in precedenza, a meno di non voler realizzare
1201 per proprio conto un diverso meccanismo di gestione della memoria del segmento
1202 dati.
1203
1204
1205 \subsection{Il controllo della memoria virtuale}
1206 \label{sec:proc_mem_lock}
1207
1208 \index{memoria~virtuale|(}
1209
1210 Come spiegato in sez.~\ref{sec:proc_mem_gen} il kernel gestisce la memoria
1211 virtuale in maniera trasparente ai processi, decidendo quando rimuovere pagine
1212 dalla memoria per metterle nell'area di \textit{swap}, sulla base
1213 dell'utilizzo corrente da parte dei vari processi.
1214
1215 Nell'uso comune un processo non deve preoccuparsi di tutto ciò, in quanto il
1216 meccanismo della \index{paginazione} paginazione riporta in RAM, ed in maniera
1217 trasparente, tutte le pagine che gli occorrono; esistono però esigenze
1218 particolari in cui non si vuole che questo meccanismo si attivi. In generale i
1219 motivi per cui si possono avere di queste necessità sono due:
1220 \begin{itemize*}
1221 \item \textsl{La velocità}. Il processo della \index{paginazione} paginazione
1222   è trasparente solo se il programma in esecuzione non è sensibile al tempo
1223   che occorre a riportare la pagina in memoria; per questo motivo processi
1224   critici che hanno esigenze di tempo reale o tolleranze critiche nelle
1225   risposte (ad esempio processi che trattano campionamenti sonori) possono non
1226   essere in grado di sopportare le variazioni della velocità di accesso dovuta
1227   alla paginazione.
1228
1229   In certi casi poi un programmatore può conoscere meglio dell'algoritmo di
1230   allocazione delle pagine le esigenze specifiche del suo programma e decidere
1231   quali pagine di memoria è opportuno che restino in memoria per un aumento
1232   delle prestazioni. In genere queste sono esigenze particolari e richiedono
1233   anche un aumento delle priorità in esecuzione del processo (vedi
1234   sez.~\ref{sec:proc_real_time}).
1235
1236 \item \textsl{La sicurezza}. Se si hanno password o chiavi segrete in chiaro
1237   in memoria queste possono essere portate su disco dal meccanismo della
1238   \index{paginazione} paginazione. Questo rende più lungo il periodo di tempo
1239   in cui detti segreti sono presenti in chiaro e più complessa la loro
1240   cancellazione: un processo infatti può cancellare la memoria su cui scrive
1241   le sue variabili, ma non può toccare lo spazio disco su cui una pagina di
1242   memoria può essere stata salvata. Per questo motivo di solito i programmi
1243   di crittografia richiedono il blocco di alcune pagine di memoria.
1244 \end{itemize*}
1245
1246 Per ottenere informazioni sulle modalità in cui un programma sta usando la
1247 memoria virtuale è disponibile una apposita funzione, \funcd{mincore}, che
1248 però non è standardizzata da POSIX e pertanto non è disponibile su tutte le
1249 versioni di kernel unix-like;\footnote{nel caso di Linux devono essere
1250   comunque definite le macro \macro{\_BSD\_SOURCE} e \macro{\_SVID\_SOURCE}.}
1251 il suo prototipo è:
1252 % \begin{functions}
1253 %   \headdecl{unistd.h}
1254 %   \headdecl{sys/mman.h}
1255
1256 %   \funcdecl{int mincore(void *addr, size\_t length, unsigned char *vec)}
1257 %   Ritorna lo stato delle pagine di memoria occupate da un processo.
1258
1259 %   \bodydesc{La funzione ritorna 0 in caso di successo e $-1$ in caso di
1260 %     errore, nel qual caso \var{errno} assumerà uno dei valori:
1261 %   \begin{errlist}
1262 %   \item[\errcode{ENOMEM}] o \param{addr} + \param{length} eccede la dimensione
1263 %     della memoria usata dal processo o l'intervallo di indirizzi specificato
1264 %     non è mappato.
1265 %   \item[\errcode{EINVAL}] \param{addr} non è un multiplo delle dimensioni di
1266 %     una pagina.
1267 %   \item[\errcode{EFAULT}] \param{vec} punta ad un indirizzo non valido.
1268 %   \item[\errcode{EAGAIN}] il kernel è temporaneamente non in grado di fornire
1269 %     una risposta.
1270 %   \end{errlist}
1271 % }
1272 % \end{functions}
1273
1274 \begin{funcproto}{
1275 \fhead{unistd.h}
1276 \fhead{sys/mman.h}
1277 \fdecl{int mincore(void *addr, size\_t length, unsigned char *vec)}
1278 \fdesc{Ritorna lo stato delle pagine di memoria occupate da un processo.}
1279 }
1280 {La funzione ritorna 0 in caso di successo e $-1$ in caso di errore, nel qual
1281 caso \var{errno} assumerà uno dei valori:
1282 \begin{errlist}
1283    \item[\errcode{ENOMEM}] o \param{addr} + \param{length} eccede la dimensione
1284      della memoria usata dal processo o l'intervallo di indirizzi specificato
1285      non è mappato.
1286    \item[\errcode{EINVAL}] \param{addr} non è un multiplo delle dimensioni di
1287      una pagina.
1288    \item[\errcode{EFAULT}] \param{vec} punta ad un indirizzo non valido.
1289    \item[\errcode{EAGAIN}] il kernel è temporaneamente non in grado di fornire
1290      una risposta.
1291 \end{errlist}}
1292 \end{funcproto}
1293
1294 La funzione permette di ottenere le informazioni sullo stato della mappatura
1295 della memoria per il processo chiamante, specificando l'intervallo da
1296 esaminare con l'indirizzo iniziale, indicato con l'argomento \param{addr}, e
1297 la lunghezza, indicata con l'argomento \param{length}. L'indirizzo iniziale
1298 deve essere un multiplo delle dimensioni di una pagina, mentre la lunghezza
1299 può essere qualunque, fintanto che si resta nello spazio di indirizzi del
1300 processo,\footnote{in caso contrario si avrà un errore di \errcode{ENOMEM};
1301   fino al kernel 2.6.11 in questo caso veniva invece restituito
1302   \errcode{EINVAL}, in considerazione che il caso più comune in cui si
1303   verifica questo errore è quando si usa per sbaglio un valore negativo
1304   di \param{length}, che nel caso verrebbe interpretato come un intero
1305   positivo di grandi dimensioni.}  ma il risultato verrà comunque fornito per
1306 l'intervallo compreso fino al multiplo successivo.
1307
1308 I risultati della funzione vengono forniti nel vettore puntato da \param{vec},
1309 che deve essere allocato preventivamente e deve essere di dimensione
1310 sufficiente a contenere tanti byte quante sono le pagine contenute
1311 nell'intervallo di indirizzi specificato, la dimensione cioè deve essere
1312 almeno pari a \code{(length+PAGE\_SIZE-1)/PAGE\_SIZE}.  Al ritorno della
1313 funzione il bit meno significativo di ciascun byte del vettore sarà acceso se
1314 la pagina di memoria corrispondente è al momento residente in memoria, o
1315 cancellato altrimenti. Il comportamento sugli altri bit è indefinito, essendo
1316 questi al momento riservati per usi futuri. Per questo motivo in genere è
1317 comunque opportuno inizializzare a zero il contenuto del vettore, così che le
1318 pagine attualmente residenti in memoria saranno indicata da un valore non
1319 nullo del byte corrispondente.
1320
1321 Dato che lo stato della memoria di un processo può cambiare continuamente, il
1322 risultato di \func{mincore} è assolutamente provvisorio e lo stato delle
1323 pagine potrebbe essere già cambiato al ritorno stesso della funzione, a meno
1324 che, come vedremo ora, non si sia attivato il meccanismo che forza il
1325 mantenimento di una pagina sulla memoria.
1326
1327 \itindbeg{memory~locking}
1328
1329 Il meccanismo che previene la \index{paginazione} paginazione di parte della
1330 memoria virtuale di un processo è chiamato \textit{memory locking} (o
1331 \textsl{blocco della memoria}). Il blocco è sempre associato alle pagine della
1332 memoria virtuale del processo, e non al segmento reale di RAM su cui essa
1333 viene mantenuta.  La regola è che se un segmento di RAM fa da supporto ad
1334 almeno una pagina bloccata allora esso viene escluso dal meccanismo della
1335 \index{paginazione} paginazione. I blocchi non si accumulano, se si blocca due
1336 volte la stessa pagina non è necessario sbloccarla due volte, una pagina o è
1337 bloccata oppure no.
1338
1339 Il \textit{memory lock} persiste fintanto che il processo che detiene la
1340 memoria bloccata non la sblocca. Chiaramente la terminazione del processo
1341 comporta anche la fine dell'uso della sua memoria virtuale, e quindi anche di
1342 tutti i suoi \textit{memory lock}.  Inoltre i \textit{memory lock} non sono
1343 ereditati dai processi figli, ma siccome Linux usa il \itindex{copy~on~write}
1344 \textit{copy on write} (vedi sez.~\ref{sec:proc_fork}) gli indirizzi virtuali
1345 del figlio sono mantenuti sullo stesso segmento di RAM del padre, e quindi
1346 fintanto che un figlio non scrive su un segmento bloccato, può usufruire del
1347 \textit{memory lock} del padre. Infine i \textit{memory lock} vengono
1348 automaticamente rimossi se si pone in esecuzione un altro programma con
1349 \func{exec} (vedi sez.~\ref{sec:proc_exec}).
1350
1351 Il sistema pone dei limiti all'ammontare di memoria di un processo che può
1352 essere bloccata e al totale di memoria fisica che si può dedicare a questo, lo
1353 standard POSIX.1 richiede che sia definita in \file{unistd.h} la macro
1354 \macro{\_POSIX\_MEMLOCK\_RANGE} per indicare la capacità di eseguire il
1355 \textit{memory locking}.
1356
1357 Siccome la richiesta di un \textit{memory lock} da parte di un processo riduce
1358 la memoria fisica disponibile nel sistema per gli altri processi, questo ha un
1359 evidente impatto su tutti gli altri processi, per cui fino al kernel 2.6.9
1360 solo un processo dotato di privilegi amministrativi (la \itindex{capabilities}
1361 \textit{capability} \const{CAP\_IPC\_LOCK}, vedi
1362 sez.~\ref{sec:proc_capabilities}) aveva la capacità di bloccare una pagina di
1363 memoria.
1364
1365 A partire dal kernel 2.6.9 anche un processo normale può bloccare la propria
1366 memoria\footnote{la funzionalità è stata introdotta per non essere costretti a
1367   dare privilegi eccessivi a programmi di crittografia, che necessitano di
1368   questa funzionalità, ma che devono essere usati da utenti normali.} ma
1369 mentre un processo privilegiato non ha limiti sulla quantità di memoria che
1370 può bloccare, un processo normale è soggetto al limite della risorsa
1371 \const{RLIMIT\_MEMLOCK} (vedi sez.~\ref{sec:sys_resource_limit}). In generale
1372 poi ogni processo può sbloccare le pagine relative alla propria memoria, se
1373 però diversi processi bloccano la stessa pagina questa resterà bloccata
1374 fintanto che ci sarà almeno un processo che la blocca.
1375
1376 Le funzioni per bloccare e sbloccare la \index{paginazione} paginazione di
1377 singole sezioni di memoria sono rispettivamente \funcd{mlock} e
1378 \funcd{munlock}; i loro prototipi sono:
1379 % \begin{functions}
1380 %   \headdecl{sys/mman.h}
1381
1382 %   \funcdecl{int mlock(const void *addr, size\_t len)}
1383 %   Blocca la paginazione su un intervallo di memoria.
1384
1385 %   \funcdecl{int munlock(const void *addr, size\_t len)}
1386 %   Rimuove il blocco della paginazione su un intervallo di memoria.
1387
1388 %   \bodydesc{Entrambe le funzioni ritornano 0 in caso di successo e $-1$ in
1389 %     caso di errore, nel qual caso \var{errno} assumerà uno dei
1390 %     valori:
1391 %   \begin{errlist}
1392 %   \item[\errcode{ENOMEM}] alcuni indirizzi dell'intervallo specificato non
1393 %     corrispondono allo spazio di indirizzi del processo o si è ecceduto
1394 %     il numero massimo consentito di pagine bloccate.
1395 %   \item[\errcode{EINVAL}] \param{len} non è un valore positivo.
1396 %   \item[\errcode{EPERM}] con un kernel successivo al 2.6.9 il processo non è
1397 %     privilegiato e si un limite nullo per \const{RLIMIT\_MEMLOCK}.
1398 %   \end{errlist}
1399 %   e, per \func{mlock}, anche \errval{EPERM} quando il processo non ha i
1400 %   privilegi richiesti per l'operazione.}
1401 % \end{functions}
1402
1403 \begin{funcproto}{
1404   \fhead{sys/mman.h}
1405   \fdecl{int mlock(const void *addr, size\_t len)}
1406   \fdesc{Blocca la paginazione su un intervallo di memoria.}
1407
1408   \fdecl{int munlock(const void *addr, size\_t len)}
1409   \fdesc{Rimuove il blocco della paginazione su un intervallo di memoria.}
1410   }
1411 {Entrambe le funzioni ritornano $0$ in caso di successo e $-1$ in caso di
1412   errore, nel qual caso \var{errno} assumerà uno dei valori:
1413   \begin{errlist}
1414   \item[\errcode{ENOMEM}] alcuni indirizzi dell’intervallo specificato non
1415     corrispondono allo spazio di indirizzi del processo o si è superato il
1416     limite di \const{RLIMIT\_MEMLOCK} per un processo non privilegiato (solo
1417     per kernel a partire dal 2.6.9).
1418   \item[\errcode{EINVAL}] \param{len} non è un valore positivo.
1419   \item[\errcode{EPERM}] il processo non è privilegiato (per kernel precedenti
1420     il 2.6.9) o si ha un limite nullo per \const{RLIMIT\_MEMLOCK} e
1421     il processo non è privilegiato (per kernel a partire dal 2.6.9).
1422   \end{errlist}}
1423 \end{funcproto}
1424
1425 Le due funzioni permettono rispettivamente di bloccare e sbloccare la
1426 \index{paginazione} paginazione per l'intervallo di memoria iniziante
1427 all'indirizzo \param{addr} e lungo \param{len} byte.  Tutte le pagine che
1428 contengono una parte dell'intervallo bloccato sono mantenute in RAM per tutta
1429 la durata del blocco. Con kernel diversi da Linux si può ottenere un errore di
1430 \errcode{EINVAL} se \param{addr} non è un multiplo della dimensione delle
1431 pagine di memoria, pertanto se si ha a cuore la portabilità si deve avere cura
1432 di allinearne correttamente il valore.
1433
1434 Altre due funzioni, \funcd{mlockall} e \funcd{munlockall}, consentono di
1435 bloccare genericamente la \index{paginazione} paginazione per l'intero spazio
1436 di indirizzi di un processo.  I prototipi di queste funzioni sono:
1437
1438 \begin{funcproto}{
1439 \fhead{sys/mman.h}
1440 \fdecl{int mlockall(int flags)}
1441 \fdesc{Blocca la paginazione per lo spazio di indirizzi del processo corrente.}
1442 \fdecl{int munlockall(void)}
1443 \fdesc{Sblocca la paginazione per lo spazio di indirizzi del processo corrente.}
1444 }
1445 {Codici di ritorno ed errori sono gli stessi di \func{mlock} e \func{munlock},
1446   tranne per \errcode{EINVAL} che viene restituito solo se si è specificato
1447   con \func{mlockall} un valore sconosciuto per \param{flags}.}
1448 \end{funcproto}
1449
1450 L'argomento \param{flags} di \func{mlockall} permette di controllarne il
1451 comportamento; esso deve essere specificato come maschera binaria dei valori
1452 espressi dalle costanti riportate in tab.~\ref{tab:mlockall_flags}.
1453
1454 \begin{table}[htb]
1455   \footnotesize
1456   \centering
1457   \begin{tabular}[c]{|l|p{8cm}|}
1458     \hline
1459     \textbf{Valore} & \textbf{Significato} \\
1460     \hline
1461     \hline
1462     \const{MCL\_CURRENT}& blocca tutte le pagine correntemente mappate nello
1463                           spazio di indirizzi del processo.\\
1464     \const{MCL\_FUTURE} & blocca tutte le pagine che verranno mappate nello
1465                           spazio di indirizzi del processo.\\
1466    \hline
1467   \end{tabular}
1468   \caption{Valori e significato dell'argomento \param{flags} della funzione
1469     \func{mlockall}.}
1470   \label{tab:mlockall_flags}
1471 \end{table}
1472
1473 Con \func{mlockall} si possono bloccare tutte le pagine mappate nello spazio
1474 di indirizzi del processo, sia che comprendano il \index{segmento!dati}
1475 \index{segmento!testo} segmento di testo, di dati, lo \itindex{stack}
1476 \textit{stack}, lo \itindex{heap} \textit{heap} e pure le funzioni di libreria
1477 chiamate, i file mappati in memoria, i dati del kernel mappati in user space,
1478 la memoria condivisa.  L'uso dell'argomento \param{flags} permette di
1479 selezionare con maggior finezza le pagine da bloccare, ad esempio usando
1480 \const{MCL\_FUTURE} ci si può limitare a tutte le pagine allocate a partire
1481 dalla chiamata della funzione.
1482
1483 In ogni caso un processo real-time che deve entrare in una
1484 \index{sezione~critica} sezione critica deve provvedere a riservare memoria
1485 sufficiente prima dell'ingresso, per scongiurare l'occorrenza di un eventuale
1486 \itindex{page~fault} \textit{page fault} causato dal meccanismo di
1487 \itindex{copy~on~write} \textit{copy on write}.  Infatti se nella
1488 \index{sezione~critica} sezione critica si va ad utilizzare memoria che non è
1489 ancora stata riportata in RAM si potrebbe avere un \itindex{page~fault}
1490 \textit{page fault} durante l'esecuzione della stessa, con conseguente
1491 rallentamento (probabilmente inaccettabile) dei tempi di esecuzione.
1492
1493 In genere si ovvia a questa problematica chiamando una funzione che ha
1494 allocato una quantità sufficientemente ampia di \index{variabili!automatiche}
1495 variabili automatiche, in modo che esse vengano mappate in RAM dallo
1496 \itindex{stack} \textit{stack}, dopo di che, per essere sicuri che esse siano
1497 state effettivamente portate in memoria, ci si scrive sopra.
1498
1499 \itindend{memory~locking}
1500
1501 \index{memoria~virtuale|)}
1502
1503
1504 \subsection{Gestione avanzata dell'allocazione della memoria}
1505 \label{sec:proc_memory_adv_management}
1506
1507 La trattazione delle funzioni di allocazione di sez.~\ref{sec:proc_mem_alloc}
1508 si è limitata a coprire le esigenze generiche di un programma, in cui non si
1509 hanno dei requisiti specifici e si lascia il controllo delle modalità di
1510 allocazione alle funzioni di libreria.  Tuttavia esistono una serie di casi in
1511 cui può essere necessario avere un controllo più dettagliato delle modalità
1512 con cui la memoria viene allocata; nel qual caso potranno venire in aiuto le
1513 funzioni trattate in questa sezione.
1514
1515 Le prime funzioni che tratteremo sono quelle che consentono di richiedere di
1516 allocare un blocco di memoria ``\textsl{allineato}'' ad un multiplo una certa
1517 dimensione. Questo tipo di esigenza emerge usualmente quando si devono
1518 allocare dei buffer da utilizzare per eseguire dell'I/O diretto su dispositivi
1519 a blocchi. In questo caso infatti il trasferimento di dati viene eseguito per
1520 blocchi di dimensione fissa, ed è richiesto che l'indirizzo di partenza del
1521 buffer sia un multiplo intero di questa dimensione, usualmente 512 byte. In
1522 tal caso l'uso di \func{malloc} non è sufficiente, ed occorre utilizzare una
1523 funzione specifica.
1524
1525 Tradizionalmente per rispondere a questa esigenza sono state create due
1526 funzioni diverse, \funcd{memalign} e \funcd{valloc}, oggi obsolete; i
1527 rispettivi prototipi sono:
1528
1529 \begin{funcproto}{
1530 \fhead{malloc.h}
1531 \fdecl{void *valloc(size\_t size)}
1532 \fdesc{Alloca un blocco di memoria allineato alla dimensione di una pagina di
1533   memoria.}
1534 \fdecl{void *memalign(size\_t boundary, size\_t size)}
1535 \fdesc{Alloca un blocco di memoria allineato ad un multiplo
1536   di \param{boundary}.}
1537 }
1538 {Entrambe le funzioni ritornano un puntatore al blocco di memoria allocato in
1539   caso di successo e \val{NULL} in caso di errore, nel qual caso \var{errno}
1540   assumerà uno dei valori:
1541   \begin{errlist}
1542   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per l'allocazione.
1543   \item[\errcode{EINVAL}] \param{boundary} non è una potenza di due.
1544   \end{errlist}}
1545 \end{funcproto}
1546
1547 Le funzioni restituiscono il puntatore al buffer di memoria allocata di
1548 dimensioni pari a \param{size}, che per \func{memalign} sarà un multiplo
1549 di \param{boundary} mentre per \func{valloc} un multiplo della dimensione di
1550 una pagina di memoria. Nel caso della versione fornita dalla \acr{glibc} la
1551 memoria allocata con queste funzioni deve essere liberata con \func{free},
1552 cosa che non è detto accada con altre implementazioni.
1553
1554 Nessuna delle due funzioni ha una chiara standardizzazione e nessuna delle due
1555 compare in POSIX.1, inoltre ci sono indicazioni discordi sui file che ne
1556 contengono la definizione;\footnote{secondo SUSv2 \func{valloc} è definita in
1557   \texttt{stdlib.h}, mentre sia le \acr{glibc} che le precedenti \acr{libc4} e
1558   \acr{libc5} la dichiarano in \texttt{malloc.h}, lo stesso vale per
1559   \func{memalign} che in alcuni sistemi è dichiarata in \texttt{stdlib.h}.}
1560 per questo motivo il loro uso è sconsigliato, essendo state sostituite dalla
1561 nuova \funcd{posix\_memalign}, che è stata standardizzata in POSIX.1d; il suo
1562 prototipo è:
1563
1564 \begin{funcproto}{
1565 \fhead{stdlib.h}
1566 \fdecl{posix\_memalign(void **memptr, size\_t alignment, size\_t size)}
1567 \fdesc{Alloca un buffer di memoria allineato ad un multiplo
1568   di \param{alignment}.}
1569 }
1570 {Entrambe le funzioni ritornano un puntatore al blocco di memoria allocato in
1571   caso di successo e \val{NULL} in caso di errore, nel qual caso \var{errno}
1572   assumerà uno dei valori:
1573   \begin{errlist}
1574   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per l'allocazione.
1575   \item[\errcode{EINVAL}] \param{alignment} non è potenza di due e multiplo
1576     di \code{sizeof(void *)}.
1577   \end{errlist}}
1578 \end{funcproto}
1579
1580 La funzione restituisce il puntatore al buffer allocato di dimensioni pari
1581 a \param{size} nella variabile (di tipo \texttt{void *}) posta all'indirizzo
1582 indicato da \param{memptr}. La funzione fallisce nelle stesse condizioni delle
1583 due funzioni precedenti, ma a loro differenza restituisce direttamente come
1584 valore di ritorno il codice di errore.  Come per le precedenti la memoria
1585 allocata con \func{posix\_memalign} deve essere disallocata con \func{free},
1586 che in questo caso però è quanto richiesto dallo standard.  Si tenga presente
1587 infine che nessuna di queste funzioni inizializza il buffer di memoria
1588 allocato, il loro comportamento cioè è analogo, allineamento a parte, a quello
1589 di \func{malloc}.
1590
1591 Un secondo caso in cui risulta estremamente utile poter avere un maggior
1592 controllo delle modalità di allocazione della memoria è quello in cui cercano
1593 errori di programmazione. Esempi di questi errori sono i \itindex{double~free}
1594 \textit{double free}, o i cosiddetti \itindex{buffer~overrun} \textit{buffer
1595   overrun}, cioè le scritture su un buffer oltre le dimensioni della sua
1596 allocazione,\footnote{entrambe queste operazioni causano in genere la
1597   corruzione dei dati di controllo delle funzioni di allocazione, che vengono
1598   anch'essi mantenuti nello \itindex{heap} \textit{heap} per tenere traccia
1599   delle zone di memoria allocata.} o i classici \itindex{memory~leak}
1600 \textit{memory leak}.
1601
1602 Abbiamo visto in sez.~\ref{sec:proc_mem_lock} come una prima funzionalità di
1603 ausilio nella ricerca di questi errori sia l'uso della variabile di ambiente
1604 \var{MALLOC\_CHECK\_}.  Una modalità alternativa per effettuare dei controlli
1605 di consistenza sullo stato delle allocazioni di memoria eseguite con
1606 \func{malloc}, anche questa fornita come estensione specifica (e non standard)
1607 della \acr{glibc}, è quella di utilizzare la funzione \funcd{mcheck}, che deve
1608 essere chiamata prima di eseguire qualunque allocazione con \func{malloc}; il
1609 suo prototipo è:
1610
1611 \begin{funcproto}{
1612 \fhead{mcheck.h}
1613 \fdecl{int mcheck(void (*abortfn) (enum mcheck\_status status))}
1614 \fdesc{Attiva i controlli di consistenza delle allocazioni di memoria.}
1615 }
1616 {La funzione restituisce $0$ in caso di successo e $-1$ in caso di fallimento;
1617   \var{errno} non viene impostata.}
1618 \end{funcproto}
1619
1620 La funzione consente di registrare una funzione di emergenza che verrà
1621 eseguita tutte le volte che, in una successiva esecuzione di \func{malloc},
1622 venissero trovate delle inconsistenze, come delle operazioni di scrittura
1623 oltre i limiti dei buffer allocati. Per questo motivo la funzione deve essere
1624 chiamata prima di qualunque allocazione di memoria, altrimenti fallirà.
1625
1626 Se come primo argomento di \func{mcheck} si passa \val{NULL} verrà utilizzata
1627 una funzione predefinita che stampa un messaggio di errore ed invoca la
1628 funzione \func{abort} (vedi sez.~\ref{sec:sig_alarm_abort}), altrimenti si
1629 dovrà creare una funzione personalizzata in grado di ricevere il tipo di
1630 errore ed agire di conseguenza.
1631
1632 Nonostante la scarsa leggibilità del prototipo si tratta semplicemente di
1633 definire una funzione di tipo \code{void abortfn(enum mcheck\_status status)},
1634 che non deve restituire nulla e che deve avere un unico argomento di tipo
1635 \type{mcheck\_status}. In caso di errore la funzione verrà eseguita ricevendo
1636 un opportuno valore di \param{status} che è un tipo enumerato che può assumere
1637 soltanto i valori di tab.~\ref{tab:mcheck_status_value} che indicano la
1638 tipologia di errore riscontrata.
1639
1640 \begin{table}[htb]
1641   \centering
1642   \footnotesize
1643   \begin{tabular}[c]{|l|p{7cm}|}
1644     \hline
1645     \textbf{Valore} & \textbf{Significato} \\
1646     \hline
1647     \hline
1648     \macro{MCHECK\_OK}      & riportato a \func{mprobe} se nessuna
1649                               inconsistenza è presente.\\
1650     \macro{MCHECK\_DISABLED}& riportato a \func{mprobe} se si è chiamata
1651                               \func{mcheck} dopo aver già usato
1652                               \func{malloc}.\\
1653     \macro{MCHECK\_HEAD}    & i dati immediatamente precedenti il buffer sono
1654                               stati modificati, avviene in genere quando si
1655                               decrementa eccessivamente il valore di un
1656                               puntatore scrivendo poi prima dell'inizio del
1657                               buffer.\\
1658     \macro{MCHECK\_TAIL}    & i dati immediatamente seguenti il buffer sono
1659                               stati modificati, succede quando si va scrivere
1660                               oltre la dimensione corretta del buffer.\\
1661     \macro{MCHECK\_FREE}    & il buffer è già stato disallocato.\\
1662     \hline
1663   \end{tabular}
1664   \caption{Valori dello stato dell'allocazione di memoria ottenibili dalla
1665     funzione di terminazione installata con \func{mcheck}.}
1666   \label{tab:mcheck_status_value}
1667 \end{table}
1668
1669 Una volta che si sia chiamata \func{mcheck} con successo si può anche
1670 controllare esplicitamente lo stato delle allocazioni senza aspettare un
1671 errore nelle relative funzioni utilizzando la funzione \funcd{mprobe}, il cui
1672 prototipo è:
1673
1674 \begin{funcproto}{
1675 \fhead{mcheck.h}
1676 \fdecl{enum mcheck\_status mprobe(ptr)}
1677 \fdesc{Esegue un controllo di consistenza delle allocazioni.}
1678 }
1679 {La funzione restituisce un codice fra quelli riportati in
1680    tab.\ref{tab:mcheck_status_value} e non ha errori.}
1681 \end{funcproto}
1682
1683 La funzione richiede che si passi come argomento un puntatore ad un blocco di
1684 memoria precedentemente allocato con \func{malloc} o \func{realloc}, e
1685 restituisce lo stesso codice di errore che si avrebbe per la funzione di
1686 emergenza ad una successiva chiamata di una funzione di allocazione, e poi i
1687 primi due codici che indicano rispettivamente quando tutto è a posto o il
1688 controllo non è possibile per non aver chiamato \func{mcheck} in tempo.
1689
1690 % TODO: trattare le altre funzionalità avanzate di \func{malloc}, mallopt,
1691 % mtrace, muntrace, mallinfo e gli hook con le glibc 2.10 c'è pure malloc_info
1692 % a sostituire mallinfo, vedi http://udrepper.livejournal.com/20948.html
1693
1694
1695 \section{Argomenti, ambiente ed altre proprietà di un processo}
1696 \label{sec:proc_options}
1697
1698 In questa sezione esamineremo le funzioni che permettono di gestire gli
1699 argomenti e le opzioni, e quelle che consentono di manipolare ed utilizzare le
1700 variabili di ambiente. Accenneremo infine alle modalità con cui si può gestire
1701 la localizzazione di un programma modificandone il comportamento a seconda
1702 della lingua o del paese a cui si vuole faccia riferimento nelle sue
1703 operazioni.
1704
1705 \subsection{Il formato degli argomenti}
1706 \label{sec:proc_par_format}
1707
1708 Tutti i programmi hanno la possibilità di ricevere argomenti e opzioni quando
1709 vengono lanciati e come accennato in sez.~\ref{sec:proc_main} questo viene
1710 effettuato attraverso gli argomenti \param{argc} e \param{argv} ricevuti nella
1711 funzione \func{main} all'avvio del programma. Questi argomenti vengono passati
1712 al programma dalla shell o dal processo che esegue la \func{exec} (secondo le
1713 modalità che vedremo in sez.~\ref{sec:proc_exec}) quando questo viene messo in
1714 esecuzione.
1715
1716 Nel caso più comune il passaggio di argomenti ed opzioni viene effettuato
1717 dalla shell, che si incarica di leggere la linea di comando con cui si lancia
1718 il programma e di effettuarne la scansione (il cosiddetto \textit{parsing})
1719 per individuare le parole che la compongono, ciascuna delle quali potrà essere
1720 considerata un argomento o un'opzione.
1721
1722 Di norma per individuare le parole che andranno a costituire la lista degli
1723 argomenti viene usato come carattere di separazione lo spazio o il tabulatore,
1724 ma la cosa dipende ovviamente dalle modalità con cui si effettua la scansione
1725 e dalle convenzioni adottate dal programma che la esegue: ad esempio la shell
1726 consente di proteggere con opportuni caratteri di controllo argomenti che
1727 contengono degli spazi evitando di spezzarli in parole diverse.
1728
1729 \begin{figure}[htb]
1730   \centering
1731 %  \includegraphics[width=13cm]{img/argv_argc}
1732 %  \includegraphics[width=13cm]{img/argv_argc}
1733   \begin{tikzpicture}[>=stealth]
1734   \draw (0.5,2.5) rectangle (3.5,3);
1735   \draw (2,2.75) node {\texttt{argc = 5}};
1736   \draw (5,2.5) rectangle (8,3);
1737   \draw (6.5,2.75) node {\texttt{argv[0]}};
1738   \draw [->] (8,2.75) -- (9,2.75);
1739   \draw (9,2.75) node [anchor=west] {\texttt{"touch"}};
1740   \draw (5,2) rectangle (8,2.5);
1741   \draw (6.5,2.25) node {\texttt{argv[1]}};
1742   \draw [->] (8,2.25) -- (9,2.25);
1743   \draw (9,2.25) node [anchor=west] {\texttt{"-r"}};
1744   \draw (5,1.5) rectangle (8,2);
1745   \draw (6.5,1.75) node {\texttt{argv[2]}};
1746   \draw [->] (8,1.75) -- (9,1.75);
1747   \draw (9,1.75) node [anchor=west] {\texttt{"riferimento.txt"}};
1748   \draw (5,1.0) rectangle (8,1.5);
1749   \draw (6.5,1.25) node {\texttt{argv[3]}};
1750   \draw [->] (8,1.25) -- (9,1.25);
1751   \draw (9,1.25) node [anchor=west] {\texttt{"-m"}};
1752   \draw (5,0.5) rectangle (8,1.0);
1753   \draw (6.5,0.75) node {\texttt{argv[4]}};
1754   \draw [->] (8,0.75) -- (9,0.75);
1755   \draw (9,0.75) node [anchor=west] {\texttt{"questofile.txt"}};
1756   \draw (4.25,3.5) node{\texttt{"touch -r riferimento.txt -m questofile.txt"}};
1757
1758   \end{tikzpicture}
1759   \caption{Esempio dei valori di \param{argv} e \param{argc} generati nella
1760     scansione di una riga di comando.}
1761   \label{fig:proc_argv_argc}
1762 \end{figure}
1763
1764 Indipendentemente da come viene eseguita, il risultato finale della scansione
1765 dovrà comunque essere la costruzione del vettore di puntatori \param{argv} in
1766 cui si devono inserire in successione i puntatori alle stringhe costituenti i
1767 vari argomenti ed opzioni da passare al programma, e della
1768 variabile \param{argc} che deve essere inizializzata al numero di stringhe
1769 contenute in \param{argv}. Nel caso della shell questo comporta ad esempio che
1770 il primo argomento sia sempre il nome del programma. Un esempio di questo
1771 meccanismo è mostrato in fig.~\ref{fig:proc_argv_argc}, che illustra il
1772 risultato della scansione di una riga di comando.
1773
1774
1775 \subsection{La gestione delle opzioni}
1776 \label{sec:proc_opt_handling}
1777
1778 In generale un programma Unix riceve da linea di comando sia gli argomenti che
1779 le opzioni, queste ultime sono standardizzate per essere riconosciute come
1780 tali: un elemento di \param{argv} successivo al primo che inizia con il
1781 carattere ``\texttt{-}'' e che non sia un singolo ``\texttt{-}'' o un
1782 ``\texttt{-{}-}'' viene considerato un'opzione.  In genere le opzioni sono
1783 costituite da una lettera singola (preceduta dal carattere ``\texttt{-}'') e
1784 possono avere o no un parametro associato. Un esempio tipico può essere quello
1785 mostrato in fig.~\ref{fig:proc_argv_argc}. In quel caso le opzioni sono
1786 \cmd{-r} e \cmd{-m} e la prima vuole un parametro mentre la seconda no
1787 (\cmd{questofile.txt} è un argomento del programma, non un parametro di
1788 \cmd{-m}).
1789
1790 Per gestire le opzioni all'interno degli argomenti a linea di comando passati
1791 in \param{argv} la libreria standard del C fornisce la funzione
1792 \funcd{getopt}, che ha il seguente prototipo:
1793
1794 \begin{funcproto}{
1795 \fhead{unistd.h}
1796 \fdecl{int getopt(int argc, char * const argv[], const char *optstring)}
1797 \fdesc{Esegue la scansione delle opzioni negli argomenti della funzione
1798   \func{main}.}
1799 }
1800 {Ritorna il carattere che segue l'opzione, ``\texttt{:}'' se manca un
1801   parametro all'opzione, ``\texttt{?}'' se l'opzione è sconosciuta, e $-1$ se
1802   non esistono altre opzioni.}
1803 \end{funcproto}
1804
1805 Questa funzione prende come argomenti le due variabili \param{argc} e
1806 \param{argv} che devono essere quelle passate come argomenti di \func{main}
1807 all'esecuzione del programma, ed una stringa \param{optstring} che indica
1808 quali sono le opzioni valide. La funzione effettua la scansione della lista
1809 degli argomenti ricercando ogni stringa che comincia con il carattere
1810 ``\texttt{-}'' e ritorna ogni volta che trova un'opzione valida.
1811
1812 La stringa \param{optstring} indica quali sono le opzioni riconosciute ed è
1813 costituita da tutti i caratteri usati per identificare le singole opzioni, se
1814 l'opzione ha un parametro al carattere deve essere fatto seguire il carattere
1815 di due punti (``\texttt{:}''); nel caso di fig.~\ref{fig:proc_argv_argc} ad
1816 esempio la stringa di opzioni avrebbe dovuto contenere \texttt{"r:m"}.
1817
1818 La modalità di uso di \func{getopt} è pertanto quella di chiamare più volte la
1819 funzione all'interno di un ciclo, fintanto che essa non ritorna il valore $-1$
1820 che indica che non ci sono più opzioni. Nel caso si incontri un'opzione non
1821 dichiarata in \param{optstring} viene ritornato il carattere ``\texttt{?}''
1822 mentre se un'opzione che lo richiede non è seguita da un parametro viene
1823 ritornato il carattere ``\texttt{:}'', infine se viene incontrato il valore
1824 ``\texttt{-{}-}'' la scansione viene considerata conclusa, anche se vi sono
1825 altri elementi di \param{argv} che cominciano con il carattere ``\texttt{-}''.
1826
1827 \begin{figure}[!htb]
1828   \footnotesize \centering
1829   \begin{minipage}[c]{\codesamplewidth}
1830   \includecodesample{listati/option_code.c}
1831   \end{minipage}
1832   \normalsize
1833   \caption{Esempio di codice per la gestione delle opzioni.}
1834   \label{fig:proc_options_code}
1835 \end{figure}
1836
1837 Quando \func{getopt} trova un'opzione fra quelle indicate in \param{optstring}
1838 essa ritorna il valore numerico del carattere, in questo modo si possono
1839 eseguire azioni specifiche usando uno \instruction{switch}; la funzione
1840 inoltre inizializza alcune \index{variabili!globali} variabili globali:
1841 \begin{itemize*}
1842 \item \var{char *optarg} contiene il puntatore alla stringa parametro
1843   dell'opzione.
1844 \item \var{int optind} alla fine della scansione restituisce l'indice del
1845   primo elemento di \param{argv} che non è un'opzione.
1846 \item \var{int opterr} previene, se posto a zero, la stampa di un messaggio
1847   di errore in caso di riconoscimento di opzioni non definite.
1848 \item \var{int optopt} contiene il carattere dell'opzione non riconosciuta.
1849 \end{itemize*}
1850
1851 In fig.~\ref{fig:proc_options_code} si è mostrata la sezione del programma
1852 \file{ForkTest.c}, che useremo nel prossimo capitolo per effettuare dei test
1853 sulla creazione dei processi, deputata alla decodifica delle opzioni a riga di
1854 comando da esso supportate.
1855
1856 Si può notare che si è anzitutto (\texttt{\small 1}) disabilitata la stampa di
1857 messaggi di errore per opzioni non riconosciute, per poi passare al ciclo per
1858 la verifica delle opzioni (\texttt{\small 2-27}); per ciascuna delle opzioni
1859 possibili si è poi provveduto ad un'azione opportuna, ad esempio per le tre
1860 opzioni che prevedono un parametro si è effettuata la decodifica del medesimo,
1861 il cui indirizzo è contenuto nella variabile \var{optarg}), avvalorando la
1862 relativa variabile (\texttt{\small 12-14}, \texttt{\small 15-17} e
1863 \texttt{\small 18-20}). Completato il ciclo troveremo in \var{optind} l'indice
1864 in \code{argv[]} del primo degli argomenti rimanenti nella linea di comando.
1865
1866 Normalmente \func{getopt} compie una permutazione degli elementi di
1867 \param{argv} cosicché alla fine della scansione gli elementi che non sono
1868 opzioni sono spostati in coda al vettore. Oltre a questa esistono altre due
1869 modalità di gestire gli elementi di \param{argv}; se \param{optstring} inizia
1870 con il carattere ``\texttt{+}'' (o è impostata la variabile di ambiente
1871 \macro{POSIXLY\_CORRECT}) la scansione viene fermata non appena si incontra un
1872 elemento che non è un'opzione.
1873
1874 L'ultima modalità, usata quando un programma può gestire la mescolanza fra
1875 opzioni e argomenti, ma se li aspetta in un ordine definito, si attiva
1876 quando \param{optstring} inizia con il carattere ``\texttt{-}''. In questo caso
1877 ogni elemento che non è un'opzione viene considerato comunque un'opzione e
1878 associato ad un valore di ritorno pari ad 1, questo permette di identificare
1879 gli elementi che non sono opzioni, ma non effettua il riordinamento del
1880 vettore \param{argv}.
1881
1882
1883 \subsection{Le variabili di ambiente}
1884 \label{sec:proc_environ}
1885
1886 Oltre agli argomenti passati a linea di comando esiste un'altra modalità che
1887 permette di trasferire ad un processo delle informazioni in modo da
1888 modificarne il comportamento.  Ogni processo infatti riceve dal sistema, oltre
1889 alle variabili \param{argv} e \param{argc} anche un \textsl{ambiente} (in
1890 inglese \textit{environment}); questo viene espresso nella forma di una lista
1891 (chiamata \textit{environment list}) delle cosiddette \textsl{variabili di
1892   ambiente}, i valori di queste variabili possono essere poi usati dal
1893 programma.
1894
1895 Anche in questo caso la lista delle \textsl{variabili di ambiente} deve essere
1896 costruita ed utilizzata nella chiamata alla funzione \func{exec} (torneremo su
1897 questo in sez.~\ref{sec:proc_exec}) quando questo viene lanciato. Come per la
1898 lista degli argomenti anche questa lista è un vettore di puntatori a
1899 caratteri, ciascuno dei quali punta ad una stringa, terminata da un
1900 \val{NULL}. A differenza di \code{argv[]} in questo caso non si ha una
1901 lunghezza del vettore data da un equivalente di \param{argc}, ma la lista è
1902 terminata da un puntatore nullo.
1903
1904 L'indirizzo della lista delle variabili di ambiente è passato attraverso la
1905 \index{variabili!globali} variabile globale \var{environ}, che viene definita
1906 automaticamente per ciascun processo, e a cui si può accedere attraverso una
1907 semplice dichiarazione del tipo:
1908 \includecodesnip{listati/env_ptr.c}
1909 un esempio della struttura di questa lista, contenente alcune delle variabili
1910 più comuni che normalmente sono definite dal sistema, è riportato in
1911 fig.~\ref{fig:proc_envirno_list}.
1912 \begin{figure}[htb]
1913   \centering
1914 %  \includegraphics[width=15 cm]{img/environ_var}
1915   \begin{tikzpicture}[>=stealth]
1916   \draw (2,3.5) node {\textsf{Environment pointer}};
1917   \draw (6,3.5) node {\textsf{Environment list}};
1918   \draw (10.5,3.5) node {\textsf{Environment string}};
1919   \draw (0.5,2.5) rectangle (3.5,3);
1920   \draw (2,2.75) node {\texttt{environ}};
1921   \draw [->] (3.5,2.75) -- (4.5,2.75);
1922   \draw (4.5,2.5) rectangle (7.5,3);
1923   \draw (6,2.75) node {\texttt{environ[0]}};
1924   \draw (4.5,2) rectangle (7.5,2.5);
1925   \draw (6,2.25) node {\texttt{environ[1]}};
1926   \draw (4.5,1.5) rectangle (7.5,2);
1927   \draw (4.5,1) rectangle (7.5,1.5);
1928   \draw (4.5,0.5) rectangle (7.5,1);
1929   \draw (4.5,0) rectangle (7.5,0.5);
1930   \draw (6,0.25) node {\texttt{NULL}};
1931   \draw [->] (7.5,2.75) -- (8.5,2.75);
1932   \draw (8.5,2.75) node[right] {\texttt{HOME=/home/piccardi}};
1933   \draw [->] (7.5,2.25) -- (8.5,2.25);
1934   \draw (8.5,2.25) node[right] {\texttt{PATH=:/bin:/usr/bin}};
1935   \draw [->] (7.5,1.75) -- (8.5,1.75);
1936   \draw (8.5,1.75) node[right] {\texttt{SHELL=/bin/bash}};
1937   \draw [->] (7.5,1.25) -- (8.5,1.25);
1938   \draw (8.5,1.25) node[right] {\texttt{EDITOR=emacs}};
1939   \draw [->] (7.5,0.75) -- (8.5,0.75);
1940   \draw (8.5,0.75) node[right] {\texttt{OSTYPE=linux-gnu}};
1941   \end{tikzpicture}
1942   \caption{Esempio di lista delle variabili di ambiente.}
1943   \label{fig:proc_envirno_list}
1944 \end{figure}
1945
1946 Per convenzione le stringhe che definiscono l'ambiente sono tutte del tipo
1947 \textsl{\texttt{nome=valore}} ed in questa forma che le funzioni di gestione
1948 che vedremo a breve se le aspettano, se pertanto si dovesse costruire
1949 manualmente un ambiente si abbia cura di rispettare questa convenzione.
1950 Inoltre alcune variabili, come quelle elencate in
1951 fig.~\ref{fig:proc_envirno_list}, sono definite dal sistema per essere usate
1952 da diversi programmi e funzioni: per queste c'è l'ulteriore convenzione di
1953 usare nomi espressi in caratteri maiuscoli.\footnote{ma si tratta solo di una
1954   convenzione, niente vieta di usare caratteri minuscoli, come avviene in vari
1955   casi.}
1956
1957 Il kernel non usa mai queste variabili, il loro uso e la loro interpretazione è
1958 riservata alle applicazioni e ad alcune funzioni di libreria; in genere esse
1959 costituiscono un modo comodo per definire un comportamento specifico senza
1960 dover ricorrere all'uso di opzioni a linea di comando o di file di
1961 configurazione. É di norma cura della shell, quando esegue un comando, passare
1962 queste variabili al programma messo in esecuzione attraverso un uso opportuno
1963 delle relative chiamate (si veda sez.~\ref{sec:proc_exec}).
1964
1965 La shell ad esempio ne usa molte per il suo funzionamento, come \texttt{PATH}
1966 per indicare la lista delle directory in cui effettuare la ricerca dei comandi
1967 o \texttt{PS1} per impostare il proprio \textit{prompt}. Alcune di esse, come
1968 \texttt{HOME}, \texttt{USER}, ecc. sono invece definite al login (per i
1969 dettagli si veda sez.~\ref{sec:sess_login}), ed in genere è cura della propria
1970 distribuzione definire le opportune variabili di ambiente in uno script di
1971 avvio. Alcune servono poi come riferimento generico per molti programmi, come
1972 \texttt{EDITOR} che indica l'editor preferito da invocare in caso di
1973 necessità. Una in particolare, \texttt{LANG}, serve a controllare la
1974 localizzazione del programma (su cui torneremo in
1975 sez.~\ref{sec:proc_localization}) per adattarlo alla lingua ed alle convezioni
1976 dei vari paesi.
1977
1978 Gli standard POSIX e XPG3 definiscono alcune di queste variabili (le più
1979 comuni), come riportato in tab.~\ref{tab:proc_env_var}. GNU/Linux le supporta
1980 tutte e ne definisce anche altre, in particolare poi alcune funzioni di
1981 libreria prevedono la presenza di specifiche variabili di ambiente che ne
1982 modificano il comportamento, come quelle usate per indicare una localizzazione
1983 e quelle per indicare un fuso orario; una lista più completa che comprende
1984 queste ed ulteriori variabili si può ottenere con il comando \cmd{man 7
1985   environ}.
1986
1987 \begin{table}[htb]
1988   \centering
1989   \footnotesize
1990   \begin{tabular}[c]{|l|c|c|c|l|}
1991     \hline
1992     \textbf{Variabile} & \textbf{POSIX} & \textbf{XPG3}
1993     & \textbf{Linux} & \textbf{Descrizione} \\
1994     \hline
1995     \hline
1996     \texttt{USER}   &$\bullet$&$\bullet$&$\bullet$& Nome utente\\
1997     \texttt{LOGNAME}&$\bullet$&$\bullet$&$\bullet$& Nome di login\\
1998     \texttt{HOME}   &$\bullet$&$\bullet$&$\bullet$& Directory base
1999                                                     dell'utente\\
2000     \texttt{LANG}   &$\bullet$&$\bullet$&$\bullet$& Localizzazione\\
2001     \texttt{PATH}   &$\bullet$&$\bullet$&$\bullet$& Elenco delle directory
2002                                                     dei programmi\\
2003     \texttt{PWD}    &$\bullet$&$\bullet$&$\bullet$& Directory corrente\\
2004     \texttt{SHELL}  &$\bullet$&$\bullet$&$\bullet$& Shell in uso\\
2005     \texttt{TERM}   &$\bullet$&$\bullet$&$\bullet$& Tipo di terminale\\
2006     \texttt{PAGER}  &$\bullet$&$\bullet$&$\bullet$& Programma per vedere i
2007                                                     testi\\
2008     \texttt{EDITOR} &$\bullet$&$\bullet$&$\bullet$& Editor preferito\\
2009     \texttt{BROWSER}&$\bullet$&$\bullet$&$\bullet$& Browser preferito\\
2010     \texttt{TMPDIR} &$\bullet$&$\bullet$&$\bullet$& Directory dei file
2011                                                     temporanei\\
2012     \hline
2013   \end{tabular}
2014   \caption{Esempi delle variabili di ambiente più comuni definite da vari
2015     standard.}
2016   \label{tab:proc_env_var}
2017 \end{table}
2018
2019 Lo standard ANSI C prevede l'esistenza di un ambiente, e pur non entrando
2020 nelle specifiche di come sono strutturati i contenuti, definisce la funzione
2021 \funcd{getenv} che permette di ottenere i valori delle variabili di ambiente;
2022 il suo prototipo è:
2023
2024 \begin{funcproto}{
2025 \fhead{stdlib.h}
2026 \fdecl{char *getenv(const char *name)}
2027 \fdesc{Cerca una variabile di ambiente del processo.}
2028 }
2029 {La funzione ritorna il puntatore alla stringa contenente il valore della
2030   variabile di ambiente in caso di successo e \val{NULL} in caso di errore.}
2031 \end{funcproto}
2032
2033 La funzione effettua una ricerca nell'ambiente del processo cercando una
2034 variabile il cui nome corrisponda a quanto indicato con
2035 l'argomento \param{name}, ed in caso di successo ritorna il puntatore alla
2036 stringa che ne contiene il valore, nella forma ``\texttt{NOME=valore}''.
2037
2038 \begin{table}[htb]
2039   \centering
2040   \footnotesize
2041   \begin{tabular}[c]{|l|c|c|c|c|c|c|}
2042     \hline
2043     \textbf{Funzione} & \textbf{ANSI C} & \textbf{POSIX.1} & \textbf{XPG3} &
2044     \textbf{SVr4} & \textbf{BSD} & \textbf{Linux} \\
2045     \hline
2046     \hline
2047     \func{getenv}  & $\bullet$ & $\bullet$ & $\bullet$
2048                    & $\bullet$ & $\bullet$ & $\bullet$ \\
2049     \func{setenv}  &    --     &    --     &   --
2050                    &    --     & $\bullet$ & $\bullet$ \\
2051     \func{unsetenv}&    --     &    --     &   --
2052                    &    --     & $\bullet$ & $\bullet$ \\
2053     \func{putenv}  &    --     & opz.      & $\bullet$
2054                    &    --     & $\bullet$ & $\bullet$ \\
2055     \func{clearenv}&    --     & opz.      &   --
2056                    &    --     &    --     & $\bullet$ \\
2057     \hline
2058   \end{tabular}
2059   \caption{Funzioni per la gestione delle variabili di ambiente.}
2060   \label{tab:proc_env_func}
2061 \end{table}
2062
2063 Oltre a questa funzione di lettura, che è l'unica definita dallo standard ANSI
2064 C, nell'evoluzione dei sistemi Unix ne sono state proposte altre, da
2065 utilizzare per impostare, modificare e per cancellare le variabili di
2066 ambiente. Uno schema delle funzioni previste nei vari standard e disponibili
2067 in Linux è riportato in tab.~\ref{tab:proc_env_func}. Tutte le funzioni sono
2068 state comunque inserite nello standard POSIX.1-2001, ad eccetto di
2069 \func{clearenv} che è stata rigettata.
2070
2071 In Linux sono definite tutte le funzioni elencate in
2072 tab.~\ref{tab:proc_env_func},\footnote{in realtà nelle libc4 e libc5 sono
2073   definite solo le prime quattro, \func{clearenv} è stata introdotta con la
2074   \acr{glibc} 2.0.} anche se parte delle funzionalità sono ridondanti. La
2075 prima funzione di manipolazione che prenderemo in considerazione è
2076 \funcd{putenv}, che consente di aggiungere, modificare e cancellare una
2077 variabile di ambiente; il suo prototipo è:
2078
2079 \begin{funcproto}{
2080 \fdecl{int putenv(char *string)}
2081 \fdesc{Inserisce, modifica o rimuove una variabile d'ambiente.}
2082 }
2083 {La funzione ritorna 0 in caso di successo e $-1$ in caso di errore, che può
2084   essere solo \errval{ENOMEM}.}
2085 \end{funcproto}
2086
2087 La funzione prende come argomento una stringa analoga a quella restituita da
2088 \func{getenv} e sempre nella forma ``\texttt{NOME=valore}''. Se la variabile
2089 specificata (nel caso \texttt{NOME}) non esiste la stringa sarà aggiunta
2090 all'ambiente, se invece esiste il suo valore sarà impostato a quello
2091 specificato dal contenuto di \param{string} (nel caso \texttt{valore}).  Se
2092 invece si passa come argomento solo il nome di una variabile di ambiente
2093 (cioè \param{string} è nella forma ``\texttt{NAME}'' e non contiene il
2094 carattere ``\texttt{=}'') allora questa, se presente nell'ambiente, verrà
2095 cancellata.
2096
2097 Si tenga presente che, seguendo lo standard SUSv2, le \acr{glibc} successive
2098 alla versione 2.1.2 aggiungono direttamente \param{string} nella lista delle
2099 variabili di ambiente illustrata in fig.~\ref{fig:proc_envirno_list}
2100 sostituendo il relativo puntatore;\footnote{il comportamento è lo stesso delle
2101   vecchie \acr{libc4} e \acr{libc5}; nella \acr{glibc}, dalla versione 2.0
2102   alla 2.1.1, veniva invece fatta una copia, seguendo il comportamento di
2103   BSD4.4; dato che questo può dar luogo a perdite di memoria e non rispetta lo
2104   standard il comportamento è stato modificato a partire dalle 2.1.2,
2105   eliminando anche, sempre in conformità a SUSv2, l'attributo \direct{const}
2106   dal prototipo.}  pertanto ogni cambiamento alla stringa in questione si
2107 riflette automaticamente sull'ambiente, e quindi si deve evitare di passare a
2108 questa funzione una \index{variabili!automatiche} variabile automatica (per
2109 evitare i problemi esposti in sez.~\ref{sec:proc_var_passing}).
2110
2111 Infine quando una chiamata a \func{putenv} comporta la necessità di creare una
2112 nuova versione del vettore \var{environ} questo sarà allocato automaticamente,
2113 ma la versione corrente sarà deallocata solo se anch'essa è risultante da
2114 un'allocazione fatta in precedenza da un'altra \func{putenv}. Questo avviene
2115 perché il vettore delle variabili di ambiente iniziale, creato dalla chiamata
2116 ad \func{exec} (vedi sez.~\ref{sec:proc_exec}) è piazzato nella memoria al di
2117 sopra dello \itindex{stack} stack, (vedi fig.~\ref{fig:proc_mem_layout}) e non
2118 nello \itindex{heap} \textit{heap} e quindi non può essere deallocato.
2119 Inoltre la memoria associata alle variabili di ambiente eliminate non viene
2120 liberata.
2121
2122 Come alternativa a \func{putenv} si può usare la funzione \funcd{setenv} che
2123 però consente solo di aggiungere o modificare una variabile di ambiente; il
2124 suo prototipo è:
2125
2126 \begin{funcproto}{
2127 \fhead{stdlib.h}
2128 \fdecl{int setenv(const char *name, const char *value, int overwrite)}
2129 \fdesc{Inserisce o modifica una variabile di ambiente.}
2130 }
2131 {La funzione ritorna 0 in caso di successo e $-1$ per un errore,
2132   nel qual caso \var{errno} assumerà uno dei valori:
2133   \begin{errlist}
2134   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per aggiungere una nuova
2135     variabile all'ambiente.
2136   \item[\errcode{EINVAL}] \param{name} è \val{NULL} o una stringa di lunghezza
2137   nulla o che contiene il carattere ``\texttt{=}''.
2138 \end{errlist}}
2139 \end{funcproto}
2140
2141 La funzione consente di specificare separatamente nome e valore della
2142 variabile di ambiente da aggiungere negli argomenti \param{name}
2143 e \param{value}. Se la variabile è già presente nell'ambiente
2144 l'argomento \param{overwrite} specifica il comportamento della funzione, se
2145 diverso da zero sarà sovrascritta, se uguale a zero sarà lasciata immutata.  A
2146 differenza di \func{putenv} la funzione esegue delle copie del contenuto degli
2147 argomenti \param{name} e \param{value} e non è necessario preoccuparsi di
2148 allocarli in maniera permanente.
2149
2150 La cancellazione di una variabile di ambiente viene invece gestita
2151 esplicitamente con \funcd{unsetenv}, il cui prototipo è:
2152
2153 \begin{funcproto}{
2154 \fhead{stdlib.h}
2155 \fdecl{int unsetenv(const char *name)}
2156 \fdesc{Rimuove una variabile di ambiente.}
2157 }
2158 {La funzione ritorna 0 in caso di successo e $-1$ per un errore,
2159   nel qual caso \var{errno} assumerà uno dei valori:
2160   \begin{errlist}
2161   \item[\errcode{EINVAL}] \param{name} è \val{NULL} o una stringa di lunghezza
2162   nulla o che contiene il carattere ``\texttt{=}''.
2163   \end{errlist}}
2164 \end{funcproto}
2165
2166 La funzione richiede soltanto il nome della variabile di ambiente
2167 nell'argomento \param{name}, se la variabile non esiste la funzione ritorna
2168 comunque con un valore di successo.\footnote{questo con le versioni della
2169   \acr{glibc} successive la 2.2.2, per le precedenti \func{unsetenv} era
2170   definita come \texttt{void} e non restituiva nessuna informazione.}
2171
2172 L'ultima funzione per la gestione dell'ambiente è \funcd{clearenv}, che viene
2173 usata per cancellare completamente tutto l'ambiente; il suo prototipo è:
2174
2175
2176 In genere si usa questa funzione in maniera precauzionale per evitare i
2177 problemi di sicurezza connessi nel trasmettere ai programmi che si invocano un
2178 ambiente che può contenere dei dati non controllati. In tal caso si provvede
2179 alla cancellazione di tutto l'ambiente per costruirne una versione
2180 ``\textsl{sicura}'' da zero.
2181
2182
2183 \subsection{La localizzazione}
2184 \label{sec:proc_localization}
2185
2186 Abbiamo accennato in sez.~\ref{sec:proc_environ} come la variabile di ambiente
2187 \texttt{LANG} sia usata per indicare ai processi il valore della cosiddetta
2188 \textsl{localizzazione}. Si tratta di una funzionalità fornita dalle librerie
2189 di sistema\footnote{prenderemo in esame soltanto il caso della \acr{glibc}.}
2190 che consente di gestire in maniera automatica sia la lingua in cui vengono
2191 stampati i vari messaggi (come i messaggi associati agli errori che vedremo in
2192 sez.~\ref{sec:sys_strerror}) che le convenzioni usate nei vari paesi per una
2193 serie di aspetti come il formato dell'ora, quello delle date, gli ordinamenti
2194 alfabetici, le espressioni della valute, ecc.
2195
2196 Da finire.
2197
2198 % La localizzazione di un programma si può selezionare con la
2199
2200 % In realtà perché un programma sia effettivamente localizzato non è sufficiente
2201
2202 % TODO trattare, quando ci sarà tempo, setlocale ed il resto
2203
2204
2205 %\subsection{Opzioni in formato esteso}
2206 %\label{sec:proc_opt_extended}
2207
2208 %Oltre alla modalità ordinaria di gestione delle opzioni trattata in
2209 %sez.~\ref{sec:proc_opt_handling} le \acr{glibc} forniscono una modalità
2210 %alternativa costituita dalle cosiddette \textit{long-options}, che consente di
2211 %esprimere le opzioni in una forma più descrittiva che nel caso più generale è
2212 %qualcosa del tipo di ``\texttt{-{}-option-name=parameter}''.
2213
2214 %(NdA: questa parte verrà inserita in seguito).
2215
2216 % TODO opzioni in formato esteso
2217
2218 \section{Problematiche di programmazione generica}
2219 \label{sec:proc_gen_prog}
2220
2221 Benché questo non sia un libro sul linguaggio C, è opportuno affrontare alcune
2222 delle problematiche generali che possono emergere nella programmazione con
2223 questo linguaggio e di quali precauzioni o accorgimenti occorre prendere per
2224 risolverle. Queste problematiche non sono specifiche di sistemi unix-like o
2225 multitasking, ma avendo trattato in questo capitolo il comportamento dei
2226 processi visti come entità a sé stanti, le riportiamo qui.
2227
2228
2229 \subsection{Il passaggio di variabili e valori di ritorno nelle funzioni}
2230 \label{sec:proc_var_passing}
2231
2232 Una delle caratteristiche standard del C è che le variabili vengono passate
2233 alle funzioni che si invocano in un programma attraverso un meccanismo che
2234 viene chiamato \textit{by value}, diverso ad esempio da quanto avviene con il
2235 Fortran, dove le variabili sono passate, come suol dirsi, \textit{by
2236   reference}, o dal C++ dove la modalità del passaggio può essere controllata
2237 con l'operatore \cmd{\&}.
2238
2239 Il passaggio di una variabile \textit{by value} significa che in realtà quello
2240 che viene passato alla funzione è una copia del valore attuale di quella
2241 variabile, copia che la funzione potrà modificare a piacere, senza che il
2242 valore originale nella funzione chiamante venga toccato. In questo modo non
2243 occorre preoccuparsi di eventuali effetti delle operazioni svolte nella
2244 funzione stessa sulla variabile passata come argomento.
2245
2246 Questo però va inteso nella maniera corretta. Il passaggio \textit{by value}
2247 vale per qualunque variabile, puntatori compresi; quando però in una funzione
2248 si usano dei puntatori (ad esempio per scrivere in un buffer) in realtà si va
2249 a modificare la zona di memoria a cui essi puntano, per cui anche se i
2250 puntatori sono copie, i dati a cui essi puntano saranno sempre gli stessi, e
2251 le eventuali modifiche avranno effetto e saranno visibili anche nella funzione
2252 chiamante.
2253
2254 Nella maggior parte delle funzioni di libreria e delle \textit{system call} i
2255 puntatori vengono usati per scambiare dati (attraverso i buffer o le strutture
2256 a cui fanno riferimento) e le variabili normali vengono usate per specificare
2257 argomenti; in genere le informazioni a riguardo dei risultati vengono passate
2258 alla funzione chiamante attraverso il valore di ritorno.  È buona norma
2259 seguire questa pratica anche nella programmazione normale.
2260
2261 Talvolta però è necessario che la funzione possa restituire indietro alla
2262 funzione chiamante un valore relativo ad uno dei suoi argomenti usato anche in
2263 ingresso.  Per far questo si usa il cosiddetto \itindex{value~result~argument}
2264 \textit{value result argument}, si passa cioè, invece di una normale
2265 variabile, un puntatore alla stessa. Gli esempi di questa modalità di
2266 passaggio sono moltissimi, ad esempio essa viene usata nelle funzioni che
2267 gestiscono i socket (in sez.~\ref{sec:TCP_functions}), in cui, per permettere
2268 al kernel di restituire informazioni sulle dimensioni delle strutture degli
2269 indirizzi utilizzate, viene usato proprio questo meccanismo.
2270
2271 Occorre tenere ben presente questa differenza, perché le variabili passate in
2272 maniera ordinaria, che vengono inserite nello \textit{stack}, cessano di
2273 esistere al ritorno di una funzione, ed ogni loro eventuale modifica
2274 all'interno della stessa sparisce con la conclusione della stessa, per poter
2275 passare delle informazioni occorre quindi usare un puntatore che faccia
2276 riferimento ad un indirizzo accessibile alla funzione chiamante.
2277
2278 Questo requisito di accessibilità è fondamentale, infatti dei possibili
2279 problemi che si possono avere con il passaggio dei dati è quello di restituire
2280 alla funzione chiamante dei dati che sono contenuti in una
2281 \index{variabili!automatiche} variabile automatica.  Ovviamente quando la
2282 funzione ritorna la sezione dello \itindex{stack} \textit{stack} che conteneva
2283 la \index{variabili!automatiche} variabile automatica (si ricordi quanto detto
2284 in sez.~\ref{sec:proc_mem_alloc}) verrà liberata automaticamente e potrà
2285 essere riutilizzata all'invocazione di un'altra funzione, con le immaginabili
2286 conseguenze, quasi invariabilmente catastrofiche, di sovrapposizione e
2287 sovrascrittura dei dati.
2288
2289 Per questo una delle regole fondamentali della programmazione in C è che
2290 all'uscita di una funzione non deve restare nessun riferimento alle sue
2291 \index{variabili!automatiche} variabili locali. Qualora sia necessario
2292 utilizzare delle variabili che devono essere viste anche dalla funzione
2293 chiamante queste devono essere allocate esplicitamente, o in maniera statica
2294 usando variabili globali o dichiarate come \direct{extern},\footnote{la
2295   direttiva \direct{extern} informa il compilatore che la variabile che si è
2296   dichiarata in una funzione non è da considerarsi locale, ma globale, e per
2297   questo allocata staticamente e visibile da tutte le funzioni dello stesso
2298   programma.} o dinamicamente con una delle funzioni della famiglia
2299 \func{malloc}, passando opportunamente il relativo puntatore fra le funzioni.
2300
2301
2302 \subsection{Il passaggio di un numero variabile di argomenti}
2303 \label{sec:proc_variadic}
2304
2305 Come vedremo nei capitoli successivi, non sempre è possibile specificare un
2306 numero fisso di argomenti per una funzione.  Lo standard ISO C prevede nella
2307 sua sintassi la possibilità di definire delle \index{variadic}
2308 \textit{variadic function} che abbiano un numero variabile di argomenti,
2309 attraverso l'uso nella dichiarazione della funzione dello speciale costrutto
2310 ``\texttt{...}'', che viene chiamato \textit{ellipsis}.
2311
2312 Lo standard però non provvede a livello di linguaggio alcun meccanismo con cui
2313 dette funzioni possono accedere ai loro argomenti.  L'accesso viene pertanto
2314 realizzato a livello della libreria standard del C che fornisce gli strumenti
2315 adeguati.  L'uso di una \textit{variadic function} prevede quindi tre punti:
2316 \begin{itemize*}
2317 \item \textsl{dichiarare} la funzione come \textit{variadic} usando un
2318   prototipo che contenga una \textit{ellipsis};
2319 \item \textsl{definire} la funzione come \textit{variadic} usando la stessa
2320   \textit{ellipsis}, ed utilizzare le apposite macro che consentono la
2321   gestione di un numero variabile di argomenti;
2322 \item \textsl{invocare} la funzione specificando prima gli argomenti fissi, ed
2323   a seguire quelli addizionali.
2324 \end{itemize*}
2325
2326 Lo standard ISO C prevede che una \index{variadic} \textit{variadic function}
2327 abbia sempre almeno un argomento fisso. Prima di effettuare la dichiarazione
2328 deve essere incluso l'apposito \textit{header file} \file{stdarg.h}; un
2329 esempio di dichiarazione è il prototipo della funzione \func{execl} che
2330 vedremo in sez.~\ref{sec:proc_exec}:
2331 \includecodesnip{listati/exec_sample.c}
2332 in questo caso la funzione prende due argomenti fissi ed un numero variabile
2333 di altri argomenti, che andranno a costituire gli elementi successivi al primo
2334 del vettore \param{argv} passato al nuovo processo. Lo standard ISO C richiede
2335 inoltre che l'ultimo degli argomenti fissi sia di tipo
2336 \textit{self-promoting}\footnote{il linguaggio C prevede che quando si
2337   mescolano vari tipi di dati, alcuni di essi possano essere \textsl{promossi}
2338   per compatibilità; ad esempio i tipi \ctyp{float} vengono convertiti
2339   automaticamente a \ctyp{double} ed i \ctyp{char} e gli \ctyp{short} ad
2340   \ctyp{int}. Un tipo \textit{self-promoting} è un tipo che verrebbe promosso
2341   a sé stesso.} il che esclude vettori, puntatori a funzioni e interi di tipo
2342 \ctyp{char} o \ctyp{short} (con segno o meno). Una restrizione ulteriore di
2343 alcuni compilatori è di non dichiarare l'ultimo argomento fisso come
2344 \direct{register}.\footnote{la direttiva \direct{register} del compilatore
2345   chiede che la variabile dichiarata tale sia mantenuta, nei limiti del
2346   possibile, all'interno di un registro del processore; questa direttiva è
2347   originaria dell'epoca dai primi compilatori, quando stava al programmatore
2348   scrivere codice ottimizzato, riservando esplicitamente alle variabili più
2349   usate l'uso dei registri del processore, oggi questa direttiva è in disuso
2350   dato che tutti i compilatori sono normalmente in grado di valutare con
2351   maggior efficacia degli stessi programmatori quando sia il caso di eseguire
2352   questa ottimizzazione.}
2353
2354 Una volta dichiarata la funzione il secondo passo è accedere ai vari argomenti
2355 quando la si va a definire. Gli argomenti fissi infatti hanno un loro nome, ma
2356 quelli variabili vengono indicati in maniera generica dalla
2357 \textit{ellipsis}. L'unica modalità in cui essi possono essere recuperati è
2358 pertanto quella sequenziale, in cui vengono estratti dallo \itindex{stack}
2359 \textit{stack} secondo l'ordine in cui sono stati scritti nel prototipo della
2360 funzione.
2361
2362 Per fare questo in \file{stdarg.h} sono definite delle macro specifiche,
2363 previste dallo standard ISO C89, che consentono di eseguire questa operazione.
2364 La prima di queste macro è \macro{va\_start}, che inizializza opportunamente
2365 una lista degli argomenti, la sua definizione è:
2366
2367 {\centering
2368 \begin{funcbox}{
2369 \fhead{stdarg.h}
2370 \fdecl{void va\_start(va\_list ap, last)}
2371 \fdesc{Inizializza una lista degli argomenti di una funzione
2372   \textit{variadic}.}
2373 }
2374 \end{funcbox}}
2375
2376 La macro inizializza il puntatore alla lista di argomenti \param{ap} che
2377 deve essere una apposita variabile di tipo \type{va\_list}; il
2378 parametro \param{last} deve indicare il nome dell'ultimo degli argomenti fissi
2379 dichiarati nel prototipo della funzione \textit{variadic}.
2380
2381 La seconda macro di gestione delle liste di argomenti di una funzione
2382 \textit{variadic} è \macro{va\_arg}, che restituisce in successione un
2383 argomento della lista; la sua definizione è:
2384
2385 {\centering
2386 \begin{funcbox}{
2387 \fhead{stdarg.h}
2388 \fdecl{type va\_arg(va\_list ap, type)}
2389 \fdesc{Restituisce il valore del successivo argomento opzionale.}
2390 }
2391 \end{funcbox}}
2392
2393 La macro restituisce il valore di un argomento, modificando opportunamente la
2394 lista \param{ap} perché una chiamata successiva restituisca l'argomento
2395 seguente. La macro richiede che si specifichi il tipo dell'argomento che si
2396 andrà ad estrarre attraverso il parametro \param{type} che sarà anche il tipo
2397 del valore da essa restituito. Si ricordi che il tipo deve essere
2398 \textit{self-promoting}.
2399
2400 In generale è perfettamente legittimo richiedere meno argomenti di quelli che
2401 potrebbero essere stati effettivamente forniti, e nella esecuzione delle
2402 \macro{va\_arg} ci si può fermare in qualunque momento ed i restanti argomenti
2403 saranno ignorati. Se invece si richiedono più argomenti di quelli forniti si
2404 otterranno dei valori indefiniti, si avranno risultati indefiniti anche quando
2405 si chiama \macro{va\_arg} specificando un tipo che non corrisponde a quello
2406 usato per il corrispondente argomento.
2407
2408 Infine una volta completata l'estrazione occorre indicare che si sono concluse
2409 le operazioni con la macro \macro{va\_end}, la cui definizione è:
2410
2411 {\centering
2412 \begin{funcbox}{
2413 \fhead{stdarg.h}
2414 \fdecl{void va\_end(va\_list ap)}
2415 \fdesc{Conclude l'estrazione degli argomenti di una funzione
2416   \textit{variadic}.}
2417 }
2418 \end{funcbox}}
2419
2420 Dopo l'uso di \macro{va\_end} la variabile \param{ap} diventa indefinita e
2421 successive chiamate a \macro{va\_arg} non funzioneranno.  Nel caso del
2422 \cmd{gcc} l'uso di \macro{va\_end} può risultare inutile, ma è comunque
2423 necessario usarla per chiarezza del codice, per compatibilità con diverse
2424 implementazioni e per eventuali eventuali modifiche future a questo
2425 comportamento.
2426
2427 Riassumendo la procedura da seguire per effettuare l'estrazione degli
2428 argomenti di una funzione \textit{variadic} è la seguente:
2429 \begin{enumerate*}
2430 \item inizializzare una lista degli argomenti attraverso la macro
2431   \macro{va\_start};
2432 \item accedere agli argomenti con chiamate successive alla macro
2433   \macro{va\_arg}: la prima chiamata restituirà il primo argomento, la seconda
2434   il secondo e così via;
2435 \item dichiarare la conclusione dell'estrazione degli argomenti invocando la
2436   macro \macro{va\_end}.
2437 \end{enumerate*}
2438
2439 Si tenga presente che si possono usare anche più liste degli argomenti,
2440 ciascuna di esse andrà inizializzata con \macro{va\_start} e letta con
2441 \macro{va\_arg}, e ciascuna potrà essere usata per scandire la lista degli
2442 argomenti in modo indipendente. Infine ciascuna scansione dovrà essere
2443 terminata con \macro{va\_end}.
2444
2445 Un limite di queste macro è che i passi 1) e 3) devono essere eseguiti nel
2446 corpo principale della funzione, il passo 2) invece può essere eseguito anche
2447 in un'altra funzione, passandole lista degli argomenti \param{ap}. In questo
2448 caso però al ritorno della funzione \macro{va\_arg} non può più essere usata
2449 (anche se non si era completata l'estrazione) dato che il valore di \param{ap}
2450 risulterebbe indefinito.
2451
2452 Esistono dei casi in cui è necessario eseguire più volte la scansione degli
2453 argomenti e poter memorizzare una posizione durante la stessa. In questo caso
2454 sembrerebbe naturale copiarsi la lista degli argomenti \param{ap} con una
2455 semplice assegnazione ad un'altra variabile dello stesso tipo. Dato che una
2456 delle realizzazioni più comuni di \type{va\_list} è quella di un puntatore
2457 nello \itindex{stack} \textit{stack} all'indirizzo dove sono stati salvati gli
2458 argomenti, è assolutamente normale pensare di poter effettuare questa
2459 operazione.
2460
2461 In generale però possono esistere anche realizzazioni diverse, ed è per questo
2462 motivo che invece che di un semplice puntatore viene \type{va\_list} è quello
2463 che viene chiamato un \index{tipo!opaco} \textsl{tipo opaco}. Si chiamano così
2464 quei tipi di dati, in genere usati da una libreria, la cui struttura interna
2465 non deve essere vista dal programma chiamante (da cui deriva il nome opaco)
2466 che li devono utilizzare solo attraverso dalle opportune funzioni di
2467 gestione. Per questo motivo non può essere assegnata direttamente ad un'altra
2468 variabile dello stesso tipo. Per risolvere questo problema lo standard ISO
2469 C99\footnote{alcuni sistemi che non hanno questa macro provvedono al suo posto
2470   \macro{\_\_va\_copy} che era il nome proposto in una bozza dello standard.}
2471 ha previsto una macro ulteriore che permette di eseguire la copia di una lista
2472 degli argomenti:
2473
2474 {\centering
2475 \begin{funcbox}{
2476 \fhead{stdarg.h}
2477 \fdecl{void va\_copy(va\_list dest, va\_list src)}
2478 \fdesc{Copia la lista degli argomenti di una funzione \textit{variadic}.}
2479 }
2480 \end{funcbox}}
2481
2482 La macro copia l'attuale della lista degli argomenti \param{src} su una nuova
2483 lista \param{dest}. Anche in questo caso è buona norma chiudere ogni
2484 esecuzione di una \macro{va\_copy} con una corrispondente \macro{va\_end} sul
2485 nuovo puntatore alla lista degli argomenti.
2486
2487 La chiamata di una funzione con un numero variabile di argomenti, posto che la
2488 si sia dichiarata e definita come tale, non prevede nulla di particolare;
2489 l'invocazione è identica alle altre, con gli argomenti, sia quelli fissi che
2490 quelli opzionali, separati da virgole. Quello che però è necessario tenere
2491 presente è come verranno convertiti gli argomenti variabili.
2492
2493 In Linux gli argomenti dello stesso tipo sono passati allo stesso modo, sia
2494 che siano fissi sia che siano opzionali (alcuni sistemi trattano diversamente
2495 gli opzionali), ma dato che il prototipo non può specificare il tipo degli
2496 argomenti opzionali, questi verranno sempre promossi, pertanto nella ricezione
2497 dei medesimi occorrerà tenerne conto (ad esempio un \ctyp{char} verrà visto da
2498 \macro{va\_arg} come \ctyp{int}).
2499
2500 Uno dei problemi che si devono affrontare con le funzioni con un numero
2501 variabile di argomenti è che non esiste un modo generico che permetta di
2502 stabilire quanti sono gli argomenti passati effettivamente in una chiamata.
2503
2504 Esistono varie modalità per affrontare questo problema; una delle più
2505 immediate è quella di specificare il numero degli argomenti opzionali come uno
2506 degli argomenti fissi. Una variazione di questo metodo è l'uso di un argomento
2507 per specificare anche il tipo degli argomenti (come fa la stringa di formato
2508 per \func{printf}).
2509
2510 Una modalità diversa, che può essere applicata solo quando il tipo degli
2511 argomenti lo rende possibile, è quella che prevede di usare un valore speciale
2512 come ultimo argomento (come fa ad esempio \func{execl} che usa un puntatore
2513 \val{NULL} per indicare la fine della lista degli argomenti).
2514
2515
2516 \subsection{Il controllo di flusso non locale}
2517 \label{sec:proc_longjmp}
2518
2519 Il controllo del flusso di un programma in genere viene effettuato con le
2520 varie istruzioni del linguaggio C; fra queste la più bistrattata è il
2521 \code{goto}, che viene deprecato in favore dei costrutti della programmazione
2522 strutturata, che rendono il codice più leggibile e mantenibile. Esiste però un
2523 caso in cui l'uso di questa istruzione porta all'implementazione più
2524 efficiente e più chiara anche dal punto di vista della struttura del
2525 programma: quello dell'uscita in caso di errore.
2526
2527 \index{salto~non-locale|(}
2528
2529 Il C però non consente di effettuare un salto ad una etichetta definita in
2530 un'altra funzione, per cui se l'errore avviene in una funzione, e la sua
2531 gestione ordinaria è in un'altra, occorre usare quello che viene chiamato un
2532 \textsl{salto non-locale}.  Il caso classico in cui si ha questa necessità,
2533 citato sia in \cite{APUE} che in \cite{glibc}, è quello di un programma nel
2534 cui corpo principale vengono letti dei dati in ingresso sui quali viene
2535 eseguita, tramite una serie di funzioni di analisi, una scansione dei
2536 contenuti, da cui si ottengono le indicazioni per l'esecuzione di opportune
2537 operazioni.
2538
2539 Dato che l'analisi può risultare molto complessa, ed opportunamente suddivisa
2540 in fasi diverse, la rilevazione di un errore nei dati in ingresso può accadere
2541 all'interno di funzioni profondamente annidate l'una nell'altra. In questo
2542 caso si dovrebbe gestire, per ciascuna fase, tutta la casistica del passaggio
2543 all'indietro di tutti gli errori rilevabili dalle funzioni usate nelle fasi
2544 successive.  Questo comporterebbe una notevole complessità, mentre sarebbe
2545 molto più comodo poter tornare direttamente al ciclo di lettura principale,
2546 scartando l'input come errato.\footnote{a meno che, come precisa \cite{glibc},
2547   alla chiusura di ciascuna fase non siano associate operazioni di pulizia
2548   specifiche (come deallocazioni, chiusure di file, ecc.), che non potrebbero
2549   essere eseguite con un salto non-locale.}
2550
2551 Tutto ciò può essere realizzato proprio con un salto non-locale; questo di
2552 norma viene realizzato salvando il contesto dello \itindex{stack}
2553 \textit{stack} nel punto in cui si vuole tornare in caso di errore, e
2554 ripristinandolo, in modo da tornare nella funzione da cui si era partiti,
2555 quando serve.  La funzione che permette di salvare il contesto dello
2556 \itindex{stack} \textit{stack} è \funcd{setjmp}, il cui prototipo è:
2557 \begin{functions}
2558   \headdecl{setjmp.h}
2559   \funcdecl{int setjmp(jmp\_buf env)}
2560
2561   Salva il contesto dello stack.
2562
2563   \bodydesc{La funzione ritorna zero quando è chiamata direttamente e un
2564     valore diverso da zero quando ritorna da una chiamata di \func{longjmp}
2565     che usa il contesto salvato in precedenza.}
2566 \end{functions}
2567
2568 Quando si esegue la funzione il contesto corrente dello \itindex{stack}
2569 \textit{stack} viene salvato nell'argomento \param{env}, una variabile di tipo
2570 \type{jmp\_buf}\footnote{anche questo è un classico esempio di variabile di
2571   \index{tipo!opaco} \textsl{tipo opaco}.}  che deve essere stata definita in
2572 precedenza. In genere le variabili di tipo \type{jmp\_buf} vengono definite
2573 come \index{variabili!globali} variabili globali in modo da poter essere viste
2574 in tutte le funzioni del programma.
2575
2576 Quando viene eseguita direttamente la funzione ritorna sempre zero, un valore
2577 diverso da zero viene restituito solo quando il ritorno è dovuto ad una
2578 chiamata di \func{longjmp} in un'altra parte del programma che ripristina lo
2579 \itindex{stack} \textit{stack} effettuando il salto non-locale. Si tenga conto
2580 che il contesto salvato in \param{env} viene invalidato se la funzione che ha
2581 chiamato \func{setjmp} ritorna, nel qual caso un successivo uso di
2582 \func{longjmp} può comportare conseguenze imprevedibili (e di norma fatali)
2583 per il processo.
2584
2585 Come accennato per effettuare un salto non-locale ad
2586 un punto precedentemente stabilito con \func{setjmp} si usa la funzione
2587 \funcd{longjmp}; il suo prototipo è:
2588 \begin{functions}
2589   \headdecl{setjmp.h}
2590   \funcdecl{void longjmp(jmp\_buf env, int val)}
2591
2592   Ripristina il contesto dello stack.
2593
2594   \bodydesc{La funzione non ritorna.}
2595 \end{functions}
2596
2597 La funzione ripristina il contesto dello \itindex{stack} \textit{stack}
2598 salvato da una chiamata a \func{setjmp} nell'argomento \param{env}. Dopo
2599 l'esecuzione della funzione il programma prosegue nel codice successivo al
2600 ritorno della \func{setjmp} con cui si era salvato \param{env}, che restituirà
2601 il valore
2602 \param{val} invece di zero.  Il valore di \param{val} specificato nella
2603 chiamata deve essere diverso da zero, se si è specificato 0 sarà comunque
2604 restituito 1 al suo posto.
2605
2606 In sostanza un \func{longjmp} è analogo ad un \code{return}, solo che invece
2607 di ritornare alla riga successiva della funzione chiamante, il programma
2608 ritorna alla posizione della relativa \func{setjmp}, l'altra differenza è che
2609 il ritorno può essere effettuato anche attraverso diversi livelli di funzioni
2610 annidate.
2611
2612 L'implementazione di queste funzioni comporta alcune restrizioni dato che esse
2613 interagiscono direttamente con la gestione dello \itindex{stack}
2614 \textit{stack} ed il funzionamento del compilatore stesso. In particolare
2615 \func{setjmp} è implementata con una macro, pertanto non si può cercare di
2616 ottenerne l'indirizzo, ed inoltre delle chiamate a questa funzione sono sicure
2617 solo in uno dei seguenti casi:
2618 \begin{itemize*}
2619 \item come espressione di controllo in un comando condizionale, di selezione
2620   o di iterazione (come \code{if}, \code{switch} o \code{while});
2621 \item come operando per un operatore di uguaglianza o confronto in una
2622   espressione di controllo di un comando condizionale, di selezione o di
2623   iterazione;
2624 \item come operando per l'operatore di negazione (\code{!}) in una espressione
2625   di controllo di un comando condizionale, di selezione o di iterazione;
2626 \item come espressione a sé stante.
2627 \end{itemize*}
2628
2629 In generale, dato che l'unica differenza fra la chiamata diretta e quella
2630 ottenuta nell'uscita con un \func{longjmp} è costituita dal valore di ritorno
2631 di \func{setjmp}, quest'ultima usualmente viene chiamata all'interno di un
2632 comando \code{if}.
2633
2634 Uno dei punti critici dei salti non-locali è quello del valore delle
2635 variabili, ed in particolare quello delle \index{variabili!automatiche}
2636 variabili automatiche della funzione a cui si ritorna. In generale le
2637 \index{variabili!globali} variabili globali e \index{variabili!statiche}
2638 statiche mantengono i valori che avevano al momento della chiamata di
2639 \func{longjmp}, ma quelli delle \index{variabili!automatiche} variabili
2640 automatiche (o di quelle dichiarate \direct{register}) sono in genere
2641 indeterminati.
2642
2643 Quello che succede infatti è che i valori delle variabili che sono tenute in
2644 memoria manterranno il valore avuto al momento della chiamata di
2645 \func{longjmp}, mentre quelli tenuti nei registri del processore (che nella
2646 chiamata ad un'altra funzione vengono salvati nel contesto nello
2647 \itindex{stack} \textit{stack}) torneranno al valore avuto al momento della
2648 chiamata di \func{setjmp}; per questo quando si vuole avere un comportamento
2649 coerente si può bloccare l'ottimizzazione che porta le variabili nei registri
2650 dichiarandole tutte come \direct{volatile}.\footnote{la direttiva
2651   \direct{volatile} informa il compilatore che la variabile che è dichiarata
2652   può essere modificata, durante l'esecuzione del nostro, da altri programmi.
2653   Per questo motivo occorre dire al compilatore che non deve essere mai
2654   utilizzata l'ottimizzazione per cui quanto opportuno essa viene mantenuta in
2655   un registro, poiché in questo modo si perderebbero le eventuali modifiche
2656   fatte dagli altri programmi (che avvengono solo in una copia posta in
2657   memoria).}
2658
2659 \index{salto~non-locale|)}
2660
2661
2662 \subsection{La \textit{endianess}}
2663 \label{sec:sock_endianess}
2664
2665 \itindbeg{endianess}
2666
2667 Uno dei problemi di programmazione che può dar luogo ad effetti imprevisti è
2668 quello relativo alla cosiddetta \textit{endianess}.  Questa è una
2669 caratteristica generale dell'architettura hardware di un computer che dipende
2670 dal fatto che la rappresentazione di un numero binario può essere fatta in due
2671 modi, chiamati rispettivamente \textit{big endian} e \textit{little endian} a
2672 seconda di come i singoli bit vengono aggregati per formare le variabili
2673 intere (ed in genere in diretta corrispondenza a come sono poi in realtà
2674 cablati sui bus interni del computer).
2675
2676 \begin{figure}[!htb]
2677   \centering \includegraphics[height=3cm]{img/endianess}
2678   \caption{Schema della disposizione dei dati in memoria a seconda della
2679     \textit{endianess}.}
2680   \label{fig:sock_endianess}
2681 \end{figure}
2682
2683 Per capire meglio il problema si consideri un intero a 32 bit scritto in una
2684 locazione di memoria posta ad un certo indirizzo. Come illustrato in
2685 fig.~\ref{fig:sock_endianess} i singoli bit possono essere disposti in memoria
2686 in due modi: a partire dal più significativo o a partire dal meno
2687 significativo.  Così nel primo caso si troverà il byte che contiene i bit più
2688 significativi all'indirizzo menzionato e il byte con i bit meno significativi
2689 nell'indirizzo successivo; questo ordinamento è detto \textit{big endian},
2690 dato che si trova per prima la parte più grande. Il caso opposto, in cui si
2691 parte dal bit meno significativo è detto per lo stesso motivo \textit{little
2692   endian}.
2693
2694 Si può allora verificare quale tipo di \textit{endianess} usa il proprio
2695 computer con un programma elementare che si limita ad assegnare un valore ad
2696 una variabile per poi ristamparne il contenuto leggendolo un byte alla volta.
2697 Il codice di detto programma, \file{endtest.c}, è nei sorgenti allegati,
2698 allora se lo eseguiamo su un normale PC compatibile, che è \textit{little
2699   endian} otterremo qualcosa del tipo:
2700 \begin{verbatim}
2701 [piccardi@gont sources]$ ./endtest
2702 Using value ABCDEF01
2703 val[0]= 1
2704 val[1]=EF
2705 val[2]=CD
2706 val[3]=AB
2707 \end{verbatim}%$
2708 mentre su un vecchio Macintosh con PowerPC, che è \textit{big endian} avremo
2709 qualcosa del tipo:
2710 \begin{verbatim}
2711 piccardi@anarres:~/gapil/sources$ ./endtest
2712 Using value ABCDEF01
2713 val[0]=AB
2714 val[1]=CD
2715 val[2]=EF
2716 val[3]= 1
2717 \end{verbatim}%$
2718
2719 L'attenzione alla \textit{endianess} nella programmazione è importante, perché
2720 se si fanno assunzioni relative alla propria architettura non è detto che
2721 queste restino valide su un'altra architettura. Inoltre, come vedremo ad
2722 esempio in sez.~\ref{sec:sock_addr_func}, si possono avere problemi quando ci
2723 si trova a usare valori di un formato con una infrastruttura che ne usa
2724 un altro.
2725
2726 La \textit{endianess} di un computer dipende essenzialmente dalla architettura
2727 hardware usata; Intel e Digital usano il \textit{little endian}, Motorola,
2728 IBM, Sun (sostanzialmente tutti gli altri) usano il \textit{big endian}. Il
2729 formato dei dati contenuti nelle intestazioni dei protocolli di rete (il
2730 cosiddetto \textit{network order} è anch'esso \textit{big endian}; altri
2731 esempi di uso di questi due diversi formati sono quello del bus PCI, che è
2732 \textit{little endian}, o quello del bus VME che è \textit{big endian}.
2733
2734 Esistono poi anche dei processori che possono scegliere il tipo di formato
2735 all'avvio e alcuni che, come il PowerPC o l'Intel i860, possono pure passare
2736 da un tipo di ordinamento all'altro con una specifica istruzione. In ogni caso
2737 in Linux l'ordinamento è definito dall'architettura e dopo l'avvio del sistema
2738 in genere resta sempre lo stesso,\footnote{su architettura PowerPC è possibile
2739   cambiarlo, si veda sez.~\ref{sec:process_prctl}.} anche quando il processore
2740 permetterebbe di eseguire questi cambiamenti.
2741
2742 \begin{figure}[!htbp]
2743   \footnotesize \centering
2744   \begin{minipage}[c]{\codesamplewidth}
2745     \includecodesample{listati/endian.c}
2746   \end{minipage}
2747   \normalsize
2748   \caption{La funzione \func{endian}, usata per controllare il tipo di
2749     architettura della macchina.}
2750   \label{fig:sock_endian_code}
2751 \end{figure}
2752
2753 Per controllare quale tipo di ordinamento si ha sul proprio computer si è
2754 scritta una piccola funzione di controllo, il cui codice è riportato
2755 fig.~\ref{fig:sock_endian_code}, che restituisce un valore nullo (falso) se
2756 l'architettura è \textit{big endian} ed uno non nullo (vero) se l'architettura
2757 è \textit{little endian}.
2758
2759 Come si vede la funzione è molto semplice, e si limita, una volta assegnato
2760 (\texttt{\small 9}) un valore di test pari a \texttt{0xABCD} ad una variabile
2761 di tipo \ctyp{short} (cioè a 16 bit), a ricostruirne una copia byte a byte.
2762 Per questo prima (\texttt{\small 10}) si definisce il puntatore \var{ptr} per
2763 accedere al contenuto della prima variabile, ed infine calcola (\texttt{\small
2764   11}) il valore della seconda assumendo che il primo byte sia quello meno
2765 significativo (cioè, per quanto visto in fig.~\ref{fig:sock_endianess}, che sia
2766 \textit{little endian}). Infine la funzione restituisce (\texttt{\small 12})
2767 il valore del confronto delle due variabili.
2768 \itindend{endianess}
2769
2770
2771
2772 % LocalWords:  like exec kernel thread main ld linux static linker char envp Gb
2773 % LocalWords:  sez POSIX exit system call cap abort shell diff errno stdlib int
2774 % LocalWords:  SUCCESS FAILURE void atexit stream fclose unistd descriptor init
2775 % LocalWords:  SIGCHLD wait function glibc SunOS arg argp execve fig high kb Mb
2776 % LocalWords:  memory alpha swap table printf Unit MMU paging fault SIGSEGV BSS
2777 % LocalWords:  multitasking text segment NULL Block Started Symbol fill black
2778 % LocalWords:  heap stack calling convention size malloc calloc realloc nmemb
2779 % LocalWords:  ENOMEM ptr uClib cfree error leak smartpointers hook Dmalloc brk
2780 % LocalWords:  Gray Watson Electric Fence Bruce Perens sbrk longjmp SUSv BSD ap
2781 % LocalWords:  ptrdiff increment locking lock copy write capabilities IPC mlock
2782 % LocalWords:  capability MEMLOCK limits getpagesize RLIMIT munlock sys const
2783 % LocalWords:  addr len EINVAL EPERM mlockall munlockall flags l'OR CURRENT IFS
2784 % LocalWords:  argc argv parsing questofile txt getopt optstring switch optarg
2785 % LocalWords:  optind opterr optopt ForkTest POSIXLY CORRECT long options NdA
2786 % LocalWords:  option parameter list environ PATH HOME XPG tab LOGNAME LANG PWD
2787 % LocalWords:  TERM PAGER TMPDIR getenv name SVr setenv unsetenv putenv opz gcc
2788 % LocalWords:  clearenv libc value overwrite string reference result argument
2789 % LocalWords:  socket variadic ellipsis header stdarg execl self promoting last
2790 % LocalWords:  float double short register type dest src extern setjmp jmp buf
2791 % LocalWords:  env return if while Di page cdecl  rectangle node anchor west PS
2792 % LocalWords:  environment rounded corners dashed south width height draw east
2793 % LocalWords:  exithandler handler violation inline SOURCE SVID XOPEN mincore
2794 % LocalWords:  length unsigned vec EFAULT EAGAIN dell'I memalign valloc posix
2795 % LocalWords:  boundary memptr alignment sizeof overrun mcheck abortfn enum big
2796 % LocalWords:  mprobe DISABLED HEAD TAIL touch right emacs OSTYPE endianess IBM
2797 % LocalWords:  endian little endtest Macintosh PowerPC Intel Digital Motorola
2798 % LocalWords:  Sun order VME  loader Windows DLL shared objects PRELOAD termios
2799 % LocalWords:  is to LC SIG str mem wcs assert ctype dirent fcntl signal stdio
2800 % LocalWords:  times library utmp syscall number Filesystem Hierarchy pathname
2801 % LocalWords:  context assembler sysconf fork Dinamic huge segmentation program
2802 % LocalWords:  break  store
2803
2804 %%% Local Variables:
2805 %%% mode: latex
2806 %%% TeX-master: "gapil"
2807 %%% End: