Rilettura e correzioni prima parte.
[gapil.git] / process.tex
1 %% process.tex
2 %%
3 %% Copyright (C) 2000-2018 by Simone Piccardi.  Permission is granted to
4 %% copy, distribute and/or modify this document under the terms of the GNU Free
5 %% Documentation License, Version 1.1 or any later version published by the
6 %% Free Software Foundation; with the Invariant Sections being "Un preambolo",
7 %% with no Front-Cover Texts, and with no Back-Cover Texts.  A copy of the
8 %% license is included in the section entitled "GNU Free Documentation
9 %% License".
10 %%
11
12 \chapter{L'interfaccia base con i processi}
13 \label{cha:process_interface}
14
15 Come accennato nell'introduzione il \textsl{processo} è l'unità di base con
16 cui un sistema unix-like alloca ed utilizza le risorse.  Questo capitolo
17 tratterà l'interfaccia base fra il sistema e i processi, come vengono passati
18 gli argomenti, come viene gestita e allocata la memoria, come un processo può
19 richiedere servizi al sistema e cosa deve fare quando ha finito la sua
20 esecuzione. Nella sezione finale accenneremo ad alcune problematiche generiche
21 di programmazione.
22
23 In genere un programma viene eseguito quando un processo lo fa partire
24 eseguendo una funzione della famiglia \func{exec}; torneremo su questo e sulla
25 creazione e gestione dei processi nel prossimo capitolo. In questo
26 affronteremo l'avvio e il funzionamento di un singolo processo partendo dal
27 punto di vista del programma che viene messo in esecuzione.
28
29
30 \section{Esecuzione e conclusione di un programma}
31
32 Uno dei concetti base di Unix è che un processo esegue sempre uno ed un solo
33 programma: si possono avere più processi che eseguono lo stesso programma ma
34 ciascun processo vedrà la sua copia del codice (in realtà il kernel fa sì che
35 tutte le parti uguali siano condivise), avrà un suo spazio di indirizzi,
36 variabili proprie e sarà eseguito in maniera completamente indipendente da
37 tutti gli altri. Questo non è del tutto vero nel caso di un programma
38 \textit{multi-thread}, ma la gestione dei \textit{thread} in Linux sarà
39 trattata a parte\unavref{in cap.~\ref{cha:threads}}.
40
41
42 \subsection{L'avvio e l'esecuzione di un programma}
43 \label{sec:proc_main}
44
45 \itindbeg{link-loader}
46 \itindbeg{shared~objects}
47 Quando un programma viene messo in esecuzione, cosa che può essere fatta solo
48 con una funzione della famiglia \func{exec} (vedi sez.~\ref{sec:proc_exec}),
49 il kernel esegue un opportuno codice di avvio, il cosiddetto
50 \textit{link-loader}, costituito dal programma \cmd{ld-linux.so}. Questo
51 programma è una parte fondamentale del sistema il cui compito è quello della
52 gestione delle cosiddette \textsl{librerie condivise}, quelle che nel mondo
53 Windows sono chiamate DLL (\textit{Dinamic Link Library}), e che invece in un
54 sistema unix-like vengono chiamate \textit{shared objects}.
55
56 Infatti, a meno di non aver specificato il flag \texttt{-static} durante la
57 compilazione, tutti i programmi in Linux sono compilati facendo riferimento a
58 librerie condivise, in modo da evitare di duplicare lo stesso codice nei
59 relativi eseguibili e consentire un uso più efficiente della memoria, dato che
60 il codice di uno \textit{shared objects} viene caricato in memoria dal kernel
61 una sola volta per tutti i programmi che lo usano.
62 \itindend{shared~objects}
63
64 Questo significa però che normalmente il codice di un programma è incompleto,
65 contenendo solo i riferimenti alle funzioni di libreria che vuole utilizzare e
66 non il relativo codice. Per questo motivo all'avvio del programma è necessario
67 l'intervento del \textit{link-loader} il cui compito è caricare in memoria le
68 librerie condivise eventualmente assenti, ed effettuare poi il collegamento
69 dinamico del codice del programma alle funzioni di libreria da esso utilizzate
70 prima di metterlo in esecuzione.
71
72 Il funzionamento di \cmd{ld-linux.so} è controllato da alcune variabili di
73 ambiente e dal contenuto del file \conffile{/etc/ld.so.conf} che consentono di
74 elencare le directory un cui cercare le librerie e determinare quali verranno
75 utilizzate.  In particolare con la variabile di ambiente
76 \envvar{LD\_LIBRARY\_PATH} si possono indicare ulteriori directory rispetto a
77 quelle di sistema in cui inserire versioni personali delle librerie che hanno
78 la precedenza su quelle di sistema, mentre con la variabile di ambiente
79 \envvar{LD\_PRELOAD} si può passare direttamente una lista di file di librerie
80 condivise da usare al posto di quelli di sistema. In questo modo è possibile
81 effettuare lo sviluppo o il test di nuove librerie senza dover sostituire
82 quelle di sistema. Ulteriori dettagli sono riportati nella pagina di manuale
83 di \cmd{ld.so} e per un approfondimento dell'argomento si può consultare
84 sez.~3.1.2 di \cite{AGL}.
85
86 Una volta completate le operazioni di inizializzazione di \cmd{ld-linux.so}, il
87 sistema fa partire qualunque programma chiamando la funzione \code{main}. Sta
88 al programmatore chiamare così la funzione principale del programma da cui si
89 suppone che inizi l'esecuzione. In ogni caso senza questa funzione lo stesso
90 \textit{link-loader} darebbe luogo ad errori.  Lo standard ISO C specifica che
91 la funzione \code{main} può non avere argomenti o prendere due argomenti che
92 rappresentano gli argomenti passati da linea di comando (su cui torneremo in
93 sez.~\ref{sec:proc_par_format}), in sostanza un prototipo che va sempre bene è
94 il seguente:
95 \includecodesnip{listati/main_def.c}
96
97 \itindend{link-loader}
98
99 In realtà nei sistemi Unix esiste un altro modo per definire la funzione
100 \code{main}, che prevede la presenza di un terzo argomento, \code{char
101   *envp[]}, che fornisce l'\textsl{ambiente} del programma; questa forma però
102 non è prevista dallo standard POSIX.1 per cui se si vogliono scrivere
103 programmi portabili è meglio evitarla. Per accedere all'ambiente, come vedremo
104 in sez.~\ref{sec:proc_environ} si usa in genere una variabile globale che
105 viene sempre definita automaticamente.
106
107 Ogni programma viene fatto partire mettendo in esecuzione il codice contenuto
108 nella funzione \code{main}, ogni altra funzione usata dal programma, che sia
109 ottenuta da una libreria condivisa, o che sia direttamente definita nel
110 codice, dovrà essere invocata a partire dal codice di \code{main}. Nel caso di
111 funzioni definite nel programma occorre tenere conto che, nel momento stesso
112 in cui si usano le librerie di sistema (vale a dire la \acr{glibc}) alcuni
113 nomi sono riservati e non possono essere utilizzati. 
114
115 In particolare sono riservati a priori e non possono essere mai ridefiniti in
116 nessun caso i nomi di tutte le funzioni, le variabili, le macro di
117 preprocessore, ed i tipi di dati previsti dallo standard ISO C. Lo stesso
118 varrà per tutti i nomi definiti negli \textit{header file} che si sono
119 esplicitamente inclusi nel programma (vedi sez.~\ref{sec:proc_syscall}), ma
120 anche se è possibile riutilizzare nomi definiti in altri \textit{header file}
121 la pratica è da evitare nella maniera più assoluta per non generare ambiguità.
122
123 Oltre ai nomi delle funzioni di libreria sono poi riservati in maniera
124 generica tutti i nomi di variabili o funzioni globali che iniziano con il
125 carattere di sottolineato (``\texttt{\_}''), e qualunque nome che inizi con il
126 doppio sottolineato (``\texttt{\_\_}'') o con il sottolineato seguito da
127 lettera maiuscola. Questi identificativi infatti sono utilizzati per i nomi
128 usati internamente in forma privata dalle librerie, ed evitandone l'uso si
129 elimina il rischio di conflitti.
130
131 Infine esiste una serie di classi di nomi che sono riservati per un loro
132 eventuale uso futuro da parte degli standard ISO C e POSIX.1, questi in teoria
133 possono essere usati senza problemi oggi, ma potrebbero dare un conflitto con
134 una revisione futura di questi standard, per cui è comunque opportuno
135 evitarli, in particolare questi sono:
136 \begin{itemize*}
137 \item i nomi che iniziano per ``\texttt{E}'' costituiti da lettere maiuscole e
138   numeri, che potrebbero essere utilizzati per nuovi codici di errore (vedi
139   sez.~\ref{sec:sys_errors}),
140 \item i nomi che iniziano con ``\texttt{is}'' o ``\texttt{to}'' e costituiti
141   da lettere minuscole che potrebbero essere utilizzati da nuove funzioni per
142   il controllo e la conversione del tipo di caratteri,
143 \item i nomi che iniziano con ``\texttt{LC\_}'' e costituiti
144   da lettere maiuscole che possono essere usato per macro attinenti la
145   localizzazione,% mettere in seguito (vedi sez.~\ref{sec:proc_localization}),
146 \item nomi che iniziano con ``\texttt{SIG}'' o ``\texttt{SIG\_}'' e costituiti
147   da lettere maiuscole che potrebbero essere usati per nuovi nomi di segnale
148   (vedi sez.~\ref{sec:sig_classification}),
149 \item nomi che iniziano con ``\texttt{str}'', ``\texttt{mem}'', o
150   ``\texttt{wcs}'' e costituiti da lettere minuscole che possono essere
151   utilizzati per funzioni attinenti la manipolazione delle stringhe e delle
152   aree di memoria,
153 \item nomi che terminano in ``\texttt{\_t}'' che potrebbero essere utilizzati
154   per la definizione di nuovi tipi di dati di sistema oltre quelli di
155   tab.~\ref{tab:intro_primitive_types}).
156 \end{itemize*}
157
158
159 \subsection{Chiamate a funzioni e \textit{system call}}
160 \label{sec:proc_syscall}
161
162 Come accennato in sez.~\ref{sec:intro_syscall} un programma può utilizzare le
163 risorse che il sistema gli mette a disposizione attraverso l'uso delle
164 opportune \textit{system call}. Abbiamo inoltre appena visto come all'avvio un
165 programma venga messo in grado di chiamare le funzioni fornite da eventuali
166 librerie condivise da esso utilizzate. 
167
168 Vedremo nel resto della guida quali sono le risorse del sistema accessibili
169 attraverso le \textit{system call} e tratteremo buona parte delle funzioni
170 messe a disposizione dalla libreria standard del C, in questa sezione però si
171 forniranno alcune indicazioni generali sul come fare perché un programma possa
172 utilizzare queste funzioni.
173
174 \itindbeg{header~file}
175
176 In sez.~\ref{sec:intro_standard} abbiamo accennato come le funzioni definite
177 nei vari standard siano definite in una serie di \textit{header file} (in
178 italiano \textsl{file di intestazione}).  Vengono chiamati in questo modo quei
179 file, forniti insieme al codice delle librerie, che contengono le
180 dichiarazioni delle variabili, dei tipi di dati, delle macro di preprocessore
181 e soprattutto delle funzioni che fanno parte di una libreria.
182
183 Questi file sono necessari al compilatore del linguaggio C per ottenere i
184 riferimenti ai nomi delle funzioni (e alle altre risorse) definite in una
185 libreria, per questo quando si vogliono usare le funzioni di una libreria
186 occorre includere nel proprio codice gli \textit{header file} che le
187 definiscono con la direttiva \code{\#include}. Dato che le funzioni devono
188 essere definite prima di poterle usare in genere gli \textit{header file}
189 vengono inclusi all'inizio del programma. Se inoltre si vogliono utilizzare le
190 macro di controllo delle funzionalità fornite dai vari standard illustrate in
191 sez.~\ref{sec:intro_gcc_glibc_std} queste, come accennato, dovranno a loro
192 volta essere definite prima delle varie inclusioni.
193
194 Ogni libreria fornisce i propri file di intestazione per i quali si deve
195 consultare la documentazione, ma in tab.~\ref{tab:intro_posix_header} si sono
196 riportati i principali \textit{header file} definiti nella libreria standard
197 del C (nel caso la \acr{glibc}) che contengono le varie funzioni previste
198 negli standard POSIX ed ANSI C, e che prevedono la definizione sia delle
199 funzioni di utilità generica che delle interfacce alle \textit{system call}. In
200 seguito per ciascuna funzione o \textit{system call} che tratteremo
201 indicheremo anche quali sono gli \textit{header file} contenenti le necessarie
202 definizioni.
203
204 \begin{table}[htb]
205   \footnotesize
206   \centering
207   \begin{tabular}[c]{|l|c|c|l|}
208     \hline
209     \multirow{2}{*}{\textbf{Header}}&
210     \multicolumn{2}{|c|}{\textbf{Standard}}&
211     \multirow{2}{*}{\textbf{Contenuto}} \\
212     \cline{2-3}
213     & ANSI C& POSIX& \\
214     \hline
215     \hline
216     \headfiled{assert.h}&$\bullet$&    --   & Verifica le asserzioni fatte in un
217                                               programma.\\ 
218     \headfiled{ctype.h} &$\bullet$&    --   & Tipi standard.\\
219     \headfiled{dirent.h}&   --    &$\bullet$& Manipolazione delle directory.\\
220     \headfiled{errno.h} &   --    &$\bullet$& Errori di sistema.\\
221     \headfiled{fcntl.h} &   --    &$\bullet$& Controllo sulle opzioni dei
222                                               file.\\ 
223     \headfiled{limits.h}&   --    &$\bullet$& Limiti e parametri del sistema.\\
224     \headfiled{malloc.h}&$\bullet$&    --   & Allocazione della memoria.\\
225     \headfiled{setjmp.h}&$\bullet$&    --   & Salti non locali.\\
226     \headfiled{signal.h}&   --    &$\bullet$& Gestione dei segnali.\\
227     \headfiled{stdarg.h}&$\bullet$&    --   & Gestione di funzioni a argomenti
228                                              variabili.\\ 
229     \headfiled{stdio.h} &$\bullet$&    --   & I/O bufferizzato in standard ANSI
230                                               C.\\ 
231     \headfiled{stdlib.h}&$\bullet$&    --   & Definizioni della libreria
232                                               standard.\\ 
233     \headfiled{string.h}&$\bullet$&    --   & Manipolazione delle stringhe.\\
234     \headfiled{time.h}  &   --    &$\bullet$& Gestione dei tempi.\\
235     \headfiled{times.h} &$\bullet$&    --   & Gestione dei tempi.\\
236     \headfiled{unistd.h}&   --    &$\bullet$& Unix standard library.\\
237     \headfiled{utmp.h}  &   --    &$\bullet$& Registro connessioni utenti.\\
238     \hline
239   \end{tabular}
240   \caption{Elenco dei principali \textit{header file} definiti dagli standard
241     POSIX e ANSI C.}
242   \label{tab:intro_posix_header}
243 \end{table}
244
245 Un esempio di inclusione di questi file, preso da uno dei programmi di
246 esempio, è il seguente, e si noti come gli \textit{header file} possano essere
247 referenziati con il nome fra parentesi angolari, nel qual caso si indica l'uso
248 di quelli installati con il sistema,\footnote{in un sistema GNU/Linux che
249   segue le specifiche del \textit{Filesystem Hierarchy Standard} (per maggiori
250   informazioni si consulti sez.~1.2.3 di \cite{AGL}) si trovano sotto
251   \texttt{/usr/include}.}  o fra virgolette, nel qual caso si fa riferimento
252 ad una versione locale, da indicare con un \textit{pathname} relativo:
253 \includecodesnip{listati/main_include.c}
254
255 Si tenga presente che oltre ai nomi riservati a livello generale di cui si è
256 parlato in sez.~\ref{sec:proc_main}, alcuni di questi \textit{header file}
257 riservano degli ulteriori identificativi, il cui uso sarà da evitare, ad
258 esempio si avrà che:
259 \begin{itemize*}
260 \item in \headfile{dirent.h} vengono riservati i nomi che iniziano con
261   ``\texttt{d\_}'' e costituiti da lettere minuscole,
262 \item in \headfile{fcntl.h} vengono riservati i nomi che iniziano con
263   ``\texttt{l\_}'', ``\texttt{F\_}'',``\texttt{O\_}'' e ``\texttt{S\_}'',
264 \item in \headfile{limits.h} vengono riservati i nomi che finiscono in
265   ``\texttt{\_MAX}'',
266 \item in \headfile{signal.h} vengono riservati i nomi che iniziano con
267   ``\texttt{sa\_}'' e ``\texttt{SA\_}'',
268 \item in \headfile{sys/stat.h} vengono riservati i nomi che iniziano con
269   ``\texttt{st\_}'' e ``\texttt{S\_}'',
270 \item in \headfile{sys/times.h} vengono riservati i nomi che iniziano con
271   ``\texttt{tms\_}'',
272 \item in \headfile{termios.h} vengono riservati i nomi che iniziano con
273   ``\texttt{c\_}'', ``\texttt{V}'', ``\texttt{I}'', ``\texttt{O}'' e
274   ``\texttt{TC}'' e con ``\texttt{B}'' seguito da un numero,
275 \item in \headfile{grp.h} vengono riservati i nomi che iniziano con
276   ``\texttt{gr\_}'',
277 \item in \headfile{pwd.h} vengono riservati i nomi che iniziano con
278   ``\texttt{pw\_}'',
279 \end{itemize*}
280
281 \itindend{header~file}
282
283 Una volta inclusi gli \textit{header file} necessari un programma potrà
284 richiamare le funzioni di libreria direttamente nel proprio codice ed accedere
285 ai servizi del kernel; come accennato infatti normalmente ogni \textit{system
286   call} è associata ad una omonima funzione di libreria, che è quella che si
287 usa normalmente per invocarla.
288
289 Occorre però tenere presente che anche se dal punto di vista della scrittura
290 del codice la chiamata di una \textit{system call} non è diversa da quella di
291 una qualunque funzione ordinaria, la situazione è totalmente diversa
292 nell'esecuzione del programma. Una funzione ordinaria infatti viene eseguita,
293 esattamente come il codice che si è scritto nel corpo del programma, in
294 \textit{user space}. Quando invece si esegue una \textit{system call}
295 l'esecuzione ordinaria del programma viene interrotta con quello che viene
296 usualmente chiamato un \itindex{context~switch} \textit{context
297   switch};\footnote{in realtà si parla più comunemente di \textit{context
298     switch} quando l'esecuzione di un processo viene interrotta dal kernel
299   (tramite lo \textit{scheduler}) per metterne in esecuzione un altro, ma il
300   concetto generale resta lo stesso: l'esecuzione del proprio codice in
301   \textit{user space} viene interrotta e lo stato del processo deve essere
302   salvato per poterne riprendere l'esecuzione in un secondo tempo.}  il
303 contesto di esecuzione del processo viene salvato in modo da poterne
304 riprendere in seguito l'esecuzione ed i dati forniti (come argomenti della
305 chiamata) vengono trasferiti al kernel che esegue il codice della
306 \textit{system call} (che è codice del kernel) in \textit{kernel space}; al
307 completamento della \textit{system call} i dati salvati nel \textit{context
308   switch} saranno usati per riprendere l'esecuzione ordinaria del programma.
309
310 Dato che il passaggio dei dati ed il salvataggio del contesto di esecuzione
311 sono operazioni critiche per le prestazioni del sistema, per rendere il più
312 veloce possibile questa operazione sono state sviluppate una serie di
313 ottimizzazioni che richiedono alcune preparazioni abbastanza complesse dei
314 dati, che in genere dipendono dall'architettura del processore e sono scritte
315 direttamente in \textit{assembler}.
316
317
318 %
319 % TODO:trattare qui, quando sarà il momento vsyscall e vDSO, vedi:
320 % http://davisdoesdownunder.blogspot.com/2011/02/linux-syscall-vsyscall-and-vdso-oh-my.html 
321 % http://www.win.tue.nl/~aeb/linux/lk/lk-4.html
322 %
323 % Altro materiale al riguardo http://lwn.net/Articles/615809/
324 % http://man7.org/linux/man-pages/man7/vdso.7.html 
325
326 Inoltre alcune \textit{system call} sono state modificate nel corso degli anni
327 con lo sviluppo del kernel per aggiungere ad esempio funzionalità in forma di
328 nuovi argomenti, o per consolidare diverse varianti in una interfaccia
329 generica.  Per questo motivo dovendo utilizzare una \textit{system call} è
330 sempre preferibile usare l'interfaccia fornita dalla \textsl{glibc}, che si
331 cura di mantenere una uniformità chiamando le versioni più aggiornate.
332
333 Ci sono alcuni casi però in cui può essere necessario evitare questa
334 associazione, e lavorare a basso livello con una specifica versione, oppure si
335 può voler utilizzare una \textit{system call} che non è stata ancora associata
336 ad una funzione di libreria.  In tal caso, per evitare di dover effettuare
337 esplicitamente le operazioni di preparazione citate, all'interno della
338 \textsl{glibc} è fornita una specifica funzione,
339 \funcd{syscall},\footnote{fino a prima del kernel 2.6.18 per l'esecuzione
340   diretta delle \textit{system call} erano disponibili anche una serie di
341   macro \texttt{\_syscall\textsl{N}} (con $N$ pari al numero di argomenti
342   della \textit{system call}); queste sono deprecate e pertanto non ne
343   parleremo ulteriormente.} che consente eseguire direttamente una
344 \textit{system call}; il suo prototipo, accessibile se si è definita la macro
345 \macro{\_GNU\_SOURCE}, è:
346
347 \begin{funcproto}{
348   \fhead{unistd.h}
349   \fhead{sys/syscall.h}
350   \fdecl{long syscall(int number, ...)}
351   \fdesc{Esegue la \textit{system call} indicata da \param{number}.}
352 }
353 {La funzione ritorna un intero dipendente dalla \textit{system call} invocata,
354  in generale $0$ indica il successo ed un valore negativo un errore.}
355 \end{funcproto}
356
357 La funzione richiede come primo argomento il numero della \textit{system call}
358 da invocare, seguita dagli argomenti da passare alla stessa, che ovviamente
359 dipendono da quest'ultima, e restituisce il codice di ritorno della
360 \textit{system call} invocata. In generale un valore nullo indica il successo
361 ed un valore negativo è un codice di errore che poi viene memorizzato nella
362 variabile \var{errno} (sulla gestione degli errori torneremo in dettaglio in
363 sez.~\ref{sec:sys_errors}).
364
365 Il valore di \param{number} dipende sia dalla versione di kernel che
366 dall'architettura,\footnote{in genere le vecchie \textit{system call} non
367   vengono eliminate e se ne aggiungono di nuove con nuovi numeri.}  ma
368 ciascuna \textit{system call} viene in genere identificata da una costante
369 nella forma \texttt{SYS\_*} dove al prefisso viene aggiunto il nome che spesso
370 corrisponde anche alla omonima funzione di libreria. Queste costanti sono
371 definite nel file \headfiled{sys/syscall.h}, ma si possono anche usare
372 direttamente valori numerici.
373
374
375 \subsection{La terminazione di un programma}
376 \label{sec:proc_conclusion}
377
378 Normalmente un programma conclude la sua esecuzione quando si fa ritornare la
379 funzione \code{main}, si usa cioè l'istruzione \instruction{return} del
380 linguaggio C all'interno della stessa, o se si richiede esplicitamente la
381 chiusura invocando direttamente la funzione \func{exit}. Queste due modalità
382 sono assolutamente equivalenti, dato che \func{exit} viene chiamata in maniera
383 trasparente anche quando \code{main} ritorna, passandogli come argomento il
384 valore di ritorno.
385
386 La funzione \funcd{exit}, che è completamente generale, essendo definita dallo
387 standard ANSI C, è quella che deve essere invocata per una terminazione
388 ``\textit{normale}'', il suo prototipo è:
389
390 \begin{funcproto}{
391   \fhead{unistd.h}
392   \fdecl{void exit(int status)}
393   \fdesc{Causa la conclusione ordinaria del programma.}
394 }
395 {La funzione non ritorna, il processo viene terminato.}
396 \end{funcproto}
397
398 La funzione è pensata per eseguire una conclusione pulita di un programma che
399 usi la libreria standard del C; essa esegue tutte le funzioni che sono state
400 registrate con \func{atexit} e \func{on\_exit} (vedi
401 sez.~\ref{sec:proc_atexit}), chiude tutti gli \textit{stream} (vedi
402 sez.~\ref{sec:file_stream}) effettuando il salvataggio dei dati sospesi
403 (chiamando \func{fclose}, vedi sez.~\ref{sec:file_fopen}), infine passa il
404 controllo al kernel chiamando la \textit{system call} \func{\_exit} (che
405 vedremo a breve) che completa la terminazione del processo.
406
407 \itindbeg{exit~status}
408
409 Il valore dell'argomento \param{status} o il valore di ritorno di \code{main},
410 costituisce quello che viene chiamato lo \textsl{stato di uscita}
411 (l'\textit{exit status}) del processo. In generale si usa questo valore per
412 fornire al processo padre (come vedremo in sez.~\ref{sec:proc_wait}) delle
413 informazioni generiche sulla riuscita o il fallimento del programma appena
414 terminato.
415
416 Anche se l'argomento \param{status} (ed il valore di ritorno di \code{main})
417 sono numeri interi di tipo \ctyp{int}, si deve tener presente che il valore
418 dello stato di uscita viene comunque troncato ad 8 bit,
419 per cui deve essere sempre compreso fra 0 e 255. Si tenga presente che se si
420 raggiunge la fine della funzione \code{main} senza ritornare esplicitamente si
421 ha un valore di uscita indefinito, è pertanto consigliabile di concludere
422 sempre in maniera esplicita detta funzione.
423
424 Non esiste un valore significato intrinseco della stato di uscita, ma una
425 convenzione in uso pressoché universale è quella di restituire 0 in caso di
426 successo e 1 in caso di fallimento. Una eccezione a questa convenzione è per i
427 programmi che effettuano dei confronti (come \cmd{diff}), che usano 0 per
428 indicare la corrispondenza, 1 per indicare la non corrispondenza e 2 per
429 indicare l'incapacità di effettuare il confronto. Un'altra convenzione riserva
430 i valori da 128 a 256 per usi speciali: ad esempio 128 viene usato per
431 indicare l'incapacità di eseguire un altro programma in un
432 sottoprocesso. Benché le convenzioni citate non siano seguite universalmente è
433 una buona idea tenerle presenti ed adottarle a seconda dei casi.
434
435 Si tenga presente inoltre che non è una buona idea usare eventuali codici di
436 errore restituiti nella variabile \var{errno} (vedi sez.~\ref{sec:sys_errors})
437 come \textit{exit status}. In generale infatti non ci si cura del valore dello
438 stato di uscita di un processo se non per vedere se è diverso da zero, come
439 indicazione di un qualche errore.  Dato che viene troncato ad 8 bit utilizzare
440 un intero di valore generico può comportare il rischio, qualora si vada ad
441 usare un multiplo di 256, di avere uno stato di uscita uguale a zero, che
442 verrebbe interpretato come un successo.
443
444 Per questo motivo in \headfile{stdlib.h} sono definite, seguendo lo standard
445 POSIX, le due costanti \constd{EXIT\_SUCCESS} e \constd{EXIT\_FAILURE}, da
446 usare sempre per specificare lo stato di uscita di un processo. Su Linux, ed
447 in generale in qualunque sistema POSIX, ad esse sono assegnati rispettivamente
448 i valori 0 e 1.
449
450 \itindend{exit~status}
451
452 Una forma alternativa per effettuare una terminazione esplicita di un
453 programma è quella di chiamare direttamente la \textit{system call}
454 \funcd{\_exit},\footnote{la stessa è definita anche come \funcd{\_Exit} in
455   \headfile{stdlib.h}, inoltre a partire dalle \acr{glibc} 2.3 usando questa
456   funzione viene invocata \func{exit\_group} che termina tutti i
457   \textit{thread} del processo e non solo quello corrente (fintanto che non si
458   usano i \textit{thread}\unavref{, vedi sez.~\ref{cha:threads},} questo non
459   fa nessuna differenza).} che restituisce il controllo direttamente al
460 kernel, concludendo immediatamente il processo, il suo prototipo è:
461
462 \begin{funcproto}{ \fhead{unistd.h} \fdecl{void \_exit(int status)}
463     \fdesc{Causa la conclusione immediata del programma.}  } {La funzione non
464     ritorna, il processo viene terminato.}
465 \end{funcproto}
466
467 La funzione termina immediatamente il processo e le eventuali funzioni
468 registrate con \func{atexit} e \func{on\_exit} non vengono eseguite. La
469 funzione chiude tutti i file descriptor appartenenti al processo, cosa che
470 però non comporta il salvataggio dei dati eventualmente presenti nei buffer
471 degli \textit{stream}, (torneremo sulle due interfacce dei file in
472 sez.~\ref{sec:file_unix_interface} e
473 sez.~\ref{sec:files_std_interface}). Infine fa sì che ogni figlio del processo
474 sia adottato da \cmd{init} (vedi sez.~\ref{sec:proc_termination}), manda un
475 segnale \signal{SIGCHLD} al processo padre (vedi
476 sez.~\ref{sec:sig_job_control}) e ritorna lo stato di uscita specificato
477 in \param{status} che può essere raccolto usando la funzione \func{wait} (vedi
478 sez.~\ref{sec:proc_wait}).
479
480 Si tenga presente infine che oltre alla conclusione ``\textsl{normale}''
481 appena illustrata esiste anche la possibilità di una conclusione
482 ``\textsl{anomala}'' del programma a causa della ricezione di un segnale
483 (tratteremo i segnali in cap.~\ref{cha:signals}) o della chiamata alla
484 funzione \func{abort}; torneremo su questo in sez.~\ref{sec:proc_termination}.
485
486
487 \subsection{Esecuzione di funzioni preliminari all'uscita}
488 \label{sec:proc_atexit}
489
490 Un'esigenza comune che si incontra è quella di dover effettuare una serie di
491 operazioni di pulizia (ad esempio salvare dei dati, ripristinare delle
492 impostazioni, eliminare dei file temporanei, ecc.) prima della conclusione di
493 un programma. In genere queste operazioni vengono fatte in un'apposita sezione
494 del programma, ma quando si realizza una libreria diventa antipatico dover
495 richiedere una chiamata esplicita ad una funzione di pulizia al programmatore
496 che la utilizza.
497
498 È invece molto meno soggetto ad errori, e completamente trasparente
499 all'utente, avere la possibilità di fare effettuare automaticamente la
500 chiamata ad una funzione che effettui tali operazioni all'uscita dal
501 programma. A questo scopo lo standard ANSI C prevede la possibilità di
502 registrare un certo numero di funzioni che verranno eseguite all'uscita dal
503 programma,\footnote{nel caso di \func{atexit} lo standard POSIX.1-2001
504   richiede che siano registrabili almeno \constd{ATEXIT\_MAX} funzioni (il
505   valore può essere ottenuto con \func{sysconf}, vedi
506   sez.~\ref{sec:sys_limits}).} sia per la chiamata ad \func{exit} che per il
507 ritorno di \code{main}. La prima funzione che si può utilizzare a tal fine è
508 \funcd{atexit}, il cui prototipo è:
509
510 \begin{funcproto}{ 
511 \fhead{stdlib.h} 
512 \fdecl{int atexit(void (*function)(void))}
513 \fdesc{Registra la funzione \param{function} per la chiamata all'uscita
514       dal programma.}  
515
516 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore, \var{errno}
517   non viene modificata.}
518 \end{funcproto}
519
520 La funzione richiede come argomento \param{function} l'indirizzo di una
521 opportuna funzione di pulizia da chiamare all'uscita del programma, che non
522 deve prendere argomenti e non deve ritornare niente. In sostanza deve la
523 funzione di pulizia dovrà essere definita come \code{void function(void)}.
524
525 Un'estensione di \func{atexit} è la funzione \funcd{on\_exit}, che le
526 \acr{glibc} includono per compatibilità con SunOS ma che non è detto sia
527 definita su altri sistemi,\footnote{non essendo prevista dallo standard POSIX
528   è in genere preferibile evitarne l'uso.} il suo prototipo è:
529
530 \begin{funcproto}{ 
531 \fhead{stdlib.h} 
532 \fdecl{int on\_exit(void (*function)(int, void *), void *arg))}
533 \fdesc{Registra la funzione \param{function} per la chiamata all'uscita dal
534   programma.} 
535 }
536 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore, \var{errno}
537   non viene modificata.} 
538 \end{funcproto}
539
540 In questo caso la funzione da chiamare all'uscita prende i due argomenti
541 specificati nel prototipo, un intero ed un puntatore; dovrà cioè essere
542 definita come \code{void function(int status, void *argp)}. Il primo argomento
543 sarà inizializzato allo stato di uscita con cui è stata chiamata \func{exit}
544 ed il secondo al puntatore \param{arg} passato come secondo argomento di
545 \func{on\_exit}.  Così diventa possibile passare dei dati alla funzione di
546 chiusura.
547
548 Nella sequenza di chiusura tutte le funzioni registrate verranno chiamate in
549 ordine inverso rispetto a quello di registrazione, ed una stessa funzione
550 registrata più volte sarà chiamata più volte. Siccome entrambe le funzioni
551 \func{atexit} e \func{on\_exit} fanno riferimento alla stessa lista, l'ordine
552 di esecuzione sarà riferito alla registrazione in quanto tale,
553 indipendentemente dalla funzione usata per farla.
554
555 Una volta completata l'esecuzione di tutte le funzioni registrate verranno
556 chiusi tutti gli \textit{stream} aperti ed infine verrà chiamata \func{\_exit}
557 per la terminazione del programma. Questa è la sequenza ordinaria, eseguita a
558 meno che una delle funzioni registrate non esegua al suo interno
559 \func{\_exit}, nel qual caso la terminazione del programma sarà immediata ed
560 anche le successive funzioni registrate non saranno invocate.
561
562 Se invece all'interno di una delle funzioni registrate si chiama un'altra
563 volta \func{exit} lo standard POSIX.1-2001 prescrive un comportamento
564 indefinito, con la possibilità (che su Linux comunque non c'è) di una
565 ripetizione infinita. Pertanto questa eventualità è da evitare nel modo più
566 assoluto. Una altro comportamento indefinito si può avere se si termina
567 l'esecuzione di una delle funzioni registrate con \func{longjmp} (vedi
568 sez.~\ref{sec:proc_longjmp}).
569
570 Si tenga presente infine che in caso di terminazione anomala di un processo
571 (ad esempio a causa di un segnale) nessuna delle funzioni registrate verrà
572 eseguita e che se invece si crea un nuovo processo con \func{fork} (vedi
573 sez.~\ref{sec:proc_fork}) questo manterrà tutte le funzioni già registrate.
574
575
576 \subsection{Un riepilogo}
577 \label{sec:proc_term_conclusion}
578
579 Data l'importanza dell'argomento è opportuno un piccolo riepilogo dei fatti
580 essenziali relativi alla esecuzione di un programma. Il primo punto da
581 sottolineare è che in un sistema unix-like l'unico modo in cui un programma
582 può essere eseguito dal kernel è attraverso la chiamata alla \textit{system
583   call} \func{execve}, sia direttamente che attraverso una delle funzioni
584 della famiglia \func{exec} che ne semplificano l'uso (vedi
585 sez.~\ref{sec:proc_exec}).
586
587 Allo stesso modo l'unico modo in cui un programma può concludere
588 volontariamente la propria esecuzione è attraverso una chiamata alla
589 \textit{system call} \func{\_exit}, sia che questa venga fatta esplicitamente,
590 o in maniera indiretta attraverso l'uso di \func{exit} o il ritorno di
591 \code{main}. 
592
593 Uno schema riassuntivo che illustra le modalità con cui si avvia e conclude
594 normalmente un programma è riportato in fig.~\ref{fig:proc_prog_start_stop}.
595
596 \begin{figure}[htb]
597   \centering
598 %  \includegraphics[width=9cm]{img/proc_beginend}
599   \begin{tikzpicture}[>=stealth]
600     \filldraw[fill=black!35] (-0.3,0) rectangle (12,1);
601     \draw(5.5,0.5) node {\large{\textsf{kernel}}};
602
603     \filldraw[fill=black!15] (1.5,2) rectangle (4,3);
604     \draw (2.75,2.5) node {\texttt{ld-linux.so}};
605     \draw [->] (2.75,1) -- (2.75,2);
606     \draw (2.75,1.5) node [anchor=west]{\texttt{execve}};
607
608     \filldraw[fill=black!15,rounded corners] (1.5,4) rectangle (4,5);
609     \draw (2.75,4.5) node {\texttt{main}};
610
611     \draw [<->, dashed] (2.75,3) -- (2.75,4);
612     \draw [->] (1.5,4.5) -- (0.3,4.5) -- (0.3,1);
613     \draw (0.9,4.5) node [anchor=south] {\texttt{\_exit}};
614
615     \filldraw[fill=black!15,rounded corners] (1.5,6) rectangle (4,7);
616     \draw (2.75,6.5) node {\texttt{funzione}};
617
618     \draw [<->, dashed] (2.75,5) -- (2.75,6);
619     \draw [->] (1.5,6.5) -- (0.05,6.5) -- (0.05,1);
620     \draw (0.9,6.5) node [anchor=south] {\texttt{\_exit}};
621
622     \draw (6.75,4.5) node (exit) [rectangle,fill=black!15,minimum width=2.5cm,minimum height=1cm,rounded corners, draw]{\texttt{exit}};
623
624     \draw[->] (4,6.5) -- node[anchor=south west]{\texttt{exit}} (exit);
625     \draw[->] (4,4.5) -- node[anchor=south]{\texttt{exit}} (exit);
626     \draw[->] (exit) -- node[anchor=east]{\texttt{\_exit}}(6.75,1);
627
628     \draw (10,4.5) node (exithandler1) [rectangle,fill=black!15,rounded corners, draw]{\textsf{exit handler}};
629     \draw (10,5.5) node (exithandler2) [rectangle,fill=black!15,rounded corners, draw]{\textsf{exit handler}};
630     \draw (10,3.5) node (stream) [rectangle,fill=black!15,rounded corners, draw]{\textsf{chiusura stream}};
631
632     \draw[<->, dashed] (exithandler1) -- (exit);
633     \draw[<->, dashed] (exithandler2) -- (exit);
634     \draw[<->, dashed] (stream) -- (exit);
635   \end{tikzpicture}
636   \caption{Schema dell'avvio e della conclusione di un programma.}
637   \label{fig:proc_prog_start_stop}
638 \end{figure}
639
640 Si ricordi infine che un programma può anche essere interrotto dall'esterno
641 attraverso l'uso di un segnale (modalità di conclusione non mostrata in
642 fig.~\ref{fig:proc_prog_start_stop}); tratteremo nei dettagli i segnali e la
643 loro gestione nel capitolo \ref{cha:signals}.
644
645
646
647 \section{I processi e l'uso della memoria}
648 \label{sec:proc_memory}
649
650 Una delle risorse più importanti che ciascun processo ha a disposizione è la
651 memoria, e la gestione della memoria è appunto uno degli aspetti più complessi
652 di un sistema unix-like. In questa sezione, dopo una breve introduzione ai
653 concetti di base, esamineremo come la memoria viene vista da parte di un
654 programma in esecuzione, e le varie funzioni utilizzabili per la sua gestione.
655
656
657 \subsection{I concetti generali}
658 \label{sec:proc_mem_gen}
659
660 \index{memoria~virtuale|(}
661
662 Ci sono vari modi in cui i sistemi operativi organizzano la memoria, ed i
663 dettagli di basso livello dipendono spesso in maniera diretta
664 dall'architettura dell'hardware, ma quello più tipico, usato dai sistemi
665 unix-like come Linux è la cosiddetta \textsl{memoria virtuale} che consiste
666 nell'assegnare ad ogni processo uno spazio virtuale di indirizzamento lineare,
667 in cui gli indirizzi vanno da zero ad un qualche valore massimo.\footnote{nel
668   caso di Linux fino al kernel 2.2 detto massimo era, per macchine a 32bit, di
669   2Gb. Con il kernel 2.4 ed il supporto per la \textit{high-memory} il limite
670   è stato esteso anche per macchine a 32 bit.}  Come accennato nel
671 cap.~\ref{cha:intro_unix} questo spazio di indirizzi è virtuale e non
672 corrisponde all'effettiva posizione dei dati nella RAM del computer. In
673 generale detto spazio non è neppure continuo, cioè non tutti gli indirizzi
674 possibili sono utilizzabili, e quelli usabili non sono necessariamente
675 adiacenti.
676
677 \itindbeg{huge~page}
678
679 Per la gestione da parte del kernel la memoria viene divisa in pagine di
680 dimensione fissa. Inizialmente queste pagine erano di 4kb sulle macchine a 32
681 bit e di 8kb sulle alpha. Con le versioni più recenti del kernel è possibile
682 anche utilizzare pagine di dimensioni maggiori (di 4Mb, dette \textit{huge
683   page}), per sistemi con grandi quantitativi di memoria in cui l'uso di
684 pagine troppo piccole comporta una perdita di prestazioni. In alcuni sistemi
685 la costante \constd{PAGE\_SIZE}, definita in \headfile{limits.h}, indica la
686 dimensione di una pagina in byte, con Linux questo non avviene e per ottenere
687 questa dimensione si deve ricorrere alla funzione \func{getpagesize} (vedi
688 sez.~\ref{sec:sys_memory_res}).
689
690 \itindend{huge~page}
691 \itindbeg{page~table}
692
693 Ciascuna pagina di memoria nello spazio di indirizzi virtuale è associata ad
694 un supporto che può essere una pagina di memoria reale o ad un dispositivo di
695 stoccaggio secondario (come lo spazio disco riservato alla \textit{swap}, o i
696 file che contengono il codice). Per ciascun processo il kernel si cura di
697 mantenere un mappa di queste corrispondenze nella cosiddetta \textit{page
698   table}.\footnote{questa è una semplificazione brutale, il meccanismo è molto
699   più complesso; una buona trattazione di come Linux gestisce la memoria
700   virtuale si trova su \cite{LinVM}.}
701
702 \itindend{page~table}
703
704 Una stessa pagina di memoria reale può fare da supporto a diverse pagine di
705 memoria virtuale appartenenti a processi diversi, come accade in genere per le
706 pagine che contengono il codice delle librerie condivise. Ad esempio il codice
707 della funzione \func{printf} starà su una sola pagina di memoria reale che
708 farà da supporto a tutte le pagine di memoria virtuale di tutti i processi che
709 hanno detta funzione nel loro codice.
710
711 \index{paginazione|(}
712
713 La corrispondenza fra le pagine della memoria virtuale di un processo e quelle
714 della memoria fisica della macchina viene gestita in maniera trasparente dal
715 kernel.\footnote{in genere con l'ausilio dell'hardware di gestione della
716   memoria (la \textit{Memory Management Unit} del processore), con i kernel
717   della serie 2.6 è comunque diventato possibile utilizzare Linux anche su
718   architetture che non dispongono di una MMU.}  Poiché in genere la memoria
719 fisica è solo una piccola frazione della memoria virtuale, è necessario un
720 meccanismo che permetta di trasferire le pagine che servono dal supporto su
721 cui si trovano in memoria, eliminando quelle che non servono.  Questo
722 meccanismo è detto \textsl{paginazione} (o \textit{paging}), ed è uno dei
723 compiti principali del kernel.
724
725 \itindbeg{page~fault} 
726
727 Quando un processo cerca di accedere ad una pagina che non è nella memoria
728 reale, avviene quello che viene chiamato un \textit{page fault}; la gestione
729 della memoria genera un'interruzione e passa il controllo al kernel il quale
730 sospende il processo e si incarica di mettere in RAM la pagina richiesta,
731 effettuando tutte le operazioni necessarie per reperire lo spazio necessario,
732 per poi restituire il controllo al processo.
733
734 Dal punto di vista di un processo questo meccanismo è completamente
735 trasparente, e tutto avviene come se tutte le pagine fossero sempre
736 disponibili in memoria.  L'unica differenza avvertibile è quella dei tempi di
737 esecuzione, che passano dai pochi nanosecondi necessari per l'accesso in RAM
738 se la pagina è direttamente disponibile, a tempi estremamente più lunghi,
739 dovuti all'intervento del kernel, qualora sia necessario reperire pagine
740 riposte nella \textit{swap}.
741
742 \itindend{page~fault} 
743
744 Normalmente questo è il prezzo da pagare per avere un multitasking reale, ed
745 in genere il sistema è molto efficiente in questo lavoro; quando però ci siano
746 esigenze specifiche di prestazioni è possibile usare delle funzioni che
747 permettono di bloccare il meccanismo della paginazione e mantenere fisse delle
748 pagine in memoria (vedi sez.~\ref{sec:proc_mem_lock}).
749
750 \index{paginazione|)}
751 \index{memoria~virtuale|)}
752
753
754 \subsection{La struttura della memoria di un processo}
755 \label{sec:proc_mem_layout}
756
757 \itindbeg{segment~violation}
758
759 Benché lo spazio di indirizzi virtuali copra un intervallo molto ampio, solo
760 una parte di essi è effettivamente allocato ed utilizzabile dal processo; il
761 tentativo di accedere ad un indirizzo non allocato è un tipico errore che si
762 commette quando si è manipolato male un puntatore e genera quella che viene
763 chiamata una \textit{segment violation}. Se si tenta cioè di leggere o
764 scrivere con un indirizzo per il quale non esiste un'associazione nella
765 memoria virtuale, il kernel risponde al relativo \textit{page fault} mandando
766 un segnale \signal{SIGSEGV} al processo, che normalmente ne causa la
767 terminazione immediata.
768
769 \itindend{segment~violation}
770
771 È pertanto importante capire come viene strutturata la memoria virtuale di un
772 processo. Essa viene divisa in \textsl{segmenti}, cioè un insieme contiguo di
773 indirizzi virtuali ai quali il processo può accedere.  Solitamente un
774 programma C viene suddiviso nei seguenti segmenti:
775 \index{segmento!testo|(}
776 \index{segmento!dati|(}
777 \itindbeg{heap} 
778 \itindbeg{stack}
779 \begin{enumerate}
780 \item Il \textsl{segmento di testo} o \textit{text segment}.  Contiene il
781   codice del programma, delle funzioni di librerie da esso utilizzate, e le
782   costanti.  Normalmente viene condiviso fra tutti i processi che eseguono lo
783   stesso programma e nel caso delle librerie anche da processi che eseguono
784   altri programmi.
785
786   Quando l'architettura hardware lo supporta viene marcato in sola lettura per
787   evitare sovrascritture accidentali (o maliziose) che ne modifichino le
788   istruzioni.  Viene allocato da \func{execve} all'avvio del programma e resta
789   invariato per tutto il tempo dell'esecuzione.
790 \index{variabili!globali|(}
791 \index{variabili!statiche|(}
792 \item Il \textsl{segmento dei dati} o \textit{data segment}. Contiene tutti i
793   dati del programma, come le \textsl{variabili globali}, cioè quelle definite
794   al di fuori di tutte le funzioni che compongono il programma, e le
795   \textsl{variabili statiche}, cioè quelle dichiarate con l'attributo
796   \direct{static},\footnote{la direttiva \direct{static} indica al compilatore
797     C che una variabile così dichiarata all'interno di una funzione deve
798     essere mantenuta staticamente in memoria (nel segmento dati appunto);
799     questo significa che la variabile verrà inizializzata una sola volta alla
800     prima invocazione della funzione e che il suo valore sarà mantenuto fra
801     diverse esecuzioni della funzione stessa, la differenza con una variabile
802     globale è che essa può essere vista solo all'interno della funzione in cui
803     è dichiarata.} e la memoria allocata dinamicamente. Di norma è diviso in
804   tre parti:
805   \begin{itemize}
806   \item Il segmento dei dati inizializzati, che contiene le variabili il cui
807     valore è stato assegnato esplicitamente. Ad esempio se si definisce:
808     \includecodesnip{listati/pi.c}
809     questo valore sarà immagazzinato in questo segmento. La memoria di questo
810     segmento viene preallocata all'avvio del programma e inizializzata ai valori
811     specificati.
812   \item Il segmento dei dati non inizializzati, che contiene le variabili il
813     cui valore non è stato assegnato esplicitamente. Ad esempio se si
814     definisce:
815     \includecodesnip{listati/vect.c}
816     questo vettore sarà immagazzinato in questo segmento. Anch'esso viene
817     allocato all'avvio, e tutte le variabili vengono inizializzate a zero (ed
818     i puntatori a \val{NULL}).\footnote{si ricordi che questo vale solo per le
819       variabili che vanno nel segmento dati, e non è affatto vero in
820       generale.}  Storicamente questa seconda parte del segmento dati viene
821     chiamata \itindex{Block~Started~by~Symbol~(BSS)} BSS (da \textit{Block
822       Started by Symbol}). La sua dimensione è fissa.
823     \index{variabili!globali|)} \index{variabili!statiche|)}
824   \item Lo \textit{heap}, detto anche \textit{free store}. Tecnicamente lo si
825     può considerare l'estensione del segmento dei dati non inizializzati, a
826     cui di solito è posto giusto di seguito. Questo è il segmento che viene
827     utilizzato per l'allocazione dinamica della memoria.  Lo \textit{heap} può
828     essere ridimensionato allargandolo e restringendolo per allocare e
829     disallocare la memoria dinamica con le apposite funzioni (vedi
830     sez.~\ref{sec:proc_mem_alloc}), ma il suo limite inferiore, quello
831     adiacente al segmento dei dati non inizializzati, ha una posizione fissa.
832   \end{itemize}
833 \item Il segmento di \textit{stack}, che contiene quello che viene chiamato lo
834   ``\textit{stack}'' del programma.  Tutte le volte che si effettua una
835   chiamata ad una funzione è qui che viene salvato l'indirizzo di ritorno e le
836   informazioni dello stato del chiamante (come il contenuto di alcuni registri
837   della CPU), poi la funzione chiamata alloca qui lo spazio per le sue
838   variabili locali. Tutti questi dati vengono \textit{impilati} (da questo
839   viene il nome \textit{stack}) in sequenza uno sull'altro; in questo modo le
840   funzioni possono essere chiamate ricorsivamente. Al ritorno della funzione
841   lo spazio è automaticamente rilasciato e ``\textsl{ripulito}''.\footnote{il
842     compilatore si incarica di generare automaticamente il codice necessario,
843     seguendo quella che viene chiamata una \textit{calling convention}; quella
844     standard usata con il C ed il C++ è detta \textit{cdecl} e prevede che gli
845     argomenti siano caricati nello \textit{stack} dal chiamante da destra a
846     sinistra, e che sia il chiamante stesso ad eseguire la ripulitura dello
847     \textit{stack} al ritorno della funzione, se ne possono però utilizzare di
848     alternative (ad esempio nel Pascal gli argomenti sono inseriti da sinistra
849     a destra ed è compito del chiamato ripulire lo \textit{stack}), in genere
850     non ci si deve preoccupare di questo fintanto che non si mescolano
851     funzioni scritte con linguaggi diversi.}
852
853   La dimensione di questo segmento aumenta seguendo la crescita dello
854   \textit{stack} del programma, ma non viene ridotta quando quest'ultimo si
855   restringe.
856 \end{enumerate}
857
858 \begin{figure}[htb]
859   \centering
860 %  \includegraphics[height=12cm]{img/memory_layout}
861   \begin{tikzpicture}
862   \draw (0,0) rectangle (4,1);
863   \draw (2,0.5) node {\textit{text}};
864   \draw (0,1) rectangle (4,2.5);
865   \draw (2,1.75) node {dati inizializzati};
866   \draw (0,2.5) rectangle (4,5);
867   \draw (2,3.75) node {dati non inizializzati};
868   \draw (0,5) rectangle (4,9);
869   \draw[dashed] (0,6) -- (4,6);
870   \draw[dashed] (0,8) -- (4,8);
871   \draw (2,5.5) node {\textit{heap}};
872   \draw (2,8.5) node {\textit{stack}};
873   \draw [->] (2,6) -- (2,6.5);
874   \draw [->] (2,8) -- (2,7.5);
875   \draw (0,9) rectangle (4,10);
876   \draw (2,9.5) node {\textit{environment}};
877   \draw (4,0) node [anchor=west] {\texttt{0x08000000}};
878   \draw (4,5) node [anchor=west] {\texttt{0x08xxxxxx}};
879   \draw (4,9) node [anchor=west] {\texttt{0xC0000000}};
880   \end{tikzpicture} 
881   \caption{Disposizione tipica dei segmenti di memoria di un processo.}
882   \label{fig:proc_mem_layout}
883 \end{figure}
884
885 Una disposizione tipica dei vari segmenti (testo, dati inizializzati e non
886 inizializzati, \textit{heap}, \textit{stack}, ecc.) è riportata in
887 fig.~\ref{fig:proc_mem_layout}. Si noti come in figura sia indicata una
888 ulteriore regione, marcata \textit{environment}, che è quella che contiene i
889 dati relativi alle variabili di ambiente passate al programma al suo avvio
890 (torneremo su questo argomento in sez.~\ref{sec:proc_environ}).
891
892 Usando il comando \cmd{size} su un programma se ne può stampare le dimensioni
893 dei segmenti di testo e di dati (solo però per i dati inizializzati ed il BSS,
894 dato che lo \textit{heap} ha una dimensione dinamica). Si tenga presente
895 comunque che il BSS, contrariamente al segmento dei dati inizializzati, non è
896 mai salvato sul file che contiene l'eseguibile, dato che viene sempre
897 inizializzato a zero al caricamento del programma.
898
899 \index{segmento!testo|)}
900 \index{segmento!dati|)}
901 \itindend{heap} 
902 \itindend{stack}
903
904
905 \subsection{Allocazione della memoria per i programmi C}
906 \label{sec:proc_mem_alloc}
907
908 Il C supporta direttamente, come linguaggio di programmazione, soltanto due
909 modalità di allocazione della memoria: l'\textsl{allocazione statica} e
910 l'\textsl{allocazione automatica}.
911
912 L'\textsl{allocazione statica} è quella con cui sono memorizzate le variabili
913 globali e le variabili statiche, cioè le variabili il cui valore deve essere
914 mantenuto per tutta la durata del programma. Come accennato queste variabili
915 vengono allocate nel segmento dei dati all'avvio del programma come parte
916 delle operazioni svolte da \func{exec}, e lo spazio da loro occupato non viene
917 liberato fino alla sua conclusione.
918
919 \index{variabili!automatiche|(}
920
921 L'\textsl{allocazione automatica} è quella che avviene per gli argomenti di
922 una funzione e per le sue variabili locali, quelle che vengono definite
923 all'interno della funzione che esistono solo per la durata della sua
924 esecuzione e che per questo vengono anche dette \textsl{variabili
925   automatiche}.  Lo spazio per queste variabili viene allocato nello
926 \textit{stack} quando viene eseguita la funzione e liberato quando si esce
927 dalla medesima.
928
929 \index{variabili!automatiche|)}
930
931 Esiste però un terzo tipo di allocazione, l'\textsl{allocazione dinamica}
932 della memoria, che non è prevista direttamente all'interno del linguaggio C,
933 ma che è necessaria quando il quantitativo di memoria che serve è
934 determinabile solo durante il corso dell'esecuzione del programma. Il C non
935 consente di usare variabili allocate dinamicamente, non è possibile cioè
936 definire in fase di programmazione una variabile le cui dimensioni possano
937 essere modificate durante l'esecuzione del programma. Per questo la libreria
938 standard del C fornisce una opportuna serie di funzioni per eseguire
939 l'allocazione dinamica di memoria, che come accennato avviene nello
940 \textit{heap}.
941
942 Le variabili il cui contenuto è allocato in questo modo non potranno essere
943 usate direttamente come le altre (quelle nello \textit{stack}), ma l'accesso
944 sarà possibile solo in maniera indiretta, attraverso i puntatori alla memoria
945 loro riservata che si sono ottenuti dalle funzioni di allocazione.
946
947 Le funzioni previste dallo standard ANSI C per la gestione della memoria sono
948 quattro: \func{malloc}, \func{calloc}, \func{realloc} e \func{free}. Le prime
949 due, \funcd{malloc} e \funcd{calloc} allocano nuovo spazio di memoria; i
950 rispettivi prototipi sono:
951
952 \begin{funcproto}{ 
953 \fhead{stdlib.h} 
954 \fdecl{void *calloc(size\_t nmemb, size\_t size)}
955 \fdesc{Alloca un'area di memoria inizializzata a 0.}  
956 \fdecl{void *malloc(size\_t size)}
957 \fdesc{Alloca un'area di memoria non inizializzata.}  
958 }
959 {Entrambe le funzioni restituiscono il puntatore alla zona di memoria allocata
960 in caso di successo e \val{NULL} in caso di fallimento, nel qual caso
961   \var{errno} assumerà il valore \errcode{ENOMEM}.}
962 \end{funcproto}
963
964 In genere si usano \func{malloc} e \func{calloc} per allocare dinamicamente
965 un'area di memoria.\footnote{queste funzioni presentano un comportamento
966   diverso fra le \acr{glibc} e le \acr{uClib} quando il valore di \param{size}
967   è nullo.  Nel primo caso viene comunque restituito un puntatore valido,
968   anche se non è chiaro a cosa esso possa fare riferimento, nel secondo caso
969   viene restituito \val{NULL}. Il comportamento è analogo con
970   \code{realloc(NULL, 0)}.}  Dato che i puntatori ritornati sono di tipo
971 generico non è necessario effettuare un cast per assegnarli a puntatori al
972 tipo di variabile per la quale si effettua l'allocazione, inoltre le funzioni
973 garantiscono che i puntatori siano allineati correttamente per tutti i tipi di
974 dati; ad esempio sulle macchine a 32 bit in genere sono allineati a multipli
975 di 4 byte e sulle macchine a 64 bit a multipli di 8 byte.
976
977 Nel caso di \func{calloc} l'area di memoria viene allocata nello \textit{heap}
978 come un vettore di \param{nmemb} membri di \param{size} byte di dimensione, e
979 preventivamente inizializzata a zero, nel caso di \func{malloc} invece vengono
980 semplicemente allocati \param{size} byte e l'area di memoria non viene
981 inizializzata.
982
983 Una volta che non sia più necessaria la memoria allocata dinamicamente deve
984 essere esplicitamente rilasciata usando la funzione \funcd{free},\footnote{le
985   glibc provvedono anche una funzione \funcm{cfree} definita per compatibilità
986   con SunOS, che è deprecata.} il suo prototipo è:
987
988 \begin{funcproto}{ 
989 \fhead{stdlib.h} 
990 \fdecl{void free(void *ptr)}
991 \fdesc{Disalloca un'area di memoria precedentemente allocata.}  
992 }
993 {La funzione non ritorna nulla e non riporta errori.}
994 \end{funcproto}
995
996 Questa funzione vuole come argomento \var{ptr} il puntatore restituito da una
997 precedente chiamata ad una qualunque delle funzioni di allocazione che non sia
998 già stato liberato da un'altra chiamata a \func{free}. Se il valore
999 di \param{ptr} è \val{NULL} la funzione non fa niente, mentre se l'area di
1000 memoria era già stata liberata da un precedente chiamata il comportamento
1001 della funzione è dichiarato indefinito, ma in genere comporta la corruzione
1002 dei dati di gestione dell'allocazione, che può dar luogo a problemi gravi, ad
1003 esempio un \textit{segmentation fault} in una successiva chiamata di una di
1004 queste funzioni.
1005
1006 \itindbeg{double~free}
1007
1008 Dato che questo errore, chiamato in gergo \textit{double free}, è abbastanza
1009 frequente, specie quando si manipolano vettori di puntatori, e dato che le
1010 conseguenze possono essere pesanti ed inaspettate, si suggerisce come
1011 soluzione precauzionale di assegnare sempre a \val{NULL} ogni puntatore su cui
1012 sia stata eseguita \func{free} immediatamente dopo l'esecuzione della
1013 funzione. In questo modo, dato che con un puntatore nullo \func{free} non
1014 esegue nessuna operazione, si evitano i problemi del \textit{double free}.
1015
1016 \itindend{double~free}
1017
1018 Infine la funzione \funcd{realloc} consente di modificare, in genere di
1019 aumentare, la dimensione di un'area di memoria precedentemente allocata; il
1020 suo prototipo è:
1021
1022 \begin{funcproto}{ 
1023 \fhead{stdlib.h} 
1024 \fdecl{void *realloc(void *ptr, size\_t size)}
1025 \fdesc{Cambia la dimensione di un'area di memoria precedentemente allocata.}
1026 }  {La funzione ritorna il puntatore alla zona di memoria allocata in caso
1027   di successo e \val{NULL} per un errore, nel qual caso \var{errno}
1028   assumerà il valore \errcode{ENOMEM}.}
1029 \end{funcproto}
1030
1031 La funzione vuole come primo argomento il puntatore restituito da una
1032 precedente chiamata a \func{malloc} o \func{calloc} e come secondo argomento
1033 la nuova dimensione (in byte) che si intende ottenere. Se si passa
1034 per \param{ptr} il valore \val{NULL} allora la funzione si comporta come
1035 \func{malloc}.\footnote{questo è vero per Linux e l'implementazione secondo lo
1036   standard ANSI C, ma non è vero per alcune vecchie implementazioni, inoltre
1037   alcune versioni delle librerie del C consentivano di usare \func{realloc}
1038   anche per un puntatore liberato con \func{free} purché non ci fossero state
1039   nel frattempo altre chiamate a funzioni di allocazione, questa funzionalità
1040   è totalmente deprecata e non è consentita sotto Linux.}
1041
1042 La funzione si usa ad esempio quando si deve far crescere la dimensione di un
1043 vettore. In questo caso se è disponibile dello spazio adiacente al precedente
1044 la funzione lo utilizza, altrimenti rialloca altrove un blocco della
1045 dimensione voluta, copiandoci automaticamente il contenuto; lo spazio aggiunto
1046 non viene inizializzato. Se la funzione fallisce l'area di memoria originale
1047 non viene assolutamente toccata.
1048
1049 Si deve sempre avere ben presente il fatto che il blocco di memoria restituito
1050 da \func{realloc} può non essere un'estensione di quello che gli si è passato
1051 in ingresso; per questo si dovrà \emph{sempre} eseguire la riassegnazione di
1052 \param{ptr} al valore di ritorno della funzione, e reinizializzare o provvedere
1053 ad un adeguato aggiornamento di tutti gli altri puntatori all'interno del
1054 blocco di dati ridimensionato.
1055
1056 La \acr{glibc} ha un'implementazione delle funzioni di allocazione che è
1057 controllabile dall'utente attraverso alcune variabili di ambiente (vedi
1058 sez.~\ref{sec:proc_environ}), in particolare diventa possibile tracciare
1059 questo tipo di errori usando la variabile di ambiente \envvar{MALLOC\_CHECK\_}
1060 che quando viene definita mette in uso una versione meno efficiente delle
1061 funzioni suddette, che però è più tollerante nei confronti di piccoli errori
1062 come quello dei \textit{double free} o i \textit{buffer overrun} di un
1063 byte.\footnote{uno degli errori più comuni, causato ad esempio dalla scrittura
1064   di una stringa di dimensione pari a quella del buffer, in cui ci si
1065   dimentica dello zero di terminazione finale.}  In particolare:
1066 \begin{itemize*}
1067 \item se la variabile è posta a $0$ gli errori vengono ignorati;
1068 \item se la variabile è posta a $1$ viene stampato un avviso sullo
1069   \textit{standard error} (vedi sez.~\ref{sec:file_fd});
1070 \item se la variabile è posta a $2$ viene chiamata la funzione \func{abort}
1071   (vedi sez.~\ref{sec:sig_alarm_abort}), che in genere causa l'immediata
1072   terminazione del programma;
1073 \item se la variabile è posta a $3$ viene stampato l'avviso e chiamata
1074   \func{abort}. 
1075 \end{itemize*}
1076
1077 \itindbeg{memory~leak}
1078
1079 L'errore di programmazione più comune e più difficile da risolvere che si
1080 incontra con le funzioni di allocazione è quando non viene opportunamente
1081 liberata la memoria non più utilizzata, quello che in inglese viene chiamato
1082 \textit{memory leak}, cioè una \textsl{perdita di memoria}.
1083
1084 Un caso tipico che illustra il problema è quello in cui in una propria
1085 funzione si alloca della memoria per uso locale senza liberarla prima di
1086 uscire. La memoria resta così allocata fino alla terminazione del processo.
1087 Chiamate ripetute alla stessa funzione continueranno ad effettuare altre
1088 allocazioni, che si accumuleranno causando a lungo andare un esaurimento della
1089 memoria disponibile e la probabile impossibilità di proseguire l'esecuzione
1090 del programma.
1091
1092 Il problema è che l'esaurimento della memoria può avvenire in qualunque
1093 momento, in corrispondenza ad una qualunque chiamata di \func{malloc} che può
1094 essere in una sezione del codice che non ha alcuna relazione con la funzione
1095 che contiene l'errore. Per questo motivo è sempre molto difficile trovare un
1096 \textit{memory leak}.  In C e C++ il problema è particolarmente sentito. In
1097 C++, per mezzo della programmazione ad oggetti, il problema dei \textit{memory
1098   leak} si può notevolmente ridimensionare attraverso l'uso accurato di
1099 appositi oggetti come gli \textit{smartpointers}.  Questo però in genere va a
1100 scapito delle prestazioni dell'applicazione in esecuzione.
1101
1102 % TODO decidere cosa fare di questo che segue In altri linguaggi come il java
1103 % e recentemente il C\# il problema non si pone nemmeno perché la gestione
1104 % della memoria viene fatta totalmente in maniera automatica, ovvero il
1105 % programmatore non deve minimamente preoccuparsi di liberare la memoria
1106 % allocata precedentemente quando non serve più, poiché l'infrastruttura del
1107 % linguaggio gestisce automaticamente la cosiddetta
1108 % \itindex{garbage~collection} \textit{garbage collection}. In tal caso,
1109 % attraverso meccanismi simili a quelli del \textit{reference counting},
1110 % quando una zona di memoria precedentemente allocata non è più riferita da
1111 % nessuna parte del codice in esecuzione, può essere deallocata
1112 % automaticamente in qualunque momento dall'infrastruttura.
1113
1114 % Anche questo va a scapito delle prestazioni dell'applicazione in esecuzione
1115 % (inoltre le applicazioni sviluppate con tali linguaggi di solito non sono
1116 % eseguibili compilati, come avviene invece per il C ed il C++, ed è necessaria
1117 % la presenza di una infrastruttura per la loro interpretazione e pertanto hanno
1118 % di per sé delle prestazioni più scadenti rispetto alle stesse applicazioni
1119 % compilate direttamente).  Questo comporta però il problema della non
1120 % predicibilità del momento in cui viene deallocata la memoria precedentemente
1121 % allocata da un oggetto.
1122
1123 Per limitare l'impatto di questi problemi, e semplificare la ricerca di
1124 eventuali errori, l'implementazione delle funzioni di allocazione nella
1125 \acr{glibc} mette a disposizione una serie di funzionalità che permettono di
1126 tracciare le allocazioni e le disallocazioni, e definisce anche una serie di
1127 possibili \textit{hook} (\textsl{ganci}) che permettono di sostituire alle
1128 funzioni di libreria una propria versione (che può essere più o meno
1129 specializzata per il debugging). Esistono varie librerie che forniscono dei
1130 sostituti opportuni delle funzioni di allocazione in grado, senza neanche
1131 ricompilare il programma,\footnote{esempi sono \textit{Dmalloc}
1132   \url{http://dmalloc.com/} di Gray Watson ed \textit{Electric Fence} di Bruce
1133   Perens.} di eseguire diagnostiche anche molto complesse riguardo
1134 l'allocazione della memoria. Vedremo alcune delle funzionalità di ausilio
1135 presenti nella \acr{glibc} in sez.~\ref{sec:proc_memory_adv_management}.
1136
1137 \itindend{memory~leak}
1138
1139 Una possibile alternativa all'uso di \func{malloc}, per evitare di soffrire
1140 dei problemi di \textit{memory leak} descritti in precedenza, è di allocare la
1141 memoria nel segmento di \textit{stack} della funzione corrente invece che
1142 nello \textit{heap}. Per farlo si può usare la funzione \funcd{alloca}, la cui
1143 sintassi è identica a quella di \func{malloc}; il suo prototipo è:
1144
1145 \begin{funcproto}{ 
1146 \fhead{stdlib.h} 
1147 \fdecl{void *alloca(size\_t size)}
1148 \fdesc{Alloca un'area di memoria nello \textit{stack}.} 
1149 }
1150 {La funzione ritorna il puntatore alla zona di memoria allocata, in caso
1151   di errore il comportamento è indefinito.}
1152 \end{funcproto}
1153
1154 La funzione alloca la quantità di memoria (non inizializzata) richiesta
1155 dall'argomento \param{size} nel segmento di \textit{stack} della funzione
1156 chiamante. Con questa funzione non è più necessario liberare la memoria
1157 allocata, e quindi non esiste un analogo della \func{free}, in quanto essa
1158 viene rilasciata automaticamente al ritorno della funzione.
1159
1160 Come è evidente questa funzione ha alcuni vantaggi interessanti, anzitutto
1161 permette di evitare alla radice i problemi di \textit{memory leak}, dato che
1162 non serve più la deallocazione esplicita; inoltre la deallocazione automatica
1163 funziona anche quando si usa \func{longjmp} per uscire da una subroutine con
1164 un salto non locale da una funzione (vedi sez.~\ref{sec:proc_longjmp}).  Un
1165 altro vantaggio è che in Linux la funzione è molto più veloce di \func{malloc}
1166 e non viene sprecato spazio, infatti non è necessario gestire un pool di
1167 memoria da riservare e si evitano così anche i problemi di frammentazione di
1168 quest'ultimo, che comportano inefficienze sia nell'allocazione della memoria
1169 che nell'esecuzione dell'allocazione.
1170
1171 Gli svantaggi sono che questa funzione non è disponibile su tutti gli Unix, e
1172 non è inserita né nello standard POSIX né in SUSv3 (ma è presente in BSD), il
1173 suo utilizzo quindi limita la portabilità dei programmi. Inoltre la funzione
1174 non può essere usata nella lista degli argomenti di una funzione, perché lo
1175 spazio verrebbe allocato nel mezzo degli stessi. Inoltre non è chiaramente
1176 possibile usare \func{alloca} per allocare memoria che deve poi essere usata
1177 anche al di fuori della funzione in cui essa viene chiamata, dato che
1178 all'uscita dalla funzione lo spazio allocato diventerebbe libero, e potrebbe
1179 essere sovrascritto all'invocazione di nuove funzioni.  Questo è lo stesso
1180 problema che si può avere con le variabili automatiche, su cui torneremo in
1181 sez.~\ref{sec:proc_var_passing}.
1182
1183 Infine non esiste un modo di sapere se l'allocazione ha avuto successo, la
1184 funzione infatti viene realizzata inserendo del codice \textit{inline} nel
1185 programma\footnote{questo comporta anche il fatto che non è possibile
1186   sostituirla con una propria versione o modificarne il comportamento
1187   collegando il proprio programma con un'altra libreria.} che si limita a
1188 modificare il puntatore nello \textit{stack} e non c'è modo di sapere se se ne
1189 sono superate le dimensioni, per cui in caso di fallimento nell'allocazione il
1190 comportamento del programma può risultare indefinito, dando luogo ad una
1191 \textit{segment violation} la prima volta che cercherà di accedere alla
1192 memoria non effettivamente disponibile.
1193
1194 \index{segmento!dati|(}
1195 \itindbeg{heap} 
1196
1197 Le due funzioni seguenti vengono utilizzate soltanto quando è necessario
1198 effettuare direttamente la gestione della memoria associata allo spazio dati
1199 di un processo,\footnote{le due funzioni sono state definite con BSD 4.3, sono
1200   marcate obsolete in SUSv2 e non fanno parte delle librerie standard del C e
1201   mentre sono state esplicitamente rimosse dallo standard POSIX.1-2001.} per
1202 poterle utilizzare è necessario definire una della macro di funzionalità (vedi
1203 sez.~\ref{sec:intro_gcc_glibc_std}) fra \macro{\_BSD\_SOURCE},
1204 \macro{\_SVID\_SOURCE} e \macro{\_XOPEN\_SOURCE} (ad un valore maggiore o
1205 uguale di 500). La prima funzione è \funcd{brk}, ed il suo prototipo è:
1206
1207 \begin{funcproto}{ 
1208 \fhead{unistd.h} 
1209 \fdecl{int brk(void *addr)}
1210 \fdesc{Sposta la fine del segmento dati del processo.} 
1211 }
1212 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore,
1213   nel qual caso \var{errno} assumerà il valore \errcode{ENOMEM}.}
1214 \end{funcproto}
1215
1216 La funzione è un'interfaccia all'omonima \textit{system call} ed imposta
1217 l'indirizzo finale del segmento dati di un processo (più precisamente dello
1218 \textit{heap}) all'indirizzo specificato da \param{addr}. Quest'ultimo deve
1219 essere un valore ragionevole e la dimensione totale non deve comunque eccedere
1220 un eventuale limite (vedi sez.~\ref{sec:sys_resource_limit}) sulle dimensioni
1221 massime del segmento dati del processo.
1222
1223 Il valore di ritorno della funzione fa riferimento alla versione fornita dalla
1224 \acr{glibc}, in realtà in Linux la \textit{system call} corrispondente
1225 restituisce come valore di ritorno il nuovo valore della fine del segmento
1226 dati in caso di successo e quello corrente in caso di fallimento, è la
1227 funzione di interfaccia usata dalla \acr{glibc} che fornisce i valori di
1228 ritorno appena descritti; se si usano librerie diverse questo potrebbe non
1229 accadere.
1230
1231 Una seconda funzione per la manipolazione diretta delle dimensioni del
1232 segmento dati\footnote{in questo caso si tratta soltanto di una funzione di
1233   libreria, anche se basata sulla stessa \textit{system call}.} è
1234 \funcd{sbrk}, ed il suo prototipo è:
1235
1236 \begin{funcproto}{ 
1237 \fhead{unistd.h} 
1238 \fdecl{void *sbrk(intptr\_t increment)}
1239 \fdesc{Incrementa la dimensione del segmento dati del processo.} 
1240 }
1241 {La funzione ritorna il puntatore all'inizio della nuova zona di memoria
1242   allocata in caso di successo e \val{NULL} per un errore, nel qual
1243   caso \var{errno} assumerà il valore \errcode{ENOMEM}.}
1244 \end{funcproto}
1245
1246 La funzione incrementa la dimensione dello \textit{heap} di un programma del
1247 valore indicato dall'argomento \param{increment}, restituendo il nuovo
1248 indirizzo finale dello stesso.  L'argomento è definito come di tipo
1249 \typed{intptr\_t}, ma a seconda della versione delle librerie e del sistema
1250 può essere indicato con una serie di tipi equivalenti come \type{ptrdiff\_t},
1251 \type{ssize\_t}, \ctyp{int}. Se invocata con un valore nullo la funzione
1252 permette di ottenere l'attuale posizione della fine del segmento dati.
1253
1254 Queste due funzioni sono state deliberatamente escluse dallo standard POSIX.1
1255 dato che per i normali programmi è sempre opportuno usare le funzioni di
1256 allocazione standard descritte in precedenza, a meno di non voler realizzare
1257 per proprio conto un diverso meccanismo di gestione della memoria del segmento
1258 dati.
1259 \itindend{heap} 
1260 \index{segmento!dati|)}
1261
1262
1263 \subsection{Il controllo della memoria virtuale}  
1264 \label{sec:proc_mem_lock}
1265
1266 \index{memoria~virtuale|(}
1267
1268 Come spiegato in sez.~\ref{sec:proc_mem_gen} il kernel gestisce la memoria
1269 virtuale in maniera trasparente ai processi, decidendo quando rimuovere pagine
1270 dalla memoria per metterle nell'area di \textit{swap}, sulla base
1271 dell'utilizzo corrente da parte dei vari processi.
1272
1273 Nell'uso comune un processo non deve preoccuparsi di tutto ciò, in quanto il
1274 meccanismo della paginazione riporta in RAM, ed in maniera trasparente, tutte
1275 le pagine che gli occorrono; esistono però esigenze particolari in cui non si
1276 vuole che questo meccanismo si attivi. In generale i motivi per cui si possono
1277 avere di queste necessità sono due:
1278 \begin{itemize*}
1279 \item \textsl{La velocità}. Il processo della paginazione è trasparente solo
1280   se il programma in esecuzione non è sensibile al tempo che occorre a
1281   riportare la pagina in memoria; per questo motivo processi critici che hanno
1282   esigenze di tempo reale o tolleranze critiche nelle risposte (ad esempio
1283   processi che trattano campionamenti sonori) possono non essere in grado di
1284   sopportare le variazioni della velocità di accesso dovuta alla paginazione.
1285   
1286   In certi casi poi un programmatore può conoscere meglio dell'algoritmo di
1287   allocazione delle pagine le esigenze specifiche del suo programma e decidere
1288   quali pagine di memoria è opportuno che restino in memoria per un aumento
1289   delle prestazioni. In genere queste sono esigenze particolari e richiedono
1290   anche un aumento delle priorità in esecuzione del processo (vedi
1291   sez.~\ref{sec:proc_real_time}).
1292   
1293 \item \textsl{La sicurezza}. Se si hanno password o chiavi segrete in chiaro
1294   in memoria queste possono essere portate su disco dal meccanismo della
1295   paginazione. Questo rende più lungo il periodo di tempo in cui detti segreti
1296   sono presenti in chiaro e più complessa la loro cancellazione: un processo
1297   infatti può cancellare la memoria su cui scrive le sue variabili, ma non può
1298   toccare lo spazio disco su cui una pagina di memoria può essere stata
1299   salvata. Per questo motivo di solito i programmi di crittografia richiedono
1300   il blocco di alcune pagine di memoria.
1301 \end{itemize*}
1302
1303 Per ottenere informazioni sulle modalità in cui un programma sta usando la
1304 memoria virtuale è disponibile una apposita funzione di sistema,
1305 \funcd{mincore}, che però non è standardizzata da POSIX e pertanto non è
1306 disponibile su tutte le versioni di kernel unix-like;\footnote{nel caso di
1307   Linux devono essere comunque definite le macro \macro{\_BSD\_SOURCE} e
1308   \macro{\_SVID\_SOURCE}.}  il suo prototipo è:
1309
1310 \begin{funcproto}{
1311 \fhead{unistd.h}
1312 \fhead{sys/mman.h}
1313 \fdecl{int mincore(void *addr, size\_t length, unsigned char *vec)}
1314 \fdesc{Ritorna lo stato delle pagine di memoria occupate da un processo.}
1315 }
1316 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore, nel qual
1317 caso \var{errno} assumerà uno dei valori:
1318 \begin{errlist}
1319    \item[\errcode{EAGAIN}] il kernel è temporaneamente non in grado di fornire
1320      una risposta.
1321    \item[\errcode{EFAULT}] \param{vec} punta ad un indirizzo non valido.
1322    \item[\errcode{EINVAL}] \param{addr} non è un multiplo delle dimensioni di
1323      una pagina.
1324    \item[\errcode{ENOMEM}] o \param{addr}$+$\param{length} eccede la dimensione
1325      della memoria usata dal processo o l'intervallo di indirizzi specificato
1326      non è mappato.
1327 \end{errlist}}
1328 \end{funcproto}
1329
1330 La funzione permette di ottenere le informazioni sullo stato della mappatura
1331 della memoria per il processo chiamante, specificando l'intervallo da
1332 esaminare con l'indirizzo iniziale, indicato con l'argomento \param{addr}, e
1333 la lunghezza, indicata con l'argomento \param{length}. L'indirizzo iniziale
1334 deve essere un multiplo delle dimensioni di una pagina, mentre la lunghezza
1335 può essere qualunque, fintanto che si resta nello spazio di indirizzi del
1336 processo,\footnote{in caso contrario si avrà un errore di \errcode{ENOMEM};
1337   fino al kernel 2.6.11 in questo caso veniva invece restituito
1338   \errcode{EINVAL}, in considerazione che il caso più comune in cui si
1339   verifica questo errore è quando si usa per sbaglio un valore negativo
1340   di \param{length}, che nel caso verrebbe interpretato come un intero
1341   positivo di grandi dimensioni.}  ma il risultato verrà comunque fornito per
1342 l'intervallo compreso fino al multiplo successivo.
1343
1344 I risultati della funzione vengono forniti nel vettore puntato da \param{vec},
1345 che deve essere allocato preventivamente e deve essere di dimensione
1346 sufficiente a contenere tanti byte quante sono le pagine contenute
1347 nell'intervallo di indirizzi specificato, la dimensione cioè deve essere
1348 almeno pari a \code{(length+PAGE\_SIZE-1)/PAGE\_SIZE}.  Al ritorno della
1349 funzione il bit meno significativo di ciascun byte del vettore sarà acceso se
1350 la pagina di memoria corrispondente è al momento residente in memoria, o
1351 cancellato altrimenti. Il comportamento sugli altri bit è indefinito, essendo
1352 questi al momento riservati per usi futuri. Per questo motivo in genere è
1353 comunque opportuno inizializzare a zero il contenuto del vettore, così che le
1354 pagine attualmente residenti in memoria saranno indicata da un valore non
1355 nullo del byte corrispondente.
1356
1357 Dato che lo stato della memoria di un processo può cambiare continuamente, il
1358 risultato di \func{mincore} è assolutamente provvisorio e lo stato delle
1359 pagine potrebbe essere già cambiato al ritorno stesso della funzione, a meno
1360 che, come vedremo ora, non si sia attivato il meccanismo che forza il
1361 mantenimento di una pagina sulla memoria.  
1362
1363 \itindbeg{memory~locking}
1364
1365 Il meccanismo che previene la paginazione di parte della memoria virtuale di
1366 un processo è chiamato \textit{memory locking} (o \textsl{blocco della
1367   memoria}). Il blocco è sempre associato alle pagine della memoria virtuale
1368 del processo, e non al segmento reale di RAM su cui essa viene mantenuta.  La
1369 regola è che se un segmento di RAM fa da supporto ad almeno una pagina
1370 bloccata allora esso viene escluso dal meccanismo della paginazione. I blocchi
1371 non si accumulano, se si blocca due volte la stessa pagina non è necessario
1372 sbloccarla due volte, una pagina o è bloccata oppure no.
1373
1374 Il \textit{memory lock} persiste fintanto che il processo che detiene la
1375 memoria bloccata non la sblocca. Chiaramente la terminazione del processo
1376 comporta anche la fine dell'uso della sua memoria virtuale, e quindi anche di
1377 tutti i suoi \textit{memory lock}.  Inoltre i \textit{memory lock} non sono
1378 ereditati dai processi figli, ma siccome Linux usa il \textit{copy on write}
1379 (vedi sez.~\ref{sec:proc_fork}) gli indirizzi virtuali del figlio sono
1380 mantenuti sullo stesso segmento di RAM del padre, e quindi fintanto che un
1381 figlio non scrive su un segmento bloccato, può usufruire del \textit{memory
1382   lock} del padre. Infine i \textit{memory lock} vengono automaticamente
1383 rimossi se si pone in esecuzione un altro programma con \func{exec} (vedi
1384 sez.~\ref{sec:proc_exec}).
1385
1386 Il sistema pone dei limiti all'ammontare di memoria di un processo che può
1387 essere bloccata e al totale di memoria fisica che si può dedicare a questo, lo
1388 standard POSIX.1 richiede che sia definita in \headfile{unistd.h} la macro
1389 \macrod{\_POSIX\_MEMLOCK\_RANGE} per indicare la capacità di eseguire il
1390 \textit{memory locking}.
1391
1392 Siccome la richiesta di un \textit{memory lock} da parte di un processo riduce
1393 la memoria fisica disponibile nel sistema per gli altri processi, questo ha un
1394 evidente impatto su tutti gli altri processi, per cui fino al kernel 2.6.9
1395 solo un processo dotato di privilegi amministrativi (la \textit{capability}
1396 \const{CAP\_IPC\_LOCK}, vedi sez.~\ref{sec:proc_capabilities}) aveva la
1397 capacità di bloccare una pagina di memoria.
1398
1399 A partire dal kernel 2.6.9 anche un processo normale può bloccare la propria
1400 memoria\footnote{la funzionalità è stata introdotta per non essere costretti a
1401   dare privilegi eccessivi a programmi di crittografia, che necessitano di
1402   questa funzionalità, ma che devono essere usati da utenti normali.} ma
1403 mentre un processo privilegiato non ha limiti sulla quantità di memoria che
1404 può bloccare, un processo normale è soggetto al limite della risorsa
1405 \const{RLIMIT\_MEMLOCK} (vedi sez.~\ref{sec:sys_resource_limit}). In generale
1406 poi ogni processo può sbloccare le pagine relative alla propria memoria, se
1407 però diversi processi bloccano la stessa pagina questa resterà bloccata
1408 fintanto che ci sarà almeno un processo che la blocca.
1409
1410 Le funzioni di sistema per bloccare e sbloccare la paginazione di singole
1411 sezioni di memoria sono rispettivamente \funcd{mlock} e \funcd{munlock}; i
1412 loro prototipi sono:
1413
1414 \begin{funcproto}{
1415   \fhead{sys/mman.h} 
1416   \fdecl{int mlock(const void *addr, size\_t len)}
1417   \fdesc{Blocca la paginazione su un intervallo di memoria.}
1418
1419   \fdecl{int munlock(const void *addr, size\_t len)}
1420   \fdesc{Rimuove il blocco della paginazione su un intervallo di memoria.}
1421   }
1422 {Entrambe le funzioni ritornano $0$ in caso di successo e $-1$ in caso di
1423   errore, nel qual caso \var{errno} assumerà uno dei valori:
1424   \begin{errlist}
1425   \item[\errcode{EINVAL}] \param{len} non è un valore positivo.
1426   \item[\errcode{ENOMEM}] alcuni indirizzi dell’intervallo specificato non
1427     corrispondono allo spazio di indirizzi del processo o si è superato il
1428     limite di \const{RLIMIT\_MEMLOCK} per un processo non privilegiato (solo
1429     per kernel a partire dal 2.6.9). 
1430   \item[\errcode{EPERM}] il processo non è privilegiato (per kernel precedenti
1431     il 2.6.9) o si ha un limite nullo per \const{RLIMIT\_MEMLOCK} e
1432     il processo non è privilegiato (per kernel a partire dal 2.6.9).
1433   \end{errlist}}
1434 \end{funcproto}
1435
1436 Le due funzioni permettono rispettivamente di bloccare e sbloccare la
1437 paginazione per l'intervallo di memoria iniziante all'indirizzo \param{addr} e
1438 lungo \param{len} byte.  Tutte le pagine che contengono una parte
1439 dell'intervallo bloccato sono mantenute in RAM per tutta la durata del
1440 blocco. Con kernel diversi da Linux si può ottenere un errore di
1441 \errcode{EINVAL} se \param{addr} non è un multiplo della dimensione delle
1442 pagine di memoria, pertanto se si ha a cuore la portabilità si deve avere cura
1443 di allinearne correttamente il valore.
1444
1445 % TODO trattare mlock2, introdotta con il kernel 4.4 (vedi
1446 % http://lwn.net/Articles/650538/)
1447
1448 Altre due funzioni di sistema, \funcd{mlockall} e \funcd{munlockall},
1449 consentono di bloccare genericamente la paginazione per l'intero spazio di
1450 indirizzi di un processo.  I prototipi di queste funzioni sono:
1451
1452 \begin{funcproto}{ 
1453 \fhead{sys/mman.h} 
1454 \fdecl{int mlockall(int flags)}
1455 \fdesc{Blocca la paginazione per lo spazio di indirizzi del processo corrente.} 
1456 \fdecl{int munlockall(void)}
1457 \fdesc{Sblocca la paginazione per lo spazio di indirizzi del processo corrente.}
1458 }
1459 {Codici di ritorno ed errori sono gli stessi di \func{mlock} e \func{munlock},
1460   tranne per \errcode{EINVAL} che viene restituito solo se si è specificato
1461   con \func{mlockall} un valore sconosciuto per \param{flags}.}
1462 \end{funcproto}
1463
1464 L'argomento \param{flags} di \func{mlockall} permette di controllarne il
1465 comportamento; esso deve essere specificato come maschera binaria dei valori
1466 espressi dalle costanti riportate in tab.~\ref{tab:mlockall_flags}.
1467
1468 \begin{table}[htb]
1469   \footnotesize
1470   \centering
1471   \begin{tabular}[c]{|l|p{8cm}|}
1472     \hline
1473     \textbf{Valore} & \textbf{Significato} \\
1474     \hline
1475     \hline
1476     \constd{MCL\_CURRENT}& blocca tutte le pagine correntemente mappate nello
1477                            spazio di indirizzi del processo.\\
1478     \constd{MCL\_FUTURE} & blocca tutte le pagine che verranno mappate nello
1479                            spazio di indirizzi del processo.\\
1480    \hline
1481   \end{tabular}
1482   \caption{Valori e significato dell'argomento \param{flags} della funzione
1483     \func{mlockall}.}
1484   \label{tab:mlockall_flags}
1485 \end{table}
1486
1487 Con \func{mlockall} si possono bloccare tutte le pagine mappate nello spazio
1488 di indirizzi del processo, sia che comprendano il segmento di testo, di dati,
1489 lo \textit{stack}, lo \textit{heap} e pure le funzioni di libreria chiamate, i
1490 file mappati in memoria, i dati del kernel mappati in user space, la memoria
1491 condivisa.  L'uso dell'argomento \param{flags} permette di selezionare con
1492 maggior finezza le pagine da bloccare, ad esempio usando \const{MCL\_FUTURE}
1493 ci si può limitare a tutte le pagine allocate a partire dalla chiamata della
1494 funzione.
1495
1496 In ogni caso un processo \textit{real-time} che deve entrare in una sezione
1497 critica (vedi sez.~\ref{sec:proc_race_cond}) deve provvedere a riservare
1498 memoria sufficiente prima dell'ingresso, per scongiurare l'occorrenza di un
1499 eventuale \textit{page fault} causato dal meccanismo di \textit{copy on
1500   write}.  Infatti se nella sezione critica si va ad utilizzare memoria che
1501 non è ancora stata riportata in RAM si potrebbe avere un \textit{page fault}
1502 durante l'esecuzione della stessa, con conseguente rallentamento
1503 (probabilmente inaccettabile) dei tempi di esecuzione.
1504
1505 In genere si ovvia a questa problematica chiamando una funzione che ha
1506 allocato una quantità sufficientemente ampia di variabili automatiche, in modo
1507 che esse vengano mappate in RAM dallo \textit{stack}, dopo di che, per essere
1508 sicuri che esse siano state effettivamente portate in memoria, ci si scrive
1509 sopra.
1510
1511 \itindend{memory~locking}
1512 \index{memoria~virtuale|)} 
1513
1514
1515 \subsection{Gestione avanzata dell'allocazione della memoria} 
1516 \label{sec:proc_memory_adv_management}
1517
1518 La trattazione delle funzioni di allocazione di sez.~\ref{sec:proc_mem_alloc}
1519 si è limitata a coprire le esigenze generiche di un programma, in cui non si
1520 hanno dei requisiti specifici e si lascia il controllo delle modalità di
1521 allocazione alle funzioni di libreria.  Tuttavia esistono una serie di casi in
1522 cui può essere necessario avere un controllo più dettagliato delle modalità
1523 con cui la memoria viene allocata; nel qual caso potranno venire in aiuto le
1524 funzioni trattate in questa sezione.
1525
1526 Le prime funzioni che tratteremo sono quelle che consentono di richiedere di
1527 allocare un blocco di memoria ``\textsl{allineato}'' ad un multiplo una certa
1528 dimensione. Questo tipo di esigenza emerge usualmente quando si devono
1529 allocare dei buffer da utilizzare per eseguire dell'I/O diretto su dispositivi
1530 a blocchi. In questo caso infatti il trasferimento di dati viene eseguito per
1531 blocchi di dimensione fissa, ed è richiesto che l'indirizzo di partenza del
1532 buffer sia un multiplo intero di questa dimensione, usualmente 512 byte. In
1533 tal caso l'uso di \func{malloc} non è sufficiente, ed occorre utilizzare una
1534 funzione specifica.
1535
1536 Tradizionalmente per rispondere a questa esigenza sono state create due
1537 funzioni diverse, \funcd{memalign} e \funcd{valloc}, oggi obsolete; i
1538 rispettivi prototipi sono:
1539
1540 \begin{funcproto}{ 
1541 \fhead{malloc.h} 
1542 \fdecl{void *valloc(size\_t size)}
1543 \fdesc{Alloca un blocco di memoria allineato alla dimensione di una pagina di
1544   memoria.}  
1545 \fdecl{void *memalign(size\_t boundary, size\_t size)}
1546 \fdesc{Alloca un blocco di memoria allineato ad un multiplo
1547   di \param{boundary}.} 
1548 }
1549 {Entrambe le funzioni ritornano un puntatore al blocco di memoria allocato in
1550   caso di successo e \val{NULL} in caso di errore, nel qual caso \var{errno}
1551   assumerà uno dei valori:
1552   \begin{errlist}
1553   \item[\errcode{EINVAL}] \param{boundary} non è una potenza di due.
1554   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per l'allocazione.
1555   \end{errlist}}
1556 \end{funcproto}
1557
1558 Le funzioni restituiscono il puntatore al buffer di memoria allocata di
1559 dimensioni pari a \param{size}, che per \func{memalign} sarà un multiplo
1560 di \param{boundary} mentre per \func{valloc} un multiplo della dimensione di
1561 una pagina di memoria. Nel caso della versione fornita dalla \acr{glibc} la
1562 memoria allocata con queste funzioni deve essere liberata con \func{free},
1563 cosa che non è detto accada con altre implementazioni.
1564
1565 Nessuna delle due funzioni ha una chiara standardizzazione e nessuna delle due
1566 compare in POSIX.1, inoltre ci sono indicazioni discordi sui file che ne
1567 contengono la definizione;\footnote{secondo SUSv2 \func{valloc} è definita in
1568   \headfile{stdlib.h}, mentre sia le \acr{glibc} che le precedenti \acr{libc4}
1569   e \acr{libc5} la dichiarano in \headfile{malloc.h}, lo stesso vale per
1570   \func{memalign} che in alcuni sistemi è dichiarata in \headfile{stdlib.h}.}
1571 per questo motivo il loro uso è sconsigliato, essendo state sostituite dalla
1572 nuova \funcd{posix\_memalign}, che è stata standardizzata in POSIX.1d; il suo
1573 prototipo è:
1574
1575 \begin{funcproto}{ 
1576 \fhead{stdlib.h} 
1577 \fdecl{posix\_memalign(void **memptr, size\_t alignment, size\_t size)}
1578 \fdesc{Alloca un buffer di memoria allineato ad un multiplo
1579   di \param{alignment}.}   
1580 }
1581 {Entrambe le funzioni ritornano un puntatore al blocco di memoria allocato in
1582   caso di successo e \val{NULL} in caso di errore, nel qual caso \var{errno}
1583   assumerà uno dei valori:
1584   \begin{errlist}
1585   \item[\errcode{EINVAL}] \param{alignment} non è potenza di due e multiplo
1586     di \code{sizeof(void *)}.
1587   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per l'allocazione.
1588   \end{errlist}}
1589 \end{funcproto}
1590
1591 La funzione restituisce il puntatore al buffer allocato di dimensioni pari
1592 a \param{size} nella variabile (di tipo \texttt{void *}) posta all'indirizzo
1593 indicato da \param{memptr}. La funzione fallisce nelle stesse condizioni delle
1594 due funzioni precedenti, ma a loro differenza restituisce direttamente come
1595 valore di ritorno il codice di errore.  Come per le precedenti la memoria
1596 allocata con \func{posix\_memalign} deve essere disallocata con \func{free},
1597 che in questo caso però è quanto richiesto dallo standard.  Si tenga presente
1598 infine che nessuna di queste funzioni inizializza il buffer di memoria
1599 allocato, il loro comportamento cioè è analogo, allineamento a parte, a quello
1600 di \func{malloc}.
1601
1602 Un secondo caso in cui risulta estremamente utile poter avere un maggior
1603 controllo delle modalità di allocazione della memoria è quello in cui cercano
1604 errori di programmazione. Esempi di questi errori sono i \textit{double free},
1605 o i cosiddetti \itindex{buffer~overrun} \textit{buffer overrun}, cioè le
1606 scritture su un buffer oltre le dimensioni della sua
1607 allocazione,\footnote{entrambe queste operazioni causano in genere la
1608   corruzione dei dati di controllo delle funzioni di allocazione, che vengono
1609   anch'essi mantenuti nello \textit{heap} per tenere traccia delle zone di
1610   memoria allocata.} o i classici \textit{memory leak}.
1611
1612 Abbiamo visto in sez.~\ref{sec:proc_mem_lock} come una prima funzionalità di
1613 ausilio nella ricerca di questi errori sia l'uso della variabile di ambiente
1614 \envvar{MALLOC\_CHECK\_}.  Una modalità alternativa per effettuare dei
1615 controlli di consistenza sullo stato delle allocazioni di memoria eseguite con
1616 \func{malloc}, anche questa fornita come estensione specifica (e non standard)
1617 della \acr{glibc}, è quella di utilizzare la funzione \funcd{mcheck}, che deve
1618 essere chiamata prima di eseguire qualunque allocazione con \func{malloc}; il
1619 suo prototipo è:
1620
1621 \begin{funcproto}{ 
1622 \fhead{mcheck.h} 
1623 \fdecl{int mcheck(void (*abortfn) (enum mcheck\_status status))}
1624 \fdesc{Attiva i controlli di consistenza delle allocazioni di memoria.}   
1625 }
1626 {La funzione ritorna $0$ in caso di successo e $-1$ per un errorre;
1627   \var{errno} non viene impostata.} 
1628 \end{funcproto}
1629
1630 La funzione consente di registrare una funzione di emergenza che verrà
1631 eseguita tutte le volte che, in una successiva esecuzione di \func{malloc},
1632 venissero trovate delle inconsistenze, come delle operazioni di scrittura
1633 oltre i limiti dei buffer allocati. Per questo motivo la funzione deve essere
1634 chiamata prima di qualunque allocazione di memoria, altrimenti fallirà.
1635
1636 Se come primo argomento di \func{mcheck} si passa \val{NULL} verrà utilizzata
1637 una funzione predefinita che stampa un messaggio di errore ed invoca la
1638 funzione \func{abort} (vedi sez.~\ref{sec:sig_alarm_abort}), altrimenti si
1639 dovrà creare una funzione personalizzata in grado di ricevere il tipo di
1640 errore ed agire di conseguenza.
1641
1642 Nonostante la scarsa leggibilità del prototipo si tratta semplicemente di
1643 definire una funzione di tipo \code{void abortfn(enum mcheck\_status status)},
1644 che non deve restituire nulla e che deve avere un unico argomento di tipo
1645 \code{mcheck\_status}. In caso di errore la funzione verrà eseguita ricevendo
1646 un opportuno valore di \param{status} che è un tipo enumerato che può assumere
1647 soltanto i valori di tab.~\ref{tab:mcheck_status_value} che indicano la
1648 tipologia di errore riscontrata.
1649
1650 \begin{table}[htb]
1651   \centering
1652   \footnotesize
1653   \begin{tabular}[c]{|l|p{7cm}|}
1654     \hline
1655     \textbf{Valore} & \textbf{Significato} \\
1656     \hline
1657     \hline
1658     \constd{MCHECK\_OK}      & Riportato a \func{mprobe} se nessuna
1659                                inconsistenza è presente.\\
1660     \constd{MCHECK\_DISABLED}& Riportato a \func{mprobe} se si è chiamata
1661                                \func{mcheck} dopo aver già usato
1662                                \func{malloc}.\\
1663     \constd{MCHECK\_HEAD}    & I dati immediatamente precedenti il buffer sono
1664                                stati modificati, avviene in genere quando si
1665                                decrementa eccessivamente il valore di un
1666                                puntatore scrivendo poi prima dell'inizio del
1667                                buffer.\\
1668     \constd{MCHECK\_TAIL}    & I dati immediatamente seguenti il buffer sono
1669                                stati modificati, succede quando si va scrivere
1670                                oltre la dimensione corretta del buffer.\\
1671     \constd{MCHECK\_FREE}    & Il buffer è già stato disallocato.\\
1672     \hline
1673   \end{tabular}
1674   \caption{Valori dello stato dell'allocazione di memoria ottenibili dalla
1675     funzione di terminazione installata con \func{mcheck}.} 
1676   \label{tab:mcheck_status_value}
1677 \end{table}
1678
1679 Una volta che si sia chiamata \func{mcheck} con successo si può anche
1680 controllare esplicitamente lo stato delle allocazioni senza aspettare un
1681 errore nelle relative funzioni utilizzando la funzione \funcd{mprobe}, il cui
1682 prototipo è:
1683
1684 \begin{funcproto}{ 
1685 \fhead{mcheck.h} 
1686 \fdecl{enum mcheck\_status mprobe(ptr)}
1687 \fdesc{Esegue un controllo di consistenza delle allocazioni.}   
1688 }
1689 {La funzione ritorna un codice fra quelli riportati in
1690    tab.~\ref{tab:mcheck_status_value} e non ha errori.} 
1691 \end{funcproto}
1692
1693 La funzione richiede che si passi come argomento un puntatore ad un blocco di
1694 memoria precedentemente allocato con \func{malloc} o \func{realloc}, e
1695 restituisce lo stesso codice di errore che si avrebbe per la funzione di
1696 emergenza ad una successiva chiamata di una funzione di allocazione, e poi i
1697 primi due codici che indicano rispettivamente quando tutto è a posto o il
1698 controllo non è possibile per non aver chiamato \func{mcheck} in tempo.
1699
1700 % TODO: trattare le altre funzionalità avanzate di \func{malloc}, mallopt,
1701 % mtrace, muntrace, mallinfo e gli hook con le glibc 2.10 c'è pure malloc_info
1702 % a sostituire mallinfo, vedi http://udrepper.livejournal.com/20948.html
1703
1704
1705 \section{Argomenti, ambiente ed altre proprietà di un processo}
1706 \label{sec:proc_options}
1707
1708 In questa sezione esamineremo le funzioni che permettono di gestire gli
1709 argomenti e le opzioni, e quelle che consentono di manipolare ed utilizzare le
1710 variabili di ambiente. Accenneremo infine alle modalità con cui si può gestire
1711 la localizzazione di un programma modificandone il comportamento a seconda
1712 della lingua o del paese a cui si vuole faccia riferimento nelle sue
1713 operazioni. 
1714
1715 \subsection{Il formato degli argomenti}
1716 \label{sec:proc_par_format}
1717
1718 Tutti i programmi hanno la possibilità di ricevere argomenti e opzioni quando
1719 vengono lanciati e come accennato in sez.~\ref{sec:proc_main} questo viene
1720 effettuato attraverso gli argomenti \param{argc} e \param{argv} ricevuti nella
1721 funzione \code{main} all'avvio del programma. Questi argomenti vengono passati
1722 al programma dalla shell o dal processo che esegue la \func{exec} (secondo le
1723 modalità che vedremo in sez.~\ref{sec:proc_exec}) quando questo viene messo in
1724 esecuzione.
1725
1726 Nel caso più comune il passaggio di argomenti ed opzioni viene effettuato
1727 dalla shell, che si incarica di leggere la linea di comando con cui si lancia
1728 il programma e di effettuarne la scansione (il cosiddetto \textit{parsing})
1729 per individuare le parole che la compongono, ciascuna delle quali potrà essere
1730 considerata un argomento o un'opzione. 
1731
1732 Di norma per individuare le parole che andranno a costituire la lista degli
1733 argomenti viene usato come carattere di separazione lo spazio o il tabulatore,
1734 ma la cosa dipende ovviamente dalle modalità con cui si effettua la scansione
1735 e dalle convenzioni adottate dal programma che la esegue: ad esempio la shell
1736 consente di proteggere con opportuni caratteri di controllo argomenti che
1737 contengono degli spazi evitando di spezzarli in parole diverse.
1738
1739 \begin{figure}[htb]
1740   \centering
1741 %  \includegraphics[width=13cm]{img/argv_argc}
1742 %  \includegraphics[width=13cm]{img/argv_argc}
1743   \begin{tikzpicture}[>=stealth]
1744   \draw (0.5,2.5) rectangle (3.5,3);
1745   \draw (2,2.75) node {\texttt{argc = 5}};
1746   \draw (5,2.5) rectangle (8,3);
1747   \draw (6.5,2.75) node {\texttt{argv[0]}};
1748   \draw [->] (8,2.75) -- (9,2.75);
1749   \draw (9,2.75) node [anchor=west] {\texttt{"touch"}};
1750   \draw (5,2) rectangle (8,2.5);
1751   \draw (6.5,2.25) node {\texttt{argv[1]}};
1752   \draw [->] (8,2.25) -- (9,2.25);
1753   \draw (9,2.25) node [anchor=west] {\texttt{"-r"}};
1754   \draw (5,1.5) rectangle (8,2);
1755   \draw (6.5,1.75) node {\texttt{argv[2]}};
1756   \draw [->] (8,1.75) -- (9,1.75);
1757   \draw (9,1.75) node [anchor=west] {\texttt{"riferimento.txt"}};
1758   \draw (5,1.0) rectangle (8,1.5);
1759   \draw (6.5,1.25) node {\texttt{argv[3]}};
1760   \draw [->] (8,1.25) -- (9,1.25);
1761   \draw (9,1.25) node [anchor=west] {\texttt{"-m"}};
1762   \draw (5,0.5) rectangle (8,1.0);
1763   \draw (6.5,0.75) node {\texttt{argv[4]}};
1764   \draw [->] (8,0.75) -- (9,0.75);
1765   \draw (9,0.75) node [anchor=west] {\texttt{"questofile.txt"}};
1766   \draw (4.25,3.5) node{\texttt{"touch -r riferimento.txt -m questofile.txt"}};
1767
1768   \end{tikzpicture}
1769   \caption{Esempio dei valori di \param{argv} e \param{argc} generati nella 
1770     scansione di una riga di comando.}
1771   \label{fig:proc_argv_argc}
1772 \end{figure}
1773
1774 Indipendentemente da come viene eseguita, il risultato finale della scansione
1775 dovrà comunque essere la costruzione del vettore di puntatori \param{argv} in
1776 cui si devono inserire in successione i puntatori alle stringhe costituenti i
1777 vari argomenti ed opzioni da passare al programma, e della
1778 variabile \param{argc} che deve essere inizializzata al numero di stringhe
1779 contenute in \param{argv}. Nel caso della shell questo comporta ad esempio che
1780 il primo argomento sia sempre il nome del programma. Un esempio di questo
1781 meccanismo è mostrato in fig.~\ref{fig:proc_argv_argc}, che illustra il
1782 risultato della scansione di una riga di comando.
1783
1784
1785 \subsection{La gestione delle opzioni}
1786 \label{sec:proc_opt_handling}
1787
1788 In generale un programma Unix riceve da linea di comando sia gli argomenti che
1789 le opzioni, queste ultime sono standardizzate per essere riconosciute come
1790 tali: un elemento di \param{argv} successivo al primo che inizia con il
1791 carattere ``\texttt{-}'' e che non sia un singolo ``\texttt{-}'' o un
1792 ``\texttt{-{}-}'' viene considerato un'opzione.  In genere le opzioni sono
1793 costituite da una lettera singola (preceduta dal carattere ``\texttt{-}'') e
1794 possono avere o no un parametro associato. Un esempio tipico può essere quello
1795 mostrato in fig.~\ref{fig:proc_argv_argc}. In quel caso le opzioni sono
1796 \cmd{-r} e \cmd{-m} e la prima vuole un parametro mentre la seconda no
1797 (\cmd{questofile.txt} è un argomento del programma, non un parametro di
1798 \cmd{-m}).
1799
1800 Per gestire le opzioni all'interno degli argomenti a linea di comando passati
1801 in \param{argv} la libreria standard del C fornisce la funzione
1802 \funcd{getopt}, che ha il seguente prototipo:
1803
1804 \begin{funcproto}{ 
1805 \fhead{unistd.h} 
1806 \fdecl{int getopt(int argc, char * const argv[], const char *optstring)}
1807 \fdesc{Esegue la scansione delle opzioni negli argomenti della funzione
1808   \code{main}.} 
1809 }
1810 {Ritorna il carattere che segue l'opzione, ``\texttt{:}'' se manca un
1811   parametro all'opzione, ``\texttt{?}'' se l'opzione è sconosciuta, e $-1$ se
1812   non esistono altre opzioni.} 
1813 \end{funcproto}
1814
1815 Questa funzione prende come argomenti le due variabili \param{argc} e
1816 \param{argv} che devono essere quelle passate come argomenti di \code{main}
1817 all'esecuzione del programma, ed una stringa \param{optstring} che indica
1818 quali sono le opzioni valide. La funzione effettua la scansione della lista
1819 degli argomenti ricercando ogni stringa che comincia con il carattere
1820 ``\texttt{-}'' e ritorna ogni volta che trova un'opzione valida.
1821
1822 La stringa \param{optstring} indica quali sono le opzioni riconosciute ed è
1823 costituita da tutti i caratteri usati per identificare le singole opzioni, se
1824 l'opzione ha un parametro al carattere deve essere fatto seguire il carattere
1825 di due punti (``\texttt{:}''); nel caso di fig.~\ref{fig:proc_argv_argc} ad
1826 esempio la stringa di opzioni avrebbe dovuto contenere \texttt{"r:m"}.
1827
1828 La modalità di uso di \func{getopt} è pertanto quella di chiamare più volte la
1829 funzione all'interno di un ciclo, fintanto che essa non ritorna il valore $-1$
1830 che indica che non ci sono più opzioni. Nel caso si incontri un'opzione non
1831 dichiarata in \param{optstring} viene ritornato il carattere ``\texttt{?}''
1832 mentre se un'opzione che lo richiede non è seguita da un parametro viene
1833 ritornato il carattere ``\texttt{:}'', infine se viene incontrato il valore
1834 ``\texttt{-{}-}'' la scansione viene considerata conclusa, anche se vi sono
1835 altri elementi di \param{argv} che cominciano con il carattere ``\texttt{-}''.
1836
1837 \begin{figure}[!htb]
1838   \footnotesize \centering
1839   \begin{minipage}[c]{\codesamplewidth}
1840   \includecodesample{listati/option_code.c}
1841   \end{minipage}
1842   \normalsize
1843   \caption{Esempio di codice per la gestione delle opzioni.}
1844   \label{fig:proc_options_code}
1845 \end{figure}
1846
1847 Quando \func{getopt} trova un'opzione fra quelle indicate in \param{optstring}
1848 essa ritorna il valore numerico del carattere, in questo modo si possono
1849 eseguire azioni specifiche usando uno \instruction{switch}; la funzione
1850 inoltre inizializza alcune variabili globali:
1851 \begin{itemize*}
1852 \item \var{char *optarg} contiene il puntatore alla stringa parametro
1853   dell'opzione.
1854 \item \var{int optind} alla fine della scansione restituisce l'indice del
1855   primo elemento di \param{argv} che non è un'opzione.
1856 \item \var{int opterr} previene, se posto a zero, la stampa di un messaggio
1857   di errore in caso di riconoscimento di opzioni non definite.
1858 \item \var{int optopt} contiene il carattere dell'opzione non riconosciuta.
1859 \end{itemize*}
1860
1861 In fig.~\ref{fig:proc_options_code} si è mostrata la sezione del programma
1862 \file{fork\_test.c}, che useremo nel prossimo capitolo per effettuare dei test
1863 sulla creazione dei processi, deputata alla decodifica delle opzioni a riga di
1864 comando da esso supportate.
1865
1866 Si può notare che si è anzitutto (\texttt{\small 1}) disabilitata la stampa di
1867 messaggi di errore per opzioni non riconosciute, per poi passare al ciclo per
1868 la verifica delle opzioni (\texttt{\small 2-27}); per ciascuna delle opzioni
1869 possibili si è poi provveduto ad un'azione opportuna, ad esempio per le tre
1870 opzioni che prevedono un parametro si è effettuata la decodifica del medesimo,
1871 il cui indirizzo è contenuto nella variabile \var{optarg}), avvalorando la
1872 relativa variabile (\texttt{\small 12-14}, \texttt{\small 15-17} e
1873 \texttt{\small 18-20}). Completato il ciclo troveremo in \var{optind}
1874 l'indice in \code{argv[]} del primo degli argomenti rimanenti nella linea di
1875 comando.
1876
1877 Normalmente \func{getopt} compie una permutazione degli elementi di
1878 \param{argv} cosicché alla fine della scansione gli elementi che non sono
1879 opzioni sono spostati in coda al vettore. Oltre a questa esistono altre due
1880 modalità di gestire gli elementi di \param{argv}; se \param{optstring} inizia
1881 con il carattere ``\texttt{+}'' (o è impostata la variabile di ambiente
1882 \cmd{POSIXLY\_CORRECT}) la scansione viene fermata non appena si incontra un
1883 elemento che non è un'opzione.
1884
1885 L'ultima modalità, usata quando un programma può gestire la mescolanza fra
1886 opzioni e argomenti, ma se li aspetta in un ordine definito, si attiva
1887 quando \param{optstring} inizia con il carattere ``\texttt{-}''. In questo caso
1888 ogni elemento che non è un'opzione viene considerato comunque un'opzione e
1889 associato ad un valore di ritorno pari ad 1, questo permette di identificare
1890 gli elementi che non sono opzioni, ma non effettua il riordinamento del
1891 vettore \param{argv}.
1892
1893
1894 \subsection{Le variabili di ambiente}
1895 \label{sec:proc_environ}
1896
1897 \index{variabili!di~ambiente|(}
1898 Oltre agli argomenti passati a linea di comando esiste un'altra modalità che
1899 permette di trasferire ad un processo delle informazioni in modo da
1900 modificarne il comportamento.  Ogni processo infatti riceve dal sistema, oltre
1901 alle variabili \param{argv} e \param{argc} anche un \textsl{ambiente} (in
1902 inglese \textit{environment}); questo viene espresso nella forma di una lista
1903 (chiamata \textit{environment list}) delle cosiddette \textsl{variabili di
1904   ambiente}, i valori di queste variabili possono essere poi usati dal
1905 programma.
1906
1907 Anche in questo caso la lista delle \textsl{variabili di ambiente} deve essere
1908 costruita ed utilizzata nella chiamata alla funzione \func{exec} (torneremo su
1909 questo in sez.~\ref{sec:proc_exec}) quando questo viene lanciato. Come per la
1910 lista degli argomenti anche questa lista è un vettore di puntatori a
1911 caratteri, ciascuno dei quali punta ad una stringa, terminata da un
1912 \val{NULL}. A differenza di \code{argv[]} in questo caso non si ha una
1913 lunghezza del vettore data da un equivalente di \param{argc}, ma la lista è
1914 terminata da un puntatore nullo.
1915
1916 L'indirizzo della lista delle variabili di ambiente è passato attraverso la
1917 variabile globale \var{environ}, che viene definita automaticamente per
1918 ciascun processo, e a cui si può accedere attraverso una semplice
1919 dichiarazione del tipo:
1920 \includecodesnip{listati/env_ptr.c}
1921 un esempio della struttura di questa lista, contenente alcune delle variabili
1922 più comuni che normalmente sono definite dal sistema, è riportato in
1923 fig.~\ref{fig:proc_envirno_list}.
1924 \begin{figure}[htb]
1925   \centering
1926 %  \includegraphics[width=15 cm]{img/environ_var}
1927   \begin{tikzpicture}[>=stealth]
1928   \draw (2,3.5) node {\textsf{Environment pointer}};
1929   \draw (6,3.5) node {\textsf{Environment list}};
1930   \draw (10.5,3.5) node {\textsf{Environment string}};
1931   \draw (0.5,2.5) rectangle (3.5,3);
1932   \draw (2,2.75) node {\texttt{environ}};
1933   \draw [->] (3.5,2.75) -- (4.5,2.75);
1934   \draw (4.5,2.5) rectangle (7.5,3);
1935   \draw (6,2.75) node {\texttt{environ[0]}};
1936   \draw (4.5,2) rectangle (7.5,2.5);
1937   \draw (6,2.25) node {\texttt{environ[1]}};
1938   \draw (4.5,1.5) rectangle (7.5,2);
1939   \draw (4.5,1) rectangle (7.5,1.5);
1940   \draw (4.5,0.5) rectangle (7.5,1);
1941   \draw (4.5,0) rectangle (7.5,0.5);
1942   \draw (6,0.25) node {\texttt{NULL}};
1943   \draw [->] (7.5,2.75) -- (8.5,2.75);
1944   \draw (8.5,2.75) node[right] {\texttt{HOME=/home/piccardi}};
1945   \draw [->] (7.5,2.25) -- (8.5,2.25);
1946   \draw (8.5,2.25) node[right] {\texttt{PATH=:/bin:/usr/bin}};
1947   \draw [->] (7.5,1.75) -- (8.5,1.75);
1948   \draw (8.5,1.75) node[right] {\texttt{SHELL=/bin/bash}};
1949   \draw [->] (7.5,1.25) -- (8.5,1.25);
1950   \draw (8.5,1.25) node[right] {\texttt{EDITOR=emacs}};
1951   \draw [->] (7.5,0.75) -- (8.5,0.75);
1952   \draw (8.5,0.75) node[right] {\texttt{OSTYPE=linux-gnu}};
1953   \end{tikzpicture}
1954   \caption{Esempio di lista delle variabili di ambiente.}
1955   \label{fig:proc_envirno_list}
1956 \end{figure}
1957
1958 Per convenzione le stringhe che definiscono l'ambiente sono tutte del tipo
1959 \textsl{\texttt{NOME=valore}} ed in questa forma che le funzioni di gestione
1960 che vedremo a breve se le aspettano, se pertanto si dovesse costruire
1961 manualmente un ambiente si abbia cura di rispettare questa convenzione.
1962 Inoltre alcune variabili, come quelle elencate in
1963 fig.~\ref{fig:proc_envirno_list}, sono definite dal sistema per essere usate
1964 da diversi programmi e funzioni: per queste c'è l'ulteriore convenzione di
1965 usare nomi espressi in caratteri maiuscoli.\footnote{ma si tratta solo di una
1966   convenzione, niente vieta di usare caratteri minuscoli, come avviene in vari
1967   casi.}
1968
1969 Il kernel non usa mai queste variabili, il loro uso e la loro interpretazione è
1970 riservata alle applicazioni e ad alcune funzioni di libreria; in genere esse
1971 costituiscono un modo comodo per definire un comportamento specifico senza
1972 dover ricorrere all'uso di opzioni a linea di comando o di file di
1973 configurazione. É di norma cura della shell, quando esegue un comando, passare
1974 queste variabili al programma messo in esecuzione attraverso un uso opportuno
1975 delle relative chiamate (si veda sez.~\ref{sec:proc_exec}).
1976
1977 La shell ad esempio ne usa molte per il suo funzionamento, come \envvar{PATH}
1978 per indicare la lista delle directory in cui effettuare la ricerca dei comandi
1979 o \envvar{PS1} per impostare il proprio \textit{prompt}. Alcune di esse, come
1980 \envvar{HOME}, \envvar{USER}, ecc. sono invece definite al login (per i
1981 dettagli si veda sez.~\ref{sec:sess_login}), ed in genere è cura della propria
1982 distribuzione definire le opportune variabili di ambiente in uno script di
1983 avvio. Alcune servono poi come riferimento generico per molti programmi, come
1984 \envvar{EDITOR} che indica l'editor preferito da invocare in caso di
1985 necessità. Una in particolare, \envvar{LANG}, serve a controllare la
1986 localizzazione del programma 
1987 %(su cui torneremo in sez.~\ref{sec:proc_localization}) 
1988 per adattarlo alla lingua ed alle convezioni
1989 dei vari paesi.
1990
1991 Gli standard POSIX e XPG3 definiscono alcune di queste variabili (le più
1992 comuni), come riportato in tab.~\ref{tab:proc_env_var}. GNU/Linux le supporta
1993 tutte e ne definisce anche altre, in particolare poi alcune funzioni di
1994 libreria prevedono la presenza di specifiche variabili di ambiente che ne
1995 modificano il comportamento, come quelle usate per indicare una localizzazione
1996 e quelle per indicare un fuso orario; una lista più completa che comprende
1997 queste ed ulteriori variabili si può ottenere con il comando \cmd{man 7
1998   environ}.
1999
2000 \begin{table}[htb]
2001   \centering
2002   \footnotesize
2003   \begin{tabular}[c]{|l|c|c|c|l|}
2004     \hline
2005     \textbf{Variabile} & \textbf{POSIX} & \textbf{XPG3} 
2006     & \textbf{Linux} & \textbf{Descrizione} \\
2007     \hline
2008     \hline
2009     \texttt{USER}   &$\bullet$&$\bullet$&$\bullet$& Nome utente.\\
2010     \texttt{LOGNAME}&$\bullet$&$\bullet$&$\bullet$& Nome di login.\\
2011     \texttt{HOME}   &$\bullet$&$\bullet$&$\bullet$& Directory base
2012                                                     dell'utente.\\
2013     \texttt{LANG}   &$\bullet$&$\bullet$&$\bullet$& Localizzazione.\\
2014     \texttt{PATH}   &$\bullet$&$\bullet$&$\bullet$& Elenco delle directory
2015                                                     dei programmi.\\
2016     \texttt{PWD}    &$\bullet$&$\bullet$&$\bullet$& Directory corrente.\\
2017     \texttt{SHELL}  &$\bullet$&$\bullet$&$\bullet$& Shell in uso.\\
2018     \texttt{TERM}   &$\bullet$&$\bullet$&$\bullet$& Tipo di terminale.\\
2019     \texttt{PAGER}  &$\bullet$&$\bullet$&$\bullet$& Programma per vedere i
2020                                                     testi.\\
2021     \texttt{EDITOR} &$\bullet$&$\bullet$&$\bullet$& Editor preferito.\\
2022     \texttt{BROWSER}&$\bullet$&$\bullet$&$\bullet$& Browser preferito.\\
2023     \texttt{TMPDIR} &$\bullet$&$\bullet$&$\bullet$& Directory dei file
2024                                                     temporanei.\\
2025     \hline
2026   \end{tabular}
2027   \caption{Esempi delle variabili di ambiente più comuni definite da vari
2028     standard.} 
2029   \label{tab:proc_env_var}
2030 \end{table}
2031
2032 Lo standard ANSI C prevede l'esistenza di un ambiente, e pur non entrando
2033 nelle specifiche di come sono strutturati i contenuti, definisce la funzione
2034 \funcd{getenv} che permette di ottenere i valori delle variabili di ambiente;
2035 il suo prototipo è:
2036
2037 \begin{funcproto}{ 
2038 \fhead{stdlib.h}
2039 \fdecl{char *getenv(const char *name)}
2040 \fdesc{Cerca una variabile di ambiente del processo.} 
2041 }
2042 {La funzione ritorna il puntatore alla stringa contenente il valore della
2043   variabile di ambiente in caso di successo e \val{NULL} per un errore.} 
2044 \end{funcproto}
2045
2046 La funzione effettua una ricerca nell'ambiente del processo cercando una
2047 variabile il cui nome corrisponda a quanto indicato con
2048 l'argomento \param{name}, ed in caso di successo ritorna il puntatore alla
2049 stringa che ne contiene il valore, nella forma ``\texttt{NOME=valore}''.
2050
2051 \begin{table}[htb]
2052   \centering
2053   \footnotesize
2054   \begin{tabular}[c]{|l|c|c|c|c|c|c|}
2055     \hline
2056     \textbf{Funzione} & \textbf{ANSI C} & \textbf{POSIX.1} & \textbf{XPG3} & 
2057     \textbf{SVr4} & \textbf{BSD} & \textbf{Linux} \\
2058     \hline
2059     \hline
2060     \func{getenv}  & $\bullet$ & $\bullet$ & $\bullet$ 
2061                    & $\bullet$ & $\bullet$ & $\bullet$ \\
2062     \func{setenv}  &    --     &    --     &   --      
2063                    &    --     & $\bullet$ & $\bullet$ \\
2064     \func{unsetenv}&    --     &    --     &   --       
2065                    &    --     & $\bullet$ & $\bullet$ \\
2066     \func{putenv}  &    --     & opz.      & $\bullet$ 
2067                    &    --     & $\bullet$ & $\bullet$ \\
2068     \func{clearenv}&    --     & opz.      &   --
2069                    &    --     &    --     & $\bullet$ \\
2070     \hline
2071   \end{tabular}
2072   \caption{Funzioni per la gestione delle variabili di ambiente.}
2073   \label{tab:proc_env_func}
2074 \end{table}
2075
2076 Oltre a questa funzione di lettura, che è l'unica definita dallo standard ANSI
2077 C, nell'evoluzione dei sistemi Unix ne sono state proposte altre, da
2078 utilizzare per impostare, modificare e per cancellare le variabili di
2079 ambiente. Uno schema delle funzioni previste nei vari standard e disponibili
2080 in Linux è riportato in tab.~\ref{tab:proc_env_func}. Tutte le funzioni sono
2081 state comunque inserite nello standard POSIX.1-2001, ad eccetto di
2082 \func{clearenv} che è stata rigettata.
2083
2084 In Linux sono definite tutte le funzioni elencate in
2085 tab.~\ref{tab:proc_env_func},\footnote{in realtà nelle libc4 e libc5 sono
2086   definite solo le prime quattro, \func{clearenv} è stata introdotta con la
2087   \acr{glibc} 2.0.} anche se parte delle funzionalità sono ridondanti. La
2088 prima funzione di manipolazione che prenderemo in considerazione è
2089 \funcd{putenv}, che consente di aggiungere, modificare e cancellare una
2090 variabile di ambiente; il suo prototipo è:
2091
2092 \begin{funcproto}{ 
2093 \fdecl{int putenv(char *string)}
2094 \fdesc{Inserisce, modifica o rimuove una variabile d'ambiente.} 
2095 }
2096 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore, che può
2097   essere solo \errval{ENOMEM}.}
2098 \end{funcproto}
2099
2100 La funzione prende come argomento una stringa analoga a quella restituita da
2101 \func{getenv} e sempre nella forma ``\texttt{NOME=valore}''. Se la variabile
2102 specificata (nel caso \texttt{NOME}) non esiste la stringa sarà aggiunta
2103 all'ambiente, se invece esiste il suo valore sarà impostato a quello
2104 specificato dal contenuto di \param{string} (nel caso \texttt{valore}).  Se
2105 invece si passa come argomento solo il nome di una variabile di ambiente
2106 (cioè \param{string} è nella forma ``\texttt{NOME}'' e non contiene il
2107 carattere ``\texttt{=}'') allora questa, se presente nell'ambiente, verrà
2108 cancellata.
2109
2110 Si tenga presente che, seguendo lo standard SUSv2, le \acr{glibc} successive
2111 alla versione 2.1.2 aggiungono direttamente \param{string} nella lista delle
2112 variabili di ambiente illustrata in fig.~\ref{fig:proc_envirno_list}
2113 sostituendo il relativo puntatore;\footnote{il comportamento è lo stesso delle
2114   vecchie \acr{libc4} e \acr{libc5}; nella \acr{glibc}, dalla versione 2.0
2115   alla 2.1.1, veniva invece fatta una copia, seguendo il comportamento di
2116   BSD4.4; dato che questo può dar luogo a perdite di memoria e non rispetta lo
2117   standard il comportamento è stato modificato a partire dalle 2.1.2,
2118   eliminando anche, sempre in conformità a SUSv2, l'attributo \direct{const}
2119   dal prototipo.}  pertanto ogni cambiamento alla stringa in questione si
2120 riflette automaticamente sull'ambiente, e quindi si deve evitare di passare a
2121 questa funzione una variabile automatica (per evitare i problemi esposti in
2122 sez.~\ref{sec:proc_var_passing}). Benché non sia richiesto dallo standard
2123 nelle versioni della \acr{glibc} a partire dalla 2.1 la funzione è rientrante
2124 (vedi sez.~\ref{sec:proc_reentrant}).
2125
2126 Infine quando una chiamata a \func{putenv} comporta la necessità di creare una
2127 nuova versione del vettore \var{environ} questo sarà allocato automaticamente,
2128 ma la versione corrente sarà deallocata solo se anch'essa è risultante da
2129 un'allocazione fatta in precedenza da un'altra \func{putenv}. Questo avviene
2130 perché il vettore delle variabili di ambiente iniziale, creato dalla chiamata
2131 ad \func{exec} (vedi sez.~\ref{sec:proc_exec}) è piazzato nella memoria al di
2132 sopra dello \textit{stack}, (vedi fig.~\ref{fig:proc_mem_layout}) e non nello
2133 \textit{heap} e quindi non può essere deallocato.  Inoltre la memoria
2134 associata alle variabili di ambiente eliminate non viene liberata.
2135
2136 Come alternativa a \func{putenv} si può usare la funzione \funcd{setenv} che
2137 però consente solo di aggiungere o modificare una variabile di ambiente; il
2138 suo prototipo è:
2139
2140 \begin{funcproto}{ 
2141 \fhead{stdlib.h}
2142 \fdecl{int setenv(const char *name, const char *value, int overwrite)}
2143 \fdesc{Inserisce o modifica una variabile di ambiente.} 
2144 }
2145 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore,
2146   nel qual caso \var{errno} assumerà uno dei valori:
2147   \begin{errlist}
2148   \item[\errcode{EINVAL}] \param{name} è \val{NULL} o una stringa di lunghezza
2149   nulla o che contiene il carattere ``\texttt{=}''.
2150   \item[\errcode{ENOMEM}] non c'è memoria sufficiente per aggiungere una nuova
2151     variabile all'ambiente.
2152 \end{errlist}}
2153 \end{funcproto}
2154
2155 La funzione consente di specificare separatamente nome e valore della
2156 variabile di ambiente da aggiungere negli argomenti \param{name}
2157 e \param{value}. Se la variabile è già presente nell'ambiente
2158 l'argomento \param{overwrite} specifica il comportamento della funzione, se
2159 diverso da zero sarà sovrascritta, se uguale a zero sarà lasciata immutata.  A
2160 differenza di \func{putenv} la funzione esegue delle copie del contenuto degli
2161 argomenti \param{name} e \param{value} e non è necessario preoccuparsi di
2162 allocarli in maniera permanente.
2163
2164 La cancellazione di una variabile di ambiente viene invece gestita
2165 esplicitamente con \funcd{unsetenv}, il cui prototipo è:
2166
2167 \begin{funcproto}{ 
2168 \fhead{stdlib.h}
2169 \fdecl{int unsetenv(const char *name)}
2170 \fdesc{Rimuove una variabile di ambiente.} 
2171 }
2172 {La funzione ritorna $0$ in caso di successo e $-1$ per un errore,
2173   nel qual caso \var{errno} assumerà uno dei valori:
2174   \begin{errlist}
2175   \item[\errcode{EINVAL}] \param{name} è \val{NULL} o una stringa di lunghezza
2176   nulla o che contiene il carattere ``\texttt{=}''.
2177 \end{errlist}}
2178 \end{funcproto}
2179
2180 La funzione richiede soltanto il nome della variabile di ambiente
2181 nell'argomento \param{name}, se la variabile non esiste la funzione ritorna
2182 comunque con un valore di successo.\footnote{questo con le versioni della
2183   \acr{glibc} successive la 2.2.2, per le precedenti \func{unsetenv} era
2184   definita come \texttt{void} e non restituiva nessuna informazione.}
2185
2186 L'ultima funzione per la gestione dell'ambiente è
2187 \funcd{clearenv},\footnote{che come accennato è l'unica non presente nello
2188   standard POSIX.1-2000, ed è disponibili solo per versioni della \acr{glibc}
2189   a partire dalla 2.0; per poterla utilizzare occorre aver definito le macro
2190   \macro{\_SVID\_SOURCE} e \macro{\_XOPEN\_SOURCE}.} che viene usata per
2191 cancellare completamente tutto l'ambiente; il suo prototipo è:
2192
2193 \begin{funcproto}{ 
2194 \fhead{stdlib.h}
2195 \fdecl{int clearenv(void)}
2196 \fdesc{Cancella tutto l'ambiente.} 
2197 }
2198 {La funzione ritorna $0$ in caso di successo e un valore diverso da zero per
2199   un errore.}
2200 \end{funcproto}
2201
2202 In genere si usa questa funzione in maniera precauzionale per evitare i
2203 problemi di sicurezza connessi nel trasmettere ai programmi che si invocano un
2204 ambiente che può contenere dei dati non controllati, le cui variabili possono
2205 causare effetti indesiderati. Con l'uso della funzione si provvede alla
2206 cancellazione di tutto l'ambiente originale in modo da poterne costruirne una
2207 versione ``\textsl{sicura}'' da zero.
2208
2209 \index{variabili!di~ambiente|)}
2210
2211
2212 % \subsection{La localizzazione}
2213 % \label{sec:proc_localization}
2214
2215 % Abbiamo accennato in sez.~\ref{sec:proc_environ} come la variabile di ambiente
2216 % \envvar{LANG} sia usata per indicare ai processi il valore della cosiddetta
2217 % \textsl{localizzazione}. Si tratta di una funzionalità fornita dalle librerie
2218 % di sistema\footnote{prenderemo in esame soltanto il caso della \acr{glibc}.}
2219 % che consente di gestire in maniera automatica sia la lingua in cui vengono
2220 % stampati i vari messaggi (come i messaggi associati agli errori che vedremo in
2221 % sez.~\ref{sec:sys_strerror}) che le convenzioni usate nei vari paesi per una
2222 % serie di aspetti come il formato dell'ora, quello delle date, gli ordinamenti
2223 % alfabetici, le espressioni della valute, ecc.
2224
2225 % Da finire.
2226
2227 % La localizzazione di un programma si può selezionare con la 
2228
2229 % In realtà perché un programma sia effettivamente localizzato non è sufficiente 
2230
2231 % TODO trattare, quando ci sarà tempo, setlocale ed il resto
2232
2233
2234 %\subsection{Opzioni in formato esteso}
2235 %\label{sec:proc_opt_extended}
2236
2237 %Oltre alla modalità ordinaria di gestione delle opzioni trattata in
2238 %sez.~\ref{sec:proc_opt_handling} le \acr{glibc} forniscono una modalità
2239 %alternativa costituita dalle cosiddette \textit{long-options}, che consente di
2240 %esprimere le opzioni in una forma più descrittiva che nel caso più generale è
2241 %qualcosa del tipo di ``\texttt{-{}-option-name=parameter}''.
2242
2243 %(NdA: questa parte verrà inserita in seguito).
2244
2245 % TODO opzioni in formato esteso
2246
2247 % TODO trattare il vettore ausiliario e getauxval (vedi
2248 % http://lwn.net/Articles/519085/)
2249
2250
2251 \section{Problematiche di programmazione generica}
2252 \label{sec:proc_gen_prog}
2253
2254 Benché questo non sia un libro sul linguaggio C, è opportuno affrontare alcune
2255 delle problematiche generali che possono emergere nella programmazione con
2256 questo linguaggio e di quali precauzioni o accorgimenti occorre prendere per
2257 risolverle. Queste problematiche non sono specifiche di sistemi unix-like o
2258 multitasking, ma avendo trattato in questo capitolo il comportamento dei
2259 processi visti come entità a sé stanti, le riportiamo qui.
2260
2261
2262 \subsection{Il passaggio di variabili e valori di ritorno nelle funzioni}
2263 \label{sec:proc_var_passing}
2264
2265 Una delle caratteristiche standard del C è che le variabili vengono passate
2266 alle funzioni che si invocano in un programma attraverso un meccanismo che
2267 viene chiamato \textit{by value}, diverso ad esempio da quanto avviene con il
2268 Fortran, dove le variabili sono passate, come suol dirsi, \textit{by
2269   reference}, o dal C++ dove la modalità del passaggio può essere controllata
2270 con l'operatore \cmd{\&}.
2271
2272 Il passaggio di una variabile \textit{by value} significa che in realtà quello
2273 che viene passato alla funzione è una copia del valore attuale di quella
2274 variabile, copia che la funzione potrà modificare a piacere, senza che il
2275 valore originale nella funzione chiamante venga toccato. In questo modo non
2276 occorre preoccuparsi di eventuali effetti delle operazioni svolte nella
2277 funzione stessa sulla variabile passata come argomento.
2278
2279 Questo però va inteso nella maniera corretta. Il passaggio \textit{by value}
2280 vale per qualunque variabile, puntatori compresi; quando però in una funzione
2281 si usano dei puntatori (ad esempio per scrivere in un buffer) in realtà si va
2282 a modificare la zona di memoria a cui essi puntano, per cui anche se i
2283 puntatori sono copie, i dati a cui essi puntano saranno sempre gli stessi, e
2284 le eventuali modifiche avranno effetto e saranno visibili anche nella funzione
2285 chiamante.
2286
2287 Nella maggior parte delle funzioni di libreria e delle \textit{system call} i
2288 puntatori vengono usati per scambiare dati (attraverso i buffer o le strutture
2289 a cui fanno riferimento) e le variabili normali vengono usate per specificare
2290 argomenti; in genere le informazioni a riguardo dei risultati vengono passate
2291 alla funzione chiamante attraverso il valore di ritorno.  È buona norma
2292 seguire questa pratica anche nella programmazione normale.
2293
2294 \itindbeg{value~result~argument}
2295
2296 Talvolta però è necessario che la funzione possa restituire indietro alla
2297 funzione chiamante un valore relativo ad uno dei suoi argomenti usato anche in
2298 ingresso.  Per far questo si usa il cosiddetto \textit{value result argument},
2299 si passa cioè, invece di una normale variabile, un puntatore alla stessa. Gli
2300 esempi di questa modalità di passaggio sono moltissimi, ad esempio essa viene
2301 usata nelle funzioni che gestiscono i socket (in
2302 sez.~\ref{sec:TCP_functions}), in cui, per permettere al kernel di restituire
2303 informazioni sulle dimensioni delle strutture degli indirizzi utilizzate,
2304 viene usato proprio questo meccanismo.
2305
2306 Occorre tenere ben presente questa differenza, perché le variabili passate in
2307 maniera ordinaria, che vengono inserite nello \textit{stack}, cessano di
2308 esistere al ritorno di una funzione, ed ogni loro eventuale modifica
2309 all'interno della stessa sparisce con la conclusione della stessa, per poter
2310 passare delle informazioni occorre quindi usare un puntatore che faccia
2311 riferimento ad un indirizzo accessibile alla funzione chiamante.
2312
2313 \itindend{value~result~argument}
2314
2315 Questo requisito di accessibilità è fondamentale, infatti dei possibili
2316 problemi che si possono avere con il passaggio dei dati è quello di restituire
2317 alla funzione chiamante dei dati che sono contenuti in una variabile
2318 automatica.  Ovviamente quando la funzione ritorna la sezione dello
2319 \textit{stack} che conteneva la variabile automatica (si ricordi quanto detto
2320 in sez.~\ref{sec:proc_mem_alloc}) verrà liberata automaticamente e potrà
2321 essere riutilizzata all'invocazione di un'altra funzione, con le immaginabili
2322 conseguenze, quasi invariabilmente catastrofiche, di sovrapposizione e
2323 sovrascrittura dei dati.
2324
2325 Per questo una delle regole fondamentali della programmazione in C è che
2326 all'uscita di una funzione non deve restare nessun riferimento alle sue
2327 variabili locali. Qualora sia necessario utilizzare delle variabili che devono
2328 essere viste anche dalla funzione chiamante queste devono essere allocate
2329 esplicitamente, o in maniera statica usando variabili globali o dichiarate
2330 come \direct{extern},\footnote{la direttiva \direct{extern} informa il
2331   compilatore che la variabile che si è dichiarata in una funzione non è da
2332   considerarsi locale, ma globale, e per questo allocata staticamente e
2333   visibile da tutte le funzioni dello stesso programma.} o dinamicamente con
2334 una delle funzioni della famiglia \func{malloc}, passando opportunamente il
2335 relativo puntatore fra le funzioni.
2336
2337
2338 \subsection{Il passaggio di un numero variabile di argomenti}
2339 \label{sec:proc_variadic}
2340
2341 \index{funzioni!\textit{variadic}|(}
2342
2343 Come vedremo nei capitoli successivi, non sempre è possibile specificare un
2344 numero fisso di argomenti per una funzione.  Lo standard ISO C prevede nella
2345 sua sintassi la possibilità di definire delle \textit{variadic function} che
2346 abbiano un numero variabile di argomenti, attraverso l'uso nella dichiarazione
2347 della funzione dello speciale costrutto ``\texttt{...}'', che viene chiamato
2348 \textit{ellipsis}.
2349
2350 Lo standard però non provvede a livello di linguaggio alcun meccanismo con cui
2351 dette funzioni possono accedere ai loro argomenti.  L'accesso viene pertanto
2352 realizzato a livello della libreria standard del C che fornisce gli strumenti
2353 adeguati.  L'uso di una \textit{variadic function} prevede quindi tre punti:
2354 \begin{itemize*}
2355 \item \textsl{dichiarare} la funzione come \textit{variadic} usando un
2356   prototipo che contenga una \textit{ellipsis};
2357 \item \textsl{definire} la funzione come \textit{variadic} usando la stessa
2358   \textit{ellipsis}, ed utilizzare le apposite macro che consentono la
2359   gestione di un numero variabile di argomenti;
2360 \item \textsl{invocare} la funzione specificando prima gli argomenti fissi, ed
2361   a seguire quelli addizionali.
2362 \end{itemize*}
2363
2364 Lo standard ISO C prevede che una \textit{variadic function} abbia sempre
2365 almeno un argomento fisso. Prima di effettuare la dichiarazione deve essere
2366 incluso l'apposito \textit{header file} \headfile{stdarg.h}; un esempio di
2367 dichiarazione è il prototipo della funzione \func{execl} che vedremo in
2368 sez.~\ref{sec:proc_exec}:
2369 \includecodesnip{listati/exec_sample.c}
2370 in questo caso la funzione prende due argomenti fissi ed un numero variabile
2371 di altri argomenti, che andranno a costituire gli elementi successivi al primo
2372 del vettore \param{argv} passato al nuovo processo. Lo standard ISO C richiede
2373 inoltre che l'ultimo degli argomenti fissi sia di tipo
2374 \textit{self-promoting}\footnote{il linguaggio C prevede che quando si
2375   mescolano vari tipi di dati, alcuni di essi possano essere \textsl{promossi}
2376   per compatibilità; ad esempio i tipi \ctyp{float} vengono convertiti
2377   automaticamente a \ctyp{double} ed i \ctyp{char} e gli \ctyp{short} ad
2378   \ctyp{int}. Un tipo \textit{self-promoting} è un tipo che verrebbe promosso
2379   a sé stesso.} il che esclude vettori, puntatori a funzioni e interi di tipo
2380 \ctyp{char} o \ctyp{short} (con segno o meno). Una restrizione ulteriore di
2381 alcuni compilatori è di non dichiarare l'ultimo argomento fisso come variabile
2382 di tipo \direct{register}.\footnote{la direttiva \direct{register} del
2383   compilatore chiede che la variabile dichiarata tale sia mantenuta, nei
2384   limiti del possibile, all'interno di un registro del processore; questa
2385   direttiva è originaria dell'epoca dai primi compilatori, quando stava al
2386   programmatore scrivere codice ottimizzato, riservando esplicitamente alle
2387   variabili più usate l'uso dei registri del processore, oggi questa direttiva
2388   è in disuso pressoché completo dato che tutti i compilatori sono normalmente
2389   in grado di valutare con maggior efficacia degli stessi programmatori quando
2390   sia il caso di eseguire questa ottimizzazione.}
2391
2392 Una volta dichiarata la funzione il secondo passo è accedere ai vari argomenti
2393 quando la si va a definire. Gli argomenti fissi infatti hanno un loro nome, ma
2394 quelli variabili vengono indicati in maniera generica dalla
2395 \textit{ellipsis}. L'unica modalità in cui essi possono essere recuperati è
2396 pertanto quella sequenziale, in cui vengono estratti dallo \textit{stack}
2397 secondo l'ordine in cui sono stati scritti nel prototipo della funzione.
2398
2399 \macrobeg{va\_start}
2400
2401 Per fare questo in \headfile{stdarg.h} sono definite delle macro specifiche,
2402 previste dallo standard ISO C89, che consentono di eseguire questa operazione.
2403 La prima di queste macro è \macro{va\_start}, che inizializza opportunamente
2404 una lista degli argomenti, la sua definizione è:
2405
2406 {\centering
2407 \begin{funcbox}{ 
2408 \fhead{stdarg.h}
2409 \fdecl{void va\_start(va\_list ap, last)}
2410 \fdesc{Inizializza una lista degli argomenti di una funzione
2411   \textit{variadic}.} 
2412 }
2413 \end{funcbox}}
2414
2415 La macro inizializza il puntatore alla lista di argomenti \param{ap} che deve
2416 essere una apposita variabile di tipo \type{va\_list}; il
2417 parametro \param{last} deve indicare il nome dell'ultimo degli argomenti fissi
2418 dichiarati nel prototipo della funzione \textit{variadic}.
2419
2420 \macrobeg{va\_arg}
2421
2422 La seconda macro di gestione delle liste di argomenti di una funzione
2423 \textit{variadic} è \macro{va\_arg}, che restituisce in successione un
2424 argomento della lista; la sua definizione è:
2425
2426 {\centering
2427 \begin{funcbox}{ 
2428 \fhead{stdarg.h}
2429 \fdecl{type va\_arg(va\_list ap, type)}
2430 \fdesc{Restituisce il valore del successivo argomento opzionale.} 
2431 }
2432 \end{funcbox}}
2433  
2434 La macro restituisce il valore di un argomento, modificando opportunamente la
2435 lista \param{ap} perché una chiamata successiva restituisca l'argomento
2436 seguente. La macro richiede che si specifichi il tipo dell'argomento che si
2437 andrà ad estrarre attraverso il parametro \param{type} che sarà anche il tipo
2438 del valore da essa restituito. Si ricordi che il tipo deve essere
2439 \textit{self-promoting}.
2440
2441 In generale è perfettamente legittimo richiedere meno argomenti di quelli che
2442 potrebbero essere stati effettivamente forniti, per cui nella esecuzione delle
2443 \macro{va\_arg} ci si può fermare in qualunque momento ed i restanti argomenti
2444 saranno ignorati. Se invece si richiedono più argomenti di quelli
2445 effettivamente forniti si otterranno dei valori indefiniti. Si avranno
2446 risultati indefiniti anche quando si chiama \macro{va\_arg} specificando un
2447 tipo che non corrisponde a quello usato per il corrispondente argomento.
2448
2449 \macrobeg{va\_end}
2450
2451 Infine una volta completata l'estrazione occorre indicare che si sono concluse
2452 le operazioni con la macro \macrod{va\_end}, la cui definizione è:
2453
2454 {\centering
2455 \begin{funcbox}{ 
2456 \fhead{stdarg.h}
2457 \fdecl{void va\_end(va\_list ap)}
2458 \fdesc{Conclude l'estrazione degli argomenti di una funzione
2459   \textit{variadic}.} 
2460 }
2461 \end{funcbox}}
2462  
2463 Dopo l'uso di \macro{va\_end} la variabile \param{ap} diventa indefinita e
2464 successive chiamate a \macro{va\_arg} non funzioneranno.  Nel caso del
2465 \cmd{gcc} l'uso di \macro{va\_end} può risultare inutile, ma è comunque
2466 necessario usarla per chiarezza del codice, per compatibilità con diverse
2467 implementazioni e per eventuali eventuali modifiche future a questo
2468 comportamento.
2469
2470 Riassumendo la procedura da seguire per effettuare l'estrazione degli
2471 argomenti di una funzione \textit{variadic} è la seguente:
2472 \begin{enumerate*}
2473 \item inizializzare una lista degli argomenti attraverso la macro
2474   \macro{va\_start};
2475 \item accedere agli argomenti con chiamate successive alla macro
2476   \macro{va\_arg}: la prima chiamata restituirà il primo argomento, la seconda
2477   il secondo e così via;
2478 \item dichiarare la conclusione dell'estrazione degli argomenti invocando la
2479   macro \macro{va\_end}.
2480 \end{enumerate*}
2481
2482 Si tenga presente che si possono usare anche più liste degli argomenti,
2483 ciascuna di esse andrà inizializzata con \macro{va\_start} e letta con
2484 \macro{va\_arg}, e ciascuna potrà essere usata per scandire la lista degli
2485 argomenti in modo indipendente. Infine ciascuna scansione dovrà essere
2486 terminata con \macro{va\_end}.
2487
2488 Un limite di queste macro è che i passi 1) e 3) devono essere eseguiti nel
2489 corpo principale della funzione, il passo 2) invece può essere eseguito anche
2490 in un'altra funzione, passandole lista degli argomenti \param{ap}. In questo
2491 caso però al ritorno della funzione \macro{va\_arg} non può più essere usata
2492 (anche se non si era completata l'estrazione) dato che il valore di \param{ap}
2493 risulterebbe indefinito.
2494
2495 \macroend{va\_start}
2496 \macroend{va\_arg}
2497 \macroend{va\_end}
2498
2499 Esistono dei casi in cui è necessario eseguire più volte la scansione degli
2500 argomenti e poter memorizzare una posizione durante la stessa. In questo caso
2501 sembrerebbe naturale copiarsi la lista degli argomenti \param{ap} con una
2502 semplice assegnazione ad un'altra variabile dello stesso tipo. Dato che una
2503 delle realizzazioni più comuni di \type{va\_list} è quella di un puntatore
2504 nello \textit{stack} all'indirizzo dove sono stati salvati gli argomenti, è
2505 assolutamente normale pensare di poter effettuare questa operazione.
2506
2507 \index{tipo!opaco|(}
2508
2509 In generale però possono esistere anche realizzazioni diverse, ed è per questo
2510 motivo che invece che un semplice puntatore, \typed{va\_list} è quello che
2511 viene chiamato un \textsl{tipo opaco}. Si chiamano così quei tipi di dati, in
2512 genere usati da una libreria, la cui struttura interna non deve essere vista
2513 dal programma chiamante (da cui deriva il nome opaco) che li devono utilizzare
2514 solo attraverso dalle opportune funzioni di gestione.
2515
2516 \index{tipo!opaco|)}
2517
2518 Per questo motivo una variabile di tipo \typed{va\_list} non può essere
2519 assegnata direttamente ad un'altra variabile dello stesso tipo, ma lo standard
2520 ISO C99\footnote{alcuni sistemi che non hanno questa macro provvedono al suo
2521   posto \macrod{\_\_va\_copy} che era il nome proposto in una bozza dello
2522   standard.}  ha previsto una macro ulteriore che permette di eseguire la
2523 copia di una lista degli argomenti:
2524
2525 {\centering
2526 \begin{funcbox}{ 
2527 \fhead{stdarg.h}
2528 \fdecl{void va\_copy(va\_list dest, va\_list src)}
2529 \fdesc{Copia la lista degli argomenti di una funzione \textit{variadic}.} 
2530 }
2531 \end{funcbox}}
2532
2533 La macro copia l'attuale della lista degli argomenti \param{src} su una nuova
2534 lista \param{dest}. Anche in questo caso è buona norma chiudere ogni
2535 esecuzione di una \macrod{va\_copy} con una corrispondente \macro{va\_end} sul
2536 nuovo puntatore alla lista degli argomenti.
2537
2538 La chiamata di una funzione con un numero variabile di argomenti, posto che la
2539 si sia dichiarata e definita come tale, non prevede nulla di particolare;
2540 l'invocazione è identica alle altre, con gli argomenti, sia quelli fissi che
2541 quelli opzionali, separati da virgole. Quello che però è necessario tenere
2542 presente è come verranno convertiti gli argomenti variabili.
2543
2544 In Linux gli argomenti dello stesso tipo sono passati allo stesso modo, sia
2545 che siano fissi sia che siano opzionali (alcuni sistemi trattano diversamente
2546 gli opzionali), ma dato che il prototipo non può specificare il tipo degli
2547 argomenti opzionali, questi verranno sempre promossi, pertanto nella ricezione
2548 dei medesimi occorrerà tenerne conto (ad esempio un \ctyp{char} verrà visto da
2549 \macro{va\_arg} come \ctyp{int}).
2550
2551 Un altro dei problemi che si devono affrontare con le funzioni con un numero
2552 variabile di argomenti è che non esiste un modo generico che permetta di
2553 stabilire quanti sono gli argomenti effettivamente passati in una chiamata.
2554
2555 Esistono varie modalità per affrontare questo problema; una delle più
2556 immediate è quella di specificare il numero degli argomenti opzionali come uno
2557 degli argomenti fissi. Una variazione di questo metodo è l'uso di un argomento
2558 fisso per specificare anche il tipo degli argomenti variabili, come fa la
2559 stringa di formato per \func{printf} (vedi sez.~\ref{sec:file_formatted_io}).
2560
2561 Infine una ulteriore modalità diversa, che può essere applicata solo quando il
2562 tipo degli argomenti lo rende possibile, è quella che prevede di usare un
2563 valore speciale per l'ultimo argomento, come fa ad esempio \func{execl} che
2564 usa un puntatore \val{NULL} per indicare la fine della lista degli argomenti
2565 (vedi sez.~\ref{sec:proc_exec}).
2566
2567 \index{funzioni!\textit{variadic}|)}
2568
2569 \subsection{Il controllo di flusso non locale}
2570 \label{sec:proc_longjmp}
2571
2572 Il controllo del flusso di un programma in genere viene effettuato con le
2573 varie istruzioni del linguaggio C; fra queste la più bistrattata è il
2574 \instruction{goto}, che viene deprecato in favore dei costrutti della
2575 programmazione strutturata, che rendono il codice più leggibile e
2576 mantenibile. Esiste però un caso in cui l'uso di questa istruzione porta
2577 all'implementazione più efficiente e più chiara anche dal punto di vista della
2578 struttura del programma: quello dell'uscita in caso di errore.
2579
2580 \index{salto~non-locale|(} 
2581
2582 Il C però non consente di effettuare un salto ad una etichetta definita in
2583 un'altra funzione, per cui se l'errore avviene in una funzione, e la sua
2584 gestione ordinaria è in un'altra, occorre usare quello che viene chiamato un
2585 \textsl{salto non-locale}.  Il caso classico in cui si ha questa necessità,
2586 citato sia in \cite{APUE} che in \cite{GlibcMan}, è quello di un programma nel
2587 cui corpo principale vengono letti dei dati in ingresso sui quali viene
2588 eseguita, tramite una serie di funzioni di analisi, una scansione dei
2589 contenuti, da cui si ottengono le indicazioni per l'esecuzione di opportune
2590 operazioni.
2591
2592 Dato che l'analisi può risultare molto complessa, ed opportunamente suddivisa
2593 in fasi diverse, la rilevazione di un errore nei dati in ingresso può accadere
2594 all'interno di funzioni profondamente annidate l'una nell'altra. In questo
2595 caso si dovrebbe gestire, per ciascuna fase, tutta la casistica del passaggio
2596 all'indietro di tutti gli errori rilevabili dalle funzioni usate nelle fasi
2597 successive.  Questo comporterebbe una notevole complessità, mentre sarebbe
2598 molto più comodo poter tornare direttamente al ciclo di lettura principale,
2599 scartando l'input come errato.\footnote{a meno che, come precisa
2600   \cite{GlibcMan}, alla chiusura di ciascuna fase non siano associate
2601   operazioni di pulizia specifiche (come deallocazioni, chiusure di file,
2602   ecc.), che non potrebbero essere eseguite con un salto non-locale.}
2603
2604 Tutto ciò può essere realizzato proprio con un salto non-locale; questo di
2605 norma viene realizzato salvando il contesto dello \textit{stack} nel punto in
2606 cui si vuole tornare in caso di errore, e ripristinandolo, in modo da tornare
2607 quando serve nella funzione da cui si era partiti.  La funzione che permette
2608 di salvare il contesto dello \textit{stack} è \funcd{setjmp}, il cui prototipo
2609 è:
2610
2611 \begin{funcproto}{ 
2612 \fhead{setjmp.h}
2613 \fdecl{int setjmp(jmp\_buf env)}
2614 \fdesc{Salva il contesto dello \textit{stack}.} 
2615 }
2616 {La funzione ritorna $0$ quando è chiamata direttamente ed un valore diverso
2617   da zero quando ritorna da una chiamata di \func{longjmp} che usa il contesto
2618   salvato in precedenza.}
2619 \end{funcproto}
2620   
2621 Quando si esegue la funzione il contesto corrente dello \textit{stack} viene
2622 salvato nell'argomento \param{env}, una variabile di tipo
2623 \typed{jmp\_buf}\footnote{anche questo è un classico esempio di variabile di
2624   \textsl{tipo opaco}.}  che deve essere stata definita in precedenza. In
2625 genere le variabili di tipo \type{jmp\_buf} vengono definite come variabili
2626 globali in modo da poter essere viste in tutte le funzioni del programma.
2627
2628 Quando viene eseguita direttamente la funzione ritorna sempre zero, un valore
2629 diverso da zero viene restituito solo quando il ritorno è dovuto ad una
2630 chiamata di \func{longjmp} in un'altra parte del programma che ripristina lo
2631 \textit{stack} effettuando il salto non-locale. Si tenga conto che il contesto
2632 salvato in \param{env} viene invalidato se la funzione che ha chiamato
2633 \func{setjmp} ritorna, nel qual caso un successivo uso di \func{longjmp} può
2634 comportare conseguenze imprevedibili (e di norma fatali) per il processo.
2635   
2636 Come accennato per effettuare un salto non-locale ad un punto precedentemente
2637 stabilito con \func{setjmp} si usa la funzione \funcd{longjmp}; il suo
2638 prototipo è:
2639
2640 \begin{funcproto}{ 
2641 \fhead{setjmp.h}
2642 \fdecl{void longjmp(jmp\_buf env, int val)}
2643 \fdesc{Ripristina il contesto dello stack.} 
2644 }
2645 {La funzione non ritorna.}   
2646 \end{funcproto}
2647
2648 La funzione ripristina il contesto dello \textit{stack} salvato da una
2649 chiamata a \func{setjmp} nell'argomento \param{env}. Dopo l'esecuzione della
2650 funzione il programma prosegue nel codice successivo alla chiamata della
2651 \func{setjmp} con cui si era salvato \param{env}, che restituirà il valore
2652 dell'argomento \param{val} invece di zero.  Il valore
2653 dell'argomento \param{val} deve essere sempre diverso da zero, se si è
2654 specificato 0 sarà comunque restituito 1 al suo posto.
2655
2656 In sostanza l'esecuzione di \func{longjmp} è analoga a quella di una
2657 istruzione \instr{return}, solo che invece di ritornare alla riga
2658 successiva della funzione chiamante, il programma in questo caso ritorna alla
2659 posizione della relativa \func{setjmp}. L'altra differenza fondamentale con
2660 \instr{return} è che il ritorno può essere effettuato anche attraverso
2661 diversi livelli di funzioni annidate.
2662
2663 L'implementazione di queste funzioni comporta alcune restrizioni dato che esse
2664 interagiscono direttamente con la gestione dello \textit{stack} ed il
2665 funzionamento del compilatore stesso. In particolare \func{setjmp} è
2666 implementata con una macro, pertanto non si può cercare di ottenerne
2667 l'indirizzo, ed inoltre le chiamate a questa funzione sono sicure solo in uno
2668 dei seguenti casi:
2669 \begin{itemize*}
2670 \item come espressione di controllo in un comando condizionale, di selezione o
2671   di iterazione (come \instruction{if}, \instruction{switch} o
2672   \instruction{while});
2673 \item come operando per un operatore di uguaglianza o confronto in una
2674   espressione di controllo di un comando condizionale, di selezione o di
2675   iterazione;
2676 \item come operando per l'operatore di negazione (\code{!}) in una espressione
2677   di controllo di un comando condizionale, di selezione o di iterazione;
2678 \item come espressione a sé stante.
2679 \end{itemize*}
2680
2681 In generale, dato che l'unica differenza fra la chiamata diretta e quella
2682 ottenuta nell'uscita con un \func{longjmp} è costituita dal valore di ritorno
2683 di \func{setjmp}, pertanto quest'ultima viene usualmente chiamata all'interno
2684 di un una istruzione \instr{if} che permetta di distinguere i due casi.
2685
2686 Uno dei punti critici dei salti non-locali è quello del valore delle
2687 variabili, ed in particolare quello delle variabili automatiche della funzione
2688 a cui si ritorna. In generale le variabili globali e statiche mantengono i
2689 valori che avevano al momento della chiamata di \func{longjmp}, ma quelli
2690 delle variabili automatiche (o di quelle dichiarate \dirct{register}) sono in
2691 genere indeterminati.
2692
2693 Quello che succede infatti è che i valori delle variabili che sono tenute in
2694 memoria manterranno il valore avuto al momento della chiamata di
2695 \func{longjmp}, mentre quelli tenuti nei registri del processore (che nella
2696 chiamata ad un'altra funzione vengono salvati nel contesto nello
2697 \textit{stack}) torneranno al valore avuto al momento della chiamata di
2698 \func{setjmp}; per questo quando si vuole avere un comportamento coerente si
2699 può bloccare l'ottimizzazione che porta le variabili nei registri
2700 dichiarandole tutte come \direct{volatile}.\footnote{la direttiva
2701   \direct{volatile} informa il compilatore che la variabile che è dichiarata
2702   può essere modificata, durante l'esecuzione del nostro, da altri programmi.
2703   Per questo motivo occorre dire al compilatore che non deve essere mai
2704   utilizzata l'ottimizzazione per cui quanto opportuno essa viene mantenuta in
2705   un registro, poiché in questo modo si perderebbero le eventuali modifiche
2706   fatte dagli altri programmi (che avvengono solo in una copia posta in
2707   memoria).}
2708
2709 \index{salto~non-locale|)}
2710
2711
2712 % TODO trattare qui le restartable sequences (vedi
2713 % https://lwn.net/Articles/664645/ e https://lwn.net/Articles/650333/) se e
2714 % quando saranno introdotte
2715
2716 \subsection{La \textit{endianness}}
2717 \label{sec:endianness}
2718
2719 \itindbeg{endianness} 
2720
2721 Un altro dei problemi di programmazione che può dar luogo ad effetti
2722 imprevisti è quello relativo alla cosiddetta \textit{endianness}.  Questa è una
2723 caratteristica generale dell'architettura hardware di un computer che dipende
2724 dal fatto che la rappresentazione di un numero binario può essere fatta in due
2725 modi, chiamati rispettivamente \textit{big endian} e \textit{little endian} a
2726 seconda di come i singoli bit vengono aggregati per formare le variabili
2727 intere (ed in genere in diretta corrispondenza a come sono poi in realtà
2728 cablati sui bus interni del computer).
2729
2730 \begin{figure}[!htb]
2731   \centering \includegraphics[height=3cm]{img/endianness}
2732   \caption{Schema della disposizione dei dati in memoria a seconda della
2733     \textit{endianness}.}
2734   \label{fig:sock_endianness}
2735 \end{figure}
2736
2737 Per capire meglio il problema si consideri un intero a 32 bit scritto in una
2738 locazione di memoria posta ad un certo indirizzo. Come illustrato in
2739 fig.~\ref{fig:sock_endianness} i singoli bit possono essere disposti in memoria
2740 in due modi: a partire dal più significativo o a partire dal meno
2741 significativo.  Così nel primo caso si troverà il byte che contiene i bit più
2742 significativi all'indirizzo menzionato e il byte con i bit meno significativi
2743 nell'indirizzo successivo; questo ordinamento è detto \textit{big endian},
2744 dato che si trova per prima la parte più grande. Il caso opposto, in cui si
2745 parte dal bit meno significativo è detto per lo stesso motivo \textit{little
2746   endian}.
2747
2748 Si può allora verificare quale tipo di \textit{endianness} usa il proprio
2749 computer con un programma elementare che si limita ad assegnare un valore ad
2750 una variabile per poi ristamparne il contenuto leggendolo un byte alla volta.
2751 Il codice di detto programma, \file{endtest.c}, è nei sorgenti allegati,
2752 allora se lo eseguiamo su un normale PC compatibile, che è \textit{little
2753   endian} otterremo qualcosa del tipo:
2754 \begin{Console}
2755 [piccardi@gont sources]$ \textbf{./endtest}
2756 Using value ABCDEF01
2757 val[0]= 1
2758 val[1]=EF
2759 val[2]=CD
2760 val[3]=AB
2761 \end{Console}
2762 %$
2763 mentre su un vecchio Macintosh con PowerPC, che è \textit{big endian} avremo
2764 qualcosa del tipo:
2765 \begin{Console}
2766 piccardi@anarres:~/gapil/sources$ \textbf{./endtest}
2767 Using value ABCDEF01
2768 val[0]=AB
2769 val[1]=CD
2770 val[2]=EF
2771 val[3]= 1
2772 \end{Console}
2773 %$
2774
2775 L'attenzione alla \textit{endianness} nella programmazione è importante, perché
2776 se si fanno assunzioni relative alla propria architettura non è detto che
2777 queste restino valide su un'altra architettura. Inoltre, come vedremo ad
2778 esempio in sez.~\ref{sec:sock_addr_func}, si possono avere problemi quando ci
2779 si trova a usare valori di un formato con una infrastruttura che ne usa
2780 un altro. 
2781
2782 La \textit{endianness} di un computer dipende essenzialmente dalla architettura
2783 hardware usata; Intel e Digital usano il \textit{little endian}, Motorola,
2784 IBM, Sun (sostanzialmente tutti gli altri) usano il \textit{big endian}. Il
2785 formato dei dati contenuti nelle intestazioni dei protocolli di rete (il
2786 cosiddetto \textit{network order}) è anch'esso \textit{big endian}; altri
2787 esempi di uso di questi due diversi formati sono quello del bus PCI, che è
2788 \textit{little endian}, o quello del bus VME che è \textit{big endian}.
2789
2790 Esistono poi anche dei processori che possono scegliere il tipo di formato
2791 all'avvio e alcuni che, come il PowerPC o l'Intel i860, possono pure passare
2792 da un tipo di ordinamento all'altro con una specifica istruzione. In ogni caso
2793 in Linux l'ordinamento è definito dall'architettura e dopo l'avvio del sistema
2794 in genere resta sempre lo stesso,\footnote{su architettura PowerPC è possibile
2795   cambiarlo, si veda sez.~\ref{sec:process_prctl}.} anche quando il processore
2796 permetterebbe di eseguire questi cambiamenti.
2797
2798 \begin{figure}[!htbp]
2799   \footnotesize \centering
2800   \begin{minipage}[c]{\codesamplewidth}
2801     \includecodesample{listati/endian.c}
2802   \end{minipage} 
2803   \normalsize
2804   \caption{La funzione \samplefunc{endian}, usata per controllare il tipo di
2805     architettura della macchina.}
2806   \label{fig:sock_endian_code}
2807 \end{figure}
2808
2809 Per controllare quale tipo di ordinamento si ha sul proprio computer si è
2810 scritta una piccola funzione di controllo, il cui codice è riportato
2811 fig.~\ref{fig:sock_endian_code}, che restituisce un valore nullo (falso) se
2812 l'architettura è \textit{big endian} ed uno non nullo (vero) se l'architettura
2813 è \textit{little endian}.
2814
2815 Come si vede la funzione è molto semplice, e si limita, una volta assegnato
2816 (\texttt{\small 9}) un valore di test pari a \texttt{0xABCD} ad una variabile
2817 di tipo \ctyp{short} (cioè a 16 bit), a ricostruirne una copia byte a byte.
2818 Per questo prima (\texttt{\small 10}) si definisce il puntatore \var{ptr} per
2819 accedere al contenuto della prima variabile, ed infine calcola (\texttt{\small
2820   11}) il valore della seconda assumendo che il primo byte sia quello meno
2821 significativo (cioè, per quanto visto in fig.~\ref{fig:sock_endianness}, che sia
2822 \textit{little endian}). Infine la funzione restituisce (\texttt{\small 12})
2823 il valore del confronto delle due variabili. 
2824
2825 In generale non ci si deve preoccupare della \textit{endianness} all'interno
2826 di un programma fintanto che questo non deve generare o manipolare dei dati
2827 che sono scambiati con altre macchine, ad esempio tramite via rete o tramite
2828 dei file binari. Nel primo caso la scelta è già stata fatta nella
2829 standardizzazione dei protocolli, che hanno adottato il \textit{big endian}
2830 (che viene detto anche per questo \textit{network order} e vedremo in
2831 sez.~\ref{sec:sock_func_ord} le funzioni di conversione che devono essere
2832 usate.
2833
2834 Nel secondo caso occorre sapere quale \textit{endianness} è stata usata nei
2835 dati memorizzati sul file e tenerne conto nella rilettura e nella
2836 manipolazione e relativa modifica (e salvataggio). La gran parte dei formati
2837 binari standardizzati specificano quale \textit{endianness} viene utilizzata e
2838 basterà identificare qual'è, se se ne deve definire uno per i propri scopi
2839 basterà scegliere una volta per tutte quale usare e attenersi alla scelta.
2840
2841 \itindend{endianness}
2842
2843
2844 % LocalWords:  like exec kernel thread main ld linux static linker char envp Gb
2845 % LocalWords:  sez POSIX exit system call cap abort shell diff errno stdlib int
2846 % LocalWords:  SUCCESS FAILURE void atexit stream fclose unistd descriptor init
2847 % LocalWords:  SIGCHLD wait function glibc SunOS arg argp execve fig high kb Mb
2848 % LocalWords:  memory alpha swap table printf Unit MMU paging fault SIGSEGV BSS
2849 % LocalWords:  multitasking text segment NULL Block Started Symbol fill black
2850 % LocalWords:  heap stack calling convention size malloc calloc realloc nmemb
2851 % LocalWords:  ENOMEM ptr uClib cfree error leak smartpointers hook Dmalloc brk
2852 % LocalWords:  Gray Watson Electric Fence Bruce Perens sbrk longjmp SUSv BSD ap
2853 % LocalWords:  ptrdiff increment locking lock copy write capabilities IPC mlock
2854 % LocalWords:  capability MEMLOCK limits getpagesize RLIMIT munlock sys const
2855 % LocalWords:  addr len EINVAL EPERM mlockall munlockall flags l'OR CURRENT IFS
2856 % LocalWords:  argc argv parsing questofile txt getopt optstring switch optarg
2857 % LocalWords:  optind opterr optopt POSIXLY CORRECT long options NdA
2858 % LocalWords:  option parameter list environ PATH HOME XPG tab LOGNAME LANG PWD
2859 % LocalWords:  TERM PAGER TMPDIR getenv name SVr setenv unsetenv putenv opz gcc
2860 % LocalWords:  clearenv libc value overwrite string reference result argument
2861 % LocalWords:  socket variadic ellipsis header stdarg execl self promoting last
2862 % LocalWords:  float double short register type dest src extern setjmp jmp buf
2863 % LocalWords:  env return if while Di page cdecl  rectangle node anchor west PS
2864 % LocalWords:  environment rounded corners dashed south width height draw east
2865 % LocalWords:  exithandler handler violation inline SOURCE SVID XOPEN mincore
2866 % LocalWords:  length unsigned vec EFAULT EAGAIN dell'I memalign valloc posix
2867 % LocalWords:  boundary memptr alignment sizeof overrun mcheck abortfn enum big
2868 % LocalWords:  mprobe DISABLED HEAD TAIL touch right emacs OSTYPE endianness IBM
2869 % LocalWords:  endian little endtest Macintosh PowerPC Intel Digital Motorola
2870 % LocalWords:  Sun order VME  loader Windows DLL shared objects PRELOAD termios
2871 % LocalWords:  is to LC SIG str mem wcs assert ctype dirent fcntl signal stdio
2872 % LocalWords:  times library utmp syscall number Filesystem Hierarchy pathname
2873 % LocalWords:  context assembler sysconf fork Dinamic huge segmentation program
2874 % LocalWords:  break  store Using
2875
2876 %%% Local Variables: 
2877 %%% mode: latex
2878 %%% TeX-master: "gapil"
2879 %%% End: