Aggiornamento copyright e inizio aggiornameto parte sui socket.
[gapil.git] / intro.tex
1 %% intro.tex
2 %%
3 %% Copyright (C) 2000-201 Simone Piccardi.  Permission is granted to
4 %% copy, distribute and/or modify this document under the terms of the GNU Free
5 %% Documentation License, Version 1.1 or any later version published by the
6 %% Free Software Foundation; with the Invariant Sections being "Un preambolo",
7 %% with no Front-Cover Texts, and with no Back-Cover Texts.  A copy of the
8 %% license is included in the section entitled "GNU Free Documentation
9 %% License".
10 %%
11
12 \chapter{L'architettura del sistema}
13 \label{cha:intro_unix}
14
15 In questo primo capitolo sarà fatta un'introduzione ai concetti generali su
16 cui è basato un sistema operativo di tipo Unix come GNU/Linux, in questo modo
17 potremo fornire una base di comprensione mirata a sottolineare le peculiarità
18 del sistema che sono più rilevanti per quello che riguarda la programmazione.
19
20 Dopo un'introduzione sulle caratteristiche principali di un sistema di tipo
21 Unix passeremo ad illustrare alcuni dei concetti base dell'architettura di
22 GNU/Linux (che sono comunque comuni a tutti i sistemi \textit{unix-like}) ed
23 introdurremo alcuni degli standard principali a cui viene fatto riferimento.
24
25
26 \section{Una panoramica}
27 \label{sec:intro_unix_struct}
28
29 In questa prima sezione faremo una breve panoramica sull'architettura di un
30 sistema operativo di tipo Unix, come GNU/Linux, e della relazione fra le varie
31 parti che lo compongono. Chi avesse già una conoscenza di questa materia può
32 tranquillamente saltare questa sezione.
33
34 \subsection{Concetti base}
35 \label{sec:intro_base_concept}
36
37 Il concetto principale su cui è basata l'architettura di un sistema unix-like
38 è quello di un nucleo del sistema, il cosiddetto \textit{kernel} (nel nostro
39 caso Linux) a cui si demanda la gestione delle risorse della propria macchina
40 (la CPU, la memoria, le periferiche) mentre tutto il resto, quindi anche la
41 parte che prevede l'interazione con l'utente, dev'essere realizzato tramite
42 programmi eseguiti dal kernel, che accedano alle risorse tramite opportune
43 richieste a quest'ultimo.
44
45 Fin dai suoi albori Unix nasce come sistema operativo \textit{multitasking},
46 cioè in grado di eseguire contemporaneamente più programmi, e multiutente, in
47 cui è possibile che più utenti siano connessi ad una macchina eseguendo più
48 programmi ``\textsl{in contemporanea}''. In realtà, almeno per le macchine a
49 processore singolo, i programmi vengono semplicemente eseguiti uno alla volta
50 in una opportuna \textsl{rotazione}.\footnote{anche se oggi, con la presenza
51   di sistemi multiprocessore, si possono avere più processi eseguiti in
52   contemporanea, il concetto di ``\textsl{rotazione}'' resta comunque valido,
53   dato che in genere il numero di processi da eseguire eccede il numero dei
54   precessori disponibili. }
55
56 % Questa e` una distinzione essenziale da capire,
57 %specie nei confronti dei sistemi operativi successivi, nati per i personal
58 %computer (e quindi per un uso personale), sui quali l'hardware (allora
59 %limitato) non consentiva la realizzazione di un sistema evoluto come uno unix.
60
61 I kernel Unix più recenti, come Linux, sono realizzati sfruttando alcune
62 caratteristiche dei processori moderni come la gestione hardware della memoria
63 e la modalità protetta. In sostanza con i processori moderni si può
64 disabilitare temporaneamente l'uso di certe istruzioni e l'accesso a certe
65 zone di memoria fisica.  Quello che succede è che il kernel è il solo
66 programma ad essere eseguito in modalità privilegiata, con il completo accesso
67 a tutte le risorse della macchina, mentre i programmi normali vengono eseguiti
68 in modalità protetta senza accesso diretto alle risorse.  Uno schema
69 elementare della struttura del sistema è riportato in
70 fig.~\ref{fig:intro_sys_struct}.
71
72 \begin{figure}[htb]
73   \centering
74   \includegraphics[width=10cm]{img/struct_sys}
75   % \begin{tikzpicture}
76   %   \filldraw[fill=black!20] (0,0) rectangle (7.5,1);
77   %   \draw (3.75,0.5) node {\textsl{System Call Interface}};
78   %   \filldraw[fill=black!35] (0,1) rectangle (7.5,4);
79   %   \draw (3.75,2.5) node {\huge{\textsf{kernel}}};
80   %   \filldraw[fill=black!20] (0,4) rectangle (2.5,5);
81   %   \draw (1.25,4.5) node {\textsf{scheduler}};
82   %   \filldraw[fill=black!20] (2.5,4) rectangle (5,5);
83   %   \draw (3.75,4.5) node {\textsf{VM}};
84   %   \filldraw[fill=black!20] (5,4) rectangle (7.5,5);
85   %   \draw (6.25,4.5) node {\textsf{driver}};
86
87   %   \draw (1.25,7) node(cpu) [ellipse,draw] {\textsf{CPU}};
88   %   \draw (3.75,7) node(mem) [ellipse,draw] {\textsf{memoria}};
89   %   \draw (6.25,7) node(disk) [ellipse,draw] {\textsf{disco}};
90
91   %   \draw[<->] (cpu) -- (1.25,5);
92   %   \draw[<->] (mem) -- (3.75,5);
93   %   \draw[<->] (disk) -- (6.25,5);
94
95   %   \draw (7.5,0) node [anchor=base west] {\textit{kernel space}};
96   %   \draw (7.5,-1) node [anchor=west] {\textit{user space}};
97
98   %   \draw (-1,-0.5) -- (8.5, -0.5);
99
100   %   \draw (0,-2) rectangle (7.5,-1);
101   %   \draw (3.75, -1.5) node {\textsl{GNU C Library}};
102   %   \draw[->] (1.25,-1) -- (1.25,0);
103   %   \draw[->] (3.75,-1) -- (3.75,0);
104   %   \draw[->] (6.25,-1) -- (6.25,0);
105
106   %   \draw (1.25,-3) node(proc1) [rectangle,draw] {\textsf{processo}};
107   %   \draw (3.75,-3) node(proc2) [rectangle,draw] {\textsf{processo}};
108   %   \draw (6.25,-3) node(proc3) [rectangle,draw] {\textsf{processo}};
109
110   %   \draw[->] (1.25,-2) -- (proc1);
111   %   \draw[->] (3.75,-2) -- (proc2);
112   %   \draw[->] (6.25,-2) -- (proc3);
113   % \end{tikzpicture}
114   \caption{Schema di massima della struttura di interazione fra processi,
115     kernel e dispositivi in Linux.}
116   \label{fig:intro_sys_struct}
117 \end{figure}
118
119 \itindbeg{scheduler}
120
121 Una parte del kernel, lo \textit{scheduler}, si occupa di stabilire, sulla
122 base di un opportuno calcolo delle priorità e con una suddivisione appropriata
123 del tempo di processore, quali fra i vari ``\textsl{processi}'' presenti nel
124 sistema deve essere eseguito, realizzando il cosiddetto
125 \itindex{preemptive~multitasking} \textit{preemptive
126   multitasking}.\footnote{si chiama così quella gestione del
127   \textit{multitasking} in cui è il kernel a decidere a chi assegnare l'uso
128   della CPU, potendo interrompere l'esecuzione di un processo in qualunque
129   momento.}  Ogni processo verrà comunque eseguito in modalità protetta;
130 quando necessario esso potrà accedere alle risorse della macchina soltanto
131 attraverso delle ``\textsl{chiamate al sistema}'' (vedi
132 sez.~\ref{sec:intro_syscall}) che restituiranno il controllo al kernel per
133 eseguire le operazioni necessarie.
134
135 \itindend{scheduler}
136
137 La memoria viene sempre gestita dal kernel attraverso il meccanismo della
138 \textsl{memoria virtuale}, che consente di assegnare a ciascun processo uno
139 spazio di indirizzi ``\textsl{virtuale}'' (vedi sez.~\ref{sec:proc_memory})
140 che il kernel stesso, con l'ausilio della unità di gestione della memoria, si
141 incaricherà di rimappare automaticamente sulla memoria fisica disponibile, con
142 la possibilità ulteriore di spostare temporaneamente su disco (nella
143 cosiddetta area di \textit{swap}) parte di detta memoria qualora ci si trovi
144 nella necessità di liberare risorse.
145
146 Le periferiche infine vengono normalmente viste attraverso un'interfaccia
147 astratta che permette di trattarle come se fossero dei file, secondo uno dei
148 concetti base della architettura di Unix, per cui ``\textsl{tutto è in file}''
149 (\textit{everything is a file}) su cui torneremo in
150 sez.~\ref{sec:intro_file_dir}. In realtà questo non è sempre vero (ad esempio
151 non lo è per le interfacce di rete) dato che ci sono periferiche che non
152 rispondendo bene a questa astrazione richiedono un'interfaccia diversa.  Anche
153 in questo caso però resta valido il concetto generale che tutto il lavoro di
154 accesso e gestione delle periferiche a basso livello viene effettuato dal
155 kernel tramite l'opportuno codice di gestione delle stesse, che in
156 fig.~\ref{fig:intro_sys_struct} si è indicato come \textit{driver}.
157
158
159 \subsection{Il kernel e il sistema}
160 \label{sec:intro_kern_and_sys}
161
162 Uno dei concetti fondamentali su cui si basa l'architettura dei sistemi Unix è
163 quello della distinzione fra il cosiddetto \textit{user space}, che
164 contraddistingue l'ambiente in cui vengono eseguiti i programmi, e il
165 \textit{kernel space}, che è l'ambiente in cui viene eseguito il kernel. Ogni
166 programma vede sé stesso come se avesse la piena disponibilità della CPU e
167 della memoria ed è, salvo i meccanismi di comunicazione previsti dal sistema,
168 completamente ignaro del fatto che altri programmi possono essere messi in
169 esecuzione dal kernel.
170
171 Per questa separazione non è possibile ad un singolo programma disturbare
172 l'azione di un altro programma o del kernel stesso, e questo è il principale
173 motivo della stabilità di un sistema unix-like nei confronti di altri sistemi
174 in cui i processi non hanno di questi limiti o in cui essi vengono eseguiti
175 allo stesso livello del kernel. Pertanto deve essere chiaro a chi programma in
176 un sistema unix-like che l'accesso diretto all'hardware non può avvenire se
177 non all'interno del kernel; al di fuori dal kernel il programmatore deve usare
178 le opportune interfacce che quest'ultimo fornisce per i programmi in
179 \textit{user space}.
180
181 Per capire meglio la distinzione fra \textit{kernel space} e \textit{user
182   space} si può prendere in esame la procedura di avvio di un sistema
183 unix-like. All'accensione il \textit{firmware} presente nella EPROM della
184 propria macchina (per i PC compatibili il BIOS), eseguirà la procedura di
185 avvio del sistema, il cosiddetto \textit{bootstrap},\footnote{il nome deriva
186   da un'espressione gergale che significa ``sollevarsi da terra tirandosi per
187   le stringhe delle scarpe'', per indicare il compito, almeno apparentemente
188   impossibile, di far eseguire un programma a partire da un computer appena
189   acceso che appunto non ne contiene nessuno; non è impossibile perché in
190   realtà c'è un programma iniziale, che è il BIOS.} incaricandosi di caricare
191 il kernel in memoria e di farne partire l'esecuzione. 
192
193 A questo punto il controllo passerà al kernel, il quale però da parte sua, una
194 volta inizializzato opportunamente l'hardware, si limiterà a due sole
195 operazioni, montare il filesystem radice (torneremo su questo in
196 sez.~\ref{sec:file_arch_overview}) e lanciare il primo processo che eseguirà
197 il programma di inizializzazione del sistema, che in genere, visto il suo
198 scopo, si chiama \cmd{init}.
199
200 Una volta lanciato \cmd{init} tutto il lavoro successivo verrà eseguito
201 \textit{user space} da questo programma, che sua volta si incaricherà di
202 lanciare tutti gli altri programmi, fra cui ci sarà quello che si occupa di
203 dialogare con la tastiera e lo schermo della console, quello che mette a
204 disposizione un terminale e la \textit{shell} da cui inviare i comandi
205 all'utente che si vuole collegare, ed in generale tutto quanto necessario ad
206 avere un sistema utilizzabile.
207
208 E' da rimarcare come tutto ciò che riguarda l'interazione con l'utente, che
209 usualmente viene visto come parte del sistema, non abbia in realtà niente a
210 che fare con il kernel, ma sia effettuato da opportuni programmi che vengono
211 eseguiti, allo stesso modo di un qualunque programma di scrittura o di disegno
212 e della stessa interfaccia grafica, in \textit{user space}.
213
214 Questo significa ad esempio che il sistema di per sé non dispone di primitive
215 per tutta una serie di operazioni (ad esempio come la copia di un file) che
216 altri sistemi (come Windows) hanno invece al loro interno. Questo perché tutte
217 le operazioni di normale amministrazione di un sistema, sono effettuata
218 attraverso dei normali programmi utilizzando le interfacce di programmazione
219 che il kernel mette a disposizione.
220
221 È per questo motivo che quando ci si riferisce al sistema nella sua interezza
222 viene spesso sottolineato come sia corretto parlare di ``GNU/Linux'' e non di
223 Linux; da solo infatti il kernel non è sufficiente, quello che costruisce un
224 sistema operativo utilizzabile è la presenza di tutta una serie di librerie e
225 programmi di utilità, ed i più comuni sono appunto quelli realizzati dal
226 progetto GNU della Free Software Foundation, grazie ai quali si possono
227 eseguire le normali operazioni che ci si aspetta da un sistema operativo.
228
229
230 \subsection{\textit{System call} e funzioni di libreria}
231 \label{sec:intro_syscall}
232
233 Come illustrato in fig.~\ref{fig:intro_sys_struct} i programmi possono
234 accedere ai servizi forniti dal kernel tramite opportune interfacce dette
235 \textit{system call} (\textsl{chiamate al sistema}, appunto). Si tratta di un
236 insieme di funzioni che un programma può invocare, per le quali viene generata
237 un'interruzione nell'esecuzione del codice del processo, passando il controllo
238 al kernel. Sarà quest'ultimo che eseguirà in le operazioni relative alla
239 funzione richiesta in \textit{kernel space}, restituendo poi i risultati al
240 chiamante.
241
242 Ogni versione di Unix ha storicamente sempre avuto un certo numero di
243 \textit{system call}, che sono documentate nella seconda sezione del
244 \textsl{Manuale di programmazione di Unix}, quella cui si accede con il
245 comando \cmd{man 2 <nome>}, ed anche Linux non fa eccezione. Queste
246 \textit{system call} sono poi state codificate da vari standard, che
247 esamineremo brevemente in sez.~\ref{sec:intro_standard}.
248
249 Normalmente ciascuna \textit{system call} fornita dal kernel viene associata
250 ad una funzione con lo stesso nome definita all'interno della libreria
251 fondamentale del sistema, quella che viene chiamata \textsl{Libreria Standard
252   del C} (\textit{C Standard Library}) in ragione del fatto che il primo
253 kernel Unix e tutti i programmi eseguiti su di esso vennero scritti in C,
254 usando le librerie di questo linguaggio. In seguito faremo riferimento alle
255 funzioni di questa libreria che si interfacciano alle \textit{system call}
256 come ``\textsl{funzioni di sistema}''.
257
258 Questa libreria infatti, oltre alle interfacce delle \textit{system call},
259 contiene anche tutta una serie di ulteriori funzioni di utilità che vengono
260 comunemente usate nella programmazione e sono definite nei vari standard che
261 documentano le interfacce di programmazione di un sistema unix-like. Questo
262 concetto è importante da tener presente perché programmare in Linux significa
263 anche essere in grado di usare le funzioni fornite dalla \textsl{Libreria
264   Standard del C}, in quanto né il kernel, né il linguaggio C implementano
265 direttamente operazioni ordinarie come l'allocazione dinamica della memoria,
266 l'input/output bufferizzato sui file o la manipolazione delle stringhe, la
267 matematica in virgola mobile, che sono comunemente usate da qualunque
268 programma.
269
270 Tutto ciò mette nuovamente in evidenza il fatto che nella stragrande
271 maggioranza dei casi si dovrebbe usare il nome GNU/Linux in quanto una parte
272 essenziale del sistema, senza la quale niente funzionerebbe, è appunto la
273 \textit{GNU Standard C Library} (a cui faremo da qui in avanti riferimento
274 come \acr{glibc}), ovvero la Libreria Standard del C realizzata dalla Free
275 Software Foundation, nella quale sono state implementate tutte le funzioni
276 essenziali definite negli standard POSIX e ANSI C (e molte altre), che vengono
277 utilizzate da qualunque programma.
278
279 Si tenga comunque presente che questo non è sempre vero, dato che esistono
280 implementazioni alternative della Libreria Standard del C, come la
281 \textit{libc5} o la \textit{uClib}, che non derivano dal progetto GNU. La
282 \textit{libc5}, che era usata con le prime versioni del kernel Linux, è oggi
283 ormai completamente soppiantata dalla \acr{glibc}. La \textit{uClib} invece,
284 pur non essendo completa come la \acr{glibc}, resta molto diffusa nel mondo
285 dei dispositivi \textit{embedded} per le sue dimensioni estremamente ridotte,
286 e soprattutto per la possibilità di togliere le parti non necessarie. Pertanto
287 costituisce un valido rimpiazzo della \acr{glibc} in tutti quei sistemi
288 specializzati che richiedono una minima occupazione di memoria. Infine per lo
289 sviluppo del sistema Android è stata realizzata da Google un'altra Libreria
290 Standard del C, utilizzata principalmente per evitare l'uso della \acr{glibc}.
291
292 Tradizionalmente le funzioni specifiche della Libreria Standard del C sono
293 riportate nella terza sezione del \textsl{Manuale di Programmazione di Unix}
294 (cioè accessibili con il comando \cmd{man 3 <nome>}) e come accennato non sono
295 direttamente associate ad una \textit{system call} anche se, ad esempio per la
296 gestione dei file o della allocazione dinamica della memoria, possono farne
297 uso nella loro implementazione.  Nonostante questa questa distinzione,
298 fondamentale per capire il funzionamento del sistema, l'uso da parte dei
299 programmi di una di queste funzioni resta lo stesso, sia che si tratti di una
300 funzione interna della libreria che di una \textit{system call}.
301
302
303 \subsection{Un sistema multiutente}
304 \label{sec:intro_multiuser}
305
306 Linux, come gli altri kernel Unix, nasce fin dall'inizio come sistema
307 multiutente, cioè in grado di fare lavorare più persone in contemporanea. Per
308 questo esistono una serie di meccanismi di sicurezza, che non sono previsti in
309 sistemi operativi monoutente, e che occorre tenere presenti. In questa sezione
310 parleremo brevemente soltanto dei meccanismi di sicurezza tradizionali di un
311 sistema unix-like, oggi molti di questi sono stati notevolmente estesi
312 rispetto al modello tradizionale, ma per il momento ignoreremo queste
313 estensioni.
314
315 Il concetto base è quello di utente (\textit{user}) del sistema, le cui
316 capacità rispetto a quello che può fare sono sottoposte a ben precisi limiti.
317 Sono così previsti una serie di meccanismi per identificare i singoli utenti
318 ed una serie di permessi e protezioni per impedire che utenti diversi possano
319 danneggiarsi a vicenda o danneggiare il sistema. Questi meccanismi sono
320 realizzati dal kernel stesso ed attengono alle operazioni più varie, e
321 torneremo su di essi in dettaglio più avanti.
322
323 Normalmente l'utente è identificato da un nome (il cosiddetto
324 \textit{username}), che ad esempio è quello che viene richiesto all'ingresso
325 nel sistema dalla procedura di \textit{login} (torneremo su questo in
326 sez.~\ref{sec:sess_login}).  Questa procedura si incarica di verificare
327 l'identità dell'utente, in genere attraverso la richiesta di una parola
328 d'ordine (la \textit{password}), anche se sono possibili meccanismi
329 diversi.\footnote{ad esempio usando la libreria PAM (\textit{Pluggable
330     Autentication Methods}) è possibile astrarre completamente dai meccanismi
331   di autenticazione e sostituire ad esempio l'uso delle password con
332   meccanismi di identificazione biometrica, per un approfondimento
333   dell'argomento si rimanda alla sez.~4.3 di \cite{AGL}.} Eseguita la
334 procedura di riconoscimento in genere il sistema manda in esecuzione un
335 programma di interfaccia (che può essere la \textit{shell} su terminale o
336 un'interfaccia grafica) che mette a disposizione dell'utente un meccanismo con
337 cui questo può impartire comandi o eseguire altri programmi.
338
339 Ogni utente appartiene anche ad almeno un gruppo (il cosiddetto
340 \textit{default group}), ma può essere associato ad altri gruppi (i
341 \textit{supplementary group}), questo permette di gestire i permessi di
342 accesso ai file e quindi anche alle periferiche, in maniera più flessibile,
343 definendo gruppi di lavoro, di accesso a determinate risorse, ecc. 
344
345 L'utente e il gruppo sono identificati dal kernel un identificativo numerico,
346 la cui corrispondenza ad un nome espresso in caratteri è inserita nei due file
347 \conffile{/etc/passwd} e \conffile{/etc/group}.\footnote{in realtà negli
348   sistemi più moderni, come vedremo in sez.~\ref{sec:sys_user_group} queste
349   informazioni possono essere mantenute, con l'uso del \textit{Name Service
350     Switch}, su varie tipologie di supporti, compresi server centralizzati
351   come LDAP.}  Questi identificativi sono l'\textit{user identifier}, detto in
352 breve \textsl{user-ID}, ed indicato dall'acronimo \ids{UID}, e il
353 \textit{group identifier}, detto in breve \textsl{group-ID}, ed identificato
354 dall'acronimo \ids{GID}, torneremo in dettaglio su questo argomento in
355 sez.~\ref{sec:proc_perms}.  Il kernel conosce ed utilizza soltanto questi
356 valori numerici, i nomi ad essi associati sono interamente gestiti in
357 \textit{user space} con opportune funzioni di libreria, torneremo su questo
358 argomento in sez.~\ref{sec:sys_user_group}.
359  
360 Grazie a questi identificativi il sistema è in grado di tenere traccia
361 dell'utente a cui appartiene ciascun processo ed impedire ad altri utenti di
362 interferire con quest'ultimo.  Inoltre con questo sistema viene anche
363 garantita una forma base di sicurezza interna in quanto anche l'accesso ai
364 file (vedi sez.~\ref{sec:file_access_control}) è regolato da questo meccanismo
365 di identificazione.
366
367 Infine in ogni sistema unix-like è presente uno speciale utente privilegiato,
368 il cosiddetto \textit{superuser}, il cui username è di norma \textit{root}, ed
369 il cui \ids{UID} è zero. Esso identifica l'amministratore del sistema, che
370 deve essere in grado di fare qualunque operazione; per l'utente \textit{root}
371 infatti i meccanismi di controllo cui si è accennato in precedenza sono
372 disattivati.\footnote{i controlli infatti vengono eseguiti da uno pseudo-codice
373   del tipo: ``\code{if (uid) \{ \textellipsis\ \}}''.}
374
375
376 %Rimosse
377 % \section{L'architettura della gestione dei file}
378 % \label{sec:file_arch_func}
379
380 \section{L'architettura di file e directory}
381 \label{sec:intro_file_dir}
382
383 Come accennato in sez.~\ref{sec:intro_base_concept} uno dei concetti
384 fondamentali dell'architettura di un sistema Unix è il cosiddetto
385 \textit{everything is a file} (\textsl{tutto è un file}), cioè il fatto che
386 l'accesso ai vari dispositivi di input/output del computer viene effettuato
387 attraverso un'interfaccia astratta che tratta le periferiche allo stesso modo
388 dei normali file di dati.
389
390 In questa sezione forniremo una descrizione a grandi linee dell'architettura
391 della gestione dei file in Linux, partendo da una introduzione ai concetti di
392 base, per poi illustrare la struttura dell'albero dei file ed il significato
393 dei tipi di file, concludendo con una panoramica sulle caratteristiche
394 principali delle due interfacce con cui i processi possono effettuare l'I/O su
395 file.
396
397
398 \subsection{Una panoramica generale}
399 \label{sec:file_arch_overview}
400
401 Per poter accedere ai file, il kernel deve mettere a disposizione dei
402 programmi delle opportune \textit{system call} che consentano di leggere e
403 scrivere il contenuto. Tutto ciò ha due aspetti: il primo è che il kernel, per
404 il concetto dell'\textit{everything is a file}, deve fornire una interfaccia
405 che consenta di operare sui file, sia che questi corrispondano ai normali file
406 di dati, o ai cosiddetti ``\textsl{file speciali}'', come i file di
407 dispositivo (o \textit{device file}) che permettono di accedere alle
408 periferiche o le fifo ed i socket che forniscono funzionalità di comunicazione
409 fra processi (torneremo su questo in sez.~\ref{sec:file_mknod}).
410
411 Il secondo aspetto è che per poter utilizzare dei normali file di dati il
412 kernel deve provvedere ad organizzare e rendere accessibile in maniera
413 opportuna l'informazione in essi contenuta memorizzandola sullo spazio grezzo
414 disponibile sui dischi.  Questo viene fatto strutturando l'informazione sul
415 disco attraverso quello che si chiama un
416 ``\textit{filesystem}''. L'informazione così strutturata poi viene resa
417 disponibile ai processi attraverso quello che viene chiamato il
418 ``\textsl{montaggio}'' del filesystem nell'albero dei file, dove il contenuto
419 sarà accessibile nella forma ordinaria di file e directory.
420
421 \itindbeg{Virtual~File~System~(VFS)}
422
423 In Linux il concetto di \textit{everything is a file} è stato implementato
424 attraverso il \textit{Virtual File System} (che da qui in poi abbrevieremo in
425 VFS) che è uno strato intermedio che il kernel usa per accedere ai più
426 svariati filesystem mantenendo la stessa interfaccia per i programmi in
427 \textit{user space}.
428
429 Il VFS fornisce cioè quel livello di astrazione che permette di collegare le
430 operazioni interne del kernel per la manipolazione sui file con le
431 \textit{system call} relative alle operazioni di I/O, e gestisce poi
432 l'organizzazione di dette operazioni nei vari modi in cui i diversi filesystem
433 le effettuano, permettendo la coesistenza di filesystem differenti all'interno
434 dello stesso albero delle directory. Approfondiremo il funzionamento di
435 interfaccia generica fornita dal VFS in sez.~\ref{sec:file_vfs_work}.
436
437 In sostanza quello che accade è che quando un processo esegue una
438 \textit{system call} che opera su un file, il kernel chiama sempre una
439 funzione implementata nel VFS. La funzione eseguirà le manipolazioni sulle
440 strutture generiche e utilizzerà poi la chiamata alle opportune funzioni del
441 filesystem specifico a cui si fa riferimento. Saranno queste a chiamare le
442 funzioni di più basso livello che eseguono le operazioni di I/O sul
443 dispositivo fisico, secondo lo schema riportato in
444 fig.~\ref{fig:file_VFS_scheme}.
445
446 \begin{figure}[!htb]
447   \centering
448   \includegraphics[width=7cm]{img/vfs}
449   \caption{Schema delle operazioni del VFS.}
450   \label{fig:file_VFS_scheme}
451 \end{figure}
452
453 Questa interfaccia resta la stessa anche quando, invece che a dei normali
454 file, si accede alle periferiche coi citati file di dispositivo, solo che in
455 questo caso invece di usare il codice del filesystem che accede al disco, il
456 \textit{Virtual File System} eseguirà direttamente il codice del kernel che
457 permette di accedere alla periferica.
458
459 \itindend{Virtual~File~System~(VFS)}
460
461 Come accennato in precedenza una delle funzioni essenziali per il
462 funzionamento dell'interfaccia dei file è quella che consente di montare un
463 filesystem nell'albero dei file, e rendere così visibili i suoi contenuti. In
464 un sistema unix-like infatti, a differenza di quanto avviene in altri sistemi
465 operativi, tutti i file vengono mantenuti all'interno di un unico albero la
466 cui radice (quella che viene chiamata \textit{root directory}) viene montata
467 all'avvio direttamente dal kernel.
468
469 Come accennato in sez.~\ref{sec:intro_kern_and_sys}) montare la radice è,
470 insieme al lancio di \cmd{init},\footnote{l'operazione è ovviamente anche
471   preliminare al lancio di \cmd{init}, dato il kernel deve poter accedere al
472   file che contiene detto programma.} l'unica operazione che viene effettuata
473 direttamente dal kernel in fase di avvio quando, completata la fase di
474 inizializzazione, esso riceve dal bootloader l'indicazione di quale
475 dispositivo contiene il filesystem da usare come punto di partenza e questo
476 viene posto alla radice dell'albero dei file.
477
478 Tutti gli ulteriori filesystem che possono essere disponibili su altri
479 dispositivi dovranno a loro volta essere inseriti nell'albero, montandoli su
480 altrettante directory del filesystem radice, su quelli che vengono chiamati
481 \textit{mount point}.  Questo comunque avverrà sempre in un secondo tempo, in
482 genere a cura dei programmi eseguiti nella procedura di inizializzazione del
483 sistema, grazie alle funzioni che tratteremo in
484 sez.~\ref{sec:filesystem_mounting}.
485
486
487 \subsection{La risoluzione del nome di file e directory}
488 \label{sec:file_pathname}
489
490 \itindbeg{pathname}
491
492 Come illustrato sez.~\ref{sec:file_arch_overview} una delle caratteristiche
493 distintive di un sistema unix-like è quella di avere un unico albero dei
494 file. Un file deve essere identificato dall'utente usando quello che viene
495 chiamato il suo \textit{pathname},\footnote{il manuale della \acr{glibc}
496   depreca questa nomenclatura, che genererebbe confusione poiché \textit{path}
497   indica anche un insieme di directory su cui effettuare una ricerca (come
498   quello in cui la shell cerca i comandi). Al suo posto viene proposto l'uso
499   di \textit{filename} e di componente per il nome del file all'interno della
500   directory. Non seguiremo questa scelta dato che l'uso della parola
501   \textit{pathname} è ormai così comune che mantenerne l'uso è senz'altro più
502   chiaro dell'alternativa proposta.} vale a dire tramite il
503 ``\textsl{percorso}'' (nome che talvolta viene usato come traduzione di
504 \textit{pathname}) che si deve fare per accedere al file a partire da una
505 certa ``\textit{directory}''.
506
507 Una directory in realtà è anch'essa un file, nel senso che è anch'essa un
508 oggetto di un filesystem, solo che è un file particolare che il kernel
509 riconosce appositamente come tale per poterlo utilizzare come directory. Il
510 suo scopo è quello di contenere una lista di nomi di file e le informazioni
511 che associano ciascuno di questi nomi al relativo contenuto (torneremo su
512 questo in sez.~\ref{sec:file_arch_func}).
513
514 Dato che questi nomi possono corrispondere ad un qualunque altro oggetto del
515 filesystem, compresa un'altra directory, si ottiene naturalmente
516 un'organizzazione ad albero inserendo nomi di directory dentro altre
517 directory.  All'interno dello stesso albero si potranno poi inserire anche
518 tutti gli altri oggetti previsti l'interfaccia del VFS (su cui torneremo in
519 sez.~\ref{sec:file_file_types}), come le fifo, i collegamenti simbolici, i
520 socket e gli stessi file di dispositivo.
521
522 La convenzione usata nei sistemi unix-like per indicare i \textit{pathname}
523 dei file è quella di usare il carattere ``\texttt{/}'' come separatore fra i
524 nomi che indicano le directory che lo compongono. Dato che la directory radice
525 sta in cima all'albero, essa viene indicata semplicemente con il
526 \textit{pathname} \file{/}.
527
528 \itindbeg{pathname~resolution}
529
530 Un file può essere indicato rispetto ad una directory semplicemente
531 specificandone il nome, il manuale della \acr{glibc} chiama i nomi contenuti
532 nelle directory ``componenti'' (in inglese \textit{file name components}), noi
533 li chiameremo più semplicemente \textsl{nomi} o \textsl{voci}, riservando la
534 parola \textsl{componenti} ai nomi che, separati da una ``\texttt{/}'',
535 costituiscono il \textit{pathname}. Questi poi dovranno corrispondere, perché
536 il \textit{pathname} sia valido, a voci effettivamente presenti nelle
537 directory, ma non è detto che un \textit{pathname} debba per forza risultare
538 valido.  
539
540 Il procedimento con cui dato un \textit{pathname} si individua il file a cui
541 esso fa riferimento, è chiamato \textsl{risoluzione del percorso}
542 (\textit{filename resolution} o \textit{pathname resolution}). Lo stesso
543 procedimento ci può anche dire che il \textit{pathname} usato non è valido.
544 La risoluzione viene eseguita esaminando il \textit{pathname} da sinistra a
545 destra e localizzando ogni componente dello stesso come nome in una directory
546 a partire dalla directory iniziale, usando il carattere ``\texttt{/}'' come
547 separatore per scendere dall'una all'altra. Nel caso si indichi un componente
548 vuoto il costrutto ``\texttt{//}'' viene considerato equivalente a
549 ``\texttt{/}''.
550
551 Ovviamente perché la risoluzione abbia successo occorre che i componenti
552 intermedi esistano e siano effettivamente directory, e che il file o la
553 directory indicata dall'ultimo componente esista.  Inoltre i permessi relativi
554 alle directory indicate nel \textit{pathname} (torneremo su questo
555 sez.~\ref{sec:file_access_control}) dovranno consentire l'accesso all'intero
556 \textit{pathname}.
557
558 \itindsubbeg{pathname}{assoluto}
559 \itindsubbeg{pathname}{relativo}
560
561 Se il \textit{pathname} comincia con il carattere ``\texttt{/}'' la ricerca
562 parte dalla directory radice del processo. Questa, a meno di non avere
563 eseguito una \func{chroot} (funzione su cui torneremo in
564 sez.~\ref{sec:file_chroot}) è la stessa per tutti i processi ed equivale alla
565 directory radice dell'albero dei file montata dal kernel all'avvio del
566 sistema; in questo caso si parla di un \textsl{pathname assoluto}. Altrimenti
567 la ricerca parte dalla directory di lavoro corrente del processo (su cui
568 torneremo in sez.~\ref{sec:file_work_dir}) ed il \textit{pathname} è detto
569 \textsl{pathname relativo}.
570
571 \itindsubend{pathname}{assoluto}
572 \itindsubend{pathname}{relativo}
573
574 Infine i nomi di directory ``\file{.}'' e ``\file{..}'' hanno un significato
575 speciale e vengono inseriti in ogni directory quando questa viene creata (vedi
576 sez.~\ref{sec:file_dir_creat_rem}). Il primo fa riferimento alla directory
577 corrente e il secondo alla directory \textsl{genitrice} (o \textit{parent
578   directory}) cioè la directory che contiene il riferimento alla directory
579 corrente.
580
581 In questo modo con ``\file{..}'' si può usare un \textit{pathname} relativo
582 per indicare un file posto al di sopra della directory corrente, tornando
583 all'indietro nell'albero dei file.  Questa retromarcia però su fermerà una
584 volta raggiunta la directory radice, perché non esistendo in questo caso una
585 directory superiore, il nome ``\file{..}''  farà riferimento alla radice
586 stessa.
587
588 \itindend{pathname}
589 \itindend{pathname~resolution}
590
591
592 \subsection{I tipi di file}
593 \label{sec:file_file_types}
594
595 Parlare dei tipi di file su Linux, come per qualunque sistema unix-like,
596 significa anzitutto chiarire il proprio vocabolario e sottolineare le
597 differenze che ci sono rispetto ad altri sistemi operativi.
598
599 \index{file!di~dispositivo|(}
600 \index{file!speciali|(} 
601
602 Come accennato in sez.~\ref{sec:file_arch_overview} su Linux l'uso del
603 \textit{Virtual File System} consente di trattare come file oggetti molto
604 diversi fra loro. Oltre ai normali file di dati abbiamo già accennato ad altri
605 due di questi oggetti, i file di dispositivo e le directory, ma ne esistono
606 altri. In genere quando si parla di tipo di file su Linux si fa riferimento a
607 questi, di cui si riportato l'elenco completo in
608 tab.~\ref{tab:file_file_types}.
609
610 \begin{table}[htb]
611   \footnotesize
612   \centering
613     \begin{tabular}[c]{|l|l|p{6cm}|}
614     \hline
615     \multicolumn{2}{|c|}{\textbf{Tipo di file}} & \textbf{Descrizione} \\
616     \hline
617     \hline
618       \textit{regular file}& \textsl{file regolare}
619                            & Un file che contiene dei dati (l'accezione
620                              normale di file).\\
621       \textit{directory}   &\textsl{cartella o direttorio}
622                            & Un file che contiene una lista di nomi associati
623                              a degli \textit{inode} (vedi
624                              sez.~\ref{sec:file_vfs_work}).\\   
625       \textit{symbolic link}&\textsl{collegamento simbolico}
626                            & Un file che contiene un riferimento ad un altro 
627                              file/directory.\\ 
628       \textit{char device} &\textsl{dispositivo a caratteri} 
629                            & Un file \textsl{speciale} che identifica una
630                              periferica ad accesso a caratteri.\\
631       \textit{block device}& \textsl{dispositivo a blocchi} 
632                            & Un file \textsl{speciale} che identifica una
633                              periferica ad accesso a blocchi.\\
634       \textit{fifo} & ``\textsl{coda}'' 
635                            & Un file \textsl{speciale} che identifica una
636                              linea di comunicazione unidirezionale (vedi
637                              sez.~\ref{sec:ipc_named_pipe}).\\
638       \textit{socket} & ``\textsl{presa}''
639                            & Un file \textsl{speciale} che identifica una
640                              linea di comunicazione bidirezionale (vedi
641                              cap.~\ref{cha:socket_intro}).\\
642     \hline
643     \end{tabular}
644     \caption{Tipologia dei file definiti nel VFS}
645     \label{tab:file_file_types}
646 \end{table}
647
648 Si tenga ben presente che questa classificazione non ha nulla a che fare con
649 una classificazione dei file in base al tipo loro del contenuto, dato che in
650 tal caso si avrebbe a che fare sempre e solo con dei file di dati. E non ha
651 niente a che fare neanche con le eventuali diverse modalità con cui si
652 potrebbe accedere al contenuto dei file di dati.  La classificazione di
653 tab.~\ref{tab:file_file_types} riguarda il tipo di oggetti gestiti dal
654 \textit{Virtual File System}, ed è da notare la presenza dei cosiddetti file
655 ``\textsl{speciali}''.
656
657 Alcuni di essi, come le \textit{fifo} (che tratteremo in
658 sez.~\ref{sec:ipc_named_pipe}) ed i \textit{socket} (che tratteremo in
659 cap.~\ref{cha:socket_intro}) non sono altro che dei riferimenti per utilizzare
660 alcune funzionalità di comunicazione fornite dal kernel. Gli altri sono
661 proprio quei \textsl{file di dispositivo} che costituiscono una interfaccia
662 diretta per leggere e scrivere sui dispositivi fisici. Anche se finora li
663 abbiamo chiamati genericamente così, essi sono tradizionalmente suddivisi in
664 due grandi categorie, \textsl{a blocchi} e \textsl{a caratteri} a seconda
665 delle modalità in cui il dispositivo sottostante effettua le operazioni di
666 I/O.
667
668 I dispositivi a blocchi (ad esempio i dischi) sono quelli corrispondono a
669 periferiche per le quali è richiesto che l'I/O venga effettuato per blocchi di
670 dati di dimensioni fissate (nel caso dei dischi le dimensioni di un settore),
671 mentre i dispositivi a caratteri sono quelli per cui l'I/O può essere
672 effettuato senza nessuna particolare struttura, ed in generale anche un byte
673 alla volta, da cui il nome.
674
675 Una delle differenze principali con altri sistemi operativi come il VMS o
676 Windows è che per Unix tutti i file di dati sono identici e contengono un
677 flusso continuo di byte. Non esiste cioè differenza per come vengono visti dal
678 sistema file di diverso contenuto o formato, come nel caso di quella fra file
679 di testo e binari che c'è in Windows. Non c'è neanche una strutturazione a
680 record per il cosiddetto ``\textsl{accesso diretto}'' come nel caso del
681 VMS.\footnote{questo vale anche per i dispositivi a blocchi: la strutturazione
682   dell'I/O in blocchi di dimensione fissa avviene solo all'interno del kernel,
683   ed è completamente trasparente all'utente; inoltre talvolta si parla di
684   \textsl{accesso diretto} riferendosi alla capacità, che non ha niente a che
685   fare con tutto ciò, di effettuare, attraverso degli appositi file di
686   dispositivo, operazioni di I/O direttamente sui dischi senza passare
687   attraverso un filesystem, il cosiddetto \textit{raw access}, introdotto coi
688   kernel della serie 2.4.x ma ormai in sostanziale disuso.}
689
690 \index{file!di~dispositivo|)}
691 \index{file!speciali|)} 
692
693 Una differenza che attiene ai contenuti di un file però esiste, ed è relativa
694 al formato dei file di testo. Nei sistemi unix-like la fine riga è codificata
695 in maniera diversa da Windows o dal vecchio MacOS, in particolare il fine riga
696 è il carattere \texttt{LF} (\verb|\n|) al posto del \texttt{CR} (\verb|\r|)
697 del vecchio MacOS e del \texttt{CR LF} (\verb|\r\n|) di Windows. Questo può
698 causare alcuni problemi qualora nei programmi si facciano assunzioni sul
699 terminatore della riga e per questo esistono dei programmi come \cmd{unix2dos}
700 e \cmd{dos2unix} che effettuano una conversione fra questi due formati di
701 testo.
702
703 Si ricordi comunque che un kernel unix-like non fornisce nessun supporto per
704 la tipizzazione dei file di dati in base al loro contenuto e che non c'è
705 nessun supporto per una qualche interpretazione delle estensioni (nel nome del
706 file) da parte del kernel,\footnote{non è così ad esempio nel filesystem HFS
707   dei Mac, che supporta delle risorse associate ad ogni file, che specificano
708   fra l'altro il contenuto ed il programma da usare per leggerlo; in realtà
709   per alcuni filesystem esiste la possibilità di associare delle risorse ai
710   file con gli \textit{extended attributes} (vedi sez.~\ref{sec:file_xattr}),
711   ma è una caratteristica tutt'ora poco utilizzata, dato che non corrisponde
712   al modello classico dei file in un sistema Unix.} ogni classificazione di
713 questo tipo avviene sempre in \textit{user-space}. Gli unici file di cui il
714 kernel deve essere in grado di capire il contenuto sono i binari dei
715 programmi, per i quali sono supportati solo alcuni formati, anche se oggi
716 viene usato quasi esclusivamente l'ELF.\footnote{il nome è l'acronimo di
717   \textit{Executable and Linkable Format}, un formato per eseguibili binari
718   molto flessibile ed estendibile definito nel 1995 dal \textit{Tool Interface
719     Standard} che per le sue caratteristiche di non essere legato a nessun
720   tipo di processore o architettura è stato adottato da molti sistemi
721   unix-like e non solo.}
722
723 \itindbeg{magic~number}
724
725 Nonostante l'assenza di supporto da parte del kernel per la classificazione
726 del contenuto dei file di dati, molti programmi adottano comunque delle
727 convenzioni per i nomi dei file, ad esempio il codice C normalmente si mette
728 in file con l'estensione \file{.c}. Inoltre una tecnica molto usata per
729 classificare i contenuti da parte dei programmi è quella di utilizzare i primi
730 byte del file per memorizzare un ``\textit{magic number}'' che ne classifichi
731 il contenuto. Il concetto è quello di un numero intero, solitamente fra 2 e 10
732 byte, che identifichi il contenuto seguente, dato che questi sono anche
733 caratteri è comune trovare espresso tale numero con stringhe come
734 ``\texttt{\%PDF}'' per i PDF o ``\texttt{\#!}'' per gli script. Entrambe
735 queste tecniche, per quanto usate ed accettate in maniera diffusa, restano
736 solo delle convenzioni il cui rispetto è demandato alle applicazioni stesse.
737
738 \itindend{magic~number}
739
740
741 \subsection{Le due interfacce per l'accesso ai file}
742 \label{sec:file_io_api}
743
744
745 \itindbeg{file~descriptor}
746
747 In Linux le interfacce di programmazione per l'I/O su file due.  La prima è
748 l'interfaccia nativa del sistema, quella che il manuale delle \textsl{glibc}
749 chiama interfaccia dei ``\textit{file descriptor}'' (in italiano
750 \textsl{descrittori di file}). Si tratta di un'interfaccia specifica dei
751 sistemi unix-like che fornisce un accesso non bufferizzato.
752
753 L'interfaccia è essenziale, l'accesso viene detto non bufferizzato in quanto
754 la lettura e la scrittura vengono eseguite chiamando direttamente le
755 \textit{system call} del kernel, anche se in realtà il kernel effettua al suo
756 interno alcune bufferizzazioni per aumentare l'efficienza nell'accesso ai
757 dispositivi. L'accesso viene gestito attraverso i \textit{file descriptor} che
758 sono rappresentati da numeri interi (cioè semplici variabili di tipo
759 \ctyp{int}).  L'interfaccia è definita nell'\textit{header file}
760 \headfile{unistd.h} e la tratteremo in dettaglio in
761 sez.~\ref{sec:file_unix_interface}.
762
763 \itindbeg{file~stream}
764
765 La seconda interfaccia è quella che il manuale della \acr{glibc} chiama dei
766 \textit{file stream} o più semplicemente degli \textit{stream}.\footnote{in
767   realtà una interfaccia con lo stesso nome è stata introdotta a livello di
768   kernel negli Unix derivati da \textit{System V}, come strato di astrazione
769   per file e socket; in Linux questa interfaccia, che comunque ha avuto poco
770   successo, non esiste, per cui facendo riferimento agli \textit{stream}
771   useremo il significato adottato dal manuale delle \acr{glibc}.} Essa
772 fornisce funzioni più evolute e un accesso bufferizzato, controllato dalla
773 implementazione fatta nella \acr{glibc}.  Questa è l'interfaccia standard
774 specificata dall'ANSI C e perciò si trova anche su tutti i sistemi non
775 Unix. Gli \textit{stream} sono oggetti complessi e sono rappresentati da
776 puntatori ad un opportuna struttura definita dalle librerie del C, ad essi si
777 accede sempre in maniera indiretta utilizzando il tipo \code{FILE *}.
778 L'interfaccia è definita nell'\textit{header file} \headfile{stdio.h} e la
779 tratteremo in dettaglio in sez.~\ref{sec:files_std_interface}.
780
781 Entrambe le interfacce possono essere usate per l'accesso ai file come agli
782 altri oggetti del VFS, ma per poter accedere alle operazioni di controllo
783 (descritte in sez.~\ref{sec:file_fcntl_ioctl}) su un qualunque tipo di oggetto
784 del VFS occorre usare l'interfaccia standard di Unix con i file
785 descriptor. Allo stesso modo devono essere usati i file descriptor se si vuole
786 ricorrere a modalità speciali di I/O come il \textit{file locking} o l'I/O
787 non-bloccante (vedi cap.~\ref{cha:file_advanced}).
788
789 Gli \textit{stream} forniscono un'interfaccia di alto livello costruita sopra
790 quella dei \textit{file descriptor}, che permette di poter scegliere tra
791 diversi stili di bufferizzazione.  Il maggior vantaggio degli \textit{stream}
792 è che l'interfaccia per le operazioni di input/output è molto più ricca di
793 quella dei \textit{file descriptor}, che forniscono solo funzioni elementari
794 per la lettura/scrittura diretta di blocchi di byte.  In particolare gli
795 \textit{stream} dispongono di tutte le funzioni di formattazione per l'input e
796 l'output adatte per manipolare anche i dati in forma di linee o singoli
797 caratteri.
798
799 In ogni caso, dato che gli \textit{stream} sono implementati sopra
800 l'interfaccia standard di Unix, è sempre possibile estrarre il \textit{file
801   descriptor} da uno \textit{stream} ed eseguirvi sopra operazioni di basso
802 livello, o associare in un secondo tempo uno \textit{stream} ad un
803 \textit{file descriptor} per usare l'interfaccia più sofisticata.
804
805 In generale, se non necessitano specificatamente le funzionalità di basso
806 livello, è opportuno usare sempre gli \textit{stream} per la loro maggiore
807 portabilità, essendo questi ultimi definiti nello standard ANSI C;
808 l'interfaccia con i \textit{file descriptor} infatti segue solo lo standard
809 POSIX.1 dei sistemi Unix, ed è pertanto di portabilità più limitata.
810
811 \itindend{file~descriptor}
812 \itindend{file~stream}
813
814 \section{Gli standard}
815 \label{sec:intro_standard}
816
817 In questa sezione faremo una breve panoramica relativa ai vari standard che
818 nel tempo sono stati formalizzati da enti, associazioni, consorzi e
819 organizzazioni varie al riguardo ai sistemi operativi di tipo Unix o alle
820 caratteristiche che si sono stabilite come standard di fatto in quanto facenti
821 parte di alcune implementazioni molto diffuse come BSD o System V.
822
823 Ovviamente prenderemo in considerazione solo gli standard riguardanti
824 interfacce di programmazione e le altre caratteristiche di un sistema
825 unix-like (alcuni standardizzano pure i comandi base del sistema e la shell)
826 ed in particolare ci concentreremo sul come ed in che modo essi sono
827 supportati sia per quanto riguarda il kernel che la Libreria Standard del C,
828 con una particolare attenzione alla \acr{glibc}.
829
830
831 \subsection{Lo standard ANSI C}
832 \label{sec:intro_ansiC}
833
834 Lo standard ANSI C è stato definito nel 1989 dall'\textit{American National
835   Standard Institute} come prima standardizzazione del linguaggio C e per
836 questo si fa riferimento ad esso anche come C89. L'anno successivo è stato
837 adottato dalla ISO (\textit{International Standard Organisation}) come
838 standard internazionale con la sigla ISO/IEC 9899:1990, e per questo è noto
839 anche sotto il nome di standard ISO C, o ISO C90.  Nel 1999 è stata pubblicata
840 una revisione dello standard C89, che viene usualmente indicata come C99,
841 anche questa è stata ratificata dalla ISO con la sigla ISO/IEC 9899:1990, per
842 cui vi si fa riferimento anche come ISO C99.
843
844 Scopo dello standard è quello di garantire la portabilità dei programmi C fra
845 sistemi operativi diversi, ma oltre alla sintassi ed alla semantica del
846 linguaggio C (operatori, parole chiave, tipi di dati) lo standard prevede
847 anche una libreria di funzioni che devono poter essere implementate su
848 qualunque sistema operativo.
849
850 Per questo motivo, anche se lo standard non ha alcun riferimento ad un sistema
851 di tipo Unix, GNU/Linux (per essere precisi la \acr{glibc}), come molti Unix
852 moderni, provvede la compatibilità con questo standard, fornendo le funzioni
853 di libreria da esso previste. Queste sono dichiarate in una serie di
854 \textit{header file} anch'essi forniti dalla \acr{glibc} (tratteremo
855 l'argomento in sez.~\ref{sec:proc_syscall}).
856
857 In realtà la \acr{glibc} ed i relativi \textit{header file} definiscono un
858 insieme di funzionalità in cui sono incluse come sottoinsieme anche quelle
859 previste dallo standard ANSI C. È possibile ottenere una conformità stretta
860 allo standard (scartando le funzionalità addizionali) usando il \cmd{gcc} con
861 l'opzione \cmd{-ansi}. Questa opzione istruisce il compilatore a definire nei
862 vari \textit{header file} soltanto le funzionalità previste dallo standard
863 ANSI C e a non usare le varie estensioni al linguaggio e al preprocessore da
864 esso supportate.
865
866
867 \subsection{I tipi di dati primitivi}
868 \label{sec:intro_data_types}
869
870 Uno dei problemi di portabilità del codice più comune è quello dei tipi di
871 dati utilizzati nei programmi, che spesso variano da sistema a sistema, o
872 anche da una architettura ad un'altra (ad esempio passando da macchine con
873 processori 32 bit a 64). In particolare questo è vero nell'uso dei cosiddetti
874 \index{tipo!elementare} \textit{tipi elementari} del linguaggio C (come
875 \ctyp{int}) la cui dimensione varia a seconda dell'architettura hardware.
876
877 Storicamente alcuni tipi nativi dello standard ANSI C sono sempre stati
878 associati ad alcune variabili nei sistemi Unix, dando per scontata la
879 dimensione. Ad esempio la posizione corrente all'interno di un file è stata
880 associata ad un intero a 32 bit, mentre il numero di dispositivo è stato
881 associato ad un intero a 16 bit. Storicamente questi erano definiti
882 rispettivamente come \ctyp{int} e \ctyp{short}, ma tutte le volte che, con
883 l'evolversi ed il mutare delle piattaforme hardware, alcuni di questi tipi si
884 sono rivelati inadeguati o sono cambiati, ci si è trovati di fronte ad una
885 infinita serie di problemi di portabilità.
886
887 \begin{table}[htb]
888   \footnotesize
889   \centering
890   \begin{tabular}[c]{|l|l|}
891     \hline
892     \textbf{Tipo} & \textbf{Contenuto} \\
893     \hline
894     \hline
895     \typed{caddr\_t} & Core address.\\
896     \typed{clock\_t} & Contatore del \textit{process time} (vedi
897                       sez.~\ref{sec:sys_cpu_times}.\\ 
898     \typed{dev\_t}   & Numero di dispositivo (vedi sez.~\ref{sec:file_mknod}).\\
899     \typed{gid\_t}   & Identificatore di un gruppo (vedi
900                       sez.~\ref{sec:proc_access_id}).\\
901     \typed{ino\_t}   & Numero di \textit{inode} 
902                       (vedi sez.~\ref{sec:file_vfs_work}).\\ 
903     \typed{key\_t}   & Chiave per il System V IPC (vedi
904                       sez.~\ref{sec:ipc_sysv_generic}).\\
905     \typed{loff\_t}  & Posizione corrente in un file.\\
906     \typed{mode\_t}  & Attributi di un file.\\
907     \typed{nlink\_t} & Contatore dei collegamenti su un file.\\
908     \typed{off\_t}   & Posizione corrente in un file.\\
909     \typed{pid\_t}   & Identificatore di un processo (vedi
910                       sez.~\ref{sec:proc_pid}).\\
911     \typed{rlim\_t}  & Limite sulle risorse.\\
912     \typed{sigset\_t}& Insieme di segnali (vedi sez.~\ref{sec:sig_sigset}).\\
913     \typed{size\_t}  & Dimensione di un oggetto.\\
914     \typed{ssize\_t} & Dimensione in numero di byte ritornata dalle funzioni.\\
915     \typed{ptrdiff\_t}& Differenza fra due puntatori.\\
916     \typed{time\_t}  & Numero di secondi (in \textit{calendar time}, vedi 
917                       sez.~\ref{sec:sys_time}).\\
918     \typed{uid\_t}   & Identificatore di un utente (vedi
919                       sez.~\ref{sec:proc_access_id}).\\
920     \hline
921   \end{tabular}
922   \caption{Elenco dei tipi primitivi, definiti in \headfile{sys/types.h}.}
923   \label{tab:intro_primitive_types}
924 \end{table}
925
926 Per questo motivo tutte le funzioni di libreria di solito non fanno
927 riferimento ai tipi elementari dello standard del linguaggio C, ma ad una
928 serie di \index{tipo!primitivo} \textsl{tipi primitivi} del sistema, riportati
929 in tab.~\ref{tab:intro_primitive_types}, e definiti nell'\textit{header file}
930 \headfiled{sys/types.h}, in modo da mantenere completamente indipendenti i tipi
931 utilizzati dalle funzioni di sistema dai tipi elementari supportati dal
932 compilatore C.
933
934
935 \subsection{Lo standard System V}
936 \label{sec:intro_sysv}
937
938 Come noto Unix nasce nei laboratori della AT\&T, che ne registrò il nome come
939 marchio depositato, sviluppandone una serie di versioni diverse; nel 1983 la
940 versione supportata ufficialmente venne rilasciata al pubblico con il nome di
941 Unix System V, e si fa rifermento a questa implementazione con la sigla SysV o
942 SV.
943
944 Negli anni successivi l'AT\&T proseguì lo sviluppo rilasciando varie versioni
945 con aggiunte e integrazioni, ed in particolare la \textit{release 2} nel 1985,
946 a cui si fa riferimento con SVr2 e la \textit{release 3} nel 1986 (denominata
947 SVr3). Le interfacce di programmazione di queste due versioni vennero
948 descritte formalmente in due documenti denominati \textit{System V Interface
949   Definition} (o SVID), pertanto nel 1995 venne rilasciata la specifica SVID 1
950 e nel 1986 la specifica SVID 2.
951
952 Nel 1989 un accordo fra vari venditori (AT\&T, Sun, HP, ed altri) portò ad una
953 versione di System V che provvedeva un'unificazione delle interfacce
954 comprendente anche Xenix e BSD, questa venne denominata \textit{release 4} o
955 SVr4. Anche le relative interfacce vennero descritte in un documento dal
956 titolo \textit{System V Interface Description}, venendo a costituire lo
957 standard SVID 3, che viene considerato la specifica finale di System V, ed a
958 cui spesso si fa riferimento semplicemente con SVID. Anche SVID costituisce un
959 sovrainsieme delle interfacce definite dallo standard POSIX.  
960
961 Nel 1992 venne rilasciata una seconda versione del sistema, la SVr4.2; l'anno
962 successivo la divisione della AT\&T (già a suo tempo rinominata in Unix System
963 Laboratories) venne acquistata dalla Novell, che poi trasferì il marchio Unix
964 al consorzio X/Open. L'ultima versione di System V fu la SVr4.2MP rilasciata
965 nel Dicembre 93. Infine nel 1995 è stata rilasciata da SCO, che aveva
966 acquisito alcuni diritti sul codice di System V, una ulteriore versione delle
967 \textit{System V Interface Description}, che va sotto la denominazione di SVID
968 4.
969
970 Linux e le \acr{glibc} implementano le principali funzionalità richieste dalle
971 specifiche SVID che non sono già incluse negli standard POSIX ed ANSI C, per
972 compatibilità con lo Unix System V e con altri Unix (come SunOS) che le
973 includono. Tuttavia le funzionalità più oscure e meno utilizzate (che non sono
974 presenti neanche in System V) sono state tralasciate.
975
976 Le funzionalità implementate sono principalmente il meccanismo di
977 intercomunicazione fra i processi e la memoria condivisa (il cosiddetto System
978 V IPC, che vedremo in sez.~\ref{sec:ipc_sysv}) le funzioni della famiglia
979 \funcm{hsearch} e \funcm{drand48}, \funcm{fmtmsg} e svariate funzioni
980 matematiche.
981
982
983 \subsection{Lo ``\textsl{standard}'' BSD}
984 \label{sec:intro_bsd}
985
986 Lo sviluppo di BSD iniziò quando la fine della collaborazione fra l'Università
987 di Berkeley e la AT\&T generò una delle prime e più importanti fratture del
988 mondo Unix.  L'università di Berkeley proseguì nello sviluppo della base di
989 codice di cui disponeva, e che presentava parecchie migliorie rispetto alle
990 versioni allora disponibili, fino ad arrivare al rilascio di una versione
991 completa di Unix, chiamata appunto BSD, del tutto indipendente dal codice
992 della AT\&T.
993
994 Benché BSD non sia mai stato uno standard formalizzato, l'implementazione
995 dello Unix dell'Università di Berkeley nella sua storia ha introdotto una
996 serie di estensioni e interfacce di grandissima rilevanza, come i collegamenti
997 simbolici, la funzione \code{select} ed i socket di rete. Per questo motivo si
998 fa spesso riferimento esplicito alle interfacce presenti nelle varie versioni
999 dello Unix di Berkeley con una apposita sigla.
1000
1001 Nel 1983, con il rilascio della versione 4.2 di BSD, venne definita una
1002 implementazione delle funzioni di interfaccia a cui si fa riferimento con la
1003 sigla 4.2BSD. Per fare riferimento alle precedenti versioni si usano poi le
1004 sigle 3BSD e 4BSD (per le due versioni pubblicate nel 1980), e 4.1BSD per
1005 quella pubblicata nel 1981.
1006
1007 Le varie estensioni ideate a Berkeley sono state via via aggiunte al sistema
1008 nelle varie versioni succedutesi negli anni, che vanno sotto il nome di
1009 4.3BSD, per la versione rilasciata nel 1986 e 4.4BSD, per la versione
1010 rilasciata nel 1993, che costituisce l'ultima release ufficiale
1011 dell'università di Berkeley. Si tenga presente che molte di queste interfacce
1012 sono presenti in derivati commerciali di BSD come SunOS. Il kernel Linux e la
1013 \acr{glibc} forniscono tutte queste estensioni che sono state in gran parte
1014 incorporate negli standard successivi.
1015
1016
1017 \subsection{Gli standard IEEE -- POSIX}
1018 \label{sec:intro_posix}
1019
1020 Lo standard ufficiale creato da un organismo indipendente più attinente alle
1021 interfacce di un sistema unix-like nel suo complesso (e che concerne sia il
1022 kernel che le librerie che i comandi) è stato lo standard POSIX. Esso prende
1023 origine dallo standard ANSI C, che contiene come sottoinsieme, prevedendo
1024 ulteriori capacità per le funzioni in esso definite, ed aggiungendone di
1025 nuove.
1026
1027 In realtà POSIX è una famiglia di standard diversi, il cui nome, suggerito da
1028 Richard Stallman, sta per \textit{Portable Operating System Interface}, ma la
1029 X finale denuncia la sua stretta relazione con i sistemi Unix. Esso nasce dal
1030 lavoro dell'IEEE (\textit{Institute of Electrical and Electronics Engeneers})
1031 che ne produsse una prima versione, nota come \textsl{IEEE 1003.1-1988},
1032 mirante a standardizzare l'interfaccia con il sistema operativo.
1033
1034 Ma gli standard POSIX non si limitano alla standardizzazione delle funzioni di
1035 libreria, e in seguito sono stati prodotti anche altri standard per la shell e
1036 i comandi di sistema (1003.2), per le estensioni \textit{real-time} e per i
1037 \textit{thread} (rispettivamente 1003.1d e 1003.1c) per i socket (1003.1g) e
1038 vari altri.  In tab.~\ref{tab:intro_posix_std} è riportata una classificazione
1039 sommaria dei principali documenti prodotti, e di come sono identificati fra
1040 IEEE ed ISO; si tenga conto inoltre che molto spesso si usa l'estensione IEEE
1041 anche come aggiunta al nome POSIX; ad esempio è più comune parlare di POSIX.4
1042 come di POSIX.1b.
1043
1044 Si tenga presente inoltre che nuove specifiche e proposte di standardizzazione
1045 si aggiungono continuamente, mentre le versioni precedenti vengono riviste;
1046 talvolta poi i riferimenti cambiano nome, per cui anche solo seguire le
1047 denominazioni usate diventa particolarmente faticoso; una pagina dove si
1048 possono recuperare varie (e di norma piuttosto intricate) informazioni è
1049 \url{http://www.pasc.org/standing/sd11.html}.
1050
1051 \begin{table}[htb]
1052   \footnotesize
1053   \centering
1054   \begin{tabular}[c]{|l|l|l|l|}
1055     \hline
1056     \textbf{Standard} & \textbf{IEEE} & \textbf{ISO} & \textbf{Contenuto} \\
1057     \hline
1058     \hline
1059     POSIX.1 & 1003.1 & 9945-1& Interfacce di base.                          \\
1060     POSIX.1a& 1003.1a& 9945-1& Estensioni a POSIX.1.                        \\
1061     POSIX.2 & 1003.2 & 9945-2& Comandi.                                     \\
1062     POSIX.3 & 2003   &TR13210& Metodi di test.                              \\
1063     POSIX.4 & 1003.1b &  --- & Estensioni real-time.                        \\
1064     POSIX.4a& 1003.1c &  --- & Thread.                                      \\
1065     POSIX.4b& 1003.1d &9945-1& Ulteriori estensioni real-time.              \\
1066     POSIX.5 & 1003.5  & 14519& Interfaccia per il linguaggio ADA.           \\
1067     POSIX.6 & 1003.2c,1e& 9945-2& Sicurezza.                                \\
1068     POSIX.8 & 1003.1f& 9945-1& Accesso ai file via rete.                    \\
1069     POSIX.9 & 1003.9  &  --- & Interfaccia per il Fortran-77.               \\
1070     POSIX.12& 1003.1g& 9945-1& Socket.                                      \\
1071     \hline
1072   \end{tabular}
1073   \caption{Elenco dei vari standard POSIX e relative denominazioni.}
1074   \label{tab:intro_posix_std}
1075 \end{table}
1076
1077 Benché l'insieme degli standard POSIX siano basati sui sistemi Unix, essi
1078 definiscono comunque un'interfaccia di programmazione generica e non fanno
1079 riferimento ad una implementazione specifica (ad esempio esiste
1080 un'implementazione di POSIX.1 anche sotto Windows NT).  
1081
1082 Linux e la \acr{glibc} implementano tutte le funzioni definite nello standard
1083 POSIX.1, queste ultime forniscono in più alcune ulteriori capacità (per
1084 funzioni di \textit{pattern matching} e per la manipolazione delle
1085 \textit{regular expression}), che vengono usate dalla shell e dai comandi di
1086 sistema e che sono definite nello standard POSIX.2.
1087
1088 Nelle versioni più recenti del kernel e delle librerie sono inoltre supportate
1089 ulteriori funzionalità aggiunte dallo standard POSIX.1c per quanto riguarda i
1090 \textit{thread} (vedi cap.~\ref{cha:threads}), e dallo standard POSIX.1b per
1091 quanto riguarda i segnali e lo scheduling real-time
1092 (sez.~\ref{sec:sig_real_time} e sez.~\ref{sec:proc_real_time}), la misura del
1093 tempo, i meccanismi di intercomunicazione (sez.~\ref{sec:ipc_posix}) e l'I/O
1094 asincrono (sez.~\ref{sec:file_asyncronous_io}).
1095
1096 Lo standard principale resta comunque POSIX.1, che continua ad evolversi; la
1097 versione più nota, cui gran parte delle implementazioni fanno riferimento, e
1098 che costituisce una base per molti altri tentativi di standardizzazione, è
1099 stata rilasciata anche come standard internazionale con la sigla
1100 \textsl{ISO/IEC 9945-1:1996} ed include i precedenti POSIX.1b e POSIX.1c. In
1101 genere si fa riferimento ad essa come POSIX.1-1996.
1102
1103 Nel 2001 è stata poi eseguita una sintesi degli standard POSIX.1, POSIX.2 e
1104 SUSv3 (vedi sez.~\ref{sec:intro_xopen}) in un unico documento, redatto sotto
1105 gli auspici del cosiddetto gruppo Austin che va sotto il nome di POSIX.1-2001.
1106 Questo standard definisce due livelli di conformità, quello POSIX, in cui sono
1107 presenti solo le interfacce di base, e quello XSI che richiede la presenza di
1108 una serie di estensioni opzionali per lo standard POSIX, riprese da SUSv3.
1109 Inoltre lo standard è stato allineato allo standard C99, e segue lo stesso
1110 nella definizione delle interfacce.
1111
1112 A questo standard sono stati aggiunti due documenti di correzione e
1113 perfezionamento denominati \textit{Technical Corrigenda}, il TC1 del 2003 ed
1114 il TC2 del 2004, e talvolta si fa riferimento agli stessi con le sigle
1115 POSIX.1-2003 e POSIX.1-2004. 
1116
1117 Una ulteriore revisione degli standard POSIX e SUS è stata completata e
1118 ratificata nel 2008, cosa che ha portato al rilascio di una nuova versione
1119 sotto il nome di POSIX.1-2008 (e SUSv4), con l'incorporazione di alcune nuove
1120 interfacce, la obsolescenza di altre, la trasformazione da opzionali a
1121 richieste di alcune specifiche di base, oltre alle solite precisazioni ed
1122 aggiornamenti. Anche in questo caso è prevista la suddivisione in una
1123 conformità di base, e delle interfacce aggiuntive.
1124
1125 Le procedure di aggiornamento dello standard POSIX prevedono comunque un
1126 percorso continuo, che prevede la possibilità di introduzione di nuove
1127 interfacce e la definizione di precisazioni ed aggiornamenti, per questo in
1128 futuro verranno rilasciate nuove versioni. Alla stesura di queste note
1129 l'ultima revisione approvata resta POSIX.1-2008, uno stato della situazione
1130 corrente del supporto degli standard è allegato alla documentazione della
1131 \acr{glibc} e si può ottenere con il comando \texttt{man standards}.
1132
1133
1134 \subsection{Gli standard X/Open -- Opengroup -- Unix}
1135 \label{sec:intro_xopen}
1136
1137 Il consorzio X/Open nacque nel 1984 come consorzio di venditori di sistemi
1138 Unix per giungere ad un'armonizzazione delle varie implementazioni.  Per far
1139 questo iniziò a pubblicare una serie di documentazioni e specifiche sotto il
1140 nome di \textit{X/Open Portability Guide} a cui di norma si fa riferimento con
1141 l'abbreviazione XPG$n$, con $n$ che indica la versione.
1142
1143 Nel 1989 il consorzio produsse una terza versione di questa guida
1144 particolarmente voluminosa (la \textit{X/Open Portability Guide, Issue 3}),
1145 contenente una dettagliata standardizzazione dell'interfaccia di sistema di
1146 Unix, che venne presa come riferimento da vari produttori. Questo standard,
1147 detto anche XPG3 dal nome della suddetta guida, è sempre basato sullo standard
1148 POSIX.1, ma prevede una serie di funzionalità aggiuntive fra cui le specifiche
1149 delle API\footnote{le \textit{Application Programmable Interface}, in sostanze
1150   le interfacce di programmazione.} per l'interfaccia grafica (X11).
1151
1152 Nel 1992 lo standard venne rivisto con una nuova versione della guida, la
1153 Issue 4, da cui la sigla XPG4, che aggiungeva l'interfaccia XTI (\textit{X
1154   Transport Interface}) mirante a soppiantare (senza molto successo)
1155 l'interfaccia dei socket derivata da BSD. Una seconda versione della guida fu
1156 rilasciata nel 1994; questa è nota con il nome di Spec 1170 (dal numero delle
1157 interfacce, intestazioni e comandi definiti) ma si fa riferimento ad essa
1158 anche come XPG4v2.
1159
1160 Nel 1993 il marchio Unix passò di proprietà dalla Novell (che a sua volta lo
1161 aveva comprato dalla AT\&T) al consorzio X/Open che iniziò a pubblicare le sue
1162 specifiche sotto il nome di \textit{Single UNIX Specification} o SUS, l'ultima
1163 versione di Spec 1170 diventò così la prima versione delle \textit{Single UNIX
1164   Specification}, detta SUS o SUSv1, ma più comunemente nota anche come
1165 \textit{Unix 95}.
1166
1167 Nel 1996 la fusione del consorzio X/Open con la Open Software Foundation (nata
1168 da un gruppo di aziende concorrenti rispetto ai fondatori di X/Open) portò
1169 alla costituzione dell'\textit{Open Group}, un consorzio internazionale che
1170 raccoglie produttori, utenti industriali, entità accademiche e governative.
1171 Attualmente il consorzio è detentore del marchio depositato Unix, e prosegue
1172 il lavoro di standardizzazione delle varie implementazioni, rilasciando
1173 periodicamente nuove specifiche e strumenti per la verifica della conformità
1174 alle stesse.
1175
1176 Nel 1997 fu annunciata la seconda versione delle \textit{Single UNIX
1177   Specification}, nota con la sigla SUSv2, in questa versione le interfacce
1178 specificate salgono a 1434, e addirittura a 3030 se si considerano le stazioni
1179 di lavoro grafiche, per le quali sono inserite pure le interfacce usate da CDE
1180 che richiede sia X11 che Motif. La conformità a questa versione permette l'uso
1181 del nome \textit{Unix 98}, usato spesso anche per riferirsi allo standard. Un
1182 altro nome alternativo di queste specifiche, date le origini, è XPG5.
1183
1184 Come accennato nel 2001, con il rilascio dello standard POSIX.1-2001, è stato
1185 effettuato uno sforzo di sintesi in cui sono state comprese, nella parte di
1186 interfacce estese, anche le interfacce definite nelle \textit{Single UNIX
1187   Specification}, pertanto si può fare riferimento a detto standard, quando
1188 comprensivo del rispetto delle estensioni XSI, come SUSv3, e fregiarsi del
1189 marchio UNIX 03 se conformi ad esso. 
1190
1191 Infine, come avvenuto per POSIX.1-2001, anche con la successiva revisione
1192 dello standard POSIX.1 (la POSIX.1-2008) è stato stabilito che la conformità
1193 completa a tutte quelle che sono le nuove estensioni XSI previste
1194 dall'aggiornamento vada a definire la quarta versione delle \textit{Single
1195   UNIX Specification}, chiamata appunto SUSv4.
1196
1197
1198 \subsection{Il controllo di aderenza agli standard}
1199 \label{sec:intro_gcc_glibc_std}
1200
1201 In Linux, se si usa la \acr{glibc}, la conformità agli standard appena
1202 descritti può essere richiesta sia attraverso l'uso di opportune opzioni del
1203 compilatore (il \texttt{gcc}) che definendo delle specifiche costanti prima
1204 dell'inclusione dei file di intestazione (gli \textit{header file}, vedi
1205 sez.~\ref{sec:proc_syscall}) che definiscono le funzioni di libreria.
1206
1207 Ad esempio se si vuole che i programmi seguano una stretta attinenza allo
1208 standard ANSI C si può usare l'opzione \texttt{-ansi} del compilatore, e non
1209 potrà essere utilizzata nessuna funzione non riconosciuta dalle specifiche
1210 standard ISO per il C.  Il \texttt{gcc} possiede inoltre una specifica opzione
1211 per richiedere la conformità ad uno standard, nella forma \texttt{-std=nome},
1212 dove \texttt{nome} può essere \texttt{c89} per indicare lo standard ANSI C
1213 (vedi sez.~\ref{sec:intro_ansiC}) o \texttt{c99} per indicare la conformità
1214 allo standard C99.\footnote{che non è al momento completa, esistono anche le
1215   possibilità di usare i valori \texttt{gnu89}, l'attuale default, che indica
1216   l'uso delle estensioni GNU al C89, riprese poi dal C99, o \texttt{gnu89} che
1217   indica il dialetto GNU del C99, che diventerà il default quando la
1218   conformità a quest'ultimo sarà completa.}
1219
1220 Per attivare le varie opzioni di controllo di aderenza agli standard è poi
1221 possibile definire delle macro di preprocessore che controllano le
1222 funzionalità che la \acr{glibc} può mettere a disposizione:\footnote{le macro
1223   sono definite nel file di dichiarazione \file{<features.h>}, ma non è
1224   necessario includerlo nei propri programmi in quanto viene automaticamente
1225   incluso da tutti gli altri file di dichiarazione che utilizzano le macro in
1226   esso definite; si tenga conto inoltre che il file definisce anche delle
1227   ulteriori macro interne, in genere con un doppio prefisso di \texttt{\_},
1228   che non devono assolutamente mai essere usate direttamente. } questo può
1229 essere fatto attraverso l'opzione \texttt{-D} del compilatore, ma è buona
1230 norma farlo inserendo gli opportuni \code{\#define} prima della inclusione dei
1231 propri \textit{header file} (vedi sez.~\ref{sec:proc_syscall}).
1232
1233 Le macro disponibili per controllare l'aderenza ai vari standard messi a
1234 disposizione della \acr{glibc}, che rendono disponibili soltanto le funzioni
1235 in essi definite, sono illustrate nel seguente elenco:
1236 \begin{basedescript}{\desclabelwidth{2.7cm}\desclabelstyle{\nextlinelabel}}
1237 \item[\macrod{\_\_STRICT\_ANSI\_\_}] richiede l'aderenza stretta allo standard
1238   C ISO; viene automaticamente predefinita qualora si invochi il \texttt{gcc}
1239   con le opzione \texttt{-ansi} o \texttt{-std=c99}.
1240
1241 \item[\macrod{\_POSIX\_SOURCE}] definendo questa macro (considerata obsoleta)
1242   si rendono disponibili tutte le funzionalità dello standard POSIX.1 (la
1243   versione IEEE Standard 1003.1) insieme a tutte le funzionalità dello
1244   standard ISO C. Se viene anche definita con un intero positivo la macro
1245   \macro{\_POSIX\_C\_SOURCE} lo stato di questa non viene preso in
1246   considerazione.
1247
1248 \item[\macrod{\_POSIX\_C\_SOURCE}] definendo questa macro ad un valore intero
1249   positivo si controlla quale livello delle funzionalità specificate da POSIX
1250   viene messa a disposizione; più alto è il valore maggiori sono le
1251   funzionalità:
1252   \begin{itemize}
1253   \item un valore uguale a ``\texttt{1}'' rende disponibili le funzionalità
1254     specificate nella edizione del 1990 (IEEE Standard 1003.1-1990);
1255   \item valori maggiori o uguali a ``\texttt{2}'' rendono disponibili le
1256     funzionalità previste dallo standard POSIX.2 specificate nell'edizione del
1257     1992 (IEEE Standard 1003.2-1992),
1258   \item un valore maggiore o uguale a ``\texttt{199309L}'' rende disponibili
1259     le funzionalità previste dallo standard POSIX.1b specificate nell'edizione
1260     del 1993 (IEEE Standard 1003.1b-1993);
1261   \item un valore maggiore o uguale a ``\texttt{199506L}'' rende disponibili
1262     le funzionalità previste dallo standard POSIX.1 specificate nell'edizione
1263     del 1996 (\textit{ISO/IEC 9945-1:1996}), ed in particolare le definizioni
1264     dello standard POSIX.1c per i \textit{thread};
1265   \item a partire dalla versione 2.3.3 della \acr{glibc} un valore maggiore o
1266     uguale a ``\texttt{200112L}'' rende disponibili le funzionalità di base
1267     previste dallo standard POSIX.1-2001, escludendo le estensioni XSI;
1268   \item a partire dalla versione 2.10 della \acr{glibc} un valore maggiore o
1269     uguale a ``\texttt{200809L}'' rende disponibili le funzionalità di base
1270     previste dallo standard POSIX.1-2008, escludendo le estensioni XSI;
1271   \item in futuro valori superiori potranno abilitare ulteriori estensioni.
1272   \end{itemize}
1273
1274 \item[\macrod{\_BSD\_SOURCE}] definendo questa macro si rendono disponibili le
1275   funzionalità derivate da BSD4.3, insieme a quelle previste dagli standard
1276   ISO C, POSIX.1 e POSIX.2; alcune delle funzionalità previste da BSD sono
1277   però in conflitto con le corrispondenti definite nello standard POSIX.1, in
1278   questo caso se la macro è definita le definizioni previste da BSD4.3 avranno
1279   la precedenza rispetto a POSIX.
1280
1281   A causa della natura dei conflitti con POSIX per ottenere una piena
1282   compatibilità con BSD4.3 può essere necessario anche usare una libreria di
1283   compatibilità, dato che alcune funzioni sono definite in modo diverso. In
1284   questo caso occorrerà anche usare l'opzione \cmd{-lbsd-compat} con il
1285   compilatore per indicargli di utilizzare le versioni nella libreria di
1286   compatibilità prima di quelle normali.
1287
1288   Si tenga inoltre presente che la preferenza verso le versioni delle funzioni
1289   usate da BSD viene mantenuta soltanto se nessuna delle ulteriori macro di
1290   specificazione di standard successivi (vale a dire una fra
1291   \macro{\_POSIX\_C\_SOURCE}, \macro{\_POSIX\_SOURCE}, \macro{\_SVID\_SOURCE},
1292   \macro{\_XOPEN\_SOURCE}, \macro{\_XOPEN\_SOURCE\_EXTENDED} o
1293   \macro{\_GNU\_SOURCE}) è stata a sua volta attivata, nel qual caso queste
1294   hanno la precedenza. Se però si definisce \macro{\_BSD\_SOURCE} dopo aver
1295   definito una di queste macro, l'effetto sarà quello di dare la precedenza
1296   alle funzioni in forma BSD. Questa macro, essendo ricompresa in
1297   \macro{\_DEFAULT\_SOURCE} che è definita di default, è stata deprecata a
1298   partire dalle \acr{glibc} 2.20.
1299
1300 \item[\macrod{\_SVID\_SOURCE}] definendo questa macro si rendono disponibili le
1301   funzionalità derivate da SVID. Esse comprendono anche quelle definite negli
1302   standard ISO C, POSIX.1, POSIX.2, e X/Open (XPG$n$) illustrati in
1303   precedenza. Questa macro, essendo ricompresa in \macro{\_DEFAULT\_SOURCE}
1304   che è definita di default, è stata deprecata a partire dalle \acr{glibc}
1305   2.20.
1306
1307 \item[\macrod{\_DEFAULT\_SOURCE}] questa macro abilita le definizioni
1308   considerate il \textit{default}, comprese quelle richieste dallo standard
1309   POSIX.1-2008, ed è sostanzialente equivalente all'insieme di
1310   \macro{\_SVID\_SOURCE}, \macro{\_BSD\_SOURCE} e
1311   \macro{\_POSIX\_C\_SOURCE}. Essendo predefinita non è necessario usarla a
1312   meno di non aver richiesto delle definizioni più restrittive sia con altre
1313   macro che con i flag del compilatore, nel qual caso abilita le funzioni che
1314   altrimenti sarebbero disabilitate. Questa macro è stata introdotta a partire
1315   dalle \acr{glibc} 2.19 e consente di deprecare \macro{\_SVID\_SOURCE} e
1316   \macro{\_BSD\_SOURCE}.
1317
1318 \item[\macrod{\_XOPEN\_SOURCE}] definendo questa macro si rendono disponibili
1319   le funzionalità descritte nella \textit{X/Open Portability Guide}. Anche
1320   queste sono un sovrainsieme di quelle definite negli standard POSIX.1 e
1321   POSIX.2 ed in effetti sia \macro{\_POSIX\_SOURCE} che
1322   \macro{\_POSIX\_C\_SOURCE} vengono automaticamente definite. Sono incluse
1323   anche ulteriori funzionalità disponibili in BSD e SVID, più una serie di
1324   estensioni a secondo dei seguenti valori:
1325   \begin{itemize}
1326   \item la definizione della macro ad un valore qualunque attiva le
1327     funzionalità specificate negli standard POSIX.1, POSIX.2 e XPG4;
1328   \item un valore di ``\texttt{500}'' o superiore rende disponibili anche le
1329     funzionalità introdotte con SUSv2, vale a dire la conformità ad Unix98;
1330   \item a partire dalla versione 2.2 della \acr{glibc} un valore uguale a
1331     ``\texttt{600}'' o superiore rende disponibili anche le funzionalità
1332     introdotte con SUSv3, corrispondenti allo standard POSIX.1-2001 più le
1333     estensioni XSI.
1334   \item a partire dalla versione 2.10 della \acr{glibc} un valore uguale a
1335     ``\texttt{700}'' o superiore rende disponibili anche le funzionalità
1336     introdotte con SUSv4, corrispondenti allo standard POSIX.1-2008 più le
1337     estensioni XSI.
1338   \end{itemize}
1339
1340 \item[\macrod{\_XOPEN\_SOURCE\_EXTENDED}] definendo questa macro si rendono
1341   disponibili le ulteriori funzionalità necessarie ad essere conformi al
1342   rilascio del marchio \textit{X/Open Unix} corrispondenti allo standard
1343   Unix95, vale a dire quelle specificate da SUSv1/XPG4v2. Questa macro viene
1344   definita implicitamente tutte le volte che si imposta
1345   \macro{\_XOPEN\_SOURCE} ad un valore maggiore o uguale a 500.
1346
1347 \item[\macrod{\_ISOC99\_SOURCE}] definendo questa macro si rendono disponibili
1348   le funzionalità previste per la revisione delle librerie standard del C
1349   introdotte con lo standard ISO C99. La macro è definita a partire dalla
1350   versione 2.1.3 della \acr{glibc}. 
1351
1352   Le versioni precedenti la serie 2.1.x riconoscevano le stesse estensioni con
1353   la macro \macro{\_ISOC9X\_SOURCE}, dato che lo standard non era stato
1354   finalizzato, ma la \acr{glibc} aveva già un'implementazione completa che
1355   poteva essere attivata definendo questa macro. Benché questa sia obsoleta
1356   viene tuttora riconosciuta come equivalente di \macro{\_ISOC99\_SOURCE} per
1357   compatibilità.
1358
1359 \item[\macrod{\_ISOC11\_SOURCE}] definendo questa macro si rendono disponibili
1360   le funzionalità previste per la revisione delle librerie standard del C
1361   introdotte con lo standard ISO C11, e abilita anche quelle previste dagli
1362   standard C99 e C95. La macro è definita a partire dalla versione 2.16 della
1363   \acr{glibc}.
1364
1365 \item[\macrod{\_GNU\_SOURCE}] definendo questa macro si rendono disponibili
1366   tutte le funzionalità disponibili nei vari standard oltre a varie estensioni
1367   specifiche presenti solo nella \acr{glibc} ed in Linux. Gli standard coperti
1368   sono: ISO C89, ISO C99, POSIX.1, POSIX.2, BSD, SVID, X/Open, SUS.
1369
1370   L'uso di \macro{\_GNU\_SOURCE} è equivalente alla definizione contemporanea
1371   delle macro: \macro{\_BSD\_SOURCE}, \macro{\_SVID\_SOURCE},
1372   \macro{\_POSIX\_SOURCE}, \macro{\_ISOC99\_SOURCE}, e inoltre di
1373   \macro{\_POSIX\_C\_SOURCE} con valore ``\texttt{200112L}'' (o
1374   ``\texttt{199506L}'' per le versioni della \acr{glibc} precedenti la 2.5),
1375   \macro{\_XOPEN\_SOURCE\_EXTENDED} e \macro{\_XOPEN\_SOURCE} con valore 600
1376   (o 500 per le versioni della \acr{glibc} precedenti la 2.2); oltre a queste
1377   vengono pure attivate le ulteriori due macro \macro{\_ATFILE\_SOURCE} e
1378   \macrod{\_LARGEFILE64\_SOURCE} che definiscono funzioni previste
1379   esclusivamente dalla \acr{glibc}.
1380  
1381 \end{basedescript}
1382
1383 Benché Linux supporti in maniera estensiva gli standard più diffusi, esistono
1384 comunque delle estensioni e funzionalità specifiche, non presenti in altri
1385 standard e lo stesso vale per la \acr{glibc}, che definisce anche delle
1386 ulteriori funzioni di libreria. Ovviamente l'uso di queste funzionalità deve
1387 essere evitato se si ha a cuore la portabilità, ma qualora questo non sia un
1388 requisito esse possono rivelarsi molto utili.
1389
1390 Come per l'aderenza ai vari standard, le funzionalità aggiuntive possono
1391 essere rese esplicitamente disponibili tramite la definizione di opportune
1392 macro di preprocessore, alcune di queste vengono attivate con la definizione
1393 di \macro{\_GNU\_SOURCE}, mentre altre devono essere attivate esplicitamente,
1394 inoltre alcune estensioni possono essere attivate indipendentemente tramite
1395 una opportuna macro; queste estensioni sono illustrate nel seguente elenco:
1396
1397 \begin{basedescript}{\desclabelwidth{2.7cm}\desclabelstyle{\nextlinelabel}}
1398
1399 \item[\macrod{\_LARGEFILE\_SOURCE}] definendo questa macro si rendono
1400   disponibili alcune funzioni che consentono di superare una inconsistenza
1401   presente negli standard con i file di grandi dimensioni, ed in particolare
1402   definire le due funzioni \func{fseeko} e \func{ftello} che al contrario
1403   delle corrispettive \func{fseek} e \func{ftell} usano il tipo di dato
1404   specifico \type{off\_t} (vedi sez.~\ref{sec:file_io}).
1405
1406 \item[\macrod{\_LARGEFILE64\_SOURCE}] definendo questa macro si rendono
1407   disponibili le funzioni di una interfaccia alternativa al supporto di valori
1408   a 64 bit nelle funzioni di gestione dei file (non supportati in certi
1409   sistemi), caratterizzate dal suffisso \texttt{64} aggiunto ai vari nomi di
1410   tipi di dato e funzioni (come \typed{off64\_t} al posto di \type{off\_t} o
1411   \funcm{lseek64} al posto di \func{lseek}).
1412
1413   Le funzioni di questa interfaccia alternativa sono state proposte come una
1414   estensione ad uso di transizione per le \textit{Single UNIX Specification},
1415   per consentire la gestione di file di grandi dimensioni anche nei sistemi a
1416   32 bit, in cui la dimensione massima, espressa con un intero, non poteva
1417   superare i 2Gb.  Nei nuovi programmi queste funzioni devono essere evitate,
1418   a favore dell'uso macro \macro{\_FILE\_OFFSET\_BITS}, che definita al valore
1419   di \texttt{64} consente di usare in maniera trasparente le funzioni
1420   dell'interfaccia classica.
1421
1422 \item[\macrod{\_FILE\_OFFSET\_BITS}] la definizione di questa macro al valore
1423   di \texttt{64} consente di attivare la conversione automatica di tutti i
1424   riferimenti a dati e funzioni a 32 bit nelle funzioni di interfaccia ai file
1425   con le equivalenti a 64 bit, senza dover utilizzare esplicitamente
1426   l'interfaccia alternativa appena illustrata. In questo modo diventa
1427   possibile usare le ordinarie funzioni per effettuare operazioni a 64 bit sui
1428   file anche su sistemi a 32 bit.\footnote{basterà ricompilare il programma
1429     dopo averla definita, e saranno usate in modo trasparente le funzioni a 64
1430     bit.}
1431
1432   Se la macro non è definita o è definita con valore \texttt{32} questo
1433   comportamento viene disabilitato, e sui sistemi a 32 bit verranno usate le
1434   ordinarie funzioni a 32 bit, non avendo più il supporto per file di grandi
1435   dimensioni. Su sistemi a 64 bit invece, dove il problema non sussiste, la
1436   macro non ha nessun effetto.
1437
1438 \item[\macrod{\_ATFILE\_SOURCE}] definendo questa macro si rendono disponibili
1439   le estensioni delle funzioni di creazione, accesso e modifica di file e
1440   directory che risolvono i problemi di sicurezza insiti nell'uso di
1441   \textit{pathname} relativi con programmi \textit{multi-thread} illustrate in
1442   sez.~\ref{sec:file_openat}.
1443
1444 \item[\macrod{\_REENTRANT}] definendo questa macro, o la equivalente
1445   \macrod{\_THREAD\_SAFE} (fornita per compatibilità) si rendono disponibili le
1446   versioni rientranti (vedi sez.~\ref{sec:proc_reentrant}) di alcune funzioni,
1447   necessarie quando si usano i \textit{thread}.  Alcune di queste funzioni
1448   sono anche previste nello standard POSIX.1c, ma ve ne sono altre che sono
1449   disponibili soltanto su alcuni sistemi, o specifiche della \acr{glibc}, e
1450   possono essere utilizzate una volta definita la macro.
1451
1452 \item[\macrod{\_FORTIFY\_SOURCE}] definendo questa macro viene abilitata
1453   l'inserimento di alcuni controlli per alcune funzioni di allocazione e
1454   manipolazione di memoria e stringhe che consentono di rilevare
1455   automaticamente alcuni errori di \textit{buffer overflow} nell'uso delle
1456   stesse. La funzionalità è stata introdotta a partire dalla versione 2.3.4
1457   della \acr{glibc} e richiede anche il supporto da parte del compilatore, che
1458   è disponibile solo a partire dalla versione 4.0 del \texttt{gcc}.
1459
1460   Le funzioni di libreria che vengono messe sotto controllo quando questa
1461   funzionalità viene attivata sono, al momento della stesura di queste note,
1462   le seguenti: \funcm{memcpy}, \funcm{mempcpy}, \funcm{memmove},
1463   \funcm{memset}, \funcm{stpcpy}, \funcm{strcpy}, \funcm{strncpy},
1464   \funcm{strcat}, \funcm{strncat}, \func{sprintf}, \func{snprintf},
1465   \func{vsprintf}, \func{vsnprintf}, e \func{gets}.
1466
1467   La macro prevede due valori, con \texttt{1} vengono eseguiti dei controlli
1468   di base che non cambiano il comportamento dei programmi se si richiede una
1469   ottimizzazione di livello uno o superiore,\footnote{vale a dire se si usa
1470     l'opzione \texttt{-O1} o superiore del \texttt{gcc}.}  mentre con il
1471   valore \texttt{2} vengono aggiunti maggiori controlli. Dato che alcuni dei
1472   controlli vengono effettuati in fase di compilazione l'uso di questa macro
1473   richiede anche la collaborazione del compilatore, disponibile dalla
1474   versione 4.0 del \texttt{gcc}.
1475
1476 \end{basedescript}
1477
1478 Se non è stata specificata esplicitamente nessuna di queste macro il default
1479 assunto è che siano definite \macro{\_BSD\_SOURCE}, \macro{\_SVID\_SOURCE},
1480 \macro{\_POSIX\_SOURCE} e, con le versioni della \acr{glibc} più recenti, che
1481 la macro \macro{\_POSIX\_C\_SOURCE} abbia il valore ``\texttt{200809L}'', per
1482 versioni precedenti della \acr{glibc} il valore assegnato a
1483 \macro{\_POSIX\_C\_SOURCE} era di ``\texttt{200112L}'' prima delle 2.10, di
1484 ``\texttt{199506L}'' prima delle 2.4, di ``\texttt{199506L}'' prima delle
1485 2.1. Si ricordi infine che perché queste macro abbiano effetto devono essere
1486 sempre definite prima dell'inclusione dei file di dichiarazione.
1487
1488
1489 % vedi anche man feature_test_macros
1490
1491 % LocalWords:  like kernel multitasking scheduler preemptive sez swap is cap VM
1492 % LocalWords:  everything bootstrap init shell Windows Foundation system call
1493 % LocalWords:  fig libc uClib glibc embedded Library POSIX username PAM Methods
1494 % LocalWords:  Pluggable Autentication group supplementary Name Service Switch
1495 % LocalWords:  LDAP identifier uid gid superuser root if BSD SVr dall' American
1496 % LocalWords:  National Institute International Organisation IEC header tab gcc
1497 % LocalWords:  assert ctype dirent errno fcntl limits malloc setjmp signal utmp
1498 % LocalWords:  stdarg stdio stdlib string times unistd library int short caddr
1499 % LocalWords:  address clock dev ino inode key IPC loff nlink off pid rlim size
1500 % LocalWords:  sigset ssize ptrdiff sys IEEE Richard Portable of TR filesystem
1501 % LocalWords:  Operating Interface dell'IEEE Electrical and Electronics thread
1502 % LocalWords:  Engeneers Socket NT matching regular expression scheduling l'I
1503 % LocalWords:  XPG Portability Issue Application Programmable XTI Transport AT
1504 % LocalWords:  socket Spec Novell Specification SUSv CDE Motif Berkley select
1505 % LocalWords:  SunOS l'AT Sun HP Xenix Description SVID Laboratories MP hsearch
1506 % LocalWords:  drand fmtmsg define SOURCE lbsd compat XOPEN version ISOC Large
1507 % LocalWords:  LARGEFILE Support LFS dell' black rectangle node fill cpu draw
1508 % LocalWords:  ellipse mem anchor west proc SysV SV Definition SCO Austin XSI
1509 % LocalWords:  Technical TC SUS Opengroup features STRICT std ATFILE fseeko VFS
1510 % LocalWords:  ftello fseek ftell lseek FORTIFY REENTRANT SAFE overflow memcpy
1511 % LocalWords:  mempcpy memmove memset stpcpy strcpy strncpy strcat strncat gets
1512 % LocalWords:  sprintf snprintf vsprintf vsnprintf syscall number calendar BITS
1513 % LocalWords:  pathname Google Android standards device Virtual bootloader path
1514 % LocalWords:  filename fifo name components resolution chroot parent symbolic
1515 % LocalWords:  char block VMS raw access MacOS LF CR dos HFS Mac attributes
1516 % LocalWords:  Executable Linkable Format Tool magic descriptor stream locking
1517 % LocalWords:  process
1518
1519 %%% Local Variables: 
1520 %%% mode: latex
1521 %%% TeX-master: "gapil"
1522 %%% End: