intro.tex

   1 \chapter{L'architettura di GNU/Linux}
   2 \label{cha:intro_unix}
   3
   4 In questo primo capitolo sarà fatta un'introduzione ai concetti generali su
   5 cui è basato un sistema di tipo unix come GNU/Linux, in questo modo potremo
   6 fornire una base di comprensione mirata a sottolineare le peculiarità del
   7 sistema che sono più rilevanti per quello che riguarda la programmazione.
   8
   9 Dopo una introduzione sulle caratteristiche principali di un sistema di tipo
  10 unix passeremo ad illustrare alcuni dei concetti base dell'architettura di
  11 GNU/Linux (che sono comunque comuni a tutti i sistemi \textit{unix-like}) ed
  12 introdurremo alcuni degli standard principali a cui viene fatto riferimento.
  13
  14
  15 \section{Una panoramica}
  16 \label{sec:intro_unix_struct}
  17
  18 In questa prima sezione faremo una breve panoramica sull'architettura del
  19 sistema.  Chi avesse già una conoscenza di questa materia può tranquillamente
  20 saltare questa sezione.
  21
  22 Il concetto base di un sistema unix-like è quello di un nucleo del sistema (il
  23 cosiddetto \textit{kernel}) a cui si demanda la gestione delle risorse
  24 essenziali (la CPU, la memoria, le periferiche) mentre tutto il resto, quindi
  25 anche la parte che prevede l'interazione con l'utente, deve venire realizzato
  26 tramite programmi eseguiti dal kernel e che accedano alle risorse hardware
  27 tramite delle richieste a quest'ultimo.
  28
  29 Fin dall'inizio uno unix si presenta come un sistema operativo
  30 \textit{multitasking}, cioè in grado di eseguire contemporaneamente più
  31 programmi, e multiutente, in cui è possibile che più utenti siano connessi ad
  32 una macchina eseguendo più programmi ``in contemporanea'' (in realtà, almeno
  33 per macchine a processore singolo, i programmi vengono eseguiti singolarmente
  34 a rotazione).
  35
  36 % Questa e` una distinzione essenziale da capire,
  37 %specie nei confronti dei sistemi operativi successivi, nati per i personal
  38 %computer (e quindi per un uso personale), sui quali l'hardware (allora
  39 %limitato) non consentiva la realizzazione di un sistema evoluto come uno unix.
  40
  41 Gli unix più recenti, come Linux, sono realizzati sfruttando alcune
  42 caratteristiche dei processori moderni come la gestione hardware della memoria
  43 e la modalità protetta. In sostanza con i processori moderni si può
  44 disabilitare temporaneamente l'uso di certe istruzioni e l'accesso a certe
  45 zone di memoria fisica.  Quello che succede è che il kernel è il solo
  46 programma ad essere eseguito in modalità privilegiata, con il completo accesso
  47 all'hardware, mentre i programmi normali vengono eseguiti in modalità protetta
  48 (e non possono accedere direttamente alle zone di memoria riservate o alle
  49 porte di input/output).
  50
  51 Una parte del kernel, lo \textit{scheduler}, si occupa di stabilire, ad
  52 intervalli fissi e sulla base di un opportuno calcolo delle priorità, quale
  53 ``processo'' deve essere posto in esecuzione (il cosiddetto
  54 \textit{prehemptive scheduling}). Questo verrà comunque eseguito in modalità
  55 protetta; quando necessario il processo potrà accedere alle risorse hardware
  56 soltanto attraverso delle opportune chiamate al sistema che restituiranno il
  57 controllo al kernel.
  58
  59 La memoria viene sempre gestita dal kernel attraverso il meccanismo della
  60 \textsl{memoria virtuale}, che consente di assegnare a ciascun processo uno
  61 spazio di indirizzi ``virtuale'' (vedi \secref{sec:proc_memory}) che il kernel
  62 stesso, con l'ausilio della unità di gestione della memoria, si incaricherà di
  63 rimappare automaticamente sulla memoria disponibile, salvando su disco quando
  64 necessario (nella cosiddetta area di \textit{swap}) le pagine di memoria in
  65 eccedenza.
  66
  67 Le periferiche infine vengono viste in genere attraverso un'interfaccia
  68 astratta che permette di trattarle come fossero file, secondo il concetto per
  69 cui \textit{everything is a file}, su cui torneremo in dettaglio in
  70 \capref{cha:file_intro}, (questo non è vero per le interfacce di rete, che
  71 hanno un'interfaccia diversa, ma resta valido il concetto generale che tutto
  72 il lavoro di accesso e gestione a basso livello è effettuato dal kernel).
  73
  74
  75 \section{User space e kernel space}
  76 \label{sec:intro_user_kernel_space}
  77
  78 Uno dei concetti fondamentali su cui si basa l'architettura dei sistemi unix è
  79 quello della distinzione fra il cosiddetto \textit{user space}, che
  80 contraddistingue l'ambiente in cui vengono eseguiti i programmi, e il
  81 \textit{kernel space}, che è l'ambiente in cui viene eseguito il kernel. Ogni
  82 programma vede se stesso come se avesse la piena disponibilità della CPU e
  83 della memoria ed è, salvo i meccanismi di comunicazione previsti
  84 dall'architettura, completamente ignaro del fatto che altri programmi possono
  85 essere messi in esecuzione dal kernel.
  86
  87 Per questa separazione non è possibile ad un singolo programma disturbare
  88 l'azione di un altro programma o del sistema e questo è il principale motivo
  89 della stabilità di un sistema unix nei confronti di altri sistemi in cui i
  90 processi non hanno di questi limiti, o che vengono per vari motivi eseguiti al
  91 livello del kernel.
  92
  93 Pertanto deve essere chiaro a chi programma in unix che l'accesso diretto
  94 all'hardware non può avvenire se non all'interno del kernel; al di fuori dal
  95 kernel il programmatore deve usare le opportune interfacce che quest'ultimo
  96 fornisce allo user space.
  97
  98
  99 \subsection{Il kernel e il sistema}
 100 \label{sec:intro_kern_and_sys}
 101
 102 Per capire meglio la distinzione fra kernel space e user space si può prendere
 103 in esame la procedura di avvio di un sistema unix; all'avvio il BIOS (o in
 104 generale il software di avvio posto nelle EPROM) eseguirà la procedura di
 105 avvio del sistema (il cosiddetto \textit{boot}), incaricandosi di caricare il
 106 kernel in memoria e di farne partire l'esecuzione; quest'ultimo, dopo aver
 107 inizializzato le periferiche, farà partire il primo processo, \cmd{init}, che
 108 è quello che a sua volta farà partire tutti i processi successivi. Fra questi
 109 ci sarà pure quello che si occupa di dialogare con la tastiera e lo schermo
 110 della console, e quello che mette a disposizione dell'utente che si vuole
 111 collegare, un terminale e la \textit{shell} da cui inviare i comandi.
 112
 113 E' da rimarcare come tutto ciò, che usualmente viene visto come parte del
 114 sistema, non abbia in realtà niente a che fare con il kernel, ma sia
 115 effettuato da opportuni programmi che vengono eseguiti, allo stesso modo di un
 116 qualunque programma di scrittura o di disegno, in user space.
 117
 118 Questo significa, ad esempio, che il sistema di per sé non dispone di
 119 primitive per tutta una serie di operazioni (come la copia di un file) che
 120 altri sistemi (come Windows) hanno invece al loro interno. Pertanto buona
 121 parte delle operazioni di normale amministrazione di un sistema, come quella
 122 in esempio, sono implementate come normali programmi.
 123
 124 %Una delle caratteristiche base di unix \`e perci\`o che \`e possibile
 125 %realizzare un sistema di permessi e controlli che evitano che i programmi
 126 %eseguano accessi non autorizzati.
 127
 128 Per questo motivo è più corretto parlare di un sistema GNU/Linux, in quanto da
 129 solo il kernel è assolutamente inutile; quello che costruisce un sistema
 130 operativo utilizzabile è la presenza di tutta una serie di librerie e
 131 programmi di utilità che permettono di eseguire le normali operazioni che ci
 132 si aspetta da un sistema operativo.
 133
 134
 135 \subsection{Chiamate al sistema e librerie di funzioni}
 136 \label{sec:intro_syscall}
 137
 138 Come accennato le interfacce con cui i programmi possono accedere all'hardware
 139 vanno sotto il nome di chiamate al sistema (le cosiddette \textit{system
 140   call}), si tratta di un insieme di funzioni, che un programma può chiamare,
 141 per le quali viene generata una interruzione processo ed il controllo passa
 142 dal programma al kernel. Sarà poi quest'ultimo che (oltre a compiere una serie
 143 di operazioni interne come la gestione del multitasking e l'allocazione della
 144 memoria) eseguirà la funzione richiesta in \textit{kernel space} restituendo i
 145 risultati al chiamante.
 146
 147 Ogni versione unix ha storicamente sempre avuto un certo numero di queste
 148 chiamate, che sono riportate nella seconda sezione del \textsl{Manuale della
 149   programmazione di unix} (quella cui si accede con il comando \cmd{man 2
 150   nome}) e GNU/Linux non fa eccezione. Queste sono poi state codificate da
 151 vari standard, che esamineremo brevemente in \secref{sec:intro_standard}.
 152
 153 Normalmente ciascuna di queste chiamate al sistema viene rimappata in
 154 opportune funzioni con lo stesso nome definite dentro la Libreria Standard del
 155 C, che, oltre alle interfacce alle system call, contiene anche tutta una serie
 156 di ulteriori funzioni, comunemente usate nella programmazione.
 157
 158 Questo è importante da capire perché programmare in Linux significa anzitutto
 159 essere in grado di usare la Libreria Standard del C, in quanto né il kernel,
 160 né il linguaggio C, implementano direttamente operazioni comuni come la
 161 allocazione dinamica della memoria, l'input/output bufferizzato o la
 162 manipolazione delle stringhe, presenti in qualunque programma.
 163
 164 Anche per questo in Linux è in effetti GNU/Linux, in quanto una parte
 165 essenziale del sistema (senza la quale niente può funzionare) è la
 166 realizzazione fatta dalla Free Software Foundation della suddetta libreria (la
 167 GNU Standard C Library, detta in breve \textit{glibc}), in cui sono state
 168 implementate tutte le funzioni essenziali definite negli standard POSIX e ANSI
 169 C, che vengono utilizzate da qualunque programma.
 170
 171 Le funzioni di questa libreria sono quelle riportate dalla terza sezione del
 172 Manuale di Programmazione di Unix (cioè accessibili con il comando \cmd{man 3
 173   nome}) e sono costruite sulla base delle chiamate al sistema del kernel; è
 174 importante avere presente questa distinzione, fondamentale dal punto di vista
 175 dell'implementazione, anche se poi, nella realizzazione di normali programmi,
 176 non si hanno differenze pratiche fra l'uso di una funzione di libreria e
 177 quello di una chiamata al sistema.
 178
 179
 180 \subsection{Un sistema multiutente}
 181 \label{sec:intro_multiuser}
 182
 183 Linux, come gli altri unix, nasce fin dall'inizio come sistema multiutente,
 184 cioè in grado di fare lavorare più persone in contemporanea. Per questo
 185 esistono una serie di meccanismi di sicurezza, che non sono previsti in
 186 sistemi operativi monoutente, e che occorre tenere presente.
 187
 188 Il concetto base è quello di utente (\textit{user}) del sistema, le cui
 189 capacità rispetto a quello che può fare sono sottoposte a ben precisi limiti.
 190 Sono così previsti una serie di meccanismi per identificare i singoli utenti
 191 ed una serie di permessi e protezioni per impedire che utenti diversi possano
 192 danneggiarsi a vicenda o danneggiare il sistema.
 193
 194 Ad ogni utente è dato un nome \textit{username}, che è quello che viene
 195 richiesto all'ingresso nel sistema dalla procedura di \textit{login}. Questa
 196 procedura si incarica di verificare la identità dell'utente, in genere
 197 attraverso la richiesta di una parola d'ordine, anche se sono possibili
 198 meccanismi diversi\footnote{Ad esempio usando la libreria PAM
 199   (\textit{Pluggable Autentication Methods}) è possibile astrarre
 200   completamente i meccanismi di autenticazione e sostituire ad esempio l'uso
 201   delle password con meccanismi di identificazione biometrica}.
 202
 203 Eseguita la procedura di riconoscimento in genere il sistema manda in
 204 esecuzione un programma di interfaccia (che può essere la \textit{shell} su
 205 terminale o una interfaccia grafica) che mette a disposizione dell'utente un
 206 meccanismo con cui questo può impartire comandi o eseguire altri programmi.
 207
 208 Ogni utente appartiene anche ad almeno un gruppo (il cosiddetto
 209 \textit{default group}), ma può essere associato ad altri gruppi (i
 210 \textit{supplementary group}), questo permette di gestire i permessi di
 211 accesso ai file e quindi anche alle periferiche, in maniera più flessibile,
 212 definendo gruppi di lavoro, di accesso a determinate risorse, etc.
 213
 214 L'utente e il gruppo sono identificati da due numeri (la cui corrispondenza ad
 215 un nome espresso in caratteri è inserita nei due files \file{/etc/passwd} e
 216 \file{/etc/groups}). Questi numeri sono l'\textit{user identifier}, detto in
 217 breve \acr{uid}, e il \textit{group identifier}, detto in breve \acr{gid}, che
 218 sono quelli che poi vengono usati dal kernel per identificare l'utente.
 219
 220 In questo modo il sistema è in grado di tenere traccia per ogni processo
 221 dell'utente a cui appartiene ed impedire ad altri utenti di interferire con
 222 esso. Inoltre con questo sistema viene anche garantita una forma base di
 223 sicurezza interna in quanto anche l'accesso ai file (vedi
 224 \secref{sec:file_access_control}) è regolato da questo meccanismo di
 225 identificazione.
 226
 227 Infine in ogni unix è presente un utente speciale privilegiato, il cosiddetto
 228 \textit{superuser}, il cui username è di norma \textit{root}, ed il cui
 229 \acr{uid} è zero. Esso identifica l'amministratore del sistema, che deve
 230 essere in grado di fare qualunque operazione; per l'utente \textit{root}
 231 infatti i meccanismi di controllo descritti in precedenza sono
 232 disattivati\footnote{i controlli infatti vengono sempre eseguiti da un codice
 233   del tipo \texttt{if (uid) \{ ... \}}}.
 234
 235
 236 \section{Gli standard di unix e GNU/Linux}
 237 \label{sec:intro_standard}
 238
 239 In questa sezione faremo una breve panoramica relativa ai vari standard che
 240 nel tempo sono stati formalizzati da enti, associazioni, consorzi e
 241 organizzazioni varie al riguardo del sistema o alle caratteristiche che si
 242 sono stabilite come standard di fatto in quanto facenti parte di alcune
 243 implementazioni molto diffuse come BSD o SVr4.
 244
 245 Ovviamente prenderemo in considerazione solo gli aspetti riguardanti
 246 interfacce di programmazione e le altre caratteristiche di un sistema
 247 unix-like ed in particolare a come e in che modo essi sono supportati da
 248 GNU/Linux (sia per quanto riguarda il kernel che le \acr{glibc}).
 249
 250
 251 \subsection{Lo standard ANSI C}
 252 \label{sec:intro_ansiC}
 253
 254 Lo standard ANSI C è stato definito nel 1989 dall'\textit{American National
 255   Standard Institute}, come standard del linguaggio C ed è stato
 256 successivamente adottatto dalla \textit{International Standard Organisation}
 257 come standard internazionale con la sigla ISO/IEC 9899:1990, e va anche sotto
 258 il nome di standard ISO C.
 259
 260 Scopo dello standard è quello di garantire la portabilità dei programmi C fra
 261 sistemi operativi diversi, ma oltre alla sintassi e alla semantica del
 262 linguaggio C (operatori, parole chiave, tipi di dati) lo standard prevede
 263 anche una libreria di funzioni che devono poter essere implementate su
 264 qualunque sistema operativo.
 265
 266 Per questo motivo, anche se lo standard non ha alcun riferimento ad un sistema
 267 di tipo unix, GNU/Linux (per essere precisi le glibc), come molti unix
 268 moderni, provvede la compatibilità con questo standard, fornendo le funzioni
 269 di libreria da esso previste. Queste sono dichiarate in quindici header files
 270 (anch'essi provvisti dalla \acr{glibc}), uno per ciascuna delle quindici aree
 271 in cui è stata suddivisa una libreria standard. In \ntab\ si sono riportati
 272 questi header, insieme a quelli definiti negli altri standard descritti nelle
 273 sezioni successive.
 274
 275 In realtà \acr{glibc} ed i relativi header file definiscono un insieme di
 276 funzionalità in cui sono incluse come sottoinsieme anche quelle previste dallo
 277 standard ANSI C. È possibile ottenere una conformità stretta allo standard
 278 (scartando le funzionalità adizionali) usando il \cmd{gcc} con l'opzione
 279 \cmd{-ansi}. Questa opzione istruisce il compilatore a definire nei vari
 280 header file soltanto le funzionalità previste dallo standard ANSI C e a non
 281 usare le varie estensioni al linguaggio e al preprocessore da esso supportate.
 282
 283
 284 \subsection{Lo standard IEEE -- POSIX}
 285 \label{sec:intro_posix}
 286
 287 Uno standard più attinente al sistema nel suo complesso (e che concerne sia il
 288 kernel che le librerie e` lo standard POSIX. Esso prende origine dallo
 289 standard ANSI C, che contiene come sottoinsieme, prevedendo ulteriori capacità
 290 per le funzioni in esso definite, ed aggiungendone di nuove. Le estensioni
 291 principali sono
 292
 293 In realtà POSIX è una famiglia di standard diversi, il cui nome, suggerito da
 294 Richard Stallman, sta per \textit{Portable Operating System Interface}, ma la
 295 X finale denuncia la sua stretta relazione con i sistemi unix. Esso nasce dal
 296 lavoro dell'IEEE (\textit{Institute of Electrical and Electronics Engeneers})
 297 che ne produsse una prima versione, nota come IEEE 1003.1-1988, mirante a
 298 standardizzare l'interfaccia con il sistema operativo.
 299
 300 Ma gli standard POSIX non si limitano alla standardizzazione delle funzioni di
 301 libreria, e in seguito sono stati prodotti anche altri standard per la shell e
 302 le utilities di sistema (1003.2), per le estensioni realtime e per i thread
 303 (1003.1d e 1003.1c) e vari altri.
 304
 305 Benché lo standard POSIX sia basato sui sistemi unix esso definisce comunque
 306 una interfaccia e non fa riferimento ad una specifica implementazione (ad
 307 esempio esiste anche una implementazione di questo standard pure sotto Windows
 308 NT). Lo standard si è evoluto nel tempo ed una versione più aggiornata (quella
 309 che viene normalmente denominata POSIX.1) è stata rilasciata come standard
 310 internazionale con la sigla ISO/IEC 9945-1:1996.
 311
 312 Le \acr{glibc} implementano tutte le funzioni definite nello standard POSIX.1,
 313 e Linux;
 314
 315
 316 \subsection{Lo standard X/Open -- XPG3}
 317 \label{sec:intro_xopen}
 318
 319 Il consorzio X/Open nacque nel 1984 come consorzio di venditori di sistemi
 320 unix per giungere ad una armonizzazione dele varie implementazioni di unix.
 321 Per far questo iniziò a pubblicare una serie di documentazioni e specifiche
 322 sotto il nome di \textit{X/Open Portability Guide} (che chiameremo XPGn).
 323
 324
 325 Nel 1989 produsse una terza versione della sua guida particolarmente
 326 voluminosa (la \textit{X/Open Portability Guide, Issue 3}), che venne presa
 327 come riferimento da vari produttori, e al cui interno definiva una ulteriore
 328 standardizzazione dell'interfaccia ad un sistema unix.
 329
 330 Questo standard, detto anche XPG3 dal nome della suddetta guida, è sempre
 331 basato sullo standard POSIX.1, ma prevede una serie di funzionalità aggiuntive
 332 fra cui le specifiche delle API per l'interfaccia grafica (X11).
 333
 334 Nel 1992 lo standard venne rivisto con una nuova versione della guida (XPG4)
 335 che aggiungeva l'interfaccia XTI (\textit{X transport Interface}) mirante a
 336 soppiantare (senza molto successo) quella l'interfaccia dei socket derivata da
 337 BSD.
 338
 339
 340 \subsection{Gli standard UNIX  -- Open Group}
 341 \label{sec:intro_opengroup}
 342
 343 Nel 1993 il marchio Unix passò di proprietà dalla Novell (che a sua volta lo
 344 aveva comprato dalla AT\&T) al consorzio X/Open, che iniziò a pubblicare le
 345 sue specifiche sotto il nome di \textit{Single UNIX Specification},
 346
 347
 348 \subsection{Il comportamento standard del \cmd{gcc}}
 349 \label{sec:intro_gcc}
 350
 351
 352
 353
 354 \subsection{Lo ``standard'' BSD}
 355 \label{sec:intro_bsd}
 356
 357 Lo sviluppo di BSD inziò quando la fine della collaborazione fra l'Università
 358 di Berkley e la AT/T, generò una delle prime e più importanti fratture del
 359 mondo Unix.  L'Università di Berkley proseguì nello sviluppo della base di
 360 codice di cui disponeva, e che presentava parecchie migliorie rispetto alle
 361 allora versioni disponibili, fino ad arrivare al rilascio di una versione
 362 completa di unix, chiamata appunto BSD, del tutto indipendente dal codice
 363 della AT/T.
 364
 365 Benchè non sia uno standard formalizzato, l'implementazione di unix
 366 dell'Università di Berkley, ha provveduto nel tempo una serie di estenzioni e
 367 di API grande rilievo, come il link simbolici (vedi \secref{sec:file_symlink},
 368 la funzione \func{select}, i socket.
 369
 370 Queste estensioni sono state via via aggiunte al sistema nelle varie release
 371 del sistema (BSD 4.2, BSD 4.3 e BSD 4.4) come pure in alcuni derivati
 372 commerciali come SunOS. Le \acr{glibc} provvedono tutte queste estensioni che
 373 sono state in gran parte incorporate negli standard successivi.
 374
 375
 376 \subsection{Lo standard System V}
 377 \label{sec:intro_sysv}
 378
 379
 380
 381
 382
 383
 384
 385
 386
 387 \subsection{Prototipi e puntatori}
 388 \label{sec:intro_function}
 389
 390
 391 \subsection{Tipi di dati primitivi}
 392 \label{sec:intro_data_types}
 393
 394
 395