Si continua con l'open

[gapil.git] / intro.tex
diff --git a/intro.tex b/intro.tex

index 471eada313d6a3b91e2c8aa2eacb9169f4acf189..6e6fe60f5d13b01038d7627e28955375f0f63436 100644 (file)
--- a/intro.tex
+++ b/intro.tex
@@ -1,206 +1,308 @@
-\chapter{Introduzione}
+\chapter{L'architettura di GNU/Linux}
  \label{cha:intro_unix}
  
-In questo primo capitolo sarà fatta un'introduzione ai contetti generali su
-cui è basato un sistema di tipo unix, per fornire una base di comprensione
-mirata a sottolinearne le peculiarità che saranno poi importanti per quello
-che rigarda la programmazione; in particolare faremo una panoramica sulla
-struttura di un sistema \textit{unix-like} come Linux.
+In questo primo capitolo sarà fatta un'introduzione ai concetti generali su
+cui è basato un sistema di tipo unix come GNU/Linux, in questo modo potremo
+fornire una base di comprensione mirata a sottolineare le peculiarità del
+sistema che sono più rilevanti per quello che riguarda la programmazione.
  
-Chi avesse già una conoscenza di questa materia può tranquillamente saltare
-il capitolo.
+Dopo una introduzione sulle caratteristiche principali di un sistema di tipo
+unix passeremo ad illustrare alcuni dei concetti base dell'architettura di
+GNU/Linux (che sono comunque comuni a tutti i sistemi \textit{unix-like}) ed
+introdurremo alcuni degli standard principali a cui viene fatto riferimento.
  
-\section{La struttura di un sistema Unix}
+
+\section{Una panoramica}
  \label{sec:intro_unix_struct}
  
-Il concetto base di unix é quello di un nucleo del sistema (il cosiddetto
-\textit{kernel}) a cui si demanda la gestione delle risorse essenziali (la
-CPU, la memoria, le periferiche); mentre tutto il resto, quindi anche la parte
-che prevede l'interazione con l'utente, deve venire realizzato tramite
-programmi eseguiti dal kernel e che accedano alle risorse hardware tramite
-delle richieste a quest'ultimo. 
+In questa prima sezione faremo una breve panoramica sull'architettura del
+sistema.  Chi avesse già una conoscenza di questa materia può tranquillamente
+saltare questa sezione.
+
+Il concetto base di un sistema unix-like è quello di un nucleo del sistema (il
+cosiddetto \textit{kernel}) a cui si demanda la gestione delle risorse
+essenziali (la CPU, la memoria, le periferiche) mentre tutto il resto, quindi
+anche la parte che prevede l'interazione con l'utente, deve venire realizzato
+tramite programmi eseguiti dal kernel e che accedano alle risorse hardware
+tramite delle richieste a quest'ultimo.
  
-Fin dall'inizio unix si presenta come un sistema operativo
-\textit{multitasking}, cioé in grado di eseguire contemporaneamente più
-programmi, e multiutente, in cui é possibile che più utenti siano connessi ad
+Fin dall'inizio uno unix si presenta come un sistema operativo
+\textit{multitasking}, cioè in grado di eseguire contemporaneamente più
+programmi, e multiutente, in cui è possibile che più utenti siano connessi ad
  una macchina eseguendo più programmi ``in contemporanea'' (in realtà, almeno
  per macchine a processore singolo, i programmi vengono eseguiti singolarmente
  a rotazione).
  
-% Questa e' una distinzione essenziale da capire,
+% Questa e` una distinzione essenziale da capire,
  %specie nei confronti dei sistemi operativi successivi, nati per i personal
  %computer (e quindi per un uso personale), sui quali l'hardware (allora
  %limitato) non consentiva la realizzazione di un sistema evoluto come uno unix.
  
-Gli unix più recenti, come linux, sono stati realizzati usando alcune
+Gli unix più recenti, come Linux, sono realizzati sfruttando alcune
  caratteristiche dei processori moderni come la gestione hardware della memoria
  e la modalità protetta. In sostanza con i processori moderni si può
  disabilitare temporaneamente l'uso di certe istruzioni e l'accesso a certe
-zone di memoria fisica.  Quello che succede é che il kernel é il solo
+zone di memoria fisica.  Quello che succede è che il kernel è il solo
  programma ad essere eseguito in modalità privilegiata, con il completo accesso
  all'hardware, mentre i programmi normali vengono eseguiti in modalità protetta
-(e non possono accedere direttamente alle zone di memoria riservate, al kernel
-o alle porte di input/output).
+(e non possono accedere direttamente alle zone di memoria riservate o alle
+porte di input/output).
  
  Una parte del kernel, lo \textit{scheduler}, si occupa di stabilire, ad
  intervalli fissi e sulla base di un opportuno calcolo delle priorità, quale
-``processo'' (vedi Cap.~\ref{cha:process}) deve essere posto in esecuzione (il
-cosidetto \textit{prehemptive scheduling}), e questo verrà comunque eseguito
-in modelità protetta; quando necessario il processo potrà accedere alle
-risorse hardware soltanto attraverso delle opportune chiamate al sistema
-(\textit{system call}) con un'interfaccia ben definita e standardizzata che
-restituiranno il controllo al kernel.
-
-La memoria viene sempre gestita del kernel attraverso il meccanismo della
-memoria virtuale, che consente di assegnare a ciascun processo uno spazio di
-indirizzi ``virtuale'' che il kernel stesso, con l'ausilio della unità di
-gestione della memoria, si incaricherà di rimappare automaticamente sulla
-memoria disponibile, salvando su disco (nella cosiddetta \textit{swap}) quando
-necessario le pagine di memoria in eccedenza.
+``processo'' deve essere posto in esecuzione (il cosiddetto
+\textit{prehemptive scheduling}). Questo verrà comunque eseguito in modalità
+protetta; quando necessario il processo potrà accedere alle risorse hardware
+soltanto attraverso delle opportune chiamate al sistema che restituiranno il
+controllo al kernel.
+
+La memoria viene sempre gestita dal kernel attraverso il meccanismo della
+\textsl{memoria virtuale}, che consente di assegnare a ciascun processo uno
+spazio di indirizzi ``virtuale'' (vedi \secref{sec:proc_memory}) che il kernel
+stesso, con l'ausilio della unità di gestione della memoria, si incaricherà di
+rimappare automaticamente sulla memoria disponibile, salvando su disco quando
+necessario (nella cosiddetta area di \textit{swap}) le pagine di memoria in
+eccedenza.
  
  Le periferiche infine vengono viste in genere attraverso un'interfaccia
-astratta che permette di trattarle come fossero file. secondo il concetto per
-cui \textit{everything is a file}, vedi Cap.~\ref{cha:files_intro}, (questo
-non è vero per le interfacce di rete, ma resta valido il concetto generale che
-tutto il lavoro di accesso e gestione a basso livello è effettuato dal
-kernel), mentre ai programmi vengono fornite solo delle routine di
-interfacciamento; essendo l'argomento principale di cui tratteremo, di esse
-parleremo in abbondanza nei capitoli successivi.
+astratta che permette di trattarle come fossero file, secondo il concetto per
+cui \textit{everything is a file}, su cui torneremo in dettaglio in
+\capref{cha:files_intro}, (questo non è vero per le interfacce di rete, che
+hanno un'interfaccia diversa, ma resta valido il concetto generale che tutto
+il lavoro di accesso e gestione a basso livello è effettuato dal kernel).
  
  
  \section{User space e kernel space}
-\label{sec:intro_userkernel}
-
-Questa architettura fa sì che nei sistemi unix esista una distinzione
-essenziale fra il cosiddetto \textit{user space}, che contraddistingue
-l'ambiente in cui vengono eseguiti i programmi, e il \textit{kernel space} che
-é l'ambiente in cui viene eseguito il kernel. Ogni programma gira come se
-avesse la piena disponibilità della macchina e della memoria ed è, salvo i
-meccanismi di comunicazione previsti dall'architettura (che esamineremo nel
-Cap.~\ref{cha:IPC}) completamente ignaro del fatto che altri programmi possono
+\label{sec:intro_user_kernel_space}
+
+Uno dei concetti fondamentali su cui si basa l'architettura dei sistemi unix è
+quello della distinzione fra il cosiddetto \textit{user space}, che
+contraddistingue l'ambiente in cui vengono eseguiti i programmi, e il
+\textit{kernel space}, che è l'ambiente in cui viene eseguito il kernel. Ogni
+programma vede se stesso come se avesse la piena disponibilità della CPU e
+della memoria ed è, salvo i meccanismi di comunicazione previsti
+dall'architettura, completamente ignaro del fatto che altri programmi possono
  essere messi in esecuzione dal kernel.
  
-In questo non è possibile ad un singolo programma disturbare l'azione di un
-altro programma o del sistema e questo è il principale motivo della stabilità
-di un sistema unix nei confronti di altri sistemi in cui i processi non hanno
-di questi limiti, o che vengono per vari motivi eseguiti al livello del
-kernel.
+Per questa separazione non è possibile ad un singolo programma disturbare
+l'azione di un altro programma o del sistema e questo è il principale motivo
+della stabilità di un sistema unix nei confronti di altri sistemi in cui i
+processi non hanno di questi limiti, o che vengono per vari motivi eseguiti al
+livello del kernel.
  
  Pertanto deve essere chiaro a chi programma in unix che l'accesso diretto
-all'hardware non può avvenire se non all'interno del kernel, al di fuori dal
+all'hardware non può avvenire se non all'interno del kernel; al di fuori dal
  kernel il programmatore deve usare le opportune interfacce che quest'ultimo
  fornisce allo user space. 
  
-In genere queste vanno sotto il nome di chiamate al sistema (le cosiddette
-\textit{system call}), cioè un insieme di routine che un programma può
-chiamare per le quali viene generata una interruzione del medesimo e il
-controllo è passato dal programma al kernel, il quale (oltre a fare una serie
-di altre cose come controllare a quale processo tocca essere messo in
-esecuzione) eseguirà la funzione richiesta in kernel space passando indietro i
-risultati.
-
-È da chiarire poi che di solito i programmi non chiamano direttamente le
-singole system call, ma usano un insieme di funzioni standard (definite dallo
-standard internazionale POSIX1003.a(?)) che sono comuni a tutti gli unix.
-
  
-\section{Il kernel e il resto}
-\label{sec:intro_kernandlib}
+\subsection{Il kernel e il sistema}
+\label{sec:intro_kern_and_sys}
  
  Per capire meglio la distinzione fra kernel space e user space si può prendere
-in esame la procedura di avvio di un sistema unix; all'avvio il bios (o in
-generale il software di avvio posto nelle eprom) eseguirà il \textit{boot}
-incarichandosi di caricare il kernel in memoria e di farne partire
-l'esecuzione; quest'ultimo, dopo aver inizializzato le periferiche farà
-partire il primo processo, \textit{init} che è quello che si incaricherà di
-far partire tutti i processi successivi, come quello che si occupa di
-dialogare con la tastiera e lo schermo della console, mettendo a disposizione
-dell'utente che si vuole collegare un terminale e la stessa \textit{shell} da
-cui inviare i comandi.
+in esame la procedura di avvio di un sistema unix; all'avvio il BIOS (o in
+generale il software di avvio posto nelle EPROM) eseguirà la procedura di
+avvio del sistema (il cosiddetto \textit{boot}), incaricandosi di caricare il
+kernel in memoria e di farne partire l'esecuzione; quest'ultimo, dopo aver
+inizializzato le periferiche, farà partire il primo processo, \cmd{init}, che
+è quello che a sua volta farà partire tutti i processi successivi. Fra questi
+ci sarà pure quello che si occupa di dialogare con la tastiera e lo schermo
+della console, e quello che mette a disposizione dell'utente che si vuole
+collegare, un terminale e la \textit{shell} da cui inviare i comandi.
  
  E' da rimarcare come tutto ciò, che usualmente viene visto come parte del
  sistema, non abbia in realtà niente a che fare con il kernel, ma sia
  effettuato da opportuni programmi che vengono eseguiti, allo stesso modo di un
-programma di scrittura o di disegno, in user space.
+qualunque programma di scrittura o di disegno, in user space.
  
-Questo significa ad esempio che il sistema di per sé non dispone di primitive
-per tutta una serie di operazioni (come la copia di un file) che altri sistemi
-(come windows) hanno invece al loro interno. Per questo può capitare che
-alcune operazioni, come quella in esempio, siano implementate come normali
-programmi.
+Questo significa, ad esempio, che il sistema di per sé non dispone di
+primitive per tutta una serie di operazioni (come la copia di un file) che
+altri sistemi (come Windows) hanno invece al loro interno. Pertanto buona
+parte delle operazioni di normale amministrazione di un sistema, come quella
+in esempio, sono implementate come normali programmi.
  
  %Una delle caratteristiche base di unix \`e perci\`o che \`e possibile
  %realizzare un sistema di permessi e controlli che evitano che i programmi
  %eseguano accessi non autorizzati. 
  
-Per questo motivo è più corretto parlare di sistema GNU/Linux, in quanto da
-solo il kernel è assolutamente inutile, quello che costruisce un sistema
+Per questo motivo è più corretto parlare di un sistema GNU/Linux, in quanto da
+solo il kernel è assolutamente inutile; quello che costruisce un sistema
  operativo utilizzabile è la presenza di tutta una serie di librerie e
  programmi di utilità che permettono di eseguire le normali operazioni che ci
  si aspetta da un sistema operativo.
  
-Questo è importante anche dal punto di vista della programmazione, infatti
-programmare in linux significa anzitutto essere in grado di usare la Libreria
-Standard del C, in quanto né il kernel né il linguaggio C implementano
-direttamente operazioni comuni come la gestione della memoria, l'input/output
-o la manipolazione delle stringhe presenti in qualunque programma.
-
-Per questo in linux una parte essenziale del sistema (senza la quale nulla
-funziona) è la realizzazione fatta dalla FSF della suddetta libreria (la
-\textit{glibc}), in cui sono state implementate tutte le funzioni essenziali
-definite negli standard POSIX e ANSI C, che viene utilizzata da qualunque
-programma.
-
-
-\section{Utenti e gruppi, permessi e protezioni}
-\label{sec:intro_usergroup}
  
-Unix nasce fin dall'inizio come sistema multiutente, cioè in grado di fare
-lavorare più persone in contemporanea. Per questo esistono una serie di
-meccanismi base di sicurezza che non sono previsti in sistemi operativi
-monoutente.
-
-Il concetto base è quello di utente (\textit{user}) del sistema, utente che ha
-dei ben definiti limiti e capacità rispetto a quello che può fare. Sono così
-previsti una serie di meccanismi per identificare i singoli utenti ed uan
-serie di permessi e protezioni per impedire che utenti diversi possano
+\subsection{Chiamate al sistema e librerie di funzioni}
+\label{sec:intro_syscall}
+
+Come accennato le interfacce con cui i programmi possono accedere all'hardware
+vanno sotto il nome di chiamate al sistema (le cosiddette \textit{system
+  call}), si tratta di un insieme di funzioni, che un programma può chiamare,
+per le quali viene generata una interruzione processo ed il controllo passa
+dal programma al kernel. Sarà poi quest'ultimo che (oltre a compiere una serie
+di operazioni interne come la gestione del multitasking e l'allocazione della
+memoria) eseguirà la funzione richiesta in \textit{kernel space} restituendo i
+risultati al chiamante.
+
+Ogni versione unix ha storicamente sempre avuto un certo numero di queste
+chiamate, che sono riportate nella seconda sezione del \textsl{Manuale della
+  programmazione di unix} (quella cui si accede con il comando \cmd{man 2
+  nome}) e GNU/Linux non fa eccezione. Queste sono poi state codificate da
+vari standard, che esamineremo brevemente in \secref{sec:intro_standard}.
+
+Normalmente ciascuna di queste chiamate al sistema viene rimappata in
+opportune funzioni con lo stesso nome definite dentro la Libreria Standard del
+C, che, oltre alle interfacce alle system call, contiene anche tutta una serie
+di ulteriori funzioni, comunemente usate nella programmazione.
+
+Questo è importante da capire perché programmare in Linux significa anzitutto
+essere in grado di usare la Libreria Standard del C, in quanto né il kernel,
+né il linguaggio C, implementano direttamente operazioni comuni come la
+allocazione dinamica della memoria, l'input/output bufferizzato o la
+manipolazione delle stringhe, presenti in qualunque programma.
+
+Anche per questo in Linux è in effetti GNU/Linux, in quanto una parte
+essenziale del sistema (senza la quale niente può funzionare) è la
+realizzazione fatta dalla Free Software Foundation della suddetta libreria (la
+GNU Standard C Library, detta in breve \textit{glibc}), in cui sono state
+implementate tutte le funzioni essenziali definite negli standard POSIX e ANSI
+C, che vengono utilizzate da qualunque programma.
+
+Le funzioni di questa libreria sono quelle riportate dalla terza sezione del
+Manuale di Programmazione di Unix (cioè accessibili con il comando \cmd{man 3
+  nome}) e sono costruite sulla base delle chiamate al sistema del kernel; è
+importante avere presente questa distinzione, fondamentale dal punto di vista
+dell'implementazione, anche se poi, nella realizzazione di normali programmi,
+non si hanno differenze pratiche fra l'uso di una funzione di libreria e
+quello di una chiamata al sistema.
+
+
+\subsection{Un sistema multiutente}
+\label{sec:intro_multiuser}
+
+Linux, come gli altri unix, nasce fin dall'inizio come sistema multiutente,
+cioè in grado di fare lavorare più persone in contemporanea. Per questo
+esistono una serie di meccanismi di sicurezza, che non sono previsti in
+sistemi operativi monoutente, e che occorre tenere presente.
+
+Il concetto base è quello di utente (\textit{user}) del sistema, le cui
+capacità rispetto a quello che può fare sono sottoposte a ben precisi limiti.
+Sono così previsti una serie di meccanismi per identificare i singoli utenti
+ed una serie di permessi e protezioni per impedire che utenti diversi possano
  danneggiarsi a vicenda o danneggiare il sistema.
  
  Ad ogni utente è dato un nome \textit{username}, che è quello che viene
  richiesto all'ingresso nel sistema dalla procedura di \textit{login}. Questa
-procedura si incarica di verificare la identità dell'utente (in genere
+procedura si incarica di verificare la identità dell'utente, in genere
  attraverso la richiesta di una parola d'ordine, anche se sono possibili
-meccanismi diversi).
+meccanismi diversi\footnote{Ad esempio usando la libreria PAM
+  (\textit{Pluggable Autentication Methods}) è possibile astrarre
+  completamente i meccanismi di autenticazione e sostituire ad esempio l'uso
+  delle password con meccanismi di identificazione biometrica}.
  
  Eseguita la procedura di riconoscimento in genere il sistema manda in
  esecuzione un programma di interfaccia (che può essere la \textit{shell} su
  terminale o una interfaccia grafica) che mette a disposizione dell'utente un
  meccanismo con cui questo può impartire comandi o eseguire altri programmi.
  
-Ogni utente appartiene anche ad almeno un gruppo (\textit{group}), ma può
-essere associato a più gruppi, questo permette di gestire i permessi di
+Ogni utente appartiene anche ad almeno un gruppo (il cosiddetto
+\textit{default group}), ma può essere associato ad altri gruppi (i
+\textit{supplementary group}), questo permette di gestire i permessi di
  accesso ai file e quindi anche alle periferiche, in maniera più flessibile,
  definendo gruppi di lavoro, di accesso a determinate risorse, etc.
  
  L'utente e il gruppo sono identificati da due numeri (la cui corrispondenza ad
-un nome in espresso in caratteri \`e inserita nei due files
-\texttt{/etc/passwd} e \texttt{/etc/groups}). Questi numeri sono
-l'\textit{user identifier}, detto in breve \textit{uid} e il \textit{group
- identifier}, detto in breve \textit{gid} che sono quelli che identificano
-l'utente di fronte al sistema.
-
+un nome espresso in caratteri è inserita nei due files \file{/etc/passwd} e
+\file{/etc/groups}). Questi numeri sono l'\textit{user identifier}, detto in
+breve \acr{uid}, e il \textit{group identifier}, detto in breve \acr{gid}, che
+sono quelli che poi vengono usati dal kernel per identificare l'utente.
+ 
  In questo modo il sistema è in grado di tenere traccia per ogni processo
  dell'utente a cui appartiene ed impedire ad altri utenti di interferire con
  esso. Inoltre con questo sistema viene anche garantita una forma base di
  sicurezza interna in quanto anche l'accesso ai file (vedi
-Sez.~\ref{sec:fileintr_access_ctrl}) è regolato da questo meccanismo di
+\secref{sec:file_access_control}) è regolato da questo meccanismo di
  identificazione.
  
-Un utente speciale del sistema è \textit{root}, il cui uid è zero. Esso
-identifica l'amministratore del sistema, che deve essere in grado di fare
-qualunque operazione; pertanto per l'utente root i meccanismi di controllo
-descritti in precedenza sono disattivati.
+Infine in ogni unix è presente un utente speciale privilegiato, il cosiddetto
+\textit{superuser}, il cui username è di norma \textit{root}, ed il cui
+\acr{uid} è zero. Esso identifica l'amministratore del sistema, che deve
+essere in grado di fare qualunque operazione; per l'utente \textit{root}
+infatti i meccanismi di controllo descritti in precedenza sono
+disattivati\footnote{i controlli infatti vengono sempre eseguiti da un codice
+  del tipo \texttt{if (uid) \{ ... \}}}.
+
+
+\section{Gli standard di unix e GNU/Linux}
+\label{sec:intro_standard}
+
+In questa sezione prenderemo in esame alcune caratteristiche generali del
+sistema e gli standard adottati per le funzioni, i prototipi, gli errori, i
+tipi di dati.
+
+\subsection{Prototipi e puntatori}
+\label{sec:intro_function}
+
+
+\subsection{Lo standard ANSI C}
+\label{sec:intro_ansiC}
+
+Lo standard ANSI C è stato definito nel 1989 dall'\textit{American National
+  Standard Institute}, come standard del linguaggio C ed è stato
+successivamente adottatto dalla \textit{International Standard Organisation}
+come standard internazionale con la sigla ISO/IEC 9899:1990.
+
+Scopo dello standard è quello di garantire la portabilità dei programmi C fra
+sistemi operativi diversi, ma oltre alla sintassi e alla semantica del
+linguaggio C (operatori, parole chiave, tipi di dati) lo standard prevede
+anche una libreria di funzioni che devono poter essere implementate su
+qualunque sistema operativo.
+
+Linux, come molti unix moderni, provvede la compatibilità con questo standard,
+fornendo le funzioni di libreria da esso previste; queste sono dichiarate in
+quindici header files, uno per ciascuna delle quindici aree in cui è stata
+suddivisa la libreria. In \ntab\ si sono riportati questi header, insieme a
+quelli definiti negli altri standard descritti nelle sezioni successive.
+
+\subsection{Lo standard POSIX}
+\label{sec:intro_posix}
+
+In realtà POSIX è una famiglia di standard diversi, il nome, suggerito da
+Richard Stallman, sta per \textit{Portable Operating System Interface}, ma la
+X finale denuncia la sua stretta relazione con i sistemi unix. Esso nasce dal
+lavoro dell'IEEE (\textit{Institute of Electrical and Electronics Engeneers})
+che ne ha prodotto una prima versione, nota come IEEE 1003.1-1988, mirante a
+standardizzare l'interfaccia con il sistema operativo.
+
+Ma gli standard POSIX non si limitano alla standardizzazione delle funzioni di
+libreria, e in seguito sono stati prodotti anche altri standard per la shell e
+le utilities di sistema (1003.2), per le estensioni realtime e per i thread
+(1003.1d e 1003.1c) e vari altri. 
+
+Benché lo standard POSIX sia basato sui sistemi unix esso definisce comunque
+una interfaccia e non fa riferimento ad una specifica implementazione (ad
+esempio esiste anche una implementazione di questo standard pure sotto Windows
+NT). Lo standard si è evoluto nel tempo ed una versione più aggiornata (quella
+che viene normalmente denominata POSIX.1) è stata rilasciata come standard
+internazionale con la sigla ISO/IEC 9945-1:1990.
+
+
+\subsection{Lo standard X/Open -- XPG3}
+\label{sec:intro_xopen}
+
+Il consorzio X/Open nacque come consorzio di venditori di sistemi unix, che
+nel 1989 produsse una voluminosa guida chiamata \textit{X/Open Portability
+  Guide, Issue 3} al cui interno definiva una ulteriore standardizzazione
+dell'interfaccia ad un sistema unix.
+
+Questo standard, detto anche XPG3 dal nome della suddetta guida, è sempre
+basato sullo standard POSIX.1, ma prevede una serie di funzionalità
+aggiuntive.
+
+Il consorzio 
  
  
+\subsection{Tipi di dati primitivi}
+\label{sec:intro_data_types}