X-Git-Url: https://gapil.gnulinux.it/gitweb/?p=gapil.git;a=blobdiff_plain;f=intro.tex;h=500181c217673a8d5f322140dd5cf604c6b2f736;hp=785f0108705976b5d754df5391736f58dbd8b2f6;hb=dcf2c2df897955ff3503a7c426025457ab456fd7;hpb=4e1da5b259a86278710be32441de7b88b9287ec1 diff --git a/intro.tex b/intro.tex index 785f010..500181c 100644 --- a/intro.tex +++ b/intro.tex @@ -1,6 +1,6 @@ %% intro.tex %% -%% Copyright (C) 2000-2011 Simone Piccardi. Permission is granted to +%% Copyright (C) 2000-2012 Simone Piccardi. Permission is granted to %% copy, distribute and/or modify this document under the terms of the GNU Free %% Documentation License, Version 1.1 or any later version published by the %% Free Software Foundation; with the Invariant Sections being "Un preambolo", @@ -29,10 +29,7 @@ introdurremo alcuni degli standard principali a cui viene fatto riferimento. In questa prima sezione faremo una breve panoramica sull'architettura di un sistema operativo di tipo Unix, come GNU/Linux, e della relazione fra le varie parti che lo compongono. Chi avesse già una conoscenza di questa materia può -tranquillamente saltare questa sezione ad eccezione di -sez.~\ref{sec:intro_syscall} dove introdotti alcuni concetti fondamentali -relativi alle funzioni di libreria. - +tranquillamente saltare questa sezione. \subsection{Concetti base} \label{sec:intro_base_concept} @@ -145,9 +142,9 @@ detta memoria qualora ci si trovi nella necessità di liberare risorse. Le periferiche infine vengono normalmente viste attraverso un'interfaccia astratta che permette di trattarle come se fossero dei file, secondo uno dei concetti base della architettura di Unix, per cui ``\textsl{tutto è in file}'' -(\textit{everything is a file}) su cui torneremo in dettaglio in -cap.~\ref{cha:file_intro}. In realtà questo non è sempre vero (ad esempio non -lo è per le interfacce di rete) dato che ci sono periferiche che non +(\textit{everything is a file}) su cui torneremo in +sez.~\ref{sec:intro_file_dir}. In realtà questo non è sempre vero (ad esempio +non lo è per le interfacce di rete) dato che ci sono periferiche che non rispondendo bene a questa astrazione richiedono un'interfaccia diversa. Anche in questo caso però resta valido il concetto generale che tutto il lavoro di accesso e gestione delle periferiche a basso livello viene effettuato dal @@ -187,16 +184,22 @@ avvio del sistema, il cosiddetto \textit{bootstrap},\footnote{il nome deriva impossibile, di far eseguire un programma a partire da un computer appena acceso che appunto non ne contiene nessuno; non è impossibile perché in realtà c'è un programma iniziale, che è il BIOS.} incaricandosi di caricare -il kernel in memoria e di farne partire l'esecuzione. A questo punto il -controllo passerà al kernel, il quale però da parte sua, una volta -inizializzato opportunamente l'hardware, si limiterà a lanciare un unico -processo di inizializzazione (che per questo in genere genere si chiama -\cmd{init}). A questo punto tutto il lavoro verrà eseguito \textit{user space} -da questo programma, che sua volta si incaricherà di lanciare tutti gli altri, -fra cui ci sarà quello che si occupa di dialogare con la tastiera e lo schermo -della console, quello che mette a disposizione un terminale e la -\textit{shell} da cui inviare i comandi all'utente che si vuole collegare, ed -in generale tutto quanto necessario ad avere un sistema utilizzabile. +il kernel in memoria e di farne partire l'esecuzione. + +A questo punto il controllo passerà al kernel, il quale però da parte sua, una +volta inizializzato opportunamente l'hardware, si limiterà a due sole +operazioni, montare il filesystem radice (torneremo su questo in +sez.~\ref{sec:file_arch_overview}) e lanciare il primo processo che eseguirà +il programma di inizializzazione del sistema, che in genere, visto il suo +scopo, si chiama \cmd{init}. + +Una volta lanciato \cmd{init} tutto il lavoro successivo verrà eseguito +\textit{user space} da questo programma, che sua volta si incaricherà di +lanciare tutti gli altri programmi, fra cui ci sarà quello che si occupa di +dialogare con la tastiera e lo schermo della console, quello che mette a +disposizione un terminale e la \textit{shell} da cui inviare i comandi +all'utente che si vuole collegare, ed in generale tutto quanto necessario ad +avere un sistema utilizzabile. E' da rimarcare come tutto ciò che riguarda l'interazione con l'utente, che usualmente viene visto come parte del sistema, non abbia in realtà niente a @@ -211,10 +214,6 @@ le operazioni di normale amministrazione di un sistema, sono effettuata attraverso dei normali programmi utilizzando le interfacce di programmazione che il kernel mette a disposizione. -%Una delle caratteristiche base di unix \`e perci\`o che \`e possibile -%realizzare un sistema di permessi e controlli che evitano che i programmi -%eseguano accessi non autorizzati. - È per questo motivo che quando ci si riferisce al sistema nella sua interezza viene spesso sottolineato come sia corretto parlare di ``GNU/Linux'' e non di Linux; da solo infatti il kernel non è sufficiente, quello che costruisce un @@ -293,51 +292,6 @@ fondamentale per capire il funzionamento del sistema, l'uso da parte dei programmi di una di queste funzioni resta lo stesso, sia che si tratti di una funzione interna della libreria che di una \textit{system call}. -Come accennato in genere ogni \textit{system call} è associata ad una omonima -funzione di libreria, che è quella che si usa normalmente per invocarla. Le -\textsl{glibc} consentono comunque, nel caso non sia presente una specifica -funzione di libreria corrispondente o qualora si voglia eseguire una specifica -versione,\footnote{alcune \textit{system call} sono state modificate nel corso - degli anni per aggiungere ad esempio delle funzionalità, l'interfaccia - proposta dalle \textsl{glibc} si cura in genere di mantenere una uniformità - chiamando le versioni corrette, ma qualora si voglia lavorare a basso - livello ed usare una specifica versione, si può fare ricorso a questa - funzione.} di eseguire direttamente una \textit{system call} tramite la -funzione \funcd{syscall}, il cui prototipo (accessibile se si è definita la -macro \macro{\_GNU\_SOURCE}, vedi sez.~\ref{sec:intro_gcc_glibc_std}) è: - -\begin{funcproto}{ - \fhead{unistd.h} - \fhead{sys/syscall.h} - \fdecl{int syscall(int number, ...)} - \fdesc{Esegue la \textit{system call} indicata da \param{number}.} -} -{La funzione ritorna un intero dipendente dalla \textit{system call} invocata, -in generale $0$ indica il successo e un valore negativo un errore.} -\end{funcproto} - -La funzione richiede come primo argomento il numero della \textit{system call} -da invocare, seguita dagli argomenti da passare alla stessa, che ovviamente -dipendono da quest'ultima, e restituisce il codice di ritorno della -\textit{system call} invocata. In generale un valore nullo indica il successo -ed un valore negativo è un codice di errore che poi viene memorizzato nella -variabile \var{errno} (sulla gestione degli errori torneremo in dettaglio in -sez.~\ref{sec:sys_errors}). - -Il valore di \param{number} dipende sia dalla versione di kernel che -dall'architettura,\footnote{in genere le vecchie \textit{system call} non - vengono eliminate e se ne aggiungono di nuove con nuovi numeri.} ma -ciascuna \textit{system call} viene in genere identificata da una costante -nella forma \texttt{SYS\_*} dove al prefisso viene aggiunto il nome che spesso -corrisponde anche alla omonima funzione di libreria; queste costanti sono -definite nel file \texttt{sys/syscall.h}, ma si possono anche usare -direttamente valori numerici. - -% -% TODO:trattare non so se qui o altrove vsyscall e vDSO, vedi -% http://davisdoesdownunder.blogspot.com/2011/02/linux-syscall-vsyscall-and-vdso-oh-my.html -% http://www.win.tue.nl/~aeb/linux/lk/lk-4.html -% \subsection{Un sistema multiutente} \label{sec:intro_multiuser} @@ -386,12 +340,12 @@ la cui corrispondenza ad un nome espresso in caratteri è inserita nei due file \conffile{/etc/passwd} e \conffile{/etc/group}.\footnote{in realtà negli sistemi più moderni, come vedremo in sez.~\ref{sec:sys_user_group} queste informazioni possono essere mantenute, con l'uso del - \itindex{Name~Service~Switch} \textit{Name Service Switch}, su varie + \itindex{Name~Service~Switch~(NSS)} \textit{Name Service Switch}, su varie tipologie di supporti, compresi server centralizzati come LDAP.} Questi identificativi sono l'\textit{user identifier}, detto in breve -\textsl{user-ID}, ed indicato dall'acronimo \acr{uid}, e il \textit{group +\textsl{user-ID}, ed indicato dall'acronimo \ids{UID}, e il \textit{group identifier}, detto in breve \textsl{group-ID}, ed identificato dall'acronimo -\acr{gid}, torneremo in dettaglio su questo argomento in +\ids{GID}, torneremo in dettaglio su questo argomento in sez.~\ref{sec:proc_perms}. Il kernel conosce ed utilizza soltanto questi valori numerici, i nomi ad essi associati sono interamente gestiti in \textit{user space} con opportune funzioni di libreria, torneremo su questo @@ -406,13 +360,419 @@ di identificazione. Infine in ogni sistema unix-like è presente uno speciale utente privilegiato, il cosiddetto \textit{superuser}, il cui username è di norma \textit{root}, ed -il cui \acr{uid} è zero. Esso identifica l'amministratore del sistema, che +il cui \ids{UID} è zero. Esso identifica l'amministratore del sistema, che deve essere in grado di fare qualunque operazione; per l'utente \textit{root} infatti i meccanismi di controllo cui si è accennato in precedenza sono -disattivati.\footnote{i controlli infatti vengono eseguiti da uno pseudocodice +disattivati.\footnote{i controlli infatti vengono eseguiti da uno pseudo-codice del tipo: ``\code{if (uid) \{ \textellipsis\ \}}''.} +%Rimosse +% \section{L'architettura della gestione dei file} +% \label{sec:file_arch_func} + +\section{L'architettura di file e directory} +\label{sec:intro_file_dir} + +Come accennato in sez.~\ref{sec:intro_base_concept} uno dei concetti +fondamentali dell'architettura di un sistema Unix è il cosiddetto +\textit{everything is a file} (\textsl{tutto è un file}), cioè il fatto che +l'accesso ai vari dispositivi di input/output del computer viene effettuato +attraverso un'interfaccia astratta che tratta le periferiche allo stesso modo +dei normali file di dati. + +In questa sezione forniremo una descrizione a grandi linee dell'architettura +della gestione dei file in Linux, partendo da una introduzione ai concetti di +base, per poi illustrare la struttura dell'albero dei file ed il significato +dei tipi di file, concludendo con una panoramica sulle caratteristiche +principali delle due interfacce con cui i processi possono effettuare l'I/O su +file. + + +\subsection{Una panoramica generale} +\label{sec:file_arch_overview} + +Per poter accedere ai file, il kernel deve mettere a disposizione dei +programmi delle opportune \textit{system call} che consentano di leggere e +scrivere il contenuto. Tutto ciò ha due aspetti: il primo è che il kernel, per +il concetto dell'\textit{everything is a file}, deve fornire una interfaccia +che consenta di operare sui file, sia che questi corrispondano ai normali file +di dati, sia che siano quei file speciali (i cosiddetti +\index{file!di~dispositivo} file di dispositivo, o \textit{device file}) che +permettono di accedere alle periferiche. + +Il secondo aspetto è che per poter utilizzare dei normali file di dati il +kernel deve provvedere ad organizzare e rendere accessibile in maniera +opportuna l'informazione in essi contenuta memorizzandola sullo spazio grezzo +disponibile sui dischi. Questo viene fatto strutturando l'informazione sul +disco attraverso quello che si chiama un +``\textit{filesystem}''. L'informazione così strutturata poi viene resa +disponibile ai processi attraverso quello che viene chiamato il +``\textsl{montaggio}'' del filesystem nell'albero dei file, dove il contenuto +sarà accessibile nella forma ordinaria di file e directory. + +\itindbeg{Virtual~File~System} + +In Linux il concetto di \textit{everything is a file} è stato implementato +attraverso il \textit{Virtual File System} (che da qui in poi abbrevieremo in +VFS) che è uno strato intermedio che il kernel usa per accedere ai più +svariati filesystem mantenendo la stessa interfaccia per i programmi in +\textit{user space}. + +Il VFS fornisce cioè quel livello di astrazione che permette di collegare le +operazioni interne del kernel per la manipolazione sui file con le +\textit{system call} relative alle operazioni di I/O, e gestisce poi +l'organizzazione di dette operazioni nei vari modi in cui i diversi filesystem +le effettuano, permettendo la coesistenza di filesystem differenti all'interno +dello stesso albero delle directory. Approfondiremo il funzionamento di +interfaccia generica fornita dal VFS in sez.~\ref{sec:file_vfs_work}. + +In sostanza quello che accade è che quando un processo esegue una +\textit{system call} che opera su un file, il kernel chiama sempre una +funzione implementata nel VFS. La funzione eseguirà le manipolazioni sulle +strutture generiche e utilizzerà poi la chiamata alle opportune funzioni del +filesystem specifico a cui si fa riferimento. Saranno queste a chiamare le +funzioni di più basso livello che eseguono le operazioni di I/O sul +dispositivo fisico, secondo lo schema riportato in +fig.~\ref{fig:file_VFS_scheme}. + +\begin{figure}[!htb] + \centering + \includegraphics[width=7cm]{img/vfs} + \caption{Schema delle operazioni del VFS.} + \label{fig:file_VFS_scheme} +\end{figure} + +Questa interfaccia resta la stessa anche quando, invece che a dei normali +file, si accede alle periferiche coi citati \index{file!di~dispositivo} file +di dispositivo, solo che in questo caso invece di usare il codice del +filesystem che accede al disco, il \textit{Virtual File System} eseguirà +direttamente il codice del kernel che permette di accedere alla periferica. + +\itindend{Virtual~File~System} + +Come accennato in precedenza una delle funzioni essenziali per il +funzionamento dell'interfaccia dei file è quella che consente di montare un +filesystem nell'albero dei file, e rendere così visibili i suoi contenuti. In +un sistema unix-like infatti, a differenza di quanto avviene in altri sistemi +operativi, tutti i file vengono mantenuti all'interno di un unico albero la +cui radice (quella che viene chiamata \textit{root directory}) viene montata +all'avvio direttamente dal kernel. + +Come accennato in sez.~\ref{sec:intro_kern_and_sys}) montare la radice è, +insieme al lancio di \cmd{init},\footnote{l'operazione è ovviamente anche + preliminare al lancio di \cmd{init}, dato il kernel deve poter accedere al + file che contiene detto programma.} l'unica operazione che viene effettuata +direttamente dal kernel in fase di avvio quando, completata la fase di +inizializzazione, esso riceve dal bootloader l'indicazione di quale +dispositivo contiene il filesystem da usare come punto di partenza e questo +viene posto alla radice dell'albero dei file. + +Tutti gli ulteriori filesystem che possono essere disponibili su altri +dispositivi dovranno a loro volta essere inseriti nell'albero, montandoli su +altrettante directory del filesystem radice, su quelli che vengono chiamati +\index{mount~point} \textit{mount point}. Questo comunque avverrà sempre in +un secondo tempo, in genere a cura dei programmi eseguiti nella procedura di +inizializzazione del sistema, grazie alle funzioni che tratteremo in +sez.~\ref{sec:sys_file_config}. + + +\subsection{La risoluzione del nome di file e directory} +\label{sec:file_pathname} + +\itindbeg{pathname} + +Come illustrato sez.~\ref{sec:file_arch_overview} una delle caratteristiche +distintive di un sistema unix-like è quella di avere un unico albero dei +file. Un file deve essere identificato dall'utente usando quello che viene +chiamato il suo \textit{pathname},\footnote{il manuale della \acr{glibc} + depreca questa nomenclatura, che genererebbe confusione poiché \textit{path} + indica anche un insieme di directory su cui effettuare una ricerca (come + quello in cui la shell cerca i comandi). Al suo posto viene proposto l'uso + di \textit{filename} e di componente per il nome del file all'interno della + directory. Non seguiremo questa scelta dato che l'uso della parola + \textit{pathname} è ormai così comune che mantenerne l'uso è senz'altro più + chiaro dell'alternativa proposta.} vale a dire tramite il percorso che si +deve fare per accedere al file a partire da una certa ``\textit{directory}''. + +Una directory in realta è anch'essa un file, nel senso che è anch'essa un +oggetto di un filesystem, solo che è un file particolare che il kernel +riconosce appositamente come tale per poterlo utilizzare come directory. Il +suo scopo è quello di contenere una lista di nomi di file e le informazioni +che associano ciascuno di questi nomi al relativo contenuto. + +Dato che questi nomi possono corrispondere ad un qualunque altro oggetto del +filesystem, compresa un'altra directory, si ottiene naturalmente +un'organizzazione ad albero inserendo nomi di directory dentro altre +directory. All'interno dello stesso albero si potranno poi inserire anche +tutti gli altri oggetti previsti l'interfaccia del VFS (su cui torneremo in +sez.~\ref{sec:file_file_types}), come le fifo, i link, i socket e gli stessi +\index{file!di~dispositivo} file di dispositivo. + +La convenzione usata nei sistemi unix-like per indicare i \textit{pathname} +dei file è quella di usare il carattere ``\texttt{/}'' come separatore fra i +nomi che indicano le directory che lo compongono. Dato che la directory radice +sta in cima all'albero, essa viene indicata semplicemente con il +\textit{pathname} \file{/}. + +\itindbeg{pathname~resolution} + +Un file può essere indicato rispetto ad una directory semplicemente +specificandone il nome, il manuale della \acr{glibc} chiama i nomi contenuti +nelle directory \textsl{componenti} (in inglese \textit{file name + components}), noi li chiameremo più semplicemente \textsl{nomi} o +\textsl{voci}. Il procedimento con cui dato un \textit{pathname} si individua +il file a cui esso fa riferimento è chiamato risoluzione del nome +(\textit{filename resolution} o \textit{pathname resolution}). + +La risoluzione viene fatta esaminando il \textit{pathname} da sinistra a +destra e localizzando ogni nome nella directory indicata dal nome precedente +usando il carattere ``\texttt{/}'' come separatore. Nel caso si indichi un +nome vuoto il costrutto ``\texttt{//}'' viene considerato equivalente a +``\texttt{/}''. Ovviamente perché il procedimento funzioni occorre che i nomi +indicati come directory esistano e siano effettivamente directory, inoltre i +permessi (si veda sez.~\ref{sec:file_access_control}) devono consentire +l'accesso all'intero \textit{pathname}. + +Se il \textit{pathname} comincia con il carattere ``\texttt{/}'' la ricerca +parte dalla directory radice del processo. Questa, a meno di non avere +eseguito una \func{chroot} (funzione su cui torneremo in +sez.~\ref{sec:file_chroot}) è la stessa per tutti i processi ed equivale alla +directory radice dell'albero dei file; in questo caso si parla di un +\textsl{pathname assoluto} \itindsub{pathname}{assoluto}. Altrimenti la +ricerca parte dalla \index{directory~di~lavoro} directory di lavoro corrente +del processo (su cui torneremo in sez.~\ref{sec:file_work_dir}) ed il +\textit{pathname} è detto \itindsub{pathname}{relativo} \textsl{pathname + relativo}. + +Infine i nomi di directory ``\file{.}'' e ``\file{..}'' hanno un significato +speciale e vengono inseriti in ogni directory quando questa viene creata (vedi +sez.~\ref{sec:file_dir_creat_rem}). Il primo fa riferimento alla directory +corrente e il secondo alla directory \textsl{genitrice} (o \textit{parent + directory}) cioè la directory che contiene il riferimento alla directory +corrente. + +In questo modo con ``\file{..}'' si può usare un \itindsub{pathname}{relativo} +pathname relativo per indicare un file posto al di sopra della directory +corrente, tornando all'indietro nell'albero dei file. Questa retromarcia però +su fermerà una volta raggiunta la directory radice, perché non esistendo in +questo caso una directory superiore, il nome ``\file{..}'' farà riferimento +alla radice stessa. + +\itindend{pathname} +\itindend{pathname~resolution} + + +\subsection{I tipi di file} +\label{sec:file_file_types} + +Parlare dei tipi di file su Linux, come per qualunque sistema unix-like, +significa anzitutto chiarire il proprio vocabolario e sottolineare le +differenze che ci sono rispetto ad altri sistemi operativi. + +Come accennato in sez.~\ref{sec:file_arch_overview} su Linux l'uso del +\itindex{Virtual~File~System} \textit{Virtual File System} consente di +trattare come file oggetti molto diversi fra loro. Oltre ai normali file di +dati abbiamo già accennato ad altri due di questi oggetti, i file di +dispositivo e le directory, ma ne esistono altri. In genere quando si parla di +tipo di file su Linux si fa riferimento a questi, di cui si riportato l'elenco +completo in tab.~\ref{tab:file_file_types}. + +\begin{table}[htb] + \footnotesize + \centering + \begin{tabular}[c]{|l|l|p{6cm}|} + \hline + \multicolumn{2}{|c|}{\textbf{Tipo di file}} & \textbf{Descrizione} \\ + \hline + \hline + \textit{regular file} & \textsl{file regolare} & + Un file che contiene dei dati (l'accezione normale di file).\\ + \textit{directory} & \textsl{cartella o direttorio} & + Un file che contiene una lista di nomi associati a degli + \itindex{inode} \textit{inode} (vedi sez.~\ref{sec:file_vfs_work}).\\ + \textit{symbolic link} & \textsl{collegamento simbolico} & + Un file che contiene un riferimento ad un altro file/directory.\\ + \textit{char device} & \textsl{dispositivo a caratteri} & + Un file \textsl{speciale} che identifica una periferica ad accesso a + caratteri.\\ + \textit{block device} & \textsl{dispositivo a blocchi} & + Un file \textsl{speciale} che identifica una periferica ad accesso a + blocchi.\\ + \textit{fifo} & ``\textsl{coda}'' & + Un file \textsl{speciale} che identifica una linea di comunicazione + unidirezionale (vedi sez.~\ref{sec:ipc_named_pipe}).\\ + \textit{socket} & ``\textsl{presa}''& + Un file \textsl{speciale} che identifica una linea di comunicazione + bidirezionale (vedi cap.~\ref{cha:socket_intro}).\\ + \hline + \end{tabular} + \caption{Tipologia dei file definiti nel VFS} + \label{tab:file_file_types} +\end{table} + +Si tenga ben presente che questa classificazione non ha nulla a che fare con +una classificazione dei file in base al tipo loro del contenuto, dato che in +tal caso si avrebbe a che fare sempre e solo con dei file di dati. E non ha +niente a che fare neanche con le eventuali diverse modalità con cui si +potrebbe accedere al contenuto dei file di dati. La classificazione di +tab.~\ref{tab:file_file_types} riguarda il tipo di oggetti gestiti dal +\itindex{Virtual~File~System} \textit{Virtual File System}, ed è da notare la +presenza dei cosiddetti file ``\textsl{speciali}''. + +Alcuni di essi, come le \textit{fifo} (che tratteremo in +sez.~\ref{sec:ipc_named_pipe}) ed i \textit{socket} (che tratteremo in +cap.~\ref{cha:socket_intro}) non sono altro che dei riferimenti per utilizzare +alcune funzionalità di comunicazione fornite dal kernel. Gli altri sono +proprio quei \index{file!di~dispositivo} \textsl{file di dispositivo} che +costituiscono una interfaccia diretta per leggere e scrivere sui dispositivi +fisici. Anche se finora li abbiamo chiamati genericamente così, essi sono +tradizionalmente suddivisi in due grandi categorie, \textsl{a blocchi} e +\textsl{a caratteri} a seconda delle modalità in cui il dispositivo +sottostante effettua le operazioni di I/O. + +I dispositivi a blocchi (ad esempio i dischi) sono quelli corrispondono a +periferiche per le quali è richiesto che l'I/O venga effettuato per blocchi di +dati di dimensioni fissate (nel caso dei dischi le dimensioni di un settore), +mentre i dispositivi a caratteri sono quelli per cui l'I/O può essere +effettuato senza nessuna particolare struttura, ed in generale anche un byte +alla volta, da cui il nome. + +Una delle differenze principali con altri sistemi operativi come il VMS o +Windows è che per Unix tutti i file di dati sono identici e contengono un +flusso continuo di byte. Non esiste cioè differenza per come vengono visti dal +sistema file di diverso contenuto o formato, come nel caso di quella fra file +di testo e binari che c'è in Windows. Non c'è neanche una strutturazione a +record per il cosiddetto ``\textsl{accesso diretto}'' come nel caso del +VMS.\footnote{questo vale anche per i dispositivi a blocchi: la strutturazione + dell'I/O in blocchi di dimensione fissa avviene solo all'interno del kernel, + ed è completamente trasparente all'utente; inoltre talvolta si parla di + \textsl{accesso diretto} riferendosi alla capacità, che non ha niente a che + fare con tutto ciò, di effettuare, attraverso degli appositi + \index{file!di~dispositivo} file di dispositivo, operazioni di I/O + direttamente sui dischi senza passare attraverso un filesystem, il + cosiddetto \textit{raw access}, introdotto coi kernel della serie 2.4.x ma + ormai in sostanziale disuso.} + +Una differenza che attiene ai contenuti di un file però esiste, ed è relativa +al formato dei file di testo. Nei sistemi unix-like la fine riga è codificata +in maniera diversa da Windows o dal vecchio MacOS, in particolare il fine riga +è il carattere \texttt{LF} (\verb|\n|) al posto del \texttt{CR} (\verb|\r|) +del vecchio MacOS e del \texttt{CR LF} (\verb|\r\n|) di Windows. Questo può +causare alcuni problemi qualora nei programmi si facciano assunzioni sul +terminatore della riga e per questo esistono dei programmi come \cmd{unix2dos} +e \cmd{dos2unix} che effettuano una conversione fra questi due formati di +testo. + +Si ricordi comunque che un kernel unix-like non fornisce nessun supporto per +la tipizzazione dei file di dati in base al loro contenuto e che non c'è +nessun supporto per una qualche interpretazione delle estensioni (nel nome del +file) da parte del kernel,\footnote{non è così ad esempio nel filesystem HFS + dei Mac, che supporta delle risorse associate ad ogni file, che specificano + fra l'altro il contenuto ed il programma da usare per leggerlo; in realtà + per alcuni filesystem esiste la possibilità di associare delle risorse ai + file con gli \textit{extended attributes} (vedi sez.~\ref{sec:file_xattr}), + ma è una caratteristica tutt'ora poco utilizzata, dato che non corrisponde + al modello classico dei file in un sistema Unix.} ogni classificazione di +questo tipo avviene sempre in \textit{user-space}. Gli unici file di cui il +kernel deve essere in grado di capire il contenuto sono i binari dei +programmi, per i quali sono supportati solo alcuni formati, anche se oggi +viene usato quasi esclusivamente l'ELF.\footnote{il nome è l'acronimo di + \textit{Executable and Linkable Format}, un formato per eseguibili binari + molto flessibile ed estendibile definito nel 1995 dal \textit{Tool Interface + Standard} che per le sue caratteristiche di non essere legato a nessun + tipo di processore o architettura è stato adottato da molti sistemi + unix-like e non solo.} + +Nonostante l'assenza di supporto da parte del kernel per la classificazione +del contenuto dei file di dati, molti programmi adottano comunque delle +convenzioni per i nomi dei file, ad esempio il codice C normalmente si mette +in file con l'estensione \file{.c}. Inoltre una tecnica molto usata per +classificare i contenuti da parte dei programmi è quella di utilizzare i primi +byte del file per memorizzare un \itindex{magic~number} ``\textit{magic + number}''\footnote{il concetto è quello di un numero intero, solitamente fra + 2 e 10 byte, che identifichi il contenuto seguente, dato che questi sono + anche caratteri è comune trovare espresso tale numero con stringhe come + ``\texttt{\%PDF}'' per i PDF o ``\texttt{\#!}'' per gli script.} che ne +classifichi il contenuto. Entrambe queste tecniche, per quanto usate ed +accettate in maniera diffusa, restano solo delle convenzioni il cui rispetto è +demandato alle applicazioni stesse. + + +\subsection{Le due interfacce per l'accesso ai file} +\label{sec:file_io_api} + + +\itindbeg{file~descriptor} + +In Linux le interfacce di programmazione per l'I/O su file due. La prima è +l'interfaccia nativa del sistema, quella che il manuale delle \textsl{glibc} +chiama interfaccia dei ``\textit{file descriptor}'' (in italiano +\textsl{descrittori di file}). Si tratta di un'interfaccia specifica dei +sistemi unix-like che fornisce un accesso non bufferizzato. + +L'interfaccia è essenziale, l'accesso viene detto non bufferizzato in quanto +la lettura e la scrittura vengono eseguite chiamando direttamente le +\textit{system call} del kernel, anche se in realtà il kernel effettua al suo +interno alcune bufferizzazioni per aumentare l'efficienza nell'accesso ai +dispositivi. L'accesso viene gestito attraverso i \textit{file descriptor} che +sono rappresentati da numeri interi (cioè semplici variabili di tipo +\ctyp{int}). L'interfaccia è definita nell'\textit{header file} +\headfile{unistd.h} e la tratteremo in dettaglio in +cap.~\ref{cha:file_unix_interface}. + +\itindbeg{file~stream} + +La seconda interfaccia è quella che il manuale della \acr{glibc} chiama dei +\textit{file stream} o più semplicemente degli \textit{stream}.\footnote{in + realtà una interfaccia con lo stesso nome è stata introdotta a livello di + kernel negli Unix derivati da \textit{System V}, come strato di astrazione + per file e socket; in Linux questa interfaccia, che comunque ha avuto poco + successo, non esiste, per cui facendo riferimento agli \textit{stream} + useremo il significato adottato dal manuale delle \acr{glibc}.} Essa +fornisce funzioni più evolute e un accesso bufferizzato, controllato dalla +implementazione fatta nella \acr{glibc}. Questa è l'interfaccia standard +specificata dall'ANSI C e perciò si trova anche su tutti i sistemi non +Unix. Gli \textit{stream} sono oggetti complessi e sono rappresentati da +puntatori ad un opportuna struttura definita dalle librerie del C, ad essi si +accede sempre in maniera indiretta utilizzando il tipo \code{FILE *}. +L'interfaccia è definita nell'\textit{header file} \headfile{stdio.h} e la +tratteremo in dettaglio nel cap.~\ref{cha:files_std_interface}. + +Entrambe le interfacce possono essere usate per l'accesso ai file come agli +altri oggetti del VFS, ma per poter accedere alle operazioni di controllo +(descritte in sez.~\ref{sec:file_fcntl} e sez.~\ref{sec:file_ioctl}) su un +qualunque tipo di oggetto del VFS occorre usare l'interfaccia standard di Unix +con i file descriptor. Allo stesso modo devono essere usati i file descriptor +se si vuole ricorrere a modalità speciali di I/O come il +\itindex{file~locking} \textit{file locking} o l'I/O non-bloccante (vedi +cap.~\ref{cha:file_advanced}). + +Gli \textit{stream} forniscono un'interfaccia di alto livello costruita sopra +quella dei \textit{file descriptor}, che permette di poter scegliere tra +diversi stili di bufferizzazione. Il maggior vantaggio degli \textit{stream} +è che l'interfaccia per le operazioni di input/output è molto più ricca di +quella dei \textit{file descriptor}, che forniscono solo funzioni elementari +per la lettura/scrittura diretta di blocchi di byte. In particolare gli +\textit{stream} dispongono di tutte le funzioni di formattazione per l'input e +l'output adatte per manipolare anche i dati in forma di linee o singoli +caratteri. + +In ogni caso, dato che gli \textit{stream} sono implementati sopra +l'interfaccia standard di Unix, è sempre possibile estrarre il \textit{file + descriptor} da uno \textit{stream} ed eseguirvi sopra operazioni di basso +livello, o associare in un secondo tempo uno \textit{stream} ad un +\textit{file descriptor} per usare l'interfaccia più sofisticata. + +In generale, se non necessitano specificatamente le funzionalità di basso +livello, è opportuno usare sempre gli \textit{stream} per la loro maggiore +portabilità, essendo questi ultimi definiti nello standard ANSI C; +l'interfaccia con i \textit{file descriptor} infatti segue solo lo standard +POSIX.1 dei sistemi Unix, ed è pertanto di portabilità più limitata. + +\itindend{file~descriptor} +\itindend{file~stream} + \section{Gli standard} \label{sec:intro_standard} @@ -427,7 +787,7 @@ interfacce di programmazione e le altre caratteristiche di un sistema unix-like (alcuni standardizzano pure i comandi base del sistema e la shell) ed in particolare ci concentreremo sul come ed in che modo essi sono supportati sia per quanto riguarda il kernel che la Libreria Standard del C, -con una particolare attenzione alle \acr{glibc}. +con una particolare attenzione alla \acr{glibc}. \subsection{Lo standard ANSI C} @@ -449,65 +809,21 @@ linguaggio C (operatori, parole chiave, tipi di dati) lo standard prevede anche una libreria di funzioni che devono poter essere implementate su qualunque sistema operativo. -\begin{table}[htb] - \footnotesize - \centering - \begin{tabular}[c]{|l|c|c|l|} - \hline - \multirow{2}{*}{\textbf{Header}}& - \multicolumn{2}{|c|}{\textbf{Standard}}& - \multirow{2}{*}{\textbf{Contenuto}} \\ - \cline{2-3} - & ANSI C& POSIX& \\ - \hline - \hline - \file{assert.h}&$\bullet$& -- & Verifica le asserzioni fatte in un - programma.\\ - \file{ctype.h} &$\bullet$& -- & Tipi standard.\\ - \file{dirent.h}& -- &$\bullet$& Manipolazione delle directory.\\ - \file{errno.h} & -- &$\bullet$& Errori di sistema.\\ - \file{fcntl.h} & -- &$\bullet$& Controllo sulle opzioni dei file.\\ - \file{limits.h}& -- &$\bullet$& Limiti e parametri del sistema.\\ - \file{malloc.h}&$\bullet$& -- & Allocazione della memoria.\\ - \file{setjmp.h}&$\bullet$& -- & Salti non locali.\\ - \file{signal.h}& -- &$\bullet$& Gestione dei segnali.\\ - \file{stdarg.h}&$\bullet$& -- & Gestione di funzioni a argomenti - variabili.\\ - \file{stdio.h} &$\bullet$& -- & I/O bufferizzato in standard ANSI C.\\ - \file{stdlib.h}&$\bullet$& -- & Definizioni della libreria standard.\\ - \file{string.h}&$\bullet$& -- & Manipolazione delle stringhe.\\ - \file{time.h} & -- &$\bullet$& Gestione dei tempi.\\ - \file{times.h} &$\bullet$& -- & Gestione dei tempi.\\ - \file{unistd.h}& -- &$\bullet$& Unix standard library.\\ - \file{utmp.h} & -- &$\bullet$& Registro connessioni utenti.\\ - \hline - \end{tabular} - \caption{Elenco dei vari header file definiti dallo standard POSIX.} - \label{tab:intro_posix_header} -\end{table} - Per questo motivo, anche se lo standard non ha alcun riferimento ad un sistema di tipo Unix, GNU/Linux (per essere precisi la \acr{glibc}), come molti Unix moderni, provvede la compatibilità con questo standard, fornendo le funzioni di libreria da esso previste. Queste sono dichiarate in una serie di -\textit{header file}\footnote{si chiamano così i file di dichiarazione di - variabili, tipi e funzioni, usati normalmente da un compilatore C; per poter - accedere alle funzioni occorre includere con la direttiva \code{\#include} - questi file nei propri programmi ed in seguito per ciascuna funzione che - tratteremo indicheremo anche gli \textit{header file} necessari ad usarla.} -(anch'essi forniti dalla \acr{glibc}); in tab.~\ref{tab:intro_posix_header} si -sono riportati i principali \textit{header file} definiti negli standard POSIX -ed ANSI C, che sono anche quelli definiti negli altri standard descritti nelle -sezioni successive. +\textit{header file} anch'essi forniti dalla \acr{glibc} (tratteremo +l'argomento in sez.~\ref{sec:proc_syscall}). In realtà la \acr{glibc} ed i relativi \textit{header file} definiscono un insieme di funzionalità in cui sono incluse come sottoinsieme anche quelle previste dallo standard ANSI C. È possibile ottenere una conformità stretta allo standard (scartando le funzionalità addizionali) usando il \cmd{gcc} con l'opzione \cmd{-ansi}. Questa opzione istruisce il compilatore a definire nei -vari header file soltanto le funzionalità previste dallo standard ANSI C e a -non usare le varie estensioni al linguaggio e al preprocessore da esso -supportate. +vari \textit{header file} soltanto le funzionalità previste dallo standard +ANSI C e a non usare le varie estensioni al linguaggio e al preprocessore da +esso supportate. \subsection{I tipi di dati primitivi} @@ -544,7 +860,7 @@ infinita serie di problemi di portabilità. \type{dev\_t} & Numero di dispositivo (vedi sez.~\ref{sec:file_mknod}).\\ \type{gid\_t} & Identificatore di un gruppo (vedi sez.~\ref{sec:proc_access_id}).\\ - \type{ino\_t} & Numero di \index{inode} \textit{inode}.\\ + \type{ino\_t} & Numero di \itindex{inode} \textit{inode}.\\ \type{key\_t} & Chiave per il System V IPC (vedi sez.~\ref{sec:ipc_sysv_generic}).\\ \type{loff\_t} & Posizione corrente in un file.\\ @@ -565,15 +881,15 @@ infinita serie di problemi di portabilità. sez.~\ref{sec:proc_access_id}).\\ \hline \end{tabular} - \caption{Elenco dei tipi primitivi, definiti in \file{sys/types.h}.} + \caption{Elenco dei tipi primitivi, definiti in \headfile{sys/types.h}.} \label{tab:intro_primitive_types} \end{table} Per questo motivo tutte le funzioni di libreria di solito non fanno riferimento ai tipi elementari dello standard del linguaggio C, ma ad una serie di \index{tipo!primitivo} \textsl{tipi primitivi} del sistema, riportati -in tab.~\ref{tab:intro_primitive_types}, e definiti nell'header file -\file{sys/types.h}, in modo da mantenere completamente indipendenti i tipi +in tab.~\ref{tab:intro_primitive_types}, e definiti nell'\textit{header file} +\headfile{sys/types.h}, in modo da mantenere completamente indipendenti i tipi utilizzati dalle funzioni di sistema dai tipi elementari supportati dal compilatore C. @@ -622,7 +938,7 @@ presenti neanche in System V) sono state tralasciate. Le funzionalità implementate sono principalmente il meccanismo di intercomunicazione fra i processi e la memoria condivisa (il cosiddetto System V IPC, che vedremo in sez.~\ref{sec:ipc_sysv}) le funzioni della famiglia -\func{hsearch} e \func{drand48}, \func{fmtmsg} e svariate funzioni +\funcm{hsearch} e \funcm{drand48}, \funcm{fmtmsg} e svariate funzioni matematiche. @@ -692,8 +1008,7 @@ si aggiungono continuamente, mentre le versioni precedenti vengono riviste; talvolta poi i riferimenti cambiano nome, per cui anche solo seguire le denominazioni usate diventa particolarmente faticoso; una pagina dove si possono recuperare varie (e di norma piuttosto intricate) informazioni è -\href{http://www.pasc.org/standing/sd11.html} -{\textsf{http://www.pasc.org/standing/sd11.html}}. +\url{http://www.pasc.org/standing/sd11.html}. \begin{table}[htb] \footnotesize @@ -802,8 +1117,8 @@ Issue 4, da cui la sigla XPG4, che aggiungeva l'interfaccia XTI (\textit{X Transport Interface}) mirante a soppiantare (senza molto successo) l'interfaccia dei socket derivata da BSD. Una seconda versione della guida fu rilasciata nel 1994; questa è nota con il nome di Spec 1170 (dal numero delle -interfacce, header e comandi definiti) ma si fa riferimento ad essa anche come -XPG4v2. +interfacce, intestazioni e comandi definiti) ma si fa riferimento ad essa +anche come XPG4v2. Nel 1993 il marchio Unix passò di proprietà dalla Novell (che a sua volta lo aveva comprato dalla AT\&T) al consorzio X/Open che iniziò a pubblicare le sue @@ -849,8 +1164,8 @@ dall'aggiornamento vada a definire la quarta versione delle \textit{Single In Linux, se si usa la \acr{glibc}, la conformità agli standard appena descritti può essere richiesta sia attraverso l'uso di opportune opzioni del compilatore (il \texttt{gcc}) che definendo delle specifiche costanti prima -dell'inclusione dei file di dichiarazione (gli \textit{header file}) che -definiscono le funzioni di libreria. +dell'inclusione dei file di intestazione (gli \textit{header file}, vedi +sez.~\ref{sec:proc_syscall}) che definiscono le funzioni di libreria. Ad esempio se si vuole che i programmi seguano una stretta attinenza allo standard ANSI C si può usare l'opzione \texttt{-ansi} del compilatore, e non @@ -876,7 +1191,7 @@ funzionalità che la \acr{glibc} può mettere a disposizione:\footnote{le macro che non devono assolutamente mai essere usate direttamente. } questo può essere fatto attraverso l'opzione \texttt{-D} del compilatore, ma è buona norma farlo inserendo gli opportuni \code{\#define} prima della inclusione dei -propri \textit{header file}. +propri \textit{header file} (vedi sez.~\ref{sec:proc_syscall}). Le macro disponibili per controllare l'aderenza ai vari standard messi a disposizione della \acr{glibc}, che rendono disponibili soltanto le funzioni @@ -1028,14 +1343,14 @@ una opportuna macro; queste estensioni sono illustrate nel seguente elenco: presente negli standard con i file di grandi dimensioni, ed in particolare definire le due funzioni \func{fseeko} e \func{ftello} che al contrario delle corrispettive \func{fseek} e \func{ftell} usano il tipo di dato - specifico \ctyp{off\_t} (vedi sez.~\ref{sec:file_fseek}). + specifico \type{off\_t} (vedi sez.~\ref{sec:file_fseek}). \item[\macro{\_LARGEFILE64\_SOURCE}] definendo questa macro si rendono disponibili le funzioni di una interfaccia alternativa al supporto di valori a 64 bit nelle funzioni di gestione dei file (non supportati in certi sistemi), caratterizzate dal suffisso \texttt{64} aggiunto ai vari nomi di - tipi di dato e funzioni (come \ctyp{off64\_t} al posto di \ctyp{off\_t} o - \func{lseek64} al posto di \func{lseek}). + tipi di dato e funzioni (come \type{off64\_t} al posto di \type{off\_t} o + \funcm{lseek64} al posto di \func{lseek}). Le funzioni di questa interfaccia alternativa sono state proposte come una estensione ad uso di transizione per le \textit{Single UNIX Specification}, @@ -1064,9 +1379,9 @@ una opportuna macro; queste estensioni sono illustrate nel seguente elenco: \item[\macro{\_ATFILE\_SOURCE}] definendo questa macro si rendono disponibili le estensioni delle funzioni di creazione, accesso e modifica di file e - directory che risolvono i problemi di sicurezza insiti nell'uso di pathname - relativi con programmi \itindex{thread} \textit{multi-thread} illustrate in - sez.~\ref{sec:file_openat}. + directory che risolvono i problemi di sicurezza insiti nell'uso di + \textit{pathname} relativi con programmi \itindex{thread} + \textit{multi-thread} illustrate in sez.~\ref{sec:file_openat}. \item[\macro{\_REENTRANT}] definendo questa macro, o la equivalente \macro{\_THREAD\_SAFE} (fornita per compatibilità) si rendono disponibili le @@ -1087,10 +1402,10 @@ una opportuna macro; queste estensioni sono illustrate nel seguente elenco: Le funzioni di libreria che vengono messe sotto controllo quando questa funzionalità viene attivata sono, al momento della stesura di queste note, - le seguenti: \func{memcpy}, \func{mempcpy}, \func{memmove}, \func{memset}, - \func{stpcpy}, \func{strcpy}, \func{strncpy}, \func{strcat}, \func{strncat}, - \func{sprintf}, \func{snprintf}, \func{vsprintf}, \func{vsnprintf}, e - \func{gets}. + le seguenti: \funcm{memcpy}, \funcm{mempcpy}, \funcm{memmove}, + \funcm{memset}, \funcm{stpcpy}, \funcm{strcpy}, \funcm{strncpy}, + \funcm{strcat}, \funcm{strncat}, \func{sprintf}, \func{snprintf}, + \func{vsprintf}, \func{vsnprintf}, e \func{gets}. La macro prevede due valori, con \texttt{1} vengono eseguiti dei controlli di base che non cambiano il comportamento dei programmi se si richiede una @@ -1125,7 +1440,7 @@ sempre definite prima dell'inclusione dei file di dichiarazione. % LocalWords: assert ctype dirent errno fcntl limits malloc setjmp signal utmp % LocalWords: stdarg stdio stdlib string times unistd library int short caddr % LocalWords: address clock dev ino inode key IPC loff nlink off pid rlim size -% LocalWords: sigset ssize ptrdiff sys nell'header IEEE Richard Portable of TR +% LocalWords: sigset ssize ptrdiff sys IEEE Richard Portable of TR filesystem % LocalWords: Operating Interface dell'IEEE Electrical and Electronics thread % LocalWords: Engeneers Socket NT matching regular expression scheduling l'I % LocalWords: XPG Portability Issue Application Programmable XTI Transport AT @@ -1134,11 +1449,15 @@ sempre definite prima dell'inclusione dei file di dichiarazione. % LocalWords: drand fmtmsg define SOURCE lbsd compat XOPEN version ISOC Large % LocalWords: LARGEFILE Support LFS dell' black rectangle node fill cpu draw % LocalWords: ellipse mem anchor west proc SysV SV Definition SCO Austin XSI -% LocalWords: Technical TC SUS Opengroup features STRICT std ATFILE fseeko +% LocalWords: Technical TC SUS Opengroup features STRICT std ATFILE fseeko VFS % LocalWords: ftello fseek ftell lseek FORTIFY REENTRANT SAFE overflow memcpy % LocalWords: mempcpy memmove memset stpcpy strcpy strncpy strcat strncat gets % LocalWords: sprintf snprintf vsprintf vsnprintf syscall number calendar BITS -% LocalWords: pathname Google Android standards +% LocalWords: pathname Google Android standards device Virtual bootloader path +% LocalWords: filename fifo name components resolution chroot parent symbolic +% LocalWords: char block VMS raw access MacOS LF CR dos HFS Mac attributes +% LocalWords: Executable Linkable Format Tool magic descriptor stream locking +% LocalWords: process %%% Local Variables: %%% mode: latex