X-Git-Url: https://gapil.gnulinux.it/gitweb/?p=gapil.git;a=blobdiff_plain;f=socket.tex;h=05b1af6bf0f21bea7fd7d297744e4c002972e072;hp=786ed5538de8addad5d3a9057a96ae17a20c83d0;hb=09fff83335c84e1290f725341b0959344e5a7b03;hpb=dae47fe5a867149bb13d3b69126d92b8498b607b diff --git a/socket.tex b/socket.tex index 786ed55..05b1af6 100644 --- a/socket.tex +++ b/socket.tex @@ -1,22 +1,29 @@ -\chapter{Socket} -\label{cha:socket} - -I \textit{socket} sono usati come meccanismo di comunicazione fra programmi -utilizzato in ambito unix (e non solo). La creazione di un socket restituisce -un file descriptor analogo a quello di una pipe ma a differenza di questa e -degli altri meccanismi esaminati nel capitolo \ref{cha:ipc} i socket non sono -limitati alla comunicazione fra processi che girano sulla stessa macchina ma -possono effettuare la comunicazione anche attraverso la rete. - -I socket infatti sono la principale API (\textit{Application Program - Interface}) usata nella programmazione di rete. La loro origine risale al -1983, quando furono introdotti nel BSD 4.2; l'interfaccia è rimasta +\chapter{Introduzione ai socket} +\label{cha:socket_intro} + +Il \textit{socket} (traducibile liberamente come \textsl{manicotto}) è uno dei +principali meccanismi di comunicazione fra programmi utilizzato in ambito unix +(e non solo). Il socket costituisce in sostanza un canale di comunicazione fra +due processi su cui si possono leggere e scrivere dati analogo a quello di una +pipe ma a differenza di questa e degli altri meccanismi esaminati nel capitolo +\ref{cha:IPC} i socket non sono limitati alla comunicazione fra processi che +girano sulla stessa macchina ma possono effettuare la comunicazione anche +attraverso la rete. + +Quella dei socket costituisce infatti la principale API (\textit{Application + Program Interface}) usata nella programmazione di rete. La loro origine +risale al 1983, quando furono introdotti nel BSD 4.2; l'interfaccia è rimasta sostanzialmente la stessa con piccole modifiche negli anni successivi. Benché siano state sviluppate interfacce alternative, originate dai sistemi SYSV, come la XTI (\textit{X/Open Transport Interface}) nessuna ha mai raggiunto la -diffusione e la popolarità di quella dei socket (e tantomeno usabilità e +diffusione e la popolarità di quella dei socket (né tantomeno usabilità e flessibilità). +La flessibilità e la genericità dell'interfaccia inoltre ha consentito di +utilizzare i socket con i più disparati meccanismi di comunicazione, e non +solo con la suite dei protocolli TCP/IP, che sarà comunque quella di cui +tratteremo in maniera più estesa. + \section{Concetti base} \label{sec:sock_gen} @@ -56,24 +63,80 @@ si collega possa riceverli. la comunicazione, ad esempio se è inaffidabile occorrerà essere in grado di gestire la perdita o il rimescolamento dei dati. + +\section{La funzione \texttt{socket}} +\label{sec:sock_socket} + +La creazione di un socket avviene attraverso l'uso della funzione +\texttt{socket} questa restituisce un \textit{socket descriptor} (un valore +intero non negativo) che come gli analoghi file descriptor di files e alle +pipes serve come riferimento al socket; in sostanza è l'indice nella tabella +dei file che contiene i puntatori alle opportune strutture usate dal kernel ed +allocate per ogni processo, (la stessa usata per i files e le pipes [NdA +verificare!]). + +Il prototipo della funzione è definito nell'header \texttt{sys/socket.h}, la +funzione prende tre parametri, il dominio del socket (che definisce la +famiglia di protocolli, vedi \ref{sec:sock_domain}), il tipo di socket (che +definisce lo stile di comunicazione vedi \ref{sec:sock_type}) e il protocollo; +in genere quest'ultimo è indicato implicitamente dal tipo di socket, per cui +viene messo a zero (con l'eccezione dei \textit{raw socket}). + +\begin{itemize} +\item \texttt{int socket(int domain, int type, int protocol)} + + La funzione restituisce un intero positivo se riesce, e -1 se fallisce, in + quest'ultimo caso la variabile \texttt{errno} è settata con i seguenti + codici di errore: + + \begin{itemize} + \item \texttt{EPROTONOSUPPORT} Il tipo di socket o il protocollo scelto non + sono supportati nel dominio. + \item \texttt{ENFILE} Il kernel non ha memoria sufficiente a creare una + nuova struttura per il socket. + \item \texttt{EMFILE} Si è ecceduta la tabella dei file. + \item \texttt{EACCES} Non si hanno privilegi per creare un socket nel + dominio o con il protocollo specificato. + \item \texttt{EINVAL} Protocollo sconosciuto o dominio non disponibile. + \item \texttt{ENOBUFS} o \texttt{ENOMEM} Non c'è sufficiente memoria per + creare il socket. + \end{itemize} +\end{itemize} + +Si noti che la creazione del socket non comporta nulla riguardo +all'indicazione degli indirizzi remoti o locali attraverso i quali si vuole +effettuare la comunicazione. + +\subsection{Il dominio, o \textit{protocol family}} +\label{sec:sock_domain} + Dati i tanti e diversi protocolli di comunicazione disponibili, esistono vari tipi di socket, che vengono classificati raggruppandoli in quelli che si chiamano \textsl{domini} (\textit{domains}). La scelta di un dominio equivale in sostanza alla scelta di una famiglia di protocolli. Ciascun dominio ha un suo nome simbolico che convenzionalmente inizia con \texttt{PF\_} (da -\textit{protocol family}, altro nome con cui si indicano i domini). +\textit{Protocol Family}, altro nome con cui si indicano i domini). A ciascun tipo di dominio corrisponde un analogo nome simbolico che inizia per -\texttt{AF\_} (da \textit{Address Family}, nome che useremo anche noi; le man -pages di linux si riferiscono a questi anche come \textit{name space}, nome -che però il manuale della glibc riserva ai domini) e che identifica il formato -degli indirizzi usati in quel dominio. +\texttt{AF\_} da \textit{Address Family}, e che identifica il formato degli +indirizzi usati in quel dominio; le man pages di linux si riferiscono a questi +anche come \textit{name space}, (nome che però il manuale della glibc riserva +ai domini) e che identifica il formato degli indirizzi usati in quel dominio. + +L'idea alla base della distinzione era che una famiglia di protocolli potesse +supportare vari tipi di indirizzi, per cui il prefisso \texttt{PF\_} si +sarebbe dovuto usare nella creazione dei socket e il prefisso \texttt{AF\_} in +quello delle strutture degli indirizzi; questo è quanto specificato anche +dallo standard POSIX.1g, ma non esistono a tuttora famiglie di protocolli che +supportino diverse strutture di indirizzi, per cui nella pratica questi due +nomi sono equivalenti e corrispondono agli stessi valori. -I domini (e i relativi nomi simbolici) sono definiti dall'header -\textit{socket.h}. In linux sono disponibili le famiglie di protocolli -riportate in \ntab. +I domini (e i relativi nomi simbolici), così come i nomi delle famiglie di +indirizzi sono definiti dall'header \textit{socket.h}. In linux le famiglie di +protocolli disponibili sono riportate in \ntab. \begin{table}[htb] + \footnotesize \centering \begin{tabular}[c]{lll} Nome & Utilizzo & Man page \\ @@ -92,6 +155,14 @@ riportate in \ntab. \label{tab:net_pf_names} \end{table} +Non tutte le famiglie di protocolli sono accessibili dall'utente generico, ad +esempio in generale tutti i socket di tipo \texttt{SOCK\_RAW} possono essere +creati solo da processi che hanno i provilegi di root (cioè effective uid +uguale a zero) o la capability \texttt{CAP\_NET\_RAW}. + + +\subsection{Il tipo, o stile} +\label{sec:sock_type} La scelta di un dominio non comporta però la scelta dello stile di comunicazione, questo infatti viene a dipendere dal protocollo che si andrà ad @@ -104,11 +175,10 @@ glibc chiama \textit{styles}) definiti come \texttt{int} in \texttt{socket.h}: \item \texttt{SOCK\_STREAM} Provvede un canale di trasmissione dati bidirezionale, sequenziale e affidabile. Opera su una connessione con un altro socket. I dati vengono ricevuti e trasmessi come un flusso continuo di - byte (da cui il nome \textit{stream}). Vedi \ref{sec:sock_stream}. + byte (da cui il nome \textit{stream}). \item \texttt{SOCK\_DGRAM} Viene usato per mandare pacchetti di lunghezza massima fissata (\textit{datagram}) indirizzati singolarmente, senza - connessione e in maniera non affidabile. È l'opposto del precedente. Vedi - \ref{sec:sock_dgram}. + connessione e in maniera non affidabile. È l'opposto del precedente. \item \texttt{SOCK\_SEQPACKET} Provvede un canale di trasmissione di dati bidirezionale, sequenziale e affidabile. Opera su una connessione con un altro socket. I dati possono solo essere trasmessi e letti per pacchetti (di @@ -121,7 +191,552 @@ glibc chiama \textit{styles}) definiti come \texttt{int} in \texttt{socket.h}: \item \texttt{SOCK\_PACKET} Obsoleto, non deve essere usato. \end{list} +Si tenga presente che non tutte le combinazioni di famiglia di protocolli e +tipo di socket sono valide, in quanto non è detto che nella famiglia esista un +protocollo per tutti gli stili di comunicazione indicati qui sopra. Una +tabella che mostra le combinazioni valide è la seguente: + +\begin{table}[htb] + \footnotesize + \centering + \begin{tabular}{l|c|c|c|c|c|} + \multicolumn{1}{c}{} &\multicolumn{1}{c}{\texttt{SOCK\_STREAM}}& + \multicolumn{1}{c}{\texttt{SOCK\_DGRAM}} & + \multicolumn{1}{c}{\texttt{SOCK\_RAW}} & + \multicolumn{1}{c}{\texttt{SOCK\_PACKET}}& + \multicolumn{1}{c}{\texttt{SOCK\_SEQPACKET}} \\ + \cline{2-6} + \texttt{PF\_UNIX} & si & si & & & \\ + \cline{2-6} + \texttt{PF\_INET} & TCP & UDP & IPv4 & & \\ + \cline{2-6} + \texttt{PF\_INET6} & TCP & UDP & IPv6 & & \\ + \cline{2-6} + \texttt{PF\_IPX} & & & & & \\ + \cline{2-6} + \texttt{PF\_NETLINK} & & si & si & & \\ + \cline{2-6} + \texttt{PF\_X25} & & & & & si \\ + \cline{2-6} + \texttt{PF\_AX25} & & & & & \\ + \cline{2-6} + \texttt{PF\_ATMPVC} & & & & & \\ + \cline{2-6} + \texttt{PF\_APPLETALK} & & si & si & & \\ + \cline{2-6} + \texttt{PF\_PACKET} & & si & si & & \\ + \cline{2-6} + \end{tabular} + \caption{Combinazioni valide di dominio e tipo di protocollo per la funzione \texttt{socket}.} + \label{tab:sock_sock_valid_combinations} +\end{table} + +Dove per ogni combinazione valida si è indicato il tipo di protocollo, o la +parola \textsl{si} qualora non il protocollo non abbia un nome definito, +mentre si sono lasciate vuote le caselle per le combinazioni non supportate. + +\section{Le strutture degli indirizzi dei socket} +\label{sec:sock_sockaddr} + +Come si è visto nella creazione di un socket non si specifica nulla oltre al +tipo di famiglia di protocolli che si vuole utilizzare, in particolare nessun +indirizzo che identifichi i due capi della comunicazione. La funzione infatti +si limita ad allocare nel kernel quanto necessario per poter poi realizzare la +comunicazione. + +Gli indirizzi vengono specificati attraverso apposite strutture che vengono +utilizzate dalle altre funzioni della API dei socket quando la comunicazione +viene effettivamente realizzata. + +Ogni famiglia di protocolli ha ovviamente una sua forma di indirizzamento e in +corrispondenza a questa una sua peculiare struttura degli indirizzi; i nomi di +tutte queste strutture iniziano per \texttt{sockaddr\_}, quelli propri di +ciascuna famiglia vengono identificati dal suffisso finale, aggiunto al nome +precedente. + +\subsection{La struttura generica} +\label{sec:sock_sa_gen} + +Le strutture degli indirizzi vengono sempre passate alle varie funzioni +attraverso puntatori (cioè \textit{by reference}), ma le funzioni devono poter +maneggiare puntatori a strutture relative a tutti gli indirizzi possibili +nelle varie famiglie di protocolli; questo pone il problema di come passare +questi puntatori, il C ANSI risolve questo problema coi i puntatori generici +(i \texttt{void *}), ma l'interfaccia dei socket è antecendente alla +definizione dello standard ANSI, e per questo nel 1982 fu scelto di definire +una struttura generica \texttt{sockaddr} per gli indirizzi dei socket mostrata +in \nfig: + +\begin{figure}[!htbp] + \footnotesize + \begin{lstlisting}{} +struct sockaddr { + sa_family_t sa_family; /* address family: AF_xxx */ + char sa_data[14]; /* address (protocol-specific) */ +}; + \end{lstlisting} + \caption{La struttura generica degli indirizzi dei socket \texttt{sockaddr}} + \label{fig:sock_sa_gen_struct} +\end{figure} + +Tutte le funzioni dei socket che usano gli indirizzi sono definite usando nel +prototipo un puntatore a questa struttura; per questo motivo quando si +invocano dette funzioni passando l'indirizzo di un protocollo specifico +occorrerà eseguire un casting del relativo puntatore. + +I tipi di dati che compongono la struttura sono stabiliti dallo standard +Posix.1g, riassunti in \ntab\ con i rispettivi file di include in cui sono +definiti; la struttura è invece definita nell'include file +\texttt{sys/socket.h} + +\begin{table}[!htbp] + \centering + \begin{tabular}{|l|l|l|} + \hline + \multicolumn{1}{|c|}{Tipo}& \multicolumn{1}{|c|}{Descrizione}& + \multicolumn{1}{|c|}{Header} \\ + \hline + \hline + \texttt{int8\_t} & intero a 8 bit con segno & \texttt{sys/types.h}\\ + \texttt{uint8\_t} & intero a 8 bit senza segno & \texttt{sys/types.h}\\ + \texttt{int16\_t} & intero a 16 bit con segno & \texttt{sys/types.h}\\ + \texttt{uint16\_t} & intero a 16 bit senza segno& \texttt{sys/types.h}\\ + \texttt{int32\_t} & intero a 32 bit con segno & \texttt{sys/types.h}\\ + \texttt{uint32\_t} & intero a 32 bit senza segno& \texttt{sys/types.h}\\ + \hline + \texttt{sa\_family\_t} & famiglia degli indirizzi& \texttt{sys/socket.h}\\ + \texttt{socklen\_t} & lunghezza (\texttt{uint32\_t}) dell'indirizzo di + un socket& \texttt{sys/socket.h}\\ + \hline + \texttt{in\_addr\_t} & indirizzo IPv4 (\texttt{uint32\_t}) & + \texttt{netinet/in.h}\\ + \texttt{in\_port\_t} & porta TCP o UDP (\texttt{uint16\_t})& + \texttt{netinet/in.h}\\ + \hline + \end{tabular} + \caption{Tipi di dati usati nelle strutture degli indirizzi, secondo quanto + stabilito dallo standard Posix.1g} + \label{tab:sock_data_types} +\end{table} + +In alcuni sistemi (per BSD a partire da 4.3BSD-reno) la struttura è +leggermente diversa e prevede un primo membro aggiuntivo \texttt{uint8\_t + sin\_len} (come riportato da R. Stevens nei suoi libri). Questo campo non +verrebbe usato direttamente dal programmatore e non è richiesto dallo standard +Posix.1g, in Linux pertanto non sussiste. Il campo \texttt{sa\_family\_t} era +storicamente un \texttt{unsigned short}. + +Dal punto di vista del programmatore l'unico uso di questa struttura è quello +di fare da riferimento per il casting, per il kernel le cose sono un po' +diverse, in quanto esso usa il puntatore per recuperare il campo +\texttt{sa\_family} con cui determinare il tipo di indirizzo; per questo +motivo, anche se l'uso di un puntatore \texttt{void *} sarebbe più immediato +per l'utente (che non dovrebbe più eseguire il casting), è stato mantenuto +l'uso di questa struttura. + + +\subsection{La struttura degli indirizzi IPv4} +\label{sec:sock_sa_ipv4} + +I socket di tipo \texttt{PF\_INET} vengono usati per la comunicazione +attraverso internet; la struttura per gli indirizzi per un socket internet +(IPv4) è definita come \texttt{sockaddr\_in} nell'header file +\texttt{netinet/in.h} e secondo le man page ha la forma mostrata in \nfig, +conforme allo standard Posix.1g. + + +\begin{figure}[!htbp] + \footnotesize + \begin{lstlisting}{} +struct sockaddr_in { + sa_family_t sin_family; /* address family: AF_INET */ + u_int16_t sin_port; /* port in network byte order */ + struct in_addr sin_addr; /* internet address */ +}; +/* Internet address. */ +struct in_addr { + u_int32_t s_addr; /* address in network byte order */ +}; + \end{lstlisting} + \caption{La struttura degli indirizzi dei socket internet (IPv4) + \texttt{sockaddr\_in}.} + \label{fig:sock_sa_ipv4_struct} +\end{figure} + +L'indirizzo di un socket internet (secondo IPv4) comprende l'indirizzo +internet di un'interfaccia più un numero di porta. Il protocollo IP non +prevede numeri di porta, che sono utilizzati solo dai protocolli di livello +superiore come TCP e UDP. Questa struttura però viene usata anche per i socket +RAW che accedono direttamente al livello di IP, nel qual caso il numero della +porta viene settato al numero di protocollo. + +Il membro \texttt{sin\_family} deve essere sempre settato; \texttt{sin\_port} +specifica il numero di porta; i numeri di porta sotto il 1024 sono chiamati +\textsl{riservati} in quanto utilizzati da servizi standard. Soltanto processi +con i privilegi di root (effective uid uguale a zero) o con la capability +\texttt{CAP\_NET\_BIND\_SERVICE} possono usare la funzione \texttt{bind} su +queste porte. + +Il membro \texttt{sin\_addr} contiene l'indirizzo internet dell'altro capo +della comunicazione, e viene acceduto sia come struttura (un resto di una +implementazione precedente in cui questa era una union usata per accedere alle +diverse classi di indirizzi) che come intero. + +Infine è da sottolineare che sia gli indirizzi che i numeri di porta devono +essere specificati in quello che viene chiamato \textit{network order}, cioè +con i bit ordinati in formato \textit{big endian}, questo comporta la +necessità di usare apposite funzioni di conversione per mantenere la +portabilità del codice (vedi \ref{sec:sock_addr_func} per i dettagli del +problema e le relative soluzioni). + +\subsection{La struttura degli indirizzi IPv6} +\label{sec:sock_sa_ipv6} + +Essendo IPv6 una estenzione di IPv4 i socket di tipo \texttt{PF\_INET6} sono +sostanzialmente identici ai precedenti; la parte in cui si trovano +praticamente tutte le differenze è quella della struttura degli indirizzi. La +struttura degli indirizzi è definita ancora in \texttt{netinet/in.h}. + +\begin{figure}[!htbp] + \footnotesize + \begin{lstlisting}{} +struct sockaddr_in6 { + u_int16_t sin6_family; /* AF_INET6 */ + u_int16_t sin6_port; /* port number */ + u_int32_t sin6_flowinfo; /* IPv6 flow information */ + struct in6_addr sin6_addr; /* IPv6 address */ + u_int32_t sin6_scope_id; /* Scope id (new in 2.4) */ +}; + +struct in6_addr { + unsigned char s6_addr[16]; /* IPv6 address */ +}; + \end{lstlisting} + \caption{La struttura degli indirizzi dei socket IPv6 + \texttt{sockaddr\_in6}.} + \label{fig:sock_sa_ipv6_struct} +\end{figure} + +Il campo \texttt{sin6\_family} deve essere sempre settato ad +\texttt{AF\_INET6}, il campo \texttt{sin6\_port} è analogo a quello di IPv4 e +segue le stesse regole; il campo \texttt{sin6\_flowinfo} è a dua volta diviso +in tre parti di cui i 24 bit inferiori indicano l'etichetta di flusso, i +successivi 4 bit la priorità e gli ultimi 4 sono riservati; questi valori +fanno riferimento ad alcuni campi specifici dell'header dei pacchetti IPv6 +(vedi \ref{sec:appA_ipv6}) ed il loro uso è sperimentale. + +Il campo \texttt{sin6\_addr} contiene l'indirizzo a 128 bit usato da IPv6, +infine il campo \texttt{sin6\_scope\_id} è un campo introdotto con il kernel +2.4 per gestire alcune operazioni riguardanti il multicasting. + +Si noti che questa struttura è più grande di una \texttt{sockaddr} generica, +quindi occorre stare attenti a non avere fatto assunzioni riguardo alla +possibilità di contenere i dati nelle dimensioni di quest'ultima. + + +\subsection{La struttura degli indirizzi locali} +\label{sec:sock_sa_local} + +I socket di tipo \texttt{PF\_UNIX} vengono usati per una comunicazione +efficiente fra processi che stanno sulla stessa macchina; essi rispetto ai +precedenti possono essere anche creati in maniera anonima attraverso la +funzione \texttt{socketpair}. Quando però si vuole fare riferiemento ad uno di +questi socket si deve usare la seguente struttura di indirizzi definita nel +file di header \texttt{sys/un.h}. + +\begin{figure}[!htbp] + \footnotesize + \begin{lstlisting}{} +#define UNIX_PATH_MAX 108 +struct sockaddr_un { + sa_family_t sun_family; /* AF_UNIX */ + char sun_path[UNIX_PATH_MAX]; /* pathname */ +}; + \end{lstlisting} + \caption{La struttura degli indirizzi dei socket locali + \texttt{sockaddr\_un}.} + \label{fig:sock_sa_local_struct} +\end{figure} + +In questo caso il campo \texttt{sun\_family} deve essere \texttt{AF\_UNIX}, +mentre il campo \texttt{sun\_path} deve specificare un indirizzo; questo ha +due forme un file (di tipo socket) nel filesystem o una stringa univoca +(tenuta in uno spazio di nomi astratto). Nel primo caso l'indirizzo viene +specificato come una stringa (terminata da uno zero) corrispondente al +pathname del file; nel secondo qinvece \texttt{sun\_path} inizia con uno zero +vegono usati i restanti bytes come stringa (senza terminazione). + + +\subsection{Il passaggio delle strutture} +\label{sec:sock_addr_pass} + +Come detto nelle funzioni della API dei socket le strutture degli indirizzi +vengono sempre passate per riferimento usando un puntatore; anche la lunghezza +della struttura è passata come argomento, ma in questo caso la modalità del +passaggio dipende dalla direzione del medesimo, dal processo al kernel o +viceversa. + +% In particolare le tre funzioni \texttt{bind}, \texttt{connect} e +% \texttt{sendto} passano la struttura al kernel, in questo caso è passata +% \textsl{per valore} anche la dimensione della medesima + + +% Le funzioni \texttt{accept}, \texttt{recvfrom}, \texttt{getsockname} e +% \texttt{getpeername} invece ricevono i valori del kernel + + +\section{Le funzioni di conversione degli indirizzi} +\label{sec:sock_addr_func} + +Come accennato gli indirizzi internet e i numeri di porta usati nella rete +devono essere forniti in formato big endian. In genere la rappresentazione di +un numbero binario in un computer può essere fatta in due modi, chiamati +rispettivamente \textit{big endian} e \textit{little endian} a seconda di come +i singoli bit vengono aggregati per formare le variabili intere (in diretta +corrispondenza a come sono poi in realtà cablati sui bus interni del +computer). + +Per capire meglio il problema si consideri un intero a 16 bit scritto in una +locazione di memoria posta ad un certo indirizzo. I singoli bit possono essere +disposti un memoria in due modi, a partire dal più significativo o a partire +dal meno significativo. Così nel primo caso si troverà il byte che contiene i +bit più significativi all'indirizzo menzionato e il byte con i bit meno +significativi nell'indirizzo successivo; questo ordinamento è detto little +endian dato che il dato finale è la parte ``piccola'' del numero. Il caso +opposto, in cui si parte dal bit meno significativo è detto per lo stesso +motivo big endian. + +La \textit{endianess} di un computer dipende essenzialmente dalla architettura +hardware usata; intel e digital usano il little endian, motorola, ibm, sun +(sostanzialmente tutti gli altri) usano il big endian. Il formato della rete è +anch'esso big endian. Esistono poi anche dei processori che possono scegliere +il tipo di formato all'avvio e alcuni, come il PowerPC o l'intel i860, possono +pure passare da un tipo all'altro con una specifica istruzione; in ogni caso +in linux l'ordinamanento è definito dall'archiettura e anche se questi +cambiamenti sono possibili anche dopo che il sistema è avviato, non vengono +mai eseguiti. + +Il problema connesso all'endianess è che quando si passano dei dati da un tipo +di architettura all'altra; in questo caso infatti nel passaggio i dati vengono +interpretati in maniera diversa, e nel caso dell'esempio dell'intero a 16 bit +ci si ritroverà con i due bytes componenti scambiati di posto, mentre in +generale ne sarà invertito l'ordine di lettura e andranno perciò rovesciati. + +Per questo motivo si usano le seguenti funzioni di conversione (i cui +prototipi sono definiti in \texttt{netinet/in.h}) che servono a tener conto +automaticamente della possibile differenza fra l'ordinamento usato sul +computer e quello che viene usato nelle trasmissione sulla rete: +\begin{itemize} +\item \texttt{unsigned long int htonl(unsigned long int hostlong)} + + Converte l'intero a 32 bit \texttt{hostlong} dal formato della macchina a + quello della rete. + +\item \texttt{unsigned sort int htons(unsigned short int hostshort)} + + Converte l'intero a 16 bit \texttt{hostshort} dal formato della macchina a + quello della rete. + +\item \texttt{unsigned long int ntonl(unsigned long int netlong)} + + Converte l'intero a 32 bit \texttt{netlong} dal formato della rete a quello + della macchina. + +\item \texttt{unsigned sort int ntons(unsigned short int netshort)} + + Converte l'intero a 16 bit \texttt{netshort} dal formato della rete a quello + della macchina. +\end{itemize} +I nomi sono assegnati usando la lettera $n$ come mnemonico per indicare +l'ordinamento usato sulla rete (da \textit{network order}) e la lettera $h$ +come mnemonico per l'ordinamento usato sulla macchina locale (da \textit{host + order}), mentre le lettere $s$ e $l$ stanno ad indicare i tipi di dato +(\texttt{long} o \texttt{short}, riportati anche dai prototipi). + +Usando queste funzioni si ha la conversione automatica (nel caso pure la +macchina sia in big endian queste funzioni sono definite come macro che non +fanno nulla); esse vanno sempre utilizzate per assicurare la portabilità del +codice su tutte le architetture. + + +Un secondo insieme di funzioni di manipolazione (i cui prototipi sono definiti +in \texttt{arpa/inet.h}) serve per passare dal formato binario usato nelle +strutture degli indirizzi alla rappresentazione dei numeri IP che si usa +normalente. + +Le prime tre funzioni di manipolazione riguardano la conversione degli +indirizzi IPv4 da una stringa in cui il numero di IP è espresso secondo la +cosiddetta notazione \textit{dotted-decimal}, (cioè nella forma +\texttt{192.160.0.1}) al formato binario (direttamente in \textit{network + order}) e viceversa; in questo caso si usa la lettera $a$ come mnemonico per +indicare la stringa. Dette funzioni sono: +\begin{itemize} +\item \texttt{int inet\_aton(const char *src, struct in\_addr *dest)} + + Converte la stringa puntata da \texttt{src} nell'indirizzo binario da + memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso + di successo e 1 in caso di fallimento (è espressa in questa forma in modo da + poterla usare direttamente con il puntatore usato per passare la struttura + degli indirizzi). Se usata con \texttt{dest} inizializzato a + \texttt{NULL} effettua la validazione dell'indirizzo. + +\item \texttt{in\_addr\_t inet\_addr(const char *strptr)} + + Restituisce l'indirizzo a 32 bit in network order a partire dalla stringa + passata come parametro, in caso di errore restituisce il valore + \texttt{INADDR\_NONE} che tipicamente sono trentadue bit a uno; questo + comporta che la stringa \texttt{255.255.255.255}, che pure è un indirizzo + valido, non può essere usata con questa funzione; per questo motivo essa è + generalmente deprecata in favore della precedente. + +\item \texttt{char *inet\_ntop(struct in\_addr addrptr)} + + Converte il valore a 32 bit dell'indirizzo (espresso in network order) + restituendo il puntatore alla stringa che contiene l'espressione in formato + dotted decimal. Si deve tenere presente che la stringa risiede in memoria + statica, per cui questa funzione non è rientrante. +\end{itemize} + +Le tre funzioni precedenti sono però limitate solo ad IPv4, per questo motivo +è preferibile usare le due nuove funzioni \texttt{inet\_pton} e +\texttt{inet\_ntop} che possono convertire anche gli indirizzi IPv6 (secondo +lo schema in \nfig). Anche in questo caso le lettere $n$ e $p$ sono gli +mnemonici per ricordare il tipo di conversione effettuata e stanno per +\textit{presentation} e \textit{numeric}. + +\begin{figure}[htb] + \centering + + \caption{Schema della rappresentazioni utilizzate dalle funzioni di + conversione \texttt{inet\_pton} e \texttt{inet\_ntop} } + \label{fig:sock_inet_conv_func} + +\end{figure} + +Entrambe le funzioni accettano l'argomento \texttt{family} che indica il tipo +di indirizzo e può essere \texttt{AF\_INET} o \texttt{AF\_INET6}. Se la +famiglia indicata non è valida entrambe le funzioni ritornano un valore +negativo e settano la variabile \texttt{errno} al valore +\texttt{EAFNOSUPPORT}. I prototipi delle suddette funzioni sono i seguenti: +\begin{itemize} +\item \texttt{int inet\_pton(int family, const char *src, void *dest)} + + Converte la stringa puntata da \texttt{src} nell'indirizzo binario da + memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso di + successo e 1 in caso di fallimento. + +\item \texttt{char *inet\_ntop(int family, const void *src, char *dest, + size\_t len)} + + Converte la struttura dell'indirizzo puntata da \texttt{src} in una stringa + che viene copiata nel buffer puntato dall'indirizzo \texttt{dest}; questo + deve essere preallocato dall'utente e la lunghezza deve essere almeno + \texttt{INET\_ADDRSTRLEN} in caso di indirizzi IPv4 e + \texttt{INET6\_ADDRSTRLEN} per indirizzi IPv6; la lunghezza del buffer deve + comunque venire specificata attraverso il parametro \texttt{len}. + + La funzione restituisce un puntatore non nullo a \texttt{dest} in caso di + successo e un puntatore nullo in caso di fallimento, in quest'ultimo caso + viene settata la variabile \texttt{errno} con il valore \texttt{ENOSPC} in + caso le dimensioni dell'indirizzo eccedano la lunghezza specificata da + \texttt{len}. + +\end{itemize} + + +\section{Il comportamento delle funzioni di I/O} +\label{sec:sock_io_behav} + +Una cosa di cui non sempre si è consapevoli quando si ha a che fare con i +socket è che le funzioni di input/output non sempre hanno lo stesso +comportamento che avrebbero con i normali files (in particolare questo accade +per i socket di tipo stream). + +Infatti con i socket può accadere che funzioni come \texttt{read} o +\texttt{write} possano restituire in input o scrivere in output un numero di +bytes minore di quello richiesto. Questo è un comportamento normale e non un +errore, e succede perché si eccede il limite di buffer del kernel. In questo +caso tutto quello che il programma chiamante deve fare è di ripetere la +lettura (o scrittura) per la quantità di bytes rimanenti (lo stesso può +avvenire scrivendo più di 4096 bytes in una pipe, dato che quello è il limite +di solito adottato per il buffer di trasmissione del kernel). + +\begin{figure}[htb] + \centering + \footnotesize + \begin{lstlisting}{} +#include + +ssize_t SockRead(int fd, void *buf, size_t count) +{ + size_t nleft; + ssize_t nread; + + nleft = count; + while (nleft > 0) { /* repeat until no left */ + if ( (nread = read(fd, buf, nleft)) < 0) { + if (errno == EINTR) { /* if interrupted by system call */ + continue; /* repeat the loop */ + } else { + return(nread); /* otherwise exit */ + } + } else if (nread == 0) { /* EOF */ + break; /* break loop here */ + } + nleft -= nread; /* set left to read */ + buf +=nread; /* set pointer */ + } + return (count - nleft); +} + \end{lstlisting} + \caption{Funzione \texttt{SockRead}, legge $n$ bytes da un socket } + \label{fig:sock_SockRead_code} +\end{figure} + +Per questo motivo seguendo l'esempio di W. R. Stevens si sono definite due +funzioni \texttt{SockRead} e \texttt{SockWrite} che eseguono la lettura da un +socket tenendo conto di questa caratteristica, ed in grado di ritornare dopo +avere letto o scritto esattamente il numero di bytes specificato; il sorgente +è riportato in \curfig\ e \nfig\ ed è disponibile fra i sorgenti allegati alla +guida nei files \texttt{SockRead.c} e \texttt{SockWrite.c}. + +\begin{figure}[htb] + \centering + \footnotesize + \begin{lstlisting}{} +#include + +ssize_t SockWrite(int fd, const void *buf, size_t count) +{ + size_t nleft; + ssize_t nwritten; + nleft = count; + while (nleft > 0) { /* repeat until no left */ + if ( (nwritten = write(fd, buf, nleft)) < 0) { + if (errno == EINTR) { /* if interrupted by system call */ + continue; /* repeat the loop */ + } else { + return(nwritten); /* otherwise exit with error */ + } + } + nleft -= nwritten; /* set left to write */ + buf +=nwritten; /* set pointer */ + } + return (count); +} + \end{lstlisting} + \caption{Funzione \texttt{SockWrite}, scrive $n$ bytes su un socket } + \label{fig:sock_SockWrite_code} +\end{figure} +Come si può notare le funzioni ripetono la lettura/scrittura in un loop fino +all'esaurimento del numero di bytes richiesti, in caso di errore viene +controllato se questo è \texttt{EINTR} (cioè un'interruzione della system call +dovuta ad un segnale), nel qual caso l'accesso viene ripetuto, altrimenti +l'errore viene ritornato interrompendo il loop. +Nel caso della lettura se il numero di bytes letti è zero significa che è +arrivati alla fine del file e pertanto si ritorna senza aver concluso la +lettura di tutti i bytes richiesti.