X-Git-Url: https://gapil.gnulinux.it/gitweb/?p=gapil.git;a=blobdiff_plain;f=socket.tex;h=05b1af6bf0f21bea7fd7d297744e4c002972e072;hp=7e1f6bd7db68ba847089f35ac99dbbd04ce1cea8;hb=09fff83335c84e1290f725341b0959344e5a7b03;hpb=bea3ef3f853bda8591b685fa92a24b34d8cde6d3 diff --git a/socket.tex b/socket.tex index 7e1f6bd..05b1af6 100644 --- a/socket.tex +++ b/socket.tex @@ -175,11 +175,10 @@ glibc chiama \textit{styles}) definiti come \texttt{int} in \texttt{socket.h}: \item \texttt{SOCK\_STREAM} Provvede un canale di trasmissione dati bidirezionale, sequenziale e affidabile. Opera su una connessione con un altro socket. I dati vengono ricevuti e trasmessi come un flusso continuo di - byte (da cui il nome \textit{stream}). Vedi \ref{sec:sock_stream}. + byte (da cui il nome \textit{stream}). \item \texttt{SOCK\_DGRAM} Viene usato per mandare pacchetti di lunghezza massima fissata (\textit{datagram}) indirizzati singolarmente, senza - connessione e in maniera non affidabile. È l'opposto del precedente. Vedi - \ref{sec:sock_dgram}. + connessione e in maniera non affidabile. È l'opposto del precedente. \item \texttt{SOCK\_SEQPACKET} Provvede un canale di trasmissione di dati bidirezionale, sequenziale e affidabile. Opera su una connessione con un altro socket. I dati possono solo essere trasmessi e letti per pacchetti (di @@ -277,7 +276,7 @@ struct sockaddr { }; \end{lstlisting} \caption{La struttura generica degli indirizzi dei socket \texttt{sockaddr}} - \label{fig:sock_sa_struct} + \label{fig:sock_sa_gen_struct} \end{figure} Tutte le funzioni dei socket che usano gli indirizzi sono definite usando nel @@ -361,7 +360,7 @@ struct in_addr { \end{lstlisting} \caption{La struttura degli indirizzi dei socket internet (IPv4) \texttt{sockaddr\_in}.} - \label{fig:sock_sa_struct} + \label{fig:sock_sa_ipv4_struct} \end{figure} L'indirizzo di un socket internet (secondo IPv4) comprende l'indirizzo @@ -415,7 +414,7 @@ struct in6_addr { \end{lstlisting} \caption{La struttura degli indirizzi dei socket IPv6 \texttt{sockaddr\_in6}.} - \label{fig:sock_sa_struct} + \label{fig:sock_sa_ipv6_struct} \end{figure} Il campo \texttt{sin6\_family} deve essere sempre settato ad @@ -456,7 +455,7 @@ struct sockaddr_un { \end{lstlisting} \caption{La struttura degli indirizzi dei socket locali \texttt{sockaddr\_un}.} - \label{fig:sock_sa_struct} + \label{fig:sock_sa_local_struct} \end{figure} In questo caso il campo \texttt{sun\_family} deve essere \texttt{AF\_UNIX}, @@ -489,35 +488,44 @@ viceversa. \section{Le funzioni di conversione degli indirizzi} \label{sec:sock_addr_func} -Come accennato gli indirizzi internet e i numero di porta espressi in formato -big endian. In genere la rappresentazione di un numbero binario in un computer -può essere fatta in due modi, chiamati rispettivamente \textit{big endian} e -\textit{little endian} a seconda di come i bit sono aggregati per formare le -unità più grandi. - -Si consideri ad esempio un intero a 16 bit scritto in una locazione di memoria -posta ad un certo indirizzo. I singoli bit possono essere disposti un memoria -in due modi, a partire dal più significativo o a partire dal meno -significativo. Così nel primo caso si troverà il byte che contiene i bit più -significativi all'indirizzo menzionato e il byte con i bit meno significativi -nell'indirizzo successivo; questo ordinamento è detto little endian dato che -il dato finale è la parte ``piccola'' del numero. Il caso opposto, in cui si -parte dal bit meno significativo è detto big endian. +Come accennato gli indirizzi internet e i numeri di porta usati nella rete +devono essere forniti in formato big endian. In genere la rappresentazione di +un numbero binario in un computer può essere fatta in due modi, chiamati +rispettivamente \textit{big endian} e \textit{little endian} a seconda di come +i singoli bit vengono aggregati per formare le variabili intere (in diretta +corrispondenza a come sono poi in realtà cablati sui bus interni del +computer). + +Per capire meglio il problema si consideri un intero a 16 bit scritto in una +locazione di memoria posta ad un certo indirizzo. I singoli bit possono essere +disposti un memoria in due modi, a partire dal più significativo o a partire +dal meno significativo. Così nel primo caso si troverà il byte che contiene i +bit più significativi all'indirizzo menzionato e il byte con i bit meno +significativi nell'indirizzo successivo; questo ordinamento è detto little +endian dato che il dato finale è la parte ``piccola'' del numero. Il caso +opposto, in cui si parte dal bit meno significativo è detto per lo stesso +motivo big endian. La \textit{endianess} di un computer dipende essenzialmente dalla architettura -usata; intel e digital usano il little endian, motorola, ibm, sun +hardware usata; intel e digital usano il little endian, motorola, ibm, sun (sostanzialmente tutti gli altri) usano il big endian. Il formato della rete è -anch'esso big endian. Esistono poi anche dei sistemi che possono scegliere il -tipo di formato e alcuni, come il PowerPC o l'intel i860, possono pure passare -da un tipo all'altro; ma in generale un sistema ha un suo specifico -comportamento a questo riguardo. - -Il problema si pone quando si passano dei dati da un tipo di archiettura -all'altra dato che, con l'eccezione dei tipi numerici ad otto bit, tutti gli -altri si ritrovano rovesciati. - -Per questo motivo si usano le seguenti funzioni di conversione che tengano -conto della differenza delle architetture: +anch'esso big endian. Esistono poi anche dei processori che possono scegliere +il tipo di formato all'avvio e alcuni, come il PowerPC o l'intel i860, possono +pure passare da un tipo all'altro con una specifica istruzione; in ogni caso +in linux l'ordinamanento è definito dall'archiettura e anche se questi +cambiamenti sono possibili anche dopo che il sistema è avviato, non vengono +mai eseguiti. + +Il problema connesso all'endianess è che quando si passano dei dati da un tipo +di architettura all'altra; in questo caso infatti nel passaggio i dati vengono +interpretati in maniera diversa, e nel caso dell'esempio dell'intero a 16 bit +ci si ritroverà con i due bytes componenti scambiati di posto, mentre in +generale ne sarà invertito l'ordine di lettura e andranno perciò rovesciati. + +Per questo motivo si usano le seguenti funzioni di conversione (i cui +prototipi sono definiti in \texttt{netinet/in.h}) che servono a tener conto +automaticamente della possibile differenza fra l'ordinamento usato sul +computer e quello che viene usato nelle trasmissione sulla rete: \begin{itemize} \item \texttt{unsigned long int htonl(unsigned long int hostlong)} @@ -539,99 +547,196 @@ conto della differenza delle architetture: Converte l'intero a 16 bit \texttt{netshort} dal formato della rete a quello della macchina. \end{itemize} -in cui la lettera $n$ è uno mnemonico per indicare l'ordinamento usato sulla -rete (da \textit{network order}) e la lettere $h$ uno mnemonico per -l'ordinamento usato sulla macchina locale (da \textit{host order}), mentre le -lettere $s$ e $l$ stanno ad indicare i tipi di dato (riportati anche dai -prototipi). - -Usando queste funzioni si ha la conversione automatica in caso di necessità -(nel caso pure la macchina sia in big endian queste funzioni sono definite -come macro che non fanno nulla). - -A parte i problemi connessi con l'ordinamento dei bit esistono poi altre -funzioni connesse alla manipolazione degli indirizzi internet, in particolare -per convertire indirizzi espressi in forma di stringa (di più immediata -manipolazione ``umana'') nella forma binaria usata nelle strutture degli -indirizzi. - -Le prime tre funzioni riguardano la conversione degli indirizzi IPv4 fra -l'espressione come stringhe \textit{dotted-decimal}, cioè del tipo -\texttt{192.160.0.1} al formato binario ordinato secondo la rete: +I nomi sono assegnati usando la lettera $n$ come mnemonico per indicare +l'ordinamento usato sulla rete (da \textit{network order}) e la lettera $h$ +come mnemonico per l'ordinamento usato sulla macchina locale (da \textit{host + order}), mentre le lettere $s$ e $l$ stanno ad indicare i tipi di dato +(\texttt{long} o \texttt{short}, riportati anche dai prototipi). + +Usando queste funzioni si ha la conversione automatica (nel caso pure la +macchina sia in big endian queste funzioni sono definite come macro che non +fanno nulla); esse vanno sempre utilizzate per assicurare la portabilità del +codice su tutte le architetture. + + +Un secondo insieme di funzioni di manipolazione (i cui prototipi sono definiti +in \texttt{arpa/inet.h}) serve per passare dal formato binario usato nelle +strutture degli indirizzi alla rappresentazione dei numeri IP che si usa +normalente. + +Le prime tre funzioni di manipolazione riguardano la conversione degli +indirizzi IPv4 da una stringa in cui il numero di IP è espresso secondo la +cosiddetta notazione \textit{dotted-decimal}, (cioè nella forma +\texttt{192.160.0.1}) al formato binario (direttamente in \textit{network + order}) e viceversa; in questo caso si usa la lettera $a$ come mnemonico per +indicare la stringa. Dette funzioni sono: \begin{itemize} -\item \texttt{int inet\_aton(const char *strptr, struct in\_addr *addrptr)} +\item \texttt{int inet\_aton(const char *src, struct in\_addr *dest)} - Converte la stringa puntata da \texttt{strptr} nell'indirizzo binario da - memorizzare all'indirizzo puntato da \texttt{addrptr}, restituendo 0 in caso + Converte la stringa puntata da \texttt{src} nell'indirizzo binario da + memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso di successo e 1 in caso di fallimento (è espressa in questa forma in modo da poterla usare direttamente con il puntatore usato per passare la struttura - degli indirizzi). Se usata con \texttt{addrptr} inizializzato a + degli indirizzi). Se usata con \texttt{dest} inizializzato a \texttt{NULL} effettua la validazione dell'indirizzo. -\item \texttt{in\_addr\_t inet\_addr(const char *strptr)} +\item \texttt{in\_addr\_t inet\_addr(const char *strptr)} Restituisce l'indirizzo a 32 bit in network order a partire dalla stringa passata come parametro, in caso di errore restituisce il valore - \texttt{INADDR\_NONE} (che tipicamente sono trentadue bit a uno, il che - significa che la stringa \texttt{255.255.255.255} non può essere un - indirizzo valido). Questa funzione è generalmente deprecata in favore della - precedente. - + \texttt{INADDR\_NONE} che tipicamente sono trentadue bit a uno; questo + comporta che la stringa \texttt{255.255.255.255}, che pure è un indirizzo + valido, non può essere usata con questa funzione; per questo motivo essa è + generalmente deprecata in favore della precedente. + \item \texttt{char *inet\_ntop(struct in\_addr addrptr)} - Questa funzione converte il valore a 32 bit in network order dell'indirizzo - in una stringa. La stringe risiede in memoria statica, per cui questa - funzione non è rientrante, inoltre, in maniera abbastanza atipica, prende in - ingresso una struttura e non un puntarore. + Converte il valore a 32 bit dell'indirizzo (espresso in network order) + restituendo il puntatore alla stringa che contiene l'espressione in formato + dotted decimal. Si deve tenere presente che la stringa risiede in memoria + statica, per cui questa funzione non è rientrante. \end{itemize} -Queste funzioni sono limitate solo ad IPv4, per questo motivo è preferibile -usare le due nuove funzioni \texttt{inet\_pton} e \texttt{inet\_ntop} che -funzionano anche per indirizzi IPv6. In questo caso le lettere $n$ e $p$ sono -gli mnemonici per ricordare il tipo di conversione effettuato e stanno per +Le tre funzioni precedenti sono però limitate solo ad IPv4, per questo motivo +è preferibile usare le due nuove funzioni \texttt{inet\_pton} e +\texttt{inet\_ntop} che possono convertire anche gli indirizzi IPv6 (secondo +lo schema in \nfig). Anche in questo caso le lettere $n$ e $p$ sono gli +mnemonici per ricordare il tipo di conversione effettuata e stanno per \textit{presentation} e \textit{numeric}. +\begin{figure}[htb] + \centering + + \caption{Schema della rappresentazioni utilizzate dalle funzioni di + conversione \texttt{inet\_pton} e \texttt{inet\_ntop} } + \label{fig:sock_inet_conv_func} + +\end{figure} + +Entrambe le funzioni accettano l'argomento \texttt{family} che indica il tipo +di indirizzo e può essere \texttt{AF\_INET} o \texttt{AF\_INET6}. Se la +famiglia indicata non è valida entrambe le funzioni ritornano un valore +negativo e settano la variabile \texttt{errno} al valore +\texttt{EAFNOSUPPORT}. I prototipi delle suddette funzioni sono i seguenti: \begin{itemize} -\item \texttt{int inet\_pton(int family, const char *strptr, void *addrptr)} - - Converte la stringa puntata da \texttt{strptr} nell'indirizzo binario da - memorizzare all'indirizzo puntato da \texttt{addrptr}, restituendo 0 in caso - di successo e 1 in caso di fallimento (è espressa in questa forma in modo da - poterla usare direttamente con il puntatore usato per passare la struttura - degli indirizzi). Se usata con \texttt{addrptr} inizializzato a - \texttt{NULL} effettua la validazione dell'indirizzo. +\item \texttt{int inet\_pton(int family, const char *src, void *dest)} + Converte la stringa puntata da \texttt{src} nell'indirizzo binario da + memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso di + successo e 1 in caso di fallimento. -\item \texttt{char *inet\_ntop(int family, const void *addrptr, char *strptr, +\item \texttt{char *inet\_ntop(int family, const void *src, char *dest, size\_t len)} - Questa funzione converte il valore a 32 bit in network order dell'indirizzo - in una stringa. La stringe risiede in memoria statica, per cui questa - funzione non è rientrante, inoltre, in maniera abbastanza atipica, prende in - ingresso una struttura e non un puntatore. + Converte la struttura dell'indirizzo puntata da \texttt{src} in una stringa + che viene copiata nel buffer puntato dall'indirizzo \texttt{dest}; questo + deve essere preallocato dall'utente e la lunghezza deve essere almeno + \texttt{INET\_ADDRSTRLEN} in caso di indirizzi IPv4 e + \texttt{INET6\_ADDRSTRLEN} per indirizzi IPv6; la lunghezza del buffer deve + comunque venire specificata attraverso il parametro \texttt{len}. + + La funzione restituisce un puntatore non nullo a \texttt{dest} in caso di + successo e un puntatore nullo in caso di fallimento, in quest'ultimo caso + viene settata la variabile \texttt{errno} con il valore \texttt{ENOSPC} in + caso le dimensioni dell'indirizzo eccedano la lunghezza specificata da + \texttt{len}. \end{itemize} +\section{Il comportamento delle funzioni di I/O} +\label{sec:sock_io_behav} +Una cosa di cui non sempre si è consapevoli quando si ha a che fare con i +socket è che le funzioni di input/output non sempre hanno lo stesso +comportamento che avrebbero con i normali files (in particolare questo accade +per i socket di tipo stream). -\chapter{Socket TCP elementari} -\label{cha:elem_TCP_sock} - -Esamineremo in questo capitolo quanto necessario per capire come scrivere un -client e un server TCP, riprendendo quanto visto in \ref{sec:net_cli_sample} e -\ref{sec:net_cli_server}. +Infatti con i socket può accadere che funzioni come \texttt{read} o +\texttt{write} possano restituire in input o scrivere in output un numero di +bytes minore di quello richiesto. Questo è un comportamento normale e non un +errore, e succede perché si eccede il limite di buffer del kernel. In questo +caso tutto quello che il programma chiamante deve fare è di ripetere la +lettura (o scrittura) per la quantità di bytes rimanenti (lo stesso può +avvenire scrivendo più di 4096 bytes in una pipe, dato che quello è il limite +di solito adottato per il buffer di trasmissione del kernel). +\begin{figure}[htb] + \centering + \footnotesize + \begin{lstlisting}{} +#include +ssize_t SockRead(int fd, void *buf, size_t count) +{ + size_t nleft; + ssize_t nread; + + nleft = count; + while (nleft > 0) { /* repeat until no left */ + if ( (nread = read(fd, buf, nleft)) < 0) { + if (errno == EINTR) { /* if interrupted by system call */ + continue; /* repeat the loop */ + } else { + return(nread); /* otherwise exit */ + } + } else if (nread == 0) { /* EOF */ + break; /* break loop here */ + } + nleft -= nread; /* set left to read */ + buf +=nread; /* set pointer */ + } + return (count - nleft); +} + \end{lstlisting} + \caption{Funzione \texttt{SockRead}, legge $n$ bytes da un socket } + \label{fig:sock_SockRead_code} +\end{figure} -\subsection{Creazione e terminazione della connessione TCP} +Per questo motivo seguendo l'esempio di W. R. Stevens si sono definite due +funzioni \texttt{SockRead} e \texttt{SockWrite} che eseguono la lettura da un +socket tenendo conto di questa caratteristica, ed in grado di ritornare dopo +avere letto o scritto esattamente il numero di bytes specificato; il sorgente +è riportato in \curfig\ e \nfig\ ed è disponibile fra i sorgenti allegati alla +guida nei files \texttt{SockRead.c} e \texttt{SockWrite.c}. -Per capire il funzionamento delle funzioni della interfaccia dei socket che -operano con TCP (le varie \texttt{connect}, \texttt{accept}, \texttt{close} -che abbiamo visto negli esempi iniziali e su cui torneremo più avanti) è -fodamentale capire come funziona la creazione e la conclusione di una -connessione TCP. +\begin{figure}[htb] + \centering + \footnotesize + \begin{lstlisting}{} +#include + +ssize_t SockWrite(int fd, const void *buf, size_t count) +{ + size_t nleft; + ssize_t nwritten; + + nleft = count; + while (nleft > 0) { /* repeat until no left */ + if ( (nwritten = write(fd, buf, nleft)) < 0) { + if (errno == EINTR) { /* if interrupted by system call */ + continue; /* repeat the loop */ + } else { + return(nwritten); /* otherwise exit with error */ + } + } + nleft -= nwritten; /* set left to write */ + buf +=nwritten; /* set pointer */ + } + return (count); +} + \end{lstlisting} + \caption{Funzione \texttt{SockWrite}, scrive $n$ bytes su un socket } + \label{fig:sock_SockWrite_code} +\end{figure} -\subsection{Le porte} +Come si può notare le funzioni ripetono la lettura/scrittura in un loop fino +all'esaurimento del numero di bytes richiesti, in caso di errore viene +controllato se questo è \texttt{EINTR} (cioè un'interruzione della system call +dovuta ad un segnale), nel qual caso l'accesso viene ripetuto, altrimenti +l'errore viene ritornato interrompendo il loop. +Nel caso della lettura se il numero di bytes letti è zero significa che è +arrivati alla fine del file e pertanto si ritorna senza aver concluso la +lettura di tutti i bytes richiesti.