X-Git-Url: https://gapil.gnulinux.it/gitweb/?p=gapil.git;a=blobdiff_plain;f=socket.tex;h=05b1af6bf0f21bea7fd7d297744e4c002972e072;hp=7e1f6bd7db68ba847089f35ac99dbbd04ce1cea8;hb=09fff83335c84e1290f725341b0959344e5a7b03;hpb=bea3ef3f853bda8591b685fa92a24b34d8cde6d3

diff --git a/socket.tex b/socket.tex
index 7e1f6bd..05b1af6 100644
--- a/socket.tex
+++ b/socket.tex
@@ -175,11 +175,10 @@ glibc chiama \textit{styles}) definiti come \texttt{int} in \texttt{socket.h}:
 \item \texttt{SOCK\_STREAM} Provvede un canale di trasmissione dati
   bidirezionale, sequenziale e affidabile. Opera su una connessione con un
   altro socket. I dati vengono ricevuti e trasmessi come un flusso continuo di
-  byte (da cui il nome \textit{stream}). Vedi \ref{sec:sock_stream}.
+  byte (da cui il nome \textit{stream}). 
 \item \texttt{SOCK\_DGRAM} Viene usato per mandare pacchetti di lunghezza
   massima fissata (\textit{datagram}) indirizzati singolarmente, senza
-  connessione e in maniera non affidabile. È l'opposto del precedente. Vedi
-  \ref{sec:sock_dgram}.
+  connessione e in maniera non affidabile. È l'opposto del precedente. 
 \item \texttt{SOCK\_SEQPACKET} Provvede un canale di trasmissione di dati
   bidirezionale, sequenziale e affidabile. Opera su una connessione con un
   altro socket. I dati possono solo essere trasmessi e letti per pacchetti (di
@@ -277,7 +276,7 @@ struct sockaddr {
 };
   \end{lstlisting}
   \caption{La struttura generica degli indirizzi dei socket \texttt{sockaddr}}
-  \label{fig:sock_sa_struct}
+  \label{fig:sock_sa_gen_struct}
 \end{figure}
 
 Tutte le funzioni dei socket che usano gli indirizzi sono definite usando nel
@@ -361,7 +360,7 @@ struct in_addr {
   \end{lstlisting}
   \caption{La struttura degli indirizzi dei socket internet (IPv4)
     \texttt{sockaddr\_in}.}
-  \label{fig:sock_sa_struct}
+  \label{fig:sock_sa_ipv4_struct}
 \end{figure}
 
 L'indirizzo di un socket internet (secondo IPv4) comprende l'indirizzo
@@ -415,7 +414,7 @@ struct in6_addr {
   \end{lstlisting}
   \caption{La struttura degli indirizzi dei socket IPv6 
     \texttt{sockaddr\_in6}.}
-  \label{fig:sock_sa_struct}
+  \label{fig:sock_sa_ipv6_struct}
 \end{figure}
 
 Il campo \texttt{sin6\_family} deve essere sempre settato ad
@@ -456,7 +455,7 @@ struct sockaddr_un {
   \end{lstlisting}
   \caption{La struttura degli indirizzi dei socket locali 
     \texttt{sockaddr\_un}.}
-  \label{fig:sock_sa_struct}
+  \label{fig:sock_sa_local_struct}
 \end{figure}
 
 In questo caso il campo \texttt{sun\_family} deve essere \texttt{AF\_UNIX},
@@ -489,35 +488,44 @@ viceversa.
 \section{Le funzioni di conversione degli indirizzi}
 \label{sec:sock_addr_func}
 
-Come accennato gli indirizzi internet e i numero di porta espressi in formato
-big endian. In genere la rappresentazione di un numbero binario in un computer
-può essere fatta in due modi, chiamati rispettivamente \textit{big endian} e
-\textit{little endian} a seconda di come i bit sono aggregati per formare le
-unità più grandi.
-
-Si consideri ad esempio un intero a 16 bit scritto in una locazione di memoria
-posta ad un certo indirizzo. I singoli bit possono essere disposti un memoria
-in due modi, a partire dal più significativo o a partire dal meno
-significativo. Così nel primo caso si troverà il byte che contiene i bit più
-significativi all'indirizzo menzionato e il byte con i bit meno significativi
-nell'indirizzo successivo; questo ordinamento è detto little endian dato che
-il dato finale è la parte ``piccola'' del numero. Il caso opposto, in cui si
-parte dal bit meno significativo è detto big endian.
+Come accennato gli indirizzi internet e i numeri di porta usati nella rete
+devono essere forniti in formato big endian. In genere la rappresentazione di
+un numbero binario in un computer può essere fatta in due modi, chiamati
+rispettivamente \textit{big endian} e \textit{little endian} a seconda di come
+i singoli bit vengono aggregati per formare le variabili intere (in diretta
+corrispondenza a come sono poi in realtà cablati sui bus interni del
+computer).
+
+Per capire meglio il problema si consideri un intero a 16 bit scritto in una
+locazione di memoria posta ad un certo indirizzo. I singoli bit possono essere
+disposti un memoria in due modi, a partire dal più significativo o a partire
+dal meno significativo. Così nel primo caso si troverà il byte che contiene i
+bit più significativi all'indirizzo menzionato e il byte con i bit meno
+significativi nell'indirizzo successivo; questo ordinamento è detto little
+endian dato che il dato finale è la parte ``piccola'' del numero. Il caso
+opposto, in cui si parte dal bit meno significativo è detto per lo stesso
+motivo big endian.
 
 La \textit{endianess} di un computer dipende essenzialmente dalla architettura
-usata; intel e digital usano il little endian, motorola, ibm, sun
+hardware usata; intel e digital usano il little endian, motorola, ibm, sun
 (sostanzialmente tutti gli altri) usano il big endian. Il formato della rete è
-anch'esso big endian. Esistono poi anche dei sistemi che possono scegliere il
-tipo di formato e alcuni, come il PowerPC o l'intel i860, possono pure passare
-da un tipo all'altro; ma in generale un sistema ha un suo specifico
-comportamento a questo riguardo.
-
-Il problema si pone quando si passano dei dati da un tipo di archiettura
-all'altra dato che, con l'eccezione dei tipi numerici ad otto bit, tutti gli
-altri si ritrovano rovesciati. 
-
-Per questo motivo si usano le seguenti funzioni di conversione che tengano
-conto della differenza delle architetture:
+anch'esso big endian. Esistono poi anche dei processori che possono scegliere
+il tipo di formato all'avvio e alcuni, come il PowerPC o l'intel i860, possono
+pure passare da un tipo all'altro con una specifica istruzione; in ogni caso
+in linux l'ordinamanento è definito dall'archiettura e anche se questi
+cambiamenti sono possibili anche dopo che il sistema è avviato, non vengono
+mai eseguiti.
+
+Il problema connesso all'endianess è che quando si passano dei dati da un tipo
+di architettura all'altra; in questo caso infatti nel passaggio i dati vengono
+interpretati in maniera diversa, e nel caso dell'esempio dell'intero a 16 bit
+ci si ritroverà con i due bytes componenti scambiati di posto, mentre in
+generale ne sarà invertito l'ordine di lettura e andranno perciò rovesciati.
+
+Per questo motivo si usano le seguenti funzioni di conversione (i cui
+prototipi sono definiti in \texttt{netinet/in.h}) che servono a tener conto
+automaticamente della possibile differenza fra l'ordinamento usato sul
+computer e quello che viene usato nelle trasmissione sulla rete:
 \begin{itemize}
 \item \texttt{unsigned long int htonl(unsigned long int hostlong)} 
   
@@ -539,99 +547,196 @@ conto della differenza delle architetture:
   Converte l'intero a 16 bit \texttt{netshort} dal formato della rete a quello
   della macchina.
 \end{itemize}
-in cui la lettera $n$ è uno mnemonico per indicare l'ordinamento usato sulla
-rete (da \textit{network order}) e la lettere $h$ uno mnemonico per
-l'ordinamento usato sulla macchina locale (da \textit{host order}), mentre le
-lettere $s$ e $l$ stanno ad indicare i tipi di dato (riportati anche dai
-prototipi).
-
-Usando queste funzioni si ha la conversione automatica in caso di necessità
-(nel caso pure la macchina sia in big endian queste funzioni sono definite
-come macro che non fanno nulla).
-
-A parte i problemi connessi con l'ordinamento dei bit esistono poi altre
-funzioni connesse alla manipolazione degli indirizzi internet, in particolare
-per convertire indirizzi espressi in forma di stringa (di più immediata
-manipolazione ``umana'') nella forma binaria usata nelle strutture degli
-indirizzi.
-
-Le prime tre funzioni riguardano la conversione degli indirizzi IPv4 fra
-l'espressione come stringhe \textit{dotted-decimal}, cioè del tipo
-\texttt{192.160.0.1} al formato binario ordinato secondo la rete:
+I nomi sono assegnati usando la lettera $n$ come mnemonico per indicare
+l'ordinamento usato sulla rete (da \textit{network order}) e la lettera $h$
+come mnemonico per l'ordinamento usato sulla macchina locale (da \textit{host
+  order}), mentre le lettere $s$ e $l$ stanno ad indicare i tipi di dato
+(\texttt{long} o \texttt{short}, riportati anche dai prototipi).
+
+Usando queste funzioni si ha la conversione automatica (nel caso pure la
+macchina sia in big endian queste funzioni sono definite come macro che non
+fanno nulla); esse vanno sempre utilizzate per assicurare la portabilità del
+codice su tutte le architetture.
+
+
+Un secondo insieme di funzioni di manipolazione (i cui prototipi sono definiti
+in \texttt{arpa/inet.h}) serve per passare dal formato binario usato nelle
+strutture degli indirizzi alla rappresentazione dei numeri IP che si usa
+normalente.
+
+Le prime tre funzioni di manipolazione riguardano la conversione degli
+indirizzi IPv4 da una stringa in cui il numero di IP è espresso secondo la
+cosiddetta notazione \textit{dotted-decimal}, (cioè nella forma
+\texttt{192.160.0.1}) al formato binario (direttamente in \textit{network
+  order}) e viceversa; in questo caso si usa la lettera $a$ come mnemonico per
+indicare la stringa. Dette funzioni sono:
 \begin{itemize}
-\item \texttt{int inet\_aton(const char *strptr, struct in\_addr *addrptr)} 
+\item \texttt{int inet\_aton(const char *src, struct in\_addr *dest)}
   
-  Converte la stringa puntata da \texttt{strptr} nell'indirizzo binario da
-  memorizzare all'indirizzo puntato da \texttt{addrptr}, restituendo 0 in caso
+  Converte la stringa puntata da \texttt{src} nell'indirizzo binario da
+  memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso
   di successo e 1 in caso di fallimento (è espressa in questa forma in modo da
   poterla usare direttamente con il puntatore usato per passare la struttura
-  degli indirizzi). Se usata con \texttt{addrptr} inizializzato a
+  degli indirizzi). Se usata con \texttt{dest} inizializzato a
   \texttt{NULL} effettua la validazione dell'indirizzo.
   
-\item \texttt{in\_addr\_t inet\_addr(const char *strptr)} 
+\item \texttt{in\_addr\_t inet\_addr(const char *strptr)}
   
   Restituisce l'indirizzo a 32 bit in network order a partire dalla stringa
   passata come parametro, in caso di errore restituisce il valore
-  \texttt{INADDR\_NONE} (che tipicamente sono trentadue bit a uno, il che
-  significa che la stringa \texttt{255.255.255.255} non può essere un
-  indirizzo valido). Questa funzione è generalmente deprecata in favore della
-  precedente. 
-
+  \texttt{INADDR\_NONE} che tipicamente sono trentadue bit a uno; questo
+  comporta che la stringa \texttt{255.255.255.255}, che pure è un indirizzo
+  valido, non può essere usata con questa funzione; per questo motivo essa è
+  generalmente deprecata in favore della precedente.
+  
 \item \texttt{char *inet\_ntop(struct in\_addr addrptr)}
   
-  Questa funzione converte il valore a 32 bit in network order dell'indirizzo
-  in una stringa. La stringe risiede in memoria statica, per cui questa
-  funzione non è rientrante, inoltre, in maniera abbastanza atipica, prende in
-  ingresso una struttura e non un puntarore.
+  Converte il valore a 32 bit dell'indirizzo (espresso in network order)
+  restituendo il puntatore alla stringa che contiene l'espressione in formato
+  dotted decimal. Si deve tenere presente che la stringa risiede in memoria
+  statica, per cui questa funzione non è rientrante.
 \end{itemize}
 
-Queste funzioni sono limitate solo ad IPv4, per questo motivo è preferibile
-usare le due nuove funzioni \texttt{inet\_pton} e \texttt{inet\_ntop} che
-funzionano anche per indirizzi IPv6. In questo caso le lettere $n$ e $p$ sono
-gli mnemonici per ricordare il tipo di conversione effettuato e stanno per
+Le tre funzioni precedenti sono però limitate solo ad IPv4, per questo motivo
+è preferibile usare le due nuove funzioni \texttt{inet\_pton} e
+\texttt{inet\_ntop} che possono convertire anche gli indirizzi IPv6 (secondo
+lo schema in \nfig). Anche in questo caso le lettere $n$ e $p$ sono gli
+mnemonici per ricordare il tipo di conversione effettuata e stanno per
 \textit{presentation} e \textit{numeric}.
 
+\begin{figure}[htb]
+  \centering  
+
+  \caption{Schema della rappresentazioni utilizzate dalle funzioni di 
+    conversione \texttt{inet\_pton} e \texttt{inet\_ntop} }
+  \label{fig:sock_inet_conv_func}
+
+\end{figure}
+
+Entrambe le funzioni accettano l'argomento \texttt{family} che indica il tipo
+di indirizzo e può essere \texttt{AF\_INET} o \texttt{AF\_INET6}. Se la
+famiglia indicata non è valida entrambe le funzioni ritornano un valore
+negativo e settano la variabile \texttt{errno} al valore
+\texttt{EAFNOSUPPORT}. I prototipi delle suddette funzioni sono i seguenti:
 \begin{itemize}
-\item \texttt{int inet\_pton(int family, const char *strptr, void *addrptr)} 
-  
-  Converte la stringa puntata da \texttt{strptr} nell'indirizzo binario da
-  memorizzare all'indirizzo puntato da \texttt{addrptr}, restituendo 0 in caso
-  di successo e 1 in caso di fallimento (è espressa in questa forma in modo da
-  poterla usare direttamente con il puntatore usato per passare la struttura
-  degli indirizzi). Se usata con \texttt{addrptr} inizializzato a
-  \texttt{NULL} effettua la validazione dell'indirizzo.
+\item \texttt{int inet\_pton(int family, const char *src, void *dest)} 
   
+  Converte la stringa puntata da \texttt{src} nell'indirizzo binario da
+  memorizzare all'indirizzo puntato da \texttt{dest}, restituendo 0 in caso di
+  successo e 1 in caso di fallimento. 
   
-\item \texttt{char *inet\_ntop(int family, const void *addrptr, char *strptr,
+\item \texttt{char *inet\_ntop(int family, const void *src, char *dest,
     size\_t len)}
   
-  Questa funzione converte il valore a 32 bit in network order dell'indirizzo
-  in una stringa. La stringe risiede in memoria statica, per cui questa
-  funzione non è rientrante, inoltre, in maniera abbastanza atipica, prende in
-  ingresso una struttura e non un puntatore.
+  Converte la struttura dell'indirizzo puntata da \texttt{src} in una stringa
+  che viene copiata nel buffer puntato dall'indirizzo \texttt{dest}; questo
+  deve essere preallocato dall'utente e la lunghezza deve essere almeno
+  \texttt{INET\_ADDRSTRLEN} in caso di indirizzi IPv4 e
+  \texttt{INET6\_ADDRSTRLEN} per indirizzi IPv6; la lunghezza del buffer deve
+  comunque venire specificata attraverso il parametro \texttt{len}.
+  
+  La funzione restituisce un puntatore non nullo a \texttt{dest} in caso di
+  successo e un puntatore nullo in caso di fallimento, in quest'ultimo caso
+  viene settata la variabile \texttt{errno} con il valore \texttt{ENOSPC} in
+  caso le dimensioni dell'indirizzo eccedano la lunghezza specificata da
+  \texttt{len}.
 
 \end{itemize}
 
 
+\section{Il comportamento delle funzioni di I/O}
+\label{sec:sock_io_behav}
 
+Una cosa di cui non sempre si è consapevoli quando si ha a che fare con i
+socket è che le funzioni di input/output non sempre hanno lo stesso
+comportamento che avrebbero con i normali files (in particolare questo accade
+per i socket di tipo stream). 
 
-\chapter{Socket TCP elementari}
-\label{cha:elem_TCP_sock}
-
-Esamineremo in questo capitolo quanto necessario per capire come scrivere un
-client e un server TCP, riprendendo quanto visto in \ref{sec:net_cli_sample} e
-\ref{sec:net_cli_server}. 
+Infatti con i socket può accadere che funzioni come \texttt{read} o
+\texttt{write} possano restituire in input o scrivere in output un numero di
+bytes minore di quello richiesto. Questo è un comportamento normale e non un
+errore, e succede perché si eccede il limite di buffer del kernel. In questo
+caso tutto quello che il programma chiamante deve fare è di ripetere la
+lettura (o scrittura) per la quantità di bytes rimanenti (lo stesso può
+avvenire scrivendo più di 4096 bytes in una pipe, dato che quello è il limite
+di solito adottato per il buffer di trasmissione del kernel).
 
+\begin{figure}[htb]
+  \centering
+  \footnotesize
+  \begin{lstlisting}{}
+#include <unistd.h>
 
+ssize_t SockRead(int fd, void *buf, size_t count) 
+{
+    size_t nleft;
+    ssize_t nread;
+ 
+    nleft = count;
+    while (nleft > 0) {             /* repeat until no left */
+        if ( (nread = read(fd, buf, nleft)) < 0) {
+            if (errno == EINTR) {   /* if interrupted by system call */
+                continue;           /* repeat the loop */
+            } else {
+                return(nread);      /* otherwise exit */
+            }
+        } else if (nread == 0) {    /* EOF */
+            break;                  /* break loop here */ 
+        }
+        nleft -= nread;             /* set left to read */
+        buf +=nread;                /* set pointer */
+    }
+    return (count - nleft);
+}  
+  \end{lstlisting}
+  \caption{Funzione \texttt{SockRead}, legge $n$ bytes da un socket }
+  \label{fig:sock_SockRead_code}
+\end{figure}
 
-\subsection{Creazione e terminazione della connessione TCP}
+Per questo motivo seguendo l'esempio di W. R. Stevens si sono definite due
+funzioni \texttt{SockRead} e \texttt{SockWrite} che eseguono la lettura da un
+socket tenendo conto di questa caratteristica, ed in grado di ritornare dopo
+avere letto o scritto esattamente il numero di bytes specificato; il sorgente
+è riportato in \curfig\ e \nfig\ ed è disponibile fra i sorgenti allegati alla
+guida nei files \texttt{SockRead.c} e \texttt{SockWrite.c}.
 
-Per capire il funzionamento delle funzioni della interfaccia dei socket che
-operano con TCP (le varie \texttt{connect}, \texttt{accept}, \texttt{close}
-che abbiamo visto negli esempi iniziali e su cui torneremo più avanti) è
-fodamentale capire come funziona la creazione e la conclusione di una
-connessione TCP.
+\begin{figure}[htb]
+  \centering
+  \footnotesize
+  \begin{lstlisting}{}
+#include <unistd.h>
+
+ssize_t SockWrite(int fd, const void *buf, size_t count) 
+{
+    size_t nleft;
+    ssize_t nwritten;
+
+    nleft = count;
+    while (nleft > 0) {             /* repeat until no left */
+        if ( (nwritten = write(fd, buf, nleft)) < 0) {
+            if (errno == EINTR) {   /* if interrupted by system call */
+                continue;           /* repeat the loop */
+            } else {
+                return(nwritten);   /* otherwise exit with error */
+            }
+        }
+        nleft -= nwritten;          /* set left to write */
+        buf +=nwritten;             /* set pointer */
+    }
+    return (count);
+}  
+  \end{lstlisting}
+  \caption{Funzione \texttt{SockWrite}, scrive $n$ bytes su un socket }
+  \label{fig:sock_SockWrite_code}
+\end{figure}
 
-\subsection{Le porte}
+Come si può notare le funzioni ripetono la lettura/scrittura in un loop fino
+all'esaurimento del numero di bytes richiesti, in caso di errore viene
+controllato se questo è \texttt{EINTR} (cioè un'interruzione della system call
+dovuta ad un segnale), nel qual caso l'accesso viene ripetuto, altrimenti
+l'errore viene ritornato interrompendo il loop.  
 
+Nel caso della lettura se il numero di bytes letti è zero significa che è
+arrivati alla fine del file e pertanto si ritorna senza aver concluso la
+lettura di tutti i bytes richiesti.