\chapter{Socket TCP elementari}
\label{cha:elem_TCP_sock}
-In questo capitolo iniziamo ad approndire la conoscenza dei socket TCP,
+In questo capitolo iniziamo ad approfondire la conoscenza dei socket TCP,
tratteremo qui dunque il funzionamento delle varie funzioni che si sono usate
nei due esempi elementari forniti in precedenza (vedi
\secref{sec:net_cli_sample} e \secref{sec:net_serv_sample}), previa una
descrizione delle principali caratteristiche del funzionamento di una
connessione TCP.
-Infine riscriveremo il precedente esempio elementare di server
-\texttt{daytime} in una forma appena più evoluta (come server concorrente) e
-con alcune caratteristiche aggiuntive che mettano in luce quanto andremo ad
-illustrare.
\section{Il funzionamento di una connessione TCP}
\label{sec:TCPel_connession}
di una connessione, che possono essere osservati per ciascun socket attivo con
l'uso del programma \texttt{netstat}.
-\subsection{La creazione della connessione: il \textit{three way handushake}}
+\subsection{La creazione della connessione: il \textit{three way handshake}}
\label{sec:TCPel_conn_cre}
Il processo che porta a creare una connessione TCP è chiamato \textit{three
- way handushake}; la successione tipica degli eventi (la stessa che si
+ way handshake}; la successione tipica degli eventi (la stessa che si
verifica utilizzando il codice dei due precedenti esempi elementari
\figref{fig:net_cli_code} e \figref{fig:net_serv_code}) che porta alla
creazione di una connessione è la seguente:
che implementa il protocollo) per realizzare la comunicazione, fra questi
dati ci sono una serie di flag usati per gestire la connessione, come
\texttt{SYN}, \texttt{ACK}, \texttt{URG}, \texttt{FIN}, alcuni di essi,
- come \texttt{SYN} (che sta per \textit{sincronize}) corrispondono a
+ come \texttt{SYN} (che sta per \textit{syncronize}) corrispondono a
funzioni particolari del protocollo e danno il nome al segmento, (per
maggiori dettagli vedere \capref{cha:tcp_protocol})}, in sostanza viene
inviato al server un pacchetto IP che contiene solo gli header IP e TCP (con
\item \textit{MSS option} Sta per \textit{maximum segment size}, con questa
opzione ciascun capo della connessione annuncia all'altro il massimo
ammontare di dati che vorrebbe accettare per ciascun segmento nella
- connesione corrente. È possibile leggere e scrivere questo valore attraverso
+ connessione corrente. È possibile leggere e scrivere questo valore attraverso
l'opzione del socket \texttt{TCP\_MAXSEG}.
\item \textit{window scale option} come spiegato in \capref{cha:tcp_protocol} il
protocollo TCP implementa il controllo di flusso attraverso una
\textsl{finestra annunciata} (\textit{advertized window}) con la quale
ciascun capo della comunicazione dichiara quanto spazio disponibile ha in
- memoria per i dati. Questo è un numero a 16 bit dell'haeader, che così può
- indicare un massimo di 65535 bytes (anche se linux usa come massimo 32767
+ memoria per i dati. Questo è un numero a 16 bit dell'header, che così può
+ indicare un massimo di 65535 bytes (anche se Linux usa come massimo 32767
per evitare problemi con alcuni stack bacati che usano l'aritmetica con
segno per implementare lo stack TCP); ma alcuni tipi di connessione come
quelle ad alta velocità (sopra i 45Mbits/sec) e quelle che hanno grandi
protocollo, le ultime due opzioni (trattate nell'RFC 1323) sono meno comuni;
vengono anche dette \textit{long fat pipe options} dato che questo è il nome
che viene dato alle connessioni caratterizzate da alta velocità o da ritardi
-elevati. In ogni caso linux supporta pienamente entrambe le opzioni.
+elevati. In ogni caso Linux supporta pienamente entrambe le opzioni.
\subsection{La terminazione della connessione}
\label{sec:TCPel_conn_term}
Mentre per creare una connessione occorre un interscambio di tre segmenti, la
-procedura di chiusura ne richede quattro; ancora una volta si può fare
+procedura di chiusura ne richiede quattro; ancora una volta si può fare
riferimento al codice degli esempi \figref{fig:net_cli_code} e
\figref{fig:net_serv_code}, in questo caso la successione degli eventi è la
seguente:
\item L'altro capo della connessione riceve il FIN ed esegue la
\textit{chiusura passiva} (da \textit{passive close}); al FIN, come per
tutti i pacchetti, viene risposto con un ACK. Inoltre il ricevimento del FIN
- viene passato al processo che ha aperto il socket come un end of file sulla
+ viene passato al processo che ha aperto il socket come un end-of-file sulla
lettura (dopo che ogni altro eventuale dato rimasto in coda è stato
ricevuto), dato che il ricevimento di un FIN significa che non si
riceveranno altri dati sulla connessione.
Dato che in questo caso sono richiesti un FIN ed un ACK per ciascuna direzione
normalmente i segmenti scambiati sono quattro; normalmente giacché in alcune
-sitazioni il FIN del passo 1) è inviato insieme a dei dati. Comunque non è
+situazioni il FIN del passo 1) è inviato insieme a dei dati. Comunque non è
detto, anche se è possibile, che i segmenti inviati nei passi 2 e 3, siano
accorpati in un singolo segmento. In \nfig\ si è rappresentato graficamente lo
sequenza di scambio dei segmenti che stabilisce la connessione.
viene terminato da un segnale tutte le connessioni aperte verranno chiuse.
Infine è da sottolineare che, benché nella figura (e nell'esempio che vedremo
-piu avanti in \secref{sec:TCPsimp_echo_example}) sia il client ad eseguire la
+più avanti in \secref{sec:TCPsimp_echo_example}) sia il client ad eseguire la
chiusura attiva, nella realtà questa può essere eseguita da uno qualunque dei
due capi della comunicazione (come in fatto in precedenza da
\figref{fig:net_serv_code}), e benché quello del client sia il caso più comune
\end{figure}
La connessione viene iniziata dal client che annuncia un MSS di 1460 (un
-valore tipico per IPv4 su ethernet) con linux, il server risponde con lo
+valore tipico per IPv4 su ethernet) con Linux, il server risponde con lo
stesso valore (ma potrebbe essere anche un valore diverso).
Una volta che la connessione è stabilita il client scrive al server una
più di MSL secondi.
Ogni implementazione del TCP deve scegliere un valore per la MSL (l'RFC1122
-raccomanda 2 minuti, linux usa 30 secondi), questo comporta una durata dello
+raccomanda 2 minuti, Linux usa 30 secondi), questo comporta una durata dello
stato \texttt{TIME\_WAIT} che a seconda delle implementazioni può variare fra
1 a 4 minuti.
non ricevendo risposta, provvederà alla ritrasmissione e se nel frattempo sarà
stata stabilita una strada alternativa il pacchetto ritrasmesso giungerà a
destinazione. Ma se dopo un po' di tempo (che non supera il limite dell'MSL)
-l'anomalia viene a cessare il circolo di instadamento viene spezzato i
+l'anomalia viene a cessare il circolo di instradamento viene spezzato i
pacchetti intrappolati potranno essere inviati alla destinazione finale, con
la conseguenza di avere dei pacchetti duplicati; questo è un caso che il TCP
deve essere in grado di gestire.
In realtà rispetto a quanto indicato nell'RFC1700 i vari sistemi hanno fatto
scelte diverse per le porte effimere, in particolare in \nfig\ sono riportate
-quelle di BSD, Solaris e linux. Nel caso di linux poi la scelta fra i due
-intervali possibili viene fatta dinamicamente a seconda della memoria a
-disposizione del kernel per gestire le rative tabelle.
+quelle di BSD, Solaris e Linux. Nel caso di Linux poi la scelta fra i due
+intervalli possibili viene fatta dinamicamente a seconda della memoria a
+disposizione del kernel per gestire le relative tabelle.
\begin{figure}[!htb]
\centering
Per capire meglio l'uso delle porte e come vengono utilizzate quando si ha a
che fare con un'applicazione client/server (come quella che scriveremo in
-\secref{sec:TCPel_cunc_serv}) esaminaremo cosa accade con le connessioni nel
+\secref{sec:TCPel_cunc_serv}) esamineremo cosa accade con le connessioni nel
caso di un server TCP che deve gestire connessioni multiple.
-Se esguiamo un \texttt{netstat} su una macchina di prova (che supponiamo avere
+Se eseguiamo un \texttt{netstat} su una macchina di prova (che supponiamo avere
indirizzo 195.110.112.152) potremo avere un risultato del tipo:
\begin{verbatim}
Active Internet connections (servers and established)
Questo ci mostra ad esempio che il server ssh ha compiuto un'apertura passiva
mettendosi in ascolto sulla porta 22 riservata a questo servizio e che si è
posto in ascolto per connessioni provenienti da uno qualunque degli indirizzi
-associati alle interfaccie locali; la notazione 0.0.0.0 usata da netstat è
+associati alle interfacce locali; la notazione 0.0.0.0 usata da netstat è
equivalente all'asterisco utilizzato per il numero di porta ed indica il
valore generico, e corrisponde al valore \texttt{INADDR\_ANY} definito in
\texttt{arpa/inet.h}.
Una volta che ci si vorrà collegare a questa macchina da un'altra posta
all'indirizzo 192.84.146.100 si potrà lanciare un client \texttt{ssh} per
-creare una connessione verso la precedente, e il kernel associerà al suddetto
+creare una connessione verso la precedente, e il kernel assocerà al suddetto
una porta effimera che per esempio potrà essere la 21100, la connessione
allora sarà espressa dalla socket pair $(192.84.146.100:21100,
195.110.112.152.22)$.
sul socket originale.
Se a questo punto lanciamo un'altra volta il client ssh per una seconda
-conessione quello che otterremo usando netstat sarà qualcosa del genere:
+connessione quello che otterremo usando netstat sarà qualcosa del genere:
\begin{verbatim}
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address Foreign Address State
alle connessioni che arrivano verso tale indirizzo.
Normalmente un client non specifica mai un indirizzo ad un suo socket, ed il
-kernel sceglie l'indirizzo di orgine quando viene effettuata la connessione
+kernel sceglie l'indirizzo di origine quando viene effettuata la connessione
sulla base dell'interfaccia usata per trasmettere i pacchetti, (che dipende
dalle regole di instradamento usate per raggiungere il server).
Se un server non specifica il suo indirizzo locale il kernel userà come
Per specificare un indirizzo generico con IPv4 si usa il valore
\texttt{INADDR\_ANY}, il cui valore, come visto anche negli esempi precedenti
-è pari a zero, nell'esempio \figref{fig:net_serv_sample} si è usata
+è pari a zero, nell'esempio \figref{fig:net_serv_code} si è usata
un'assegnazione immediata del tipo:
\begin{verbatim}
serv_add.sin_addr.s_addr = htonl(INADDR_ANY); /* connect from anywhere */
Si noti che si è usato \texttt{htonl} per assegnare il valore
\texttt{INADDR\_ANY}; benché essendo questo pari a zero il riordinamento sia
-inutile; ma dato che tutte le constanti \texttt{INADDR\_} sono definite
+inutile; ma dato che tutte le costanti \texttt{INADDR\_} sono definite
secondo l'ordinamento della macchina è buona norma usare sempre la funzione
\texttt{htonl}.
\item \texttt{EAFNOSUPPORT} l'indirizzo non ha una famiglia di indirizzi
corretta nel relativo campo.
\item \texttt{EACCESS, EPERM} si è tentato di eseguire una connessione ad un
- indirizzo broacast senza che il socket fosse stato abilitato per il
+ indirizzo broadcast senza che il socket fosse stato abilitato per il
broadcast.
\end{errlist}
\end{prototype}
dopo circa 180 secondi.
%
% Le informazioni su tutte le opzioni settabili via /proc stanno in
-% linux/Documentation/networking/ip-sysctl.txt
+% Linux/Documentation/networking/ip-sysctl.txt
%
\item Il client riceve come risposta al SYN un RST significa che non c'è
nessun programma in ascolto per la connessione sulla porta specificata (il
- che vuol dire probablmente che o si è sbagliato il numero della porta o che
+ che vuol dire probabilmente che o si è sbagliato il numero della porta o che
non è stato avviato il server), questo è un errore fatale e la funzione
ritorna non appena il RST viene ricevuto riportando un errore
\texttt{ECONNREFUSED}.
Il flag RST sta per \textit{reset} ed è un segmento inviato direttamente
dal TCP quando qualcosa non va. Tre condizioni che generano un RST sono:
quando arriva un SYN per una porta che non ha nessun server in ascolto,
- quando il TCP abortisce una connessione in corso, quandi TCP riceve un
+ quando il TCP abortisce una connessione in corso, quando TCP riceve un
segmento per una connessione che non esiste.
\item Il SYN del client provoca l'emissione di un messaggio ICMP di
destinazione non raggiungibile. In questo caso dato che il messaggio può
- essere dovuto ad una condizione transitoria si ripete l'emmissione dei SYN
+ essere dovuto ad una condizione transitoria si ripete l'emissione dei SYN
come nel caso precedente, fino al timeout, e solo allora si restituisce il
codice di errore dovuto al messaggio ICMP, che da luogo ad un
\texttt{ENETUNREACH}.
Si noti infine che con la funzione \texttt{connect} si è specificato solo
indirizzo e porta del server, quindi solo una metà della socket pair; essendo
-questa funzione usata nei client l'altra metà contentente indirizzo e porta
+questa funzione usata nei client l'altra metà contenente indirizzo e porta
locale viene lasciata all'assegnazione automatica del kernel, e non è
necessario effettuare una \texttt{bind}.
\begin{enumerate}
\item Una coda delle connessioni incomplete (\textit{incomplete connection
queue} che contiene un ingresso per ciascun socket per il quale è arrivato
- un SYN ma il three-way handshake non si è ancora concluso. Questi socket
+ un SYN ma il three way handshake non si è ancora concluso. Questi socket
sono tutti nello stato \texttt{SYN\_RECV}.
\item Una coda delle connessioni complete (\textit{complete connection queue}
- che contiene un ingresso per ciascun socket per il quale il three-way
+ che contiene un ingresso per ciascun socket per il quale il three way
handshake è stato completato ma ancora \texttt{accept} non è ritornata.
Questi socket sono tutti nello stato \texttt{ESTABLISHED}.
\end{enumerate}
client il server crea una nuova entrata nella coda delle connessioni
incomplete, e poi risponde con il SYN$+$ACK. La entrata resterà nella coda
delle connessioni incomplete fino al ricevimento dell'ACK dal client o fino ad
-un timeout. Nel caso di completamento del three-way handshake l'entrata viene
+un timeout. Nel caso di completamento del three way handshake l'entrata viene
sostata nella coda delle connessioni complete. Quando il processo chiama la
funzione \texttt{accept} (vedi \secref{sec:TCPel_func_accept}) la prima
entrata nella coda delle connessioni complete è passata al programma, o, se la
massimo valore della somma del numero di entrate possibili per ciascuna di
dette code. Stevens riporta che BSD ha sempre applicato un fattore di 1.5 al
valore, e provvede una tabella con i risultati ottenuti con vari kernel,
-compreso linux 2.0, che mostrano le differenze fra diverse implementazioni.
+compreso Linux 2.0, che mostrano le differenze fra diverse implementazioni.
-In linux il significato di questo valore è cambiato a partire dal kernel
+In Linux il significato di questo valore è cambiato a partire dal kernel
2.2 per prevenire l'attacco chiamato \texttt{syn flood}. Questo si basa
sull'emissione da parte dell'attaccante di un grande numero di pacchetti SYN
indirizzati verso una porta forgiati con indirizzo IP fasullo\footnote{con la
\texttt{/proc/sys/net/ipv4/tcp\_max\_syn\_backlog}. Quando si attiva la
protezione dei syncookies però (con l'opzione da compilare nel kernel e da
attivare usando \texttt{/proc/sys/net/ipv4/tcp\_syncookies}) questo valore
-viene ignorato e non esiste più un valore massimo. In ogni caso in linux il
+viene ignorato e non esiste più un valore massimo. In ogni caso in Linux il
valore di \texttt{backlog} viene troncato ad un massimo di \texttt{SOMAXCONN}
-se è superiore a detta constante (che di default vale 128).
+se è superiore a detta costante (che di default vale 128).
La scelta storica per il valore di questo parametro è di 5, e alcuni vecchi
kernel non supportavano neanche valori superiori, ma la situazione corrente è
occupato fra chiamate successive alla \texttt{accept} (per cui la coda più
occupata sarebbe quella delle connessioni completate), ma piuttosto quello di
gestire la presenza di un gran numero di SYN in attesa di concludere il
-three-way handshake.
+three way handshake.
Infine va messo in evidenza che nel caso di socket TCP quando un SYN arriva
con tutte le code piene, il pacchetto deve essere ignorato. Questo perché la
condizione in cui le code sono piene è ovviamente transitoria, per cui se il
-client ristrasmette il SYN è probabile che passato un po' di tempo possa
+client ritrasmette il SYN è probabile che passato un po' di tempo possa
trovare nella coda lo spazio per una nuova connessione. Se invece si
rispondesse con un RST per indicare l'impossibilità di effettuare la
connessione la chiamata a \texttt{connect} nel client ritornerebbe con una
La funzione può essere usata solo con socket che supportino la connessione
(cioè di tipo \texttt{SOCK\_STREAM}, \texttt{SOCK\_SEQPACKET} o
\texttt{SOCK\_RDM}). Per alcuni protocolli che richiedono una conferma
-esplicita della connessione, (attualmenente in linux solo DECnet ha questo
+esplicita della connessione, (attualmente in Linux solo DECnet ha questo
comportamento), la funzione opera solo l'estrazione dalla coda delle
connessioni, la conferma della connessione viene fatta implicitamente dalla
prima chiamata ad una \texttt{read} o una \texttt{write} mentre il rifiuto
della connessione viene fatto con la funzione \texttt{close}.
-E da chiarire che linux presenta un comportamento diverso nella gestione degli
+È da chiarire che Linux presenta un comportamento diverso nella gestione degli
errori rispetto ad altre implementazioni dei socket BSD, infatti la funzione
\texttt{accept} passa gli errori di rete pendenti sul nuovo socket come codici
di errore per \texttt{accept}. Inoltre la funzione non fa ereditare ai nuovi
socket descriptor non è più utilizzabile dal processo e non può essere usato
come argomento per una \texttt{write} o una \texttt{read} (anche se l'altro
capo della connessione non avesse chiuso la sua parte). Il kernel invierà
-comunque tutti i dati che ha in coda prima di inziare la sequenza di chiusura.
+comunque tutti i dati che ha in coda prima di iniziare la sequenza di chiusura.
Vedremo più avanti in \secref{sec:TCPadv_so_linger} come è possibile cambiare
questo comportamento, e cosa deve essere fatto perché il processo possa
comunicazione.
-
-\subsection{Un esempio di server \textit{daytime}}
+\subsection{Un esempio di server \textit{daytime} concorrente}
\label{sec:TCPel_cunc_daytime}
Per illustrare il meccanismo usato in generale per creare un server
\end{lstlisting}
\caption{Esempio di codice di un server concorrente elementare per il
servizio daytime.}
- \label{fig:net_cli_code}
+ \label{fig:TCPelem_serv_code}
\end{figure}
Come si può vedere (alle linee \texttt{\small 21--25}) la funzione
immediatamente il socket \texttt{list\_fd}; mentre il padre continua ad
operare solo sul socket in ascolto chiudendo \texttt{sock\_fd} dopo ciascuna
\texttt{accept}. Per quanto abbiamo detto in \secref{sec:TCPel_func_close}
-queste due chiusure non causano l'innesco della sequenza di chiusura perchè il
+queste due chiusure non causano l'innesco della sequenza di chiusura perché il
numero di riferimenti non si è annullato.
Infatti subito dopo la creazione del socket \texttt{list\_fd} ha una
remoto.
\begin{prototype}{sys/socket.h}
-{int getsockname(int sockfd, struct sockaddr * name, socklen_t * namelen)}
+{int getsockname(int sockfd, struct sockaddr * name, socklen\_t * namelen)}
La funzione restituisce 0 in caso di successo e -1 in caso di errore. I
codici di errore restituiti in \texttt{errno} sono i seguenti:
usualmente non chiama \texttt{bind}) per ottenere numero IP e porta locale
associati al socket restituito da una \texttt{connect}, o da un server che ha
chiamato \texttt{bind} su un socket usando 0 come porta locale per ottenere il
-numero di porta effiemera assegnato dal kernel.
+numero di porta effimera assegnato dal kernel.
Inoltre quando un server esegue una \texttt{bind} su un indirizzo generico, se
chiamata dopo il completamento di una connessione sul socket restituito da
\begin{prototype}{sys/socket.h}
-{int getpeername(int sockfd, struct sockaddr * name, socklen_t * namelen)}
+{int getpeername(int sockfd, struct sockaddr * name, socklen\_t * namelen)}
La funzione restituisce 0 in caso di successo e -1 in caso di errore. I
codici di errore restituiti in \texttt{errno} sono i seguenti:
La funzione \texttt{getpeername} si usa tutte le volte che si vuole avere
l'indirizzo remoto di un socket.
-Benché nell'esempio precedente si siano usati i valori di ritorno di
-\texttt{accept} per ottenere l'indirizzo del client remoto, in generale questo
-non è possibile. In particolare questo avviene quando il server invece di far
-gestire la connessione direttamente al figlio, come nell'esempio precedente,
-lancia un opportuno programma per ciascuna connessione usando \texttt{exec}
-(come ad esempio fa il \textsl{super-server} \texttt{inetd} che gestisce tutta
-una serie di servizi lanciando per ogni connessione l'opportuno server).
+Ci si può chiedere a cosa serva questa funzione dato che dal lato client
+l'indirizzo remoto è sempre noto quando si esegue la \texttt{connect} mentre
+dal lato server si possono usare, come si è fatto nell'esempio precedente, i
+valori di ritorno di \texttt{accept}.
+
+In generale però questa ultima possibilità è sempre possibile. In particolare
+questo avviene quando il server invece di far gestire la connessione
+direttamente a un processo figlio, come nell'esempio precedente, lancia un
+opportuno programma per ciascuna connessione usando \texttt{exec} (questa ad
+esempio è la modailità con cui opera il \textsl{super-server} \texttt{inetd}
+che gestisce tutta una serie di servizi lanciando per ogni connessione
+l'opportuno server).
In questo caso benché il processo figlio abbia una immagine della memoria che
è copia di quella del processo padre (e contiene quindi anche la struttura
-ritornata da \texttt{accept}) all'esecuzione di \texttt{exec} viene caricata
+ritornata da \texttt{accept}), all'esecuzione di \texttt{exec} viene caricata
in memoria l'immagine del programma eseguito che a questo punto perde ogni
-riferimento; ma il socket descriptor resta aperto. Allora se una opportuna
+riferimento. Il socket descriptor però resta aperto. Allora se una opportuna
convenzione è seguita per rendere noto al programma eseguito qual'è il socket
connesso (\texttt{inetd} ad esempio fa sempre in modo che i file descriptor 0,
-1 e 2 corrispondano al socket connesso) quest'ultimo potrà usare
+1 e 2 corrispondano al socket connesso) quest'ultimo potrà usare la funzione
\texttt{getpeername} per determinare l'indirizzo remoto del client.
-Infine è da chiarire che come per \texttt{accept} il terzo parametro che è
-specificato dallo standard POSIX 1003.1g come di tipo \texttt{socklen\_t *} in
-realtà deve sempre corrispondere ad un \texttt{int *} come prima dello
-standard perché tutte le implementazioni dei socket BSD fanno questa
-assunzione.
+Infine è da chiarire (si legga la man page) che come per \texttt{accept} il
+terzo parametro che è specificato dallo standard POSIX 1003.1g come di tipo
+\texttt{socklen\_t *} in realtà deve sempre corrispondere ad un \texttt{int *}
+come prima dello standard perché tutte le implementazioni dei socket BSD fanno
+questa assunzione.