Elementi di statistica
Capitolo 1 Il campo di analisi della statistica
“Le fasi dell’analisi statistica”
“Un’analisi statistica consta generalmente di cinque step: i) definizione degli obiettivi, che serve a delimitare l’ambito della ricerca; ii) rilevazione, concernente l’osservazione dei caratteri relativi alle unità statistiche. Essa può essere totale, se viene condotta su tutte le unità statistiche che compongono la popolazione, oppure parziale se è condotta su un campione rappresentativo della popolazione di riferimento; iii) l’elaborazione dei dati; iv) presentazione e interpretazione dei dati, consistente nella loro rappresentazione attraverso tabelle, grafici e indici; v) applicazione degli esiti dell’analisi.”
“Indagine statistica e tabelle”
“L’unità statistica è la componente elementare sulla quale viene condotta l’analisi delle variabili statistiche, ossia dei caratteri sia qualitativi (ad es. colore degli occhi) sia quantitativi (ad es. durata della batteria). I risultati dell’indagine possono essere schematizzati anche attraverso l’ausilio di distribuzioni statistiche, ossia tabelle a doppia entrata che indicano per ciascuna variabile analizzata la relativa frequenza (ossia il numero di volte in cui essa si è manifestata durante la rilevazione.”
“Le distribuzioni statistiche semplici”
“Per una sintesi approfondita, digita il titolo dei corrispondenti sottoparagrafi del manuale.”
“Variabili statistiche”
“Una variabile quantitativa statistica può essere di natura: i) discreta, se i suoi valori appartengono all’insieme dei numeri naturali (0,1,2…); ii) continua, se i suoi valori sono compresi nell’insieme dei numeri reali (0,01…). Si preferisce raggruppare i valori delle variabili continue in classi di modalità, ossia intervalli di valori di cui è possibile determinare: i) l’ampiezza, data dalla differenza tra il valore massimo e il valore minimo dell’intervallo; ii) la densità di frequenza, ossia il rapporto tra il numero delle frequenze assoluta e l’ampiezza dell’intervallo; iii) il valore centrale, dato dalla semisomma del valore minimo e del valore massimo dell’intervallo.”
“Mutabili statistiche”
“Le variabili statistiche qualitative, i cui attributi non sono numerici bensì espressi attraverso parole, avverbi, simboli ecc., possono essere di tre tipi: i) rettilinee (o ordinali), se è comunque possibile una relazione gerarchica tra gli attributi (ad es. valutazione della qualità di un ristorante da 1 a 5 stelle); ii) cicliche, se i suoi attributi possono essere ordinati senza tuttavia definire quali sono il primo e l’ultimo valore della serie (ad es. ore di studio nei singoli giorni della settimana); iii) sconnesse se non è possibile stabilire alcun tipo di rapporto gerarchico (ad es. comune di residenza degli alunni di una classe).”
Capitolo 2 Le rappresentazioni grafiche
“Riferimento cartesiano ortogonale”
“Un grafico cartesiano è costituito da due rette ortogonali, il cui punto di intersezione corrisponde all’origine degli assi (0). La retta orizzontale è detta asse delle ascisse, quella verticale è chiamata asse delle ordinate. Su entrambi gli assi si fissa un’unità di misura e si stabilisce l’orientamento dei valori. Ciascun punto su un’asse cartesiano corrisponde a una coppia di valori ascissa-ordinata.”
“Ortogrammi”
“L’ortogramma rappresenta la frequenza di un fenomeno attraverso una serie di rettangoli equidistanziati. È possibile classificare, inoltre: i) ortogramma a colonne, se i rettangoli hanno uguale base e un’altezza proporzionale alla loro frequenza (o densità di frequenza nel caso di variabili quantitative continue); ii) ortogramma a nastri, se i rettangoli hanno eguale altezza e una base proporzionale alla loro frequenza (o densità di frequenza nel caso di variabili di quantitative continue).”
“Areogrammi per cerchi e per settori circolari”
“L’aerogramma si basa sulla corrispondenza tra intensità (o densità) di frequenza e superfici di cerchi o di settori circolari. È possibile distinguere, in particolare: i) aerogramma per cerchi, nel quale la misura della superficie dei singoli cerchi è proporzionale alla loro frequenza; ii) aerogramma per settori circolari, nel quale l’area del cerchio esprime la frequenza totale e l’ampiezza dei settori corrisponde, invece, alla all’intensità (o densità) dì frequenza delle singole modalità.”
“Istogrammi”
“L’istogramma è tendenzialmente utilizzato per la rappresentazione grafica di variabili statistiche continue, i cui valori sono raggruppati per classi di modalità. Anche l’istogramma si avvale di rettangoli: i) la base del rettangolo misura l’ampiezza della classe di riferimento; ii) l’altezza del rettangolo corrisponde alla densità di frequenza; iii) l’area del rettangolo esprima la frequenza assoluta.”
Capitolo 3 Le medie algebriche e di posizione
“Media aritmetica”
“La media aritmetica è un indice di posizione che si calcola dividendo la somma dei singoli valori osservati per il numero totale delle osservazioni. La media può essere: i) semplice, se tutte le osservazioni hanno il medesimo peso (ossia 1) nel calcolo matematico, per cui si può scrivere ; ii) ponderata, se ciascuna osservazione ha un peso specifico (pi diverso da 1) nel calcolo del valore finale, per cui la precedente formula diventa . La media aritmetica gode di molteplici proprietà, per approfondire le quali si consiglia di consultare il corrispondente paragrafo manuale 😊.
“Media quadratica”
“La media quadratica è un indice di posizione che è pari alla radice quadratica della media aritmetica dei quadrati dei termini, secondo la formula . Come la media aritmetica, anche la media quadratica può essere semplice o ponderata, a seconda del fatto che ciascun valore abbia o meno lo stesso peso specifico nel calcolo del valore finale.”
“Media armonica”
“La media armonica è un indice di posizione ed esprime il rapporto tra il numero delle osservazioni e la somma dei reciproci dei valori numerici, secondo la formula . Come la media aritmetica, anche la media armonica può semplice o ponderata, a seconda del fatto che ciascun valore abbia o meno lo stesso peso specifico nel calcolo del valore finale.”
“Media geometrica”
“La media geometrica è un indice di posizione ed è pari alla radice n-esima del prodotto dei valori delle osservazioni, secondo la formula . Tale tipo di media è calcolabile soltanto se tutti i valori delle osservazioni sono diversi dai zeri; in caso contrario, il prodotto delle osservazioni risulterebbe essere pari a 0 e non sarebbe possibile l’estrazione della radice. Come la media aritmetica, anche la media geometrica può semplice o ponderata, a seconda del fatto che ciascun valore abbia o meno lo stesso peso specifico nel calcolo del valore finale.”
“Relazioni tra le medie”
“Per una data variabile statistica, i valori delle quattro medie che abbiamo studiato nei precedenti paragrafi risultano essere così ordinati: media armonica < media geometrica < media aritmetica < media quadratica. ”
“Cenni sulla media di somme di potenze”
“Per dei cenni sulla media di somme di potenze, si rinvia al corrispondente paragrafo del manuale 😊.”
“Moda”
“La moda è quell’indice di posizione che individua il valore al quale è associata la frequenza assoluta più elevata. Se una distribuzione statistica presenta un’unica moda, allora si dice unimodale; in caso contrario, si parla di distribuzione plurimodale. Nel caso di variabili statistiche quantitative continue, la moda indica la classe di modalità a cui è associata la frequenza assoluta più elevata (nel caso in cui tutte le classi siano equi-ampie); se, tuttavia, le classi di modalità hanno ampiezze differenti, il calcolo della moda prende in considerazione la densità di frequenza più elevata.”
“Mediana”
“Dato un insieme di dati ordinato in serie, in modo crescente o decrescente, la mediana è un indice di posizione e individua il valore che divide a metà il numero delle osservazioni, lasciando a destra e a sinistra esattamente il 50% dei casi. Il calcolo della mediana differisce in base al N-numero delle osservazioni: i) se sono dispari, la mediana si calcola attraverso il rapporto (N+1)/2; ii) se sono pari, la mediana è pari alla media aritmetica dei due dati centrali, ossia [N + (N+1)]/2. La mediana gode di molteplici proprietà, per approfondire le quali si consiglia di consultare il corrispondente paragrafo manuale😊.”
“Percentili”
“I percentili sono indici di posizione calcolabili per una serie ordinata di valori, disposti in modo crescente o decrescente, e individuano quel valore che lasciano a destra e a sinistra una certa percentuale di osservazioni. Se ne possono calcolare molteplici, quali i terzili (che sono 2), i quartili (che sono 3), i decili (che sono 9) ecc.”
Capitolo 4 Gli indici di variabilità
“Campo di variazione”
“Il campo di variazione è un indice di variabilità che calcola la differenza tra il valore minimo e il valore massimo di una distribuzione ordinata di dati. Si tratta, tuttavia, di un indice che non fornisce informazioni circa la struttura dei dati interni alla distribuzione e il suo calcolo è oltretutto influenzabile dalla presenza di valori anormali.”
“Differenza interquartile”
“Per la trattazione della differenza interquartile, si consiglia di consultare il corrispondente paragrafo del manuale 😊.”
“Scostamento semplice medio dalla media aritmetica”
“Si tratta di un indice di variabilità che calcola la media aritmetica, semplice o ponderata, dei valori assoluti degli scarti dalla media aritmetica. Nel caso di dati non raggruppati in distribuzioni di frequenza, la formula dello scostamento semplice medio dalla media aritmetica è la seguente . Nel caso di dati raggruppati in classi di modalità, xi corrisponde al valore centrale dell’intervallo.”
“Scostamento semplice medio dalla mediana”
“Si tratta di un indice di variabilità che calcola la media aritmetica, semplice o ponderata, dei valori assoluti degli scarti dalla mediana. Nel caso di dati non raggruppati in distribuzioni di frequenza, la formula dello scostamento semplice medio dalla mediana è la seguente . Nel caso di dati raggruppati in classi di modalità, xi corrisponde al valore centrale dell’intervallo.”
“Scarto quadratico medio”
“Anche detto devianza standard, lo scarto quadratico medio è un indice di variabilità che calcola la media quadratica, semplice o ponderata, degli scarti quadratici dei singoli valori dalla media aritmetica. Per dati non raggruppati in distribuzione di frequenza, la formula della devianza standard è . A sua volta, rapportando lo scarto quadratico medio e la media aritmetica, si ottiene un indicatore chiamata coefficiente di variazione (o di variabilità). Infine, rapportando gli scarti dalla media aritmetica e lo s.q.m. si ottengono gli scarti standardizzati.”
“Devianza e varianza”
“La devianza è un indice di variabilità definibile come la sommatoria, semplice o ponderata, degli scarti quadratici delle singole osservazioni dalla media aritmetica. Essa si calcola secondo la formula .
La varianza è, a sua volta, un indice che si ottiene effettuando il rapporto tra la devianza e la numerosità delle osservazioni.”
“Differenze medie”
“Bisogna distinguere fra differenza media con o senza ripetizione. La differenza media con ripetizione è un indice di mutua variabilità e si calcola attraverso la media aritmetica della differenza, in valore assoluto, di ciascuna coppia di modalità xi e xj (anche rispetto a sé stesse). La formula è la seguente .
La differenza media senza ripetizione si calcola allo stesso modo dell’indice predetto, ma al denominatore si sostituisce N2 con N(N-1)”
“Indici rapportati al massimo della variabilità”
“Per ottenere un indice relativo di variabilità occorre rapportare l’indice assoluto al corrispondente indice della distribuzione massimante (ossia quella che presenta la massima variabilità). Si ottiene, in questa maniera, un indicatore che assume valore 0, in caso di variabilità nulla, e valore 1 in caso di variabilità massima. Costituiscono degli esempi lo scarto quadratico medio in rapporto al suo massimo e la differenza media senza ripetizione in rapporto al suo massimo.”
“Indici di concentrazione”
“La misura della concentrazione costituisce un aspetto della variabilità ed è finalizzato a valutare il modo in cui l’ammontare totale di un carattere (ad es. il reddito) è trasferibile fra più unità statistiche: se la ripartizione avviene in maniera eguale fra tutte le unità si parla di carattere equidistribuito. Rientrano tra gli indici di concentrazione la curva di Lorenz e l’indice di Gini.”
“Momenti”
“Per la trattazione dell’argomento, ti consiglio di consultare il corrispondente paragrafo del manuale 😊.”
Capitolo 5 Gli indici di forma
“Indici di asimmetria”
“In linea generale, una distribuzione statistica si dice simmetrica quando μ =Me = Mo; in caso contrario si parla di asimmetria, la quale può essere positiva oppure negativa. Esistono diversi indici di simmetria, i quali si distinguono in: i) misure assolute. Esse si ottengono dalle differenze tra media aritmetica e mediana, da un lato, oppure media aritmetica e moda dall’altro. Un esempio è il momento centrale del terzo ordine; ii) misure relative. Esse si ottengono dal rapporto tra , da un lato, oppure dall’altro. Un esempio è l’indice di asimmetria di Fisher, che si ottiene da rapporto tra il cubo dello scarto quadratico medio e il momento centrale del terzo ordine.”
“Indice di curtosi”
“La curtosi misura la maggiore o minore lunghezza delle code di una distribuzione (le quali sono solitamente associate a valori anomali) rispetto alla curva di distribuzione della variabile casuale normale (o gaussiana), la quale ha la forma di una campana perfettamente simmetrica. Rapportata alla cd. campana di Gauss, una curva può essere: i) leptocurtica (ipernormale), se ha un aspetto snello in prossimità del punto di massimo; ii) mesocurtica (normale), se ha le caratteristiche morfologiche di una distribuzione normale; iii) platicurtica (iponormale), se ha un aspetto più copioso in prossimità del punto di massimo. Una misura del grado di curtosi di una distribuzione è data dall’indice di Pearson.”
Capitolo 6 I rapporti statistici
“Rapporti di composizione”
“I rapporti statistici operano confronti tra due termini, frequenze o quantità, tra cui sussiste un legame logico e delle quali almeno uno ha natura statistica. Sono particolarmente utilizzati per misurare l’intensità di un medesimo fenomeno in tempi o luoghi di versi, risultando particolarmente utili per lo studio delle variabili economiche (ad es. tasso di inflazione).
I rapporti di composizione mettono in relazione una modalità del fenomeno con il fenomeno nel suo complesso.”
“Rapporti di densità”
“Per la trattazione dei rapporti di densità, ti consiglio di consultare il corrispondente paragrafo del manuale 😊.”
“Rapporti di coesistenza”
“Per la trattazione dei rapporti di densità, ti consiglio di consultare il corrispondente paragrafo del manuale 😊.”
“Rapporti di durata e di ripetizione”
“I rapporti di durata esprimono la vita media di un elemento di una data popolazione, mentre i rapporti di ripetizione indicano quante volte la popolazione considerata si rinnova nell’unita di tempo.”
“Rapporti di derivazione”
“Per la trattazione dei rapporti di derivazione, ti consiglio di consultare il corrispondente paragrafo del manuale 😊.”
“Variazioni percentuali”
“Per la trattazione delle variazioni percentuali, ti consiglio di consultare il corrispondente paragrafo del manuale 😊.”
“Numeri indici”
“I numeri indice consentono di confrontare l’intensità di un medesimo fenomeno in situazioni temporali e/o spaziali differenti. Si classificano numeri indici: i) semplici; ii) sintetici, utili quando bisogna analizzare fenomeno complessi a loro volta scomponibili in più fenomeni elementari della stessa natura; iii) composti, utili per studiare fenomeni complessi a loro volta scomponibili in più fenomeni elementari di natura differente. Inoltre, è opportuno distinguere i numeri indici a base fissa e a base mobile.”
Capitolo 7 Le relazioni statistiche
“Le distribuzioni statistiche doppie”
“Quando per uno stesso collettivo di unità statistiche vengono rilevati, congiuntamente, i dati riguardanti due o più attributi, si ottengono distribuzioni statistiche multiple. Nei prossimi paragrafi ci concentreremo, in particolare, sulle distribuzioni statistiche doppie, ragion per cui ti consiglio di digitare i rispettivi sottoparagrafi del manuale 😊.”
“Variabili statistiche doppie o distribuzioni bivariate”
“Dato un collettivo N di unità statistiche, del quale si vogliono osservare contemporaneamente due attributi (X e Y), i dati vengono riportati in una tabella statistica a doppia entrata: nella prima riga si elencano le modalità che può assumere la X; nella prima colonna, invece, le modalità che può assumere la Y. All’incrocio di ogni riga e colonna viene associata una frequenza Npq che indica quante volte due specifiche modalità di X e Y si sono presentate insieme. Potremmo, tuttavia, voler conoscere soltanto la frequenza di una specifica modalità della X, a prescindere dal valore della Y, e viceversa: in questo caso si guarda all’ultima riga (nel caso delle X) oppure all’ultima colonna (nel caso delle Y), le quali riportano le frequenze marginali (ad es. Np. e N.q).”
“Mutabili doppie”
“Per lo studio delle variabili statistiche qualitative (o mutabili) doppie vale lo stesso discorso fatto nel paragrafo precedente per le variabili statistiche quantitative.”
“Distribuzioni parziali. Distribuzioni condizionate e marginali”
“Da una tabella a doppia entrata si possono desumere distribuzioni parziali, la quali a loro volta si distinguono in: i) distribuzioni condizionate, ottenuta associando la prima riga oppure la prima colonna, rispettivamente, con qualsiasi delle righe o colonne successive; ii) distribuzioni marginali, che si ottengono associando la prima riga o la prima colonna, rispettivamente, con la riga marginale o la colonna marginale.”
“Indipendenza assoluta e indici di connessione”
“Se il valore assunto da una variabile X non influenza quello che una variabile Y potrebbe assumere, allora le due variabili si dicono indipendenti; viceversa, si dice che una variabile è funzione dell’altra. Affinché esista indipendenza tra due caratteri, è necessario che le frequenze teoriche (n’ij) siano pari a L’eventuale differenza tra le frequenze teoriche (n’ij) e quelle osservate (nij) si definisce contingenza. Per studiare l’indipendenza di due caratteri statistici si utilizzano gli indici di connessione, tra i quali si evidenziano: i) l’indice di Pearson (χ2); ii) la contingenza quadratica media; iii) l’indice normalizzato di Pearson.”
“Indipendenza in media e rapporto di correlazione”
“Un carattere Y si definisce indipendente in media da X se, al variare delle modalità della X, le medie condizionate di Y (ossia la media aritmetica calcolata assumendo che la modalità yi rimanga costante) risultano costanti e uguali alla media generale del carattere Y. Lo stesso dicaso per l’indipendenza in media di X rispetto a Y. Un indicatore che consente di verificare l’eventuale dipendenza tra due caratteri X e Y è il rapporto di correlazione di Pearson: si tratta di un indice normalizzato che può assumere come valori 0 (situazione di indipendenza) e 1 (situazione di dipendenza).”
“La regressione”
“Per una trattazione dettagliata della regressione, digita il titolo dei corrispondenti sottoparagrafi del manuale 😊.”
“Caratteri generali”
“L’elaborazione dei modelli statistici consente di formalizzare le conoscenze relative a un fenomeno e di schematizzarne il comportamento attraverso l’ausilio di appositi indici e indicatori. Un modello può essere finalizzato a studiare l’evoluzione di un comportamento nel tempo, dunque basarsi su serie storiche di dati (modelli per serie storiche), oppure a indagare la relazione causa-effetto esistente tra due fenomeni (modelli di regressione lineare). A sua volta, il la regressione lineare può essere semplice o multipla: per approfondire tale distinzione, ti consiglio di digitare i corrispondenti sottoparagrafi del manuale 😊.”
“Regressione lineare semplice”
“Si parla di regressione lineare semplice quando si studia il rapporto di correlazione esistente tra due variabili, delle quali si assume che una (per convenzione la Y) sia funzione della X, secondo la relazione Y= f(X). Poiché lo studio viene condotto su un campione rappresentativo, estratto causalmente dalla popolazione, la formalizzazione del modello deve tenere conto della probabilità di commettere errori (ε). Inoltre, esso deve includere anche una parte sistematica, ossia parametri stimati a priori (per convenzione β0 e β1). Possiamo quindi scrivere il modello di regressione lineare semplice come Y = β0+β1x1+ ε. La costruzione del modello si basa, infine, su alcune ipotesi formulate dallo statistico circa il comportamento delle variabili: ti consiglio di consultare il manuale per poter studiare quali sono tali ipotesi 😊.”
“Regressione lineare multipla”
“Il modello di regressione lineare multipla studia il rapporto di correlazione esistente tra una variabile y e più variabili x, secondo la seguente formalizzazione: yi = β0 + β1 ∙ x1i + … + βκ ∙ xki + εi. La costruzione del modello si basa, inoltre, su alcune ipotesi formulate dallo statistico circa il comportamento delle variabili: ti consiglio di consultare il manuale per poter studiare quali sono tali ipotesi 😊.”
“Indice di determinazione lineare”
“Una volta tracciata la retta di regressione lineare, la quale consente di prevedere il comportamento teorico del fenomeno oggetto di studio, è opportuno misurarne la bontà di adattamento, ossia la capacità della retta di ridurre al minimo la devianza totale. Quest’ultima è pari alla la differenza tra i valori stimati attraverso il modello e quelli realmente osservati. A sua volta, la devianza totale può essere scomposta in: i) devianza di regressione, la quale si riferisce a quella componente di errore che risulta spiegato dal modello ed è, dunque, correggibile; ii) devianza residua, la quale indica la componente aleatoria di errore. L’indice di determinazione lineare (R2) si calcola, appunto, rapportando la devianza di regressione e devianza totale e consente, appunto, di misurare la bontà del modello: quando esso è pari a 1 tutti i valori stimati dal modello corrispondono ai valori realmente osservati.”
“Correlazione tra caratteri. Coefficiente di correlazione lineare di Bravais‑Pearson”
“Stabilire la correlazione tra due fenomeni ci aiuta a comprendere se essi si influenza a vicenda, ma non ci da informazioni su quale sul tipo di legame e sul suo verso. Per ottenere tali informazioni è opportuno calcolare la covarianza di X e Y, che è pari numero delle osservazioni rapportato alla sommatoria del prodotto tra gli scarti quadratici di X e di Y dalle rispettive medie aritmetiche, secondo la formula . A partire dalla covarianza è, infine, possibile calcolare il coefficiente di correlazione lineare di Bravais-Pearson.”
Capitolo 8 Elementi di teoria della probabilità e richiami di calcolo combinatorio
“Due concetti fondamentali: incertezza e ripetibilità”
“La scienza delle probabilità si occupa di studiare fenomeni cd. aleatori, ossia caratterizzati da un grado di incertezza nel loro risultato finale (ad es. il lancio di un dado) e dalla ripetitibilità degli eventi, ossia dei singoli esiti che il fenomeno può produrre..”
“Eventi e algebra booleana”
“Per una sintesi dettagliata, digita il titolo dei singoli sottoparagrafi del manuale 😊.”
“Algebra degli eventi”
“L’algebra degli eventi studia, attraverso simboli e operazioni, le relazioni che possono crearsi tra gli eventi e le loro proprietà. L’evento è uno dei possibili risultati che la prova può generare; l’insieme di tutti i possibili risultati si definisce spazio campione: esso è discreto quando costituito da una serie numerabile di valori/supporto; viceversa, si definisce continuo se composto da infiniti valori non numerabili del supporto. Un evento dice certo (Ω) quando si sovrappone in tutto allo spazio campione (la sua probabilità è pari a 1); un evento si dice, invece, impossibile (Ø) quando è escluso che si verifichi (la sua probabilità è pari a 0).”
“Unione o somma logica”
“L’unione (U) due eventi A e B prende in considerazione la probabilità che almeno uno dei due eventi, oppure entrambi contemporaneamente, si verifichi.”
“Negazione”
“La negazione di un evento prende in considerazione la probabilità che quel dato evento non si verifichi. In altre parole, essa rappresenta il complemento a 1 di un evento: se 1 è la probabilità associata a un evento certo, allora la negazione di un evento sarà pari alla differenza tra 1 (probabilità dell’evento certo) e la probabilità associata all’evento A.”
“Intersezione o prodotto logico”
“L’intersezione (∩) tra due eventi A e B prende in considerazione la probabilità che entrambi gli eventi si verifichino contemporaneamente.”
“Partizione dello spazio campione”
“Due eventi si dicono incompatibili quando non possono verificarsi contemporaneamente e, per questa ragione, la loro intersezione è un evento impossibile. Due eventi si dicono, invece, necessari quando la loro unione è un evento certo.”
“definizioni alternative della probabilità”
“Non esiste in statistica una definizione univoca di probabilità. Nel tempo, tuttavia, tre sono le interpretazioni che maggiormente si sono affermate: i) classica; ii) frequentista; iii) soggettivista. Per approfondire, ti consiglio di digitare il corrispondente titolo dei sottoparagrafi del manuale 😊.”
“Definizione classica”
“L’interpretazione classica definisce la probabilità come il rapporto tra i casi favorevoli e i casi possibili associati a un esperimento P(E)= m/n. In generale, la probabilità di un evento è sempre un numero compreso fra 0 (probabilità associata all’evento impossibile) e 1 (probabilità associata all’evento certo).”
“Definizione frequentista”
“Secondo la definizione frequentista, la probabilità di un evento è il limite cui tende la frequenza relativa dell’evento E quando il numero delle prove n tende all’infinito. La frequenza relativa di un evento si calcola rapportando il numero di volte in cui esso si è verificato e il numero totale di ripetizioni della prova; secondo la legge dei grandi numeri, la frequenza relativa di un evento si approssima sempre più alla sua probabilità quante più sono il numero di ripetizioni di una prova.”
“Definizione soggettivista”
“Secondo la definizione soggettivista, la probabilità esprime il grado di fiducia che un individuo coerente, sulla base delle informazioni di cui dispone, attribuisce al verificarsi di un evento.”
“L’assiomatizzazione del calcolo delle probabilità”
“Il calcolo delle probabilità ha assunto le vesti di una scienza matematica grazie a Kolmogorov, il quale ha dedotto i postulati del calcolo delle probabilità: per studiare al meglio i singoli postulati, ti consiglio di consultare il manuale 😊.”
“Probabilità condizionata, probabilità composte e teorema delle probabilità totali”
“Per una trattazione approfondita, ti consiglio di digitare il titolo dei singoli sottoparagrafi del manuale 😊.”
“Probabilità condizionata o subordinata”
“Si definisce probabilità condizionata lo studio della probabilità che un evento B possa occorrere dato che si è verificato un evento A. Si prende, dunque in considerazione la probabilità della loro intersezione e la si rapporta alla probabilità che si verifichi il primo evento, secondo la formula .”
“Probabilità composte”
“Dalla formula della probabilità condizionata che abbiamo studiato nel paragrafo precedente è possibile ricavare che la probabilità dell’intersezione di due eventi A e B è data dal prodotto tra la probabilità che si verifichi il primo evento (A) e la probabilità che si verifichi l’evento B dato che si è verificato A (A/B). La formula è la seguente: Pr (A∩B) = Pr (A) ∙ Pr (B/A). Se i due eventi considerati sono indipendenti, allora la probabilità condizionata è pari a quella dell’evento B e la formula della loro intersezione può scriversi come Pr (A∩B) = Pr (A) ∙ Pr (B).”
“Teorema delle probabilità totali”
“Per la formulazione del teorema delle probabilità totale, ti consiglio di consultare il manuale 😊.”
“Il Teorema di Bayes”
“Per la formulazione del teorema di Bayes, ti consiglio di consultare il manuale 😊.”
“Richiami di calcolo combinatorio”
“Il calcolo combinatorio studia i raggruppamenti che si possono ottenere da un certo numero di oggetti (n) disposti su un dato numero di posti (k).”
“Permutazioni”
“Le permutazioni sono tutti i raggruppamenti realizzabili quando il numero degli oggetti è pari al numero dei posti.”
“Disposizioni senza ripetizione”
“Le disposizioni senza ripetizione sono raggruppamenti che si formano accoppiando ciascun elemento con tutti quanti gli altri, ma non con se stesso, variando almeno la disposizione di un elemento.”
“Disposizioni con ripetizione”
“Le disposizioni con ripetizione sono raggruppamenti che si formano accoppiando ciascun elemento con tutti quanti gli altri, incluso se stesso, variando almeno un elemento, il loro ordine e la ripetizione.”
“Combinazioni senza ripetizione”
“Le combinazioni senza ripetizione di N elementi a n a n sono i gruppi che si possono formare con gli N elementi di partenza, tali che due gruppi differiscono tra loro per almeno un elemento.”
“Combinazioni con ripetizione”
“Le combinazioni con ripetizione di N elementi a n a n (o di classe n) sono i gruppi di n elementi (uguali o diversi) che si possono formare, tali che due gruppi differiscono tra loro per: i) almeno un elemento; ii) la ripetizione.”
Capitolo 9 Le variabili casuali
“Definizione di variabile casuale”
“Una variabile causale studia il comportamento di un fenomeno caratterizzato da un grado di incertezza nel suo esito.”
“Le variabili casuali discrete”
“Per una trattazione dettagliata dell’argomento, ti consiglio di digitare il titolo dei corrispondenti sottoparagrafi del manuale 😊.”
“Definizioni e nozioni di base”
“Una variabile casuale associa a ogni possibile risultato della prova un valore corrispondente alla probabilità che tale evento si verifichi. La probabilità di un fenomeno è sempre un numero compreso fra 0 e 1, laddove 1 esprime anche la somma (dunque l’unione) di tutte le probabilità associate a ciascun valore della variabile. Di una variabile casuale è possibile calcolare il valore medio (o speranza matematica), la varianza e lo scarto quadratico medio (o devianza standard).”
“Variabile casuale di Bernoulli”
“La variabile casuale di Bernoulli è una famiglia parametrica che serve per descrivere il comportamento di fenomeni aleatori che possono dar luogo soltanto a due risultati: un successo (1, a cui corrisponde una probabilità p) o un fallimento (0, cui corrisponde una probabilità 1-p). Ne è un esempio il lancio di una moneta a due facce. Indicando la variabile in questione come X ∼ Ber(1, p), è possibile affermare che: i) il suo valore medio è pari alla probabilità p; ii) la sua varianza è pari al prodotto delle probabilità dei due eventi [p ∙ (1-p)].”
“Variabile casuale binomiale”
“Ipotizziamo di studiare un evento aleatorio che può dar luogo unicamente a due risultati antitetici: un successo (A, cui è associata una probabilità p), oppure un insuccesso . La variabile causale binomiale studia la probabilità che, ripetendo la medesima prova un numero n-volte nelle stesse condizioni, si possa verificare un successo. Indicano la variabile in questione come X ∼ Ber(n, p), è possibile affermare che: i) il suo valore medio è pari a np; ii) la sua varianza è pari a np(1-p).”
“Variabile casuale di Poisson”
“La variabile casuale di Poisson risulta utile per studiare quei fenomeni in cui, su un grande numero di prove per ciascuna delle quali la probabilità basse di successo (λ), si verificano un numero medio di successi. Sia il valore medio sia la varianza sono, in questo caso, pari alla probabilità del successo (λ).”
“Variabile casuale ipergeometrica”
“Per lo studio approfondito della variabile causale ipergeometrica, ti consiglio di consultare il manuale 😊.”
“Le variabili casuali continue”
“Per una trattazione dettagliata delle variabili casuali continue, ti consigliamo di digitare il titolo dei corrispondenti sottoparagrafi del manuale 😊.”
“Definizioni e nozioni di base”
“Una variabile causale si dice continua se i valori che essa può assumere sono compresi in un intervello [a,b] di numeri reali. In tal caso si preferisce raggruppare i valori del suo supporto in classi di probabilità, alla quali viene associata una funzione chiamata densità di probabilità che ha sempre un valore compreso fra 0 e 1, laddove 1 è uguale alla somma di tutte le singole densità di probabilità. Di una variabile causale continua è possibile calcolare il valore medio (spesso detto centro di distribuzione), la varianza e lo scarto quadratico medio.”
“Variabile casuale normale”
“Anche chiamata variabile gaussiana, tale famiglia parametrica è utilizzata per descrivere il comportamento normale di tutti i fenomeni aleatori. Essa è definita dai parametri del valore medio e della varianza e ha una funzione di densità pari a . La sua rappresentazione grafica è la campana di Gauss, la quale si presenta come un grafico con andamento simmetrico rispetto al centro. È possibile costruire anche la variabile causale normale standardizzata, la quale ha sempre valore medio pari a 0 e varianza uguale a 1.”
“Variabile casuale chi-quadrato”
“Si tratta di una variabile casuale continua generata dalla somma di un numero g di variabili casuali normali standardizzate e indipendenti al quadrato. Essa ha sempre valore medio pari a g e varianza uguale a 2g😊.”
“Variabile casuale t di Student”
“Si tratta di una variabile casuale continua ottenibile dal rapporto tra una v.c. normale standardizzata e la radice quadrata di una v.c., indipendente dalla prima, con distribuzione chi-quadrato e rapportata ai propri gradi di libertà. Essa ha sempre valore medio pari a 0 (se i gradi di libertà sono maggiori di 1) e varianza uguale a g/(g-2) se i gradi di libertà sono maggiori di 2.”
“Variabile casuale F di Fisher-Snedecor”
“Si tratta di una variabile casuale continua ottenibile dal rapporto di due variabili casuali chi-quadrato indipendenti tra loro, divise per i rispettivi gradi di libertà. Per ulteriori approfondimenti sulla variabile casuale di Fisher-Snedecor ti consiglio di consultare il manuale 😊.”
“Variabile casuale uniforme”
“La variabile casuale uniforme può essere sia discreta sia continua e si caratterizza per il fatto che a ogni valore del supporto è associata la medesima massa di probabilità (se la v.c.u. è discreta) o densità di probabilità (se la v.c.u. è continua). Il parametro che ne definisce il comportamento è dunque il numero di valori del supporto. Per conoscere in che modo è possibile calcolare il valore medio e la varianza della variabile casuale uniforme, sia discreta sia continua, ti consiglio di consultare il manuale 😊.”
“Il Teorema del limite centrale”
“Il Teorema del limite centrale afferma che la somma (o la media) di un gran numero di variabili aleatorie indipendenti e dotate della stessa distribuzione e approssimativamente normale, indipendentemente dalla distribuzione soggiacente.”
Capitolo 10 La teoria della stima
“La rilevazione di dati per campioni”
“Il campione è un sotto-insieme rappresentativo della popolazione statistica, sul quale si conducono rilevazioni che permettano, in base ai dati raccolti, di effettuare ipotesi (in termine tecnico, inferire) sull’intera popolazione. Il procedimento in base al quale si perviene alla costituzione del campione e alla relativa rilevazione dei dati è detto campionamento; il quale può essere: i) con reimmissione (anche denominato bernoulliano); ii) senza reimmissione (anche denominato semplice). Ciascun individuo estratto dal campione costituisce una variabile causale.
“I parametri campionari”
“La media campionaria è una stima fornita dalla media aritmetica dei valori assunti dalle variabili casuali, rapportato per la numerosità del campione.
La varianza campionaria è, invece, uno stimatore ottenuto dal rapporto tra la sommatoria degli scarti quadratici dalla media campionaria e la numerosità del campione.”
“Le stime dei parametri”
“Per una sintesi dettagliata, ti consiglio di digitare il titolo dei sottoparagrafi corrispondenti del manuale.”
“Proprietà desiderabili per uno stimatore”
“Uno stimatore è una variabile causale che associa a ciascun campione un valore del parametro da stimare. Tale valore è denominato, appunto, stima. Un buon stimatore per un parametro deve soddisfare alcune proprietà: i) correttezza; ii) consistenza; iii) efficienza; iv) sufficienza; v) normalità asintotica. Per approfondire singolarmente ciascuna delle proprietà elencate, digita il titolo dei corrispondenti sottoparagrafi del manuale.”
“Correttezza”
“Uno stimatore si dice corretto se il suo valore medio coincide con il valore del parametro da stimare. Tale proprietà è soddisfatta dalla media campionaria e dalla varianza campionaria corretta.”
“Consistenza”
“Uno stimatore si dice consistente quando, per campione molto numerosi, la sua distribuzione di probabilità si concentra in corrispondenza del valore del parametro. È possibile distinguere la consistenza in media quadratica e la consistenza in probabilità”
“Efficienza”
“Uno stimatore è efficiente (in assoluto) se presenta l’errore quadratico medio più basso rispetto a qualsiasi altro stimatore. Per determinare quale tra due stimatori sia più efficiente bisogna mettere in rapporto il valore medio dello scarto tra il valore dello stimatore e quello del parametro da stimare.”
“Sufficienza”
“Uno stimatore si dice sufficiente se non disperde alcuna informazione riguardante il parametro da stimare.”
“Normalità asintotica”
“Uno stimatore si dice asintoticamente normale se, per campioni di taglia n molto elevata, si comporta come una variabile casuale normale.”
“Gli intervalli di confidenza”
“Per una sintesi dettagliata degli intervalli di confidenza, digita il titolo dei corrispondenti sottoparagrafi del manuale.”
“Cos’è un intervallo di confidenza”
“Si tratta di uno strumento statistico utilizzato per attribuire un certo grado di fiducia circa la stima dei parametri.”
“Intervalli di confidenza per la media di una popolazione”
“Per poter costruire un intervallo di fiducia suddetto, dobbiamo distinguere il caso in cui la varianza del campione casuale normale è nota dal caso in cui, invece, la varianza è ignota.”
“Intervallo di confidenza per la media di una popolazione normale con varianza nota”
“Per una spiegazione esaustiva dell’argomento, ti consiglio di consultare il manuale 😊.”
“Intervallo di confidenza per la media di una popolazione normale con varianza non nota”
“Per una spiegazione esaustiva dell’argomento, ti consiglio di consultare il manuale 😊.”
Capitolo 11 La verifica delle ipotesi
“La prova d’ipotesi”
“La verifica delle ipotesi serve a vagliare il loro grado di attendibilità. In un test delle ipotesi si formulano solitamente due ipotesi: i) un’ipotesi nulla, che si ritiene essere vera in caso di esito positivo del test; ii) ipotesi alternativa, la quale può essere considerata vera qualora l’ipotesi nulla non trovi conferma nell’esito del test. Le ipotesi statistiche possono essere: i) semplici o composte; ii) unidirezionali o bidirezionali.”
“I test statistici”
“Per una trattazione approfondita, digita i titoli dei corrispondenti sottoparagrafi del manuale.”
“Cosa sono, come si effettuano e che implicazioni comportano”
“Il test è una procedura inferenziale atta a ripartire lo spazio campionario (ossia l’insieme dei valori che il campione può assumere), al fine di delineare: i) una regione di accettazione, contenente i valori per i quali l’ipotesi nulla è verificata; ii) una regione critica, contenente i valori per i quali bisognerebbe rigettare l’ipotesi nulla. La regola per prendere le decisioni deve, tuttavia, considerare anche la possibilità di commettere taluni errori: i) errore del primo tipo, consistente nella probabilità di rifiutare l’ipotesi nulla quando essa è veritiera. L’obiettivo dello statistico è minimizzarla; ii) errore del secondo tipo, che consiste nella probabilità di accettare l’ipotesi nulla quando essa è falsa.”
“Verifica d’ipotesi sulla media di una popolazione con varianza nota”
“Per una spiegazione esaustiva su come è strutturato il suddetto test, ti consiglio di consultare il manuale 😊.”
“Verifica d’ipotesi sulla media di una popolazione con varianza non nota”
“Per una spiegazione esaustiva su come è strutturato il suddetto test, ti consiglio di consultare il manuale 😊.”
“Verifica d’ipotesi sulla varianza”
“Per una spiegazione esaustiva su come è strutturato il suddetto test, ti consiglio di consultare il manuale 😊.”