Post di Datapizza

Visualizza la pagina dell’organizzazione di Datapizza, immagine

114.046 follower

Il Teorema Centrale del Limite è alla base della Statistica e della Data Science 🎯 Supponiamo di essere interessati a stimare le ore di sonno medie di una persona in Italia. 🇮🇹 Raccogliere il dato “ore di sonno” per ogni persona è poco pratico e al limite dell'impossibile, ma possiamo comunque prendere a caso alcune persone e chiedere quante ore dormono in media la notte. 💤 Queste persone costituiranno un campione! La domanda che ci si pone è: Cosa possiamo dire delle ore di sonno medie dell'intera popolazione italiana con un unico campione? Il Teorema Centrale del Limite risponde esattamente a questa domanda! 💥 Afferma che: Se campioniamo da una popolazione un numero di unità sufficientemente grande (>30), le unità campionate saranno distribuite in modo normale, con la media che tende alla media della popolazione originale e la varianza uguale alla varianza della popolazione divisa per la dimensione del campione raccolto. Ciò che è particolarmente importante è che questo sarà vero indipendentemente dalla distribuzione di probabilità della popolazione originale! 🤯 #datascience #statistica #analytics

  • Nessuna descrizione alternativa per questa immagine

Innanzitutto grazie dei vari feedback! È vero avete ragione, potevamo essere più specifici e cogliamo l’occasione per farlo. Non sono le singole variabili ad avere una distribuzione normale ma la media di queste. In aggiunta avremmo potuto chiarire anche che la somma di molte variabili casuali indipendenti è distribuita normalmente ed ecco perché tende ad assumere quella forma appunto “normale”. Scusateci per la svista, speriamo di aver chiarito meglio il concetto ora!☺️

Federico Zanardi

Innovation Lead

2 settimane

Aggiungerei agli altri commenti che la distribuzione della media converge tanto più rapidamente a una normale quanto più 1) la distribuzione d'origine tende alla simmetria, 2) la distribuzione d'origine è unimodale, 3) i campioni sono indipendenti, 4) i campioni sono identicamente distribuiti. I primi due fattori devono essere accettati per come vengono dati, gli altri due possono essere controllati tramite il disegno campionario e sperimentale.

Enrico Pegoraro

Statistico. Data scientist. Sviluppatore R avanzato. Docente tecniche statistiche. Filosofia: curiosità, creatività,cura

2 settimane

Oltre alle osservazioni fatte dagli altri contributori, aggiungerei che quella del “>30” è una indicazione generica, non sempre valida (dipende dal peso delle code e dall’asimmetria della distribuzione della popolazione) e che la distribuzione della popolazione da cui si campiona deve avere momento secondo finito.

Wolfgang Messner

Data Analytics & Machine Learning | International Management & Marketing

2 settimane

If the population is not normally distributed (say because Italy has a higher percentage of older people and older people sleep longer), the distribution of the sample should follow this distribution. And this will not necessarily be a normal distribution. Sorry, ho dovuto spiegarlo in inglese.

Alex Alborghetti

Data Scientist @Beta80 | M.Sc. Statistics | AI Enthusiast

2 settimane

Non so se sbaglio io, ma il post non mi sembra corretto: in questo caso, è la media delle medie dichiarate dai soggetti intervistati ad avere quella distribuzione, non le medie dichiarate in sé. L'utilità è che assegnando una distribuzione a tale stimatore si possono costruire intervalli di confidenza parametrici.

Ennio Ottaviani

CEO and Scientific Director at On AIR srl

2 settimane

Ha ragione Alex Alborghetti il teorema fa riferimento alla distribuzione delle medie, che tende alla normale, e non a quella originale. Post del genere andrebbero controllati meglio, chiedendo magari ad un esperto prima di mandarli. Fact checking.

Nicola Accialini

Reshaping Manufacturing

2 settimane

La statistica è una materia che fornisce strumenti estremamente potenti, tuttavia va maneggiata con cura. Troppo spesso si utilizzano tali strumenti statistici un po' troppo alla leggera, senza comprenderne appieno il significato. Questo post dimostra due cose: spiegare bene questi strumenti non è semplice e il rischio di creare fraintendimenti è dietro l'angolo! Nonostante qualche piccola inesattezza corretta in questi commenti, agli amici di Datapizza dico comunque bravi, continuate così!

Andrea Costa

Responsabile Assunzione e Gestione Portafoglio Danni presso Allianz Italia

2 settimane

Sempre letto e studiato come teorema del limite centrale

Emanuela Carimati

Client Manager, Brand Strategy & Guidance, Kantar Italia

2 settimane

Va riconosciuto che il post spiega concetti specialistici in modo semplice e comprensibile a tutti in tono divulgativo

Vedi altri commenti

Per visualizzare o aggiungere un commento, accedi