Come eseguire una regressione multivariata in Excel

Prima di apprendere come eseguire la regressione multivariata in Excel , è importante fare un aggiornamento sulla regressione nel suo insieme e sulla regressione multivariata in particolare.

Uno dei tratti distintivi dell'intelligenza umana è la nostra capacità di riconoscere i modelli che ci circondano. È ciò che ci fa riconoscere quando due o più cose sembrano collegate e quando una cosa è probabilmente la causa o l'effetto di un'altra.

Regressione multivariata in Excel

Supponiamo, ad esempio, che tu decida di raccogliere dati sulle temperature medie e sulle precipitazioni medie in una determinata località per un intero anno, raccogliendo dati ogni giorno. Quindi traccia i dati per la temperatura e le precipitazioni medie su un foglio di carta millimetrata. È possibile tracciare le cifre della temperatura media sull'asse delle x e le cifre delle precipitazioni medie sull'asse delle y. Ogni punto su questo grafico a dispersione avrà coordinate: una coordinata x e una coordinata y. Queste coordinate lo posizioneranno in una posizione speciale sul grafico.

Mentre tracciate i punti, potreste iniziare a vedere uno schema emergere. Può sembrare che, con l'aumento delle temperature medie, la piovosità media nel luogo in cui hai raccolto dati aumenti. I due dati che hai raccolto sono tecnicamente noti come variabili . In questo caso, la temperatura media è la variabile indipendente mentre la piovosità media è la variabile dipendente.

Quando noti che le due variabili sono collegate, diciamo che sono correlate. La correlazione può assumere molte forme. Se una variabile sale mentre l'altra scende, si tratta di una correlazione negativa . Se una variabile sale in tandem con l'altra, allora è una correlazione positiva . Se non sembra esserci una chiara tendenza nelle variabili, allora diciamo che non c'è correlazione.

Dati e correlazioni

A una correlazione positiva perfetta viene assegnato un valore di +1 mentre alla correlazione negativa perfetta viene assegnato un valore di -1. 0, che si trova nel mezzo di questi due valori, non rappresenta alcuna correlazione. I dati possono quindi assumere un valore di correlazione ovunque in quell'intervallo. Il valore esatto di tale correlazione è noto come coefficiente di correlazione, che viene calcolato utilizzando una formula statistica speciale presente nell'elenco delle funzioni di Excel.

Nota che agli statistici piace distinguere tra correlazione e causalità. Solo perché due cose sono correlate non significa che abbiano una relazione causale. Nel nostro esempio sopra, il fatto che un aumento della temperatura media corrisponda a un aumento della piovosità media non significa che l'uno causi l'altro. Potrebbe essere solo che un terzo fattore nascosto causa entrambi.

In questo caso, è ben noto tra i meteorologi che un aumento dell'umidità porta ad un aumento sia della temperatura percepita che delle precipitazioni. Ecco perché è importante capire la distinzione. La mappatura delle correlazioni mostra dove esistono i modelli; per dire che ti mostra quali sono le cause di ciò che sarebbe eccedere il suo breve.

Potresti non sentirti felice di avere un grafico a dispersione. Forse avere una linea tra i dati che mostra come appare la relazione sarebbe più facile da capire. Quello che stai cercando è la linea di regressione o la linea che meglio si adatta ai dati che hai davanti. Ciò comporta l'utilizzo di una formula di regressione che utilizza il coefficiente di correlazione per trovare la migliore linea di regressione.

Variabili singole e multiple

Il divertimento non finisce qui. Le formule precedenti sono per una singola variabile indipendente e una singola variabile dipendente. Tuttavia, come abbiamo discusso in precedenza, a volte può esserci più di una variabile indipendente nell'equazione.

Ad esempio, abbiamo sottolineato che il semplice grafico della temperatura media rispetto alle precipitazioni medie non fornisce un quadro completo. L'umidità media è un'altra variabile indipendente che influenza sia la temperatura media che le precipitazioni medie. Non sarebbe eccellente se ci fosse un modo per tracciare la piovosità media come variabile dipendente rispetto alle due variabili indipendenti che sono le precipitazioni medie e l'umidità media?

A quanto pare, questo è esattamente ciò che riguarda la regressione multivariata. Consente di mettere in relazione una singola variabile dipendente con più variabili indipendenti su cui sono stati misurati e raccolti i dati.

Analisi di regressione multivariata

La regressione multivariata è una forma molto potente di analisi dei dati e risulta essere più accurata se applicata al mondo reale. Nel mondo degli affari, in particolare, le situazioni raramente sono influenzate da un singolo fattore. Di solito, ci sono molti fattori che lavorano di concerto per creare risultati. Quando raccogli dati su determinati set di condizioni, questo tipo di analisi dei dati ti consentirà di prevedere i dati in condizioni correlate.

Con il potere della regressione multivariata, sarai in grado di comprendere meglio il tuo mercato e i clienti che vi esistono.

Analisi di regressione in Excel

Prima di affrettarti ad acquistare il software statistico più avanzato sul mercato, sarai felice di sapere che puoi eseguire analisi di regressione in Excel.

Avvia Excel

Per iniziare la tua analisi multivariata in Excel , avvia Microsoft Excel. Fare clic sulla scheda denominata "File", quindi fare clic sul pulsante "Opzioni". Si aprirà una finestra di dialogo.

Fare clic sulle opzioni

Sul lato sinistro della finestra di dialogo c'è un elenco con le opzioni. Fare clic sulle opzioni denominate " Componenti aggiuntivi". Sarai in grado di vedere i componenti aggiuntivi dell'applicazione. Nell'elenco dei componenti aggiuntivi inattivi, dovresti vedere un elemento etichettato " Strumenti di analisi. " Fare clic su di esso, quindi fare clic sul menu a discesa per " Componenti aggiuntivi di Excel ". Fare clic sul pulsante "Vai" in basso e verrà visualizzata un'altra finestra di dialogo denominata "Componenti aggiuntivi" .

Selezionare la casella

Di fronte all'opzione denominata "Analysis ToolPak " è presente una casella di controllo. Fare clic su di esso e quindi fare clic sul pulsante sul lato destro della finestra di dialogo con l'etichetta "OK". Questo attiverà l'opzione che hai appena selezionato.

Esecuzione della regressione

Ora è il momento di eseguire la regressione. Le tue colonne avranno bisogno di intestazioni, che puoi inserire nella riga 1. I dati vanno sotto l'intestazione. Avere una colonna specifica per la variabile dipendente. Dovrebbe essere la prima o l'ultima colonna. Le variabili indipendenti possono riempire le altre colonne e dovrebbero essere in ordine consecutivo.

Scheda dati

Sulla barra multifunzione, fare clic sulla scheda denominata "Dati". Nel gruppo denominato "Analisi", fai clic sull'elemento "Analisi dei dati". Verrà lanciata una finestra di dialogo.

Regressione

Negli strumenti di analisi nella finestra di dialogo, cerca Regressione e fai clic su di essa, quindi fai clic su "OK".

Variabile dipendente

Ora digita la posizione dell'intervallo di celle che ha la tua variabile dipendente nel campo "Input Y Range".

Variabile indipendente

Ora digita la posizione dell'intervallo di celle che contiene la tua variabile indipendente nel campo "Input X Range".

Selezionare la casella

Per assicurarti che Excel sappia che la prima riga non ha altro che etichette_, fai clic su_ sulla casella di controllo "Etichette".

Fare clic su Intervallo di output

Nella sezione denominata Opzioni di output , è presente un pulsante di opzione denominato "Intervallo di output". Fare clic su di esso e immettere un intervallo per i dati nel primo per determinare dove apparirà l'output dell'analisi di regressione. Nel caso in cui desideri che i risultati vengano visualizzati in un foglio di lavoro separato, fai clic sul pulsante di opzione "Foglio di lavoro". Se desideri inserirli in un nuovo file, fai clic sul pulsante di opzione "Nuova cartella di lavoro".

Residui

C'è una sezione della finestra di dialogo Regressione denominata "Residui". Questi sono riassunti dell'output della tua analisi che considerano i risultati caso per caso. Confrontano la previsione con il risultato effettivo. Residui standardizzati prenderà la deviazione standard dei tuoi residui e la correggerà a 1.

Fare clic sulla casella di controllo sull'opzione denominata "Plot" e i risultati verranno rappresentati graficamente. Se scegli "Grafico dei residui", verranno rappresentati graficamente solo i residui. Se si sceglie “Linea Fit Plot, ” allora la previsione verrà tracciata contro i risultati effettivi. Fai clic su "OK" e la tua regressione inizierà l'elaborazione. È possibile visualizzare i risultati in un secondo momento nella posizione specificata in precedenza.