Como calcular raiz quadrada do erro media

Índice Show

Calculando o erro quadrático médio no Excel:
Aplicações do valor do erro quadrático médio em diferentes domínios:
estandardização
Medidas relacionadas
Formulários
Veja também
Notas e referências

Em termos simples, o erro quadrático médio da raiz significa a distância entre os valores observados e os valores previstos em média. A fórmula para calcular o erro quadrático médio é a seguinte:

Onde,

n: número de amostras
f: Previsão
o: valores observados

Calculando o erro quadrático médio no Excel:

Siga as etapas abaixo para calcular a raiz média do erro quadrático no Excel:

Preencha os valores previstos, valores observados e diferenças entre eles na planilha do Excel.
Para calcular a diferença, basta digitar a fórmula em uma célula e arrastar essa célula para o restante das células. A diferença entre as células será calculada automaticamente. Em seguida, siga o PASSO 3 ou PASSO 4 fornecido abaixo:

Calculando a diferença entre os valores observados e os valores previstos

Agora, vamos selecionar uma célula e aplicar a fórmula da raiz quadrada da média do erro.

Método 1: Fórmula para calcular o erro quadrático médio (RMSE)

Não poderíamos ter usado a coluna de diferença de forma alguma, podemos calcular diretamente o erro RMS a partir das colunas de valores preditos e observados da seguinte forma:

Método 2: Fórmula para calcular o erro quadrático médio (RMSE)

Por fim, obtemos o valor de erro Root Mean Square necessário na célula selecionada.

O erro quadrático médio é calculado na célula selecionada após a aplicação da fórmula

Aplicações do valor do erro quadrático médio em diferentes domínios:

A seguir estão algumas aplicações do RMSE:

É usado para prever como a atmosfera se comporta e como ela difere do comportamento previsto no domínio da meteorologia.
Ele pode ser usado para medir a distância média entre duas proteínas que se sobrepõem.
Ele pode ser usado para calcular a relação sinal de pico para ruído no campo de processamento de imagem para determinar a eficácia de um método que reconstrói uma imagem em comparação com a imagem original.

O erro quadrático médio da raiz (RMSE) é a raiz quadrada da média do quadrado de todos os erros. O RMSE é considerado uma excelente métrica de erro de propósito geral para previsões numéricas. O RMSE é uma boa medida de precisão, mas apenas para comparar erros de previsão de diferentes modelos ou configurações de modelo para uma determinada variável e não entre variáveis, pois depende da escala. É a medida de quão bem uma linha de regressão se ajusta aos pontos de dados. A fórmula para calcular RMSE é:

onde,
predito i = O valor predito para a i ésima observação.
real i = O valor observado (real) para a i ésima observação
N = Número total de observações.

Nota: A diferença entre os valores reais e os valores previstos é conhecida como resíduos.

Implementação de RMSE

A rmse()função disponível no Metricspacote em R é usada para calcular a raiz quadrada média do erro entre os valores reais e os valores previstos.

Sintaxe:
rmse (real, previsto)

Parâmetros:
real: o vetor numérico da verdade fundamental.
previsto: o vetor numérico previsto, em que cada elemento do vetor é uma previsão para o elemento correspondente real.

Exemplo 1:
Vamos definir o vetor real de dois vetores com valores numéricos verdadeiros e o vetor previsto com valores numéricos previstos, onde cada elemento do vetor é uma previsão para o elemento correspondente real.

# R program to illustrate RMSE # Importing the required package library(Metrics) # Taking two vectors actual = c(1.5, 1.0, 2.0, 7.4, 5.8, 6.6) predicted = c(1.0, 1.1, 2.5, 7.3, 6.0, 6.2) # Calculating RMSE using rmse() result = rmse(actual, predicted) # Printing the value print(result)

Saída:

[1] 0.3464102

Exemplo 2:
Neste exemplo, vamos pegar os dados das árvores na biblioteca de conjuntos de dados que representam os dados de um estudo realizado em cerejeiras negras.

# Importing required packages library(datasets) library(tidyr) library(dplyr) # Access the data from R’s datasets package data(trees) # Display the data in the trees dataset trees

Saída:

Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16.4 5 10.7 81 18.8 6 10.8 83 19.7 7 11.0 66 15.6 8 11.0 75 18.2 9 11.1 80 22.6 10 11.2 75 19.9 11 11.3 79 24.2 12 11.4 76 21.0 13 11.4 76 21.4 14 11.7 69 21.3 15 12.0 75 19.1 16 12.9 74 22.2 17 12.9 85 33.8 18 13.3 86 27.4 19 13.7 71 25.7 20 13.8 64 24.9 21 14.0 78 34.5 22 14.2 80 31.7 23 14.5 74 36.3 24 16.0 72 38.3 25 16.3 77 42.6 26 17.3 81 55.4 27 17.5 82 55.7 28 17.9 80 58.3 29 18.0 80 51.5 30 18.0 80 51.0 31 20.6 87 77.0 # Look at the structure # Of the variables str(trees)

Saída:

'data.frame': 31 obs. of 3 variables: $ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ... $ Height: num 70 65 63 72 81 83 66 75 80 75 ... $ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 ...

Este conjunto de dados consiste em 31 observações de 3 variáveis numéricas que descrevem cerejeiras pretas com circunferência do tronco, altura e volume como variáveis. Agora, tente ajustar um modelo de regressão linear para prever o Volume dos troncos com base na circunferência do tronco fornecida. O Modelo de Regressão de Liner Simples em R ajudará neste caso. Vamos mergulhar de cabeça e construir um modelo linear relacionando o volume da árvore com a circunferência. R torna isso simples com a função de base lm(). Quão bem o modelo se sairá em prever o volume daquela árvore a partir de sua circunferência? Use opredict() função, uma função R genérica para fazer previsões de funções de ajuste de modelo. predict()leva como argumentos, o modelo de regressão linear e os valores da variável preditora para os quais queremos os valores da variável de resposta.

# Building a linear model # Relating tree volume to girth fit_1 <- lm(Volume ~ Girth, data = trees) trees.Girth = trees %>% select(Girth) # Use predict function to predict volume data.predicted = c(predict(fit_1, data.frame(Girth = trees.Girth))) data.predicted

Saída:

1 2 3 4 5 6 7 8 9 5.103149 6.622906 7.636077 16.248033 17.261205 17.767790 18.780962 18.780962 19.287547 10 11 12 13 14 15 16 17 18 19.794133 20.300718 20.807304 20.807304 22.327061 23.846818 28.406089 28.406089 30.432431 19 20 21 22 23 24 25 26 27 32.458774 32.965360 33.978531 34.991702 36.511459 44.110244 45.630001 50.695857 51.709028 28 29 30 31 53.735371 54.241956 54.241956 67.413183

Agora temos o volume real dos troncos das cerejeiras e o previsto, impulsionado pelos modelos de regressão linear. Finalmente usermse() função para obter o erro relativo entre os valores reais e previstos.

# Load the Metrics package library(Metrics) # Applying rmse() function rmse(trees$Volume, predict(fit_1, data.frame(Girth = trees.Girth)))

Saída:

[1] 4.11254

Como o valor do erro é 4,11254, o que é uma boa pontuação para um modelo linear. Mas pode ser reduzido ainda mais adicionando mais preditores (Modelo de Regressão Múltipla). Então, em resumo, pode-se dizer que é muito fácil encontrar a raiz do erro quadrático médio usando R. Pode-se executar essa tarefa usando a rmse()função em R.

A formatação deste artigo precisa de melhorias (Março de 2021)

A formatação do texto não segue as recomendações da Wikipedia: deve ser " wikificado ".

Como fazer ?

Os seguintes pontos de melhoria são os casos mais frequentes. Os detalhes dos pontos a serem revisados podem ser especificados na página de discussão .

Os títulos são pré-formatados pelo software . Eles não estão em maiúsculas nem em negrito.
O texto não deve ser escrito em maiúsculas (também os sobrenomes), nem em negrito, nem em itálico, nem em "minúsculas" ...
A gordura é utilizada apenas para destacar o título do artigo na introdução, uma vez.
A ênfase raramente é usada: palavras em línguas estrangeiras, títulos de obras, nomes de navios, etc.
As aspas não estão em itálico, mas em corpo de texto normal. Eles estão entre aspas francesas: "e".
Devem ser evitadas listas com marcadores , sendo preferidos os parágrafos escritos. As tabelas devem ser reservadas para a apresentação de dados estruturados (resultados, etc. ).
Chamadas de notas de rodapé (pequenos dígitos sobrescritos, introduzidos pela ferramenta "
Fonte ") devem ser colocadas entre o final da frase e o ponto final [assim] .
Os links internos (para outros artigos da Wikipedia) devem ser escolhidos com moderação. Crie links para artigos aprofundando o assunto. Termos genéricos não relacionados ao assunto devem ser evitados, assim como links repetidos para o mesmo termo.
Os links externos são colocados apenas na seção "Links externos" no final do artigo. Esses links devem ser escolhidos com moderação de acordo com as regras definidas . Se um link servir de fonte para o artigo, sua inserção no texto deve ser feita por meio de notas de rodapé .
A inserção de uma infobox (caixa de informações à direita) não é obrigatória para completar o layout.

Para obter ajuda detalhada, consulte Ajuda: Wikificação .

Se você acha que esses pontos foram resolvidos, você pode remover este banner e melhorar a formatação de outro artigo .

O erro quadrático médio ( RMSE ) ou desvio quadrático médio (inglês, desvio quadrático médio ) é uma medida comumente usada das diferenças entre os valores (valores de amostra ou população) previstos por um modelo ou estimador e os valores observados (ou valores verdadeiros). O REQM representa a raiz quadrada do segundo momento de amostragem das diferenças entre os valores previstos e os valores observados. Esses desvios são chamados de resíduos quando os cálculos são realizados na amostra de dados que foi usada para a estimativa ou são chamados de erros (ou erros de previsão) quando são calculados em dados fora da amostra. REQM agrega erros de previsão de diferentes pontos de dados em uma única medida de maior poder preditivo. REQM é uma medida de precisão , que é usada para comparar os erros de diferentes modelos preditivos para um determinado conjunto de dados e não entre diferentes conjuntos de dados, pois depende da escala.

O REQM é sempre positivo e um valor 0 (quase nunca alcançado na prática) indicaria um ajuste perfeito aos dados. Em geral, um valor REQM menor indica melhor precisão do que um valor REQM maior. No entanto, as comparações entre diferentes conjuntos de dados não seriam válidas porque a medida depende da escala relativa dos números usados.

O REQM é a raiz quadrada da média dos erros quadrados. O efeito de cada um dos erros no REQM é proporcional ao tamanho do quadrado do erro; portanto, erros maiores têm um efeito desproporcional no REQM. Portanto, o REQM é sensível a outliers ou anomalias.

Fórmula

O REQM de um estimador em relação a um parâmetro estimado é definido como a raiz quadrada do erro quadrático médio : $θ^{\ displaystyle {\ hat {\ theta}}}$

θ{\ displaystyle \ theta}

REQM⁡(θ^)=EQM⁡(θ^)=E⁡((θ^-θ)2).{\ displaystyle \ operatorname {REQM} ({\ hat {\ theta}}) = {\ sqrt {\ operatorname {EQM} ({\ hat {\ theta}})}} = {\ sqrt {\ operatorname {E} (({\ hat {\ theta}} - \ theta) ^ {2})}}.}

Para um estimador imparcial , o REQM é a raiz quadrada da variância, também chamada de desvio padrão .

O REQM dos valores previstos para os instantes t da variável dependente de uma regressão, com variáveis observadas T vezes, é calculado para T diferentes previsões como a raiz quadrada da média dos quadrados dos desvios: $y^t{\ displaystyle {\ hat {y}} _ {t}}$

yt{\ displaystyle y_ {t}}

REQM=∑t=1T(y^t-yt)2T.{\ displaystyle \ operatorname {REQM} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} ({\ hat {y}} _ {t} -y_ {t}) ^ {2} } {T}}}.}

(Para regressões em dados de seção transversal , o índice t é substituído por i e T é substituído por n .)

Em algumas disciplinas, o REQM é usado para comparar as diferenças entre duas quantidades que podem variar, nenhuma das quais é aceita como um "padrão". Por exemplo, ao medir a diferença média entre duas séries temporais e , a fórmula torna-se $x1,t{\ displaystyle x_ {1, t}}$

x2,t{\ displaystyle x_ {2, t}}

REQM=∑t=1T(x1,t-x2,t)2T.{\ displaystyle \ operatorname {REQM} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} (x_ {1, t} -x_ {2, t}) ^ {2}} {T }}}.}

estandardização

A normalização do REQM torna mais fácil comparar conjuntos de dados ou modelos em diferentes escalas. Embora não haja meios consistentes de normalização na literatura, as escolhas comuns são a média ou intervalo (definido como o valor máximo menos o valor mínimo) dos dados medidos:

REQMNÃO=REQMymax-ymin{\ displaystyle \ mathrm {REQMN} = {\ frac {\ mathrm {REQM}} {y _ {\ max} -y _ {\ min}}}}

ou .

REQMNÃO=REQMy¯{\ displaystyle \ mathrm {REQMN} = {\ frac {\ mathrm {REQM}} {\ bar {y}}}}

Esse valor é comumente referido como a raiz do desvio quadrático médio normalizado ou a raiz do erro quadrático médio normalizado (REQMN) e frequentemente expresso como uma porcentagem, onde valores menores indicam menor variância residual. Em muitos casos, especialmente para amostras menores, a faixa de amostragem provavelmente será afetada pelo tamanho da amostra, o que dificultaria as comparações.

Outra maneira possível de tornar o REQM uma medida de comparação mais útil é dividir o REQM pelo intervalo interquartil (também chamado de intervalo interquartil). Ao dividir o REQM pelo EI, o valor normalizado se torna menos sensível aos valores extremos da variável de destino.

REQMDEeu=REQMEeu{\ displaystyle \ mathrm {REQMDEI} = {\ frac {\ mathrm {REQM}} {EI}}}

Eeu=Q3-Q1{\ displaystyle EI = Q_ {3} -Q_ {1}}

com e onde Q é a função quantil . $Q1=Q(0,25){\ displaystyle Q_ {1} = {\ text {Q}} (0,25)}$

Q3=Q(0,75),{\ displaystyle Q_ {3} = {\ text {Q}} (0,75),}

Ao normalizar pelo valor médio das medições, o termo coeficiente de variação de REQM, CV (REQM) pode ser usado para evitar ambigüidade. Isso é análogo ao coeficiente de variação , o REQM tomando o lugar do desvio padrão .

VSV(REQM)=REQMy¯.{\ displaystyle \ mathrm {CV (REQM)} = {\ frac {\ mathrm {REQM}} {\ bar {y}}}.}

Medidas relacionadas

Alguns pesquisadores recomendaram usar o erro absoluto médio (MAE) em vez da raiz do erro quadrático médio. EAM tem vantagens de interpretabilidade sobre REQM. O EAM é a média dos valores absolutos dos erros. O EAM é fundamentalmente mais fácil de entender do que a raiz quadrada dos erros quadráticos médios. Além disso, cada erro influencia o EAM diretamente na proporção do valor absoluto do erro, o que não é o caso do REQM.

Formulários

Em meteorologia , para medir a eficiência com que um modelo matemático prevê o comportamento da atmosfera .
Em bioinformática , o desvio quadrático médio da raiz das posições atômicas é a medida da distância média entre os átomos de proteínas sobrepostas.
No projeto de drogas com base na estrutura , o RMSE é uma medida da diferença entre um ligante conformacional de conformação de cristal e um preditivo de amarração .
Em economia , o REQM é usado para determinar se um modelo econômico corresponde aos indicadores econômicos . Alguns especialistas argumentaram que o REQM é menos confiável do que o erro absoluto relativo.
Na psicologia experimental , o REQM é usado para avaliar até que ponto os modelos matemáticos ou computacionais de comportamento explicam o comportamento observado empiricamente.
Em GIS , REQM é uma medida usada para avaliar a precisão da análise geoespacial e sensoriamento remoto.
Em hidrogeologia , o REQM e o REQMN são usados para avaliar a calibração de um modelo de água subterrânea.
Na ciência da imagem , o REQM é parte da relação sinal-ruído de pico , uma medida usada para avaliar o desempenho de um método de reconstrução de uma imagem em relação à imagem original.
Na neurociência computacional , o REQM é usado para avaliar quão bem um sistema aprende um determinado padrão.
Na espectroscopia de ressonância magnética nuclear de proteínas, REQM é usado como uma medida para estimar a qualidade do conjunto resultante de estruturas.
As inscrições para o Prêmio Netflix foram avaliadas usando o REQM e os valores "verdadeiros" não divulgados do conjunto de dados de teste.
Na simulação do consumo de energia de edifícios, o REQM e o CV (REQM) são utilizados para calibrar os modelos com base no desempenho medido do edifício.
Na cristalografia de raios-X , o REQM é usado para medir o desvio entre as coordenadas moleculares internas e os valores de referência.

Veja também

Notas e referências

↑ Hyndman e Koehler, “ Outra visão sobre as medidas de precisão das previsões ”, International Journal of Forecasting , vol. 22, n o 4,2006, p. 679-688 ( DOI 10.1016 / j.ijforecast.2006.03.001 )
↑ Pontius, Thontteh e Chen, “ Componentes de informação para comparação de resolução múltipla entre mapas que compartilham uma variável real ”, Estatísticas Ecológicas Ambientais , vol. 15, n o 22008, p. 111–142 ( DOI 10.1007 / s10651-007-0043-y )
↑ Willmott e Matsuura, “ Sobre o uso de medidas de erro dimensionadas para avaliar o desempenho de interpoladores espaciais ”, International Journal of Geographical Information Science , vol. 20,2006, p. 89–102 ( DOI 10.1080 / 13658810500286976 )
↑ " Wiki do Programa de Pesquisa de Entradas Costeiras (CIRP) - Estatísticas " (acessado em 4 de fevereiro de 2015 )
↑ " FAQ: Qual é o coeficiente de variação? » (Acessado em 19 de fevereiro de 2019 )
↑ Pontius, Thontteh e Chen, “ Componentes de informação para comparação de resolução múltipla entre mapas que compartilham uma variável real ”, Estatísticas Ecológicas Ambientais , vol. 15, n o 22008, p. 111–142 ( DOI 10.1007 / s10651-007-0043-y )
↑ Armstrong and Collopy, “ Error Measures For Generalizing About Forecasting Methods: Empirical Comparisons ”, International Journal of Forecasting , vol. 8, n o 1,1992, p. 69–80 ( DOI 10.1016 / 0169-2070 (92) 90008-w , leia online )
↑ MP Anderson e Woessner, WW , Modelagem Aplicada de Água Subterrânea: Simulação de Fluxo e Transporte Advective , 2,1992
↑ Conjunto de modelos de rede neural
↑ ANSI / BPI-2400-S-2012: Prática padrão para qualificação padronizada de previsões de economia de energia em toda a casa por calibração para o histórico de uso de energia