Show
Em termos simples, o erro quadrático médio da raiz significa a distância entre os valores observados e os valores previstos em média. A fórmula para calcular o erro quadrático médio é a seguinte: Onde,
Calculando o erro quadrático médio no Excel:Siga as etapas abaixo para calcular a raiz média do erro quadrático no Excel:
Calculando a diferença entre os valores observados e os valores previstos
Método 1: Fórmula para calcular o erro quadrático médio (RMSE)
Método 2: Fórmula para calcular o erro quadrático médio (RMSE)
O erro quadrático médio é calculado na célula selecionada após a aplicação da fórmula Aplicações do valor do erro quadrático médio em diferentes domínios:A seguir estão algumas aplicações do RMSE:
O erro quadrático médio da raiz (RMSE) é a raiz quadrada da média do quadrado de todos os erros. O RMSE é considerado uma excelente métrica de erro de propósito geral para previsões numéricas. O RMSE é uma boa medida de precisão, mas apenas para comparar erros de previsão de diferentes modelos ou configurações de modelo para uma determinada variável e não entre variáveis, pois depende da escala. É a medida de quão bem uma linha de regressão se ajusta aos pontos de dados. A fórmula para calcular RMSE é:
Implementação de RMSEA rmse()função disponível no Metricspacote em R é usada para calcular a raiz quadrada média do erro entre os valores reais e os valores previstos.
Exemplo 1: Saída: [1] 0.3464102Exemplo 2: Saída: Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16.4 5 10.7 81 18.8 6 10.8 83 19.7 7 11.0 66 15.6 8 11.0 75 18.2 9 11.1 80 22.6 10 11.2 75 19.9 11 11.3 79 24.2 12 11.4 76 21.0 13 11.4 76 21.4 14 11.7 69 21.3 15 12.0 75 19.1 16 12.9 74 22.2 17 12.9 85 33.8 18 13.3 86 27.4 19 13.7 71 25.7 20 13.8 64 24.9 21 14.0 78 34.5 22 14.2 80 31.7 23 14.5 74 36.3 24 16.0 72 38.3 25 16.3 77 42.6 26 17.3 81 55.4 27 17.5 82 55.7 28 17.9 80 58.3 29 18.0 80 51.5 30 18.0 80 51.0 31 20.6 87 77.0 # Look at the structure # Of the variables str(trees)Saída: 'data.frame': 31 obs. of 3 variables: $ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ... $ Height: num 70 65 63 72 81 83 66 75 80 75 ... $ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 ...Este conjunto de dados consiste em 31 observações de 3 variáveis numéricas que descrevem cerejeiras pretas com circunferência do tronco, altura e volume como variáveis. Agora, tente ajustar um modelo de regressão linear para prever o Volume dos troncos com base na circunferência do tronco fornecida. O Modelo de Regressão de Liner Simples em R ajudará neste caso. Vamos mergulhar de cabeça e construir um modelo linear relacionando o volume da árvore com a circunferência. R torna isso simples com a função de base lm(). Quão bem o modelo se sairá em prever o volume daquela árvore a partir de sua circunferência? Use opredict() função, uma função R genérica para fazer previsões de funções de ajuste de modelo. predict()leva como argumentos, o modelo de regressão linear e os valores da variável preditora para os quais queremos os valores da variável de resposta. # Building a linear model # Relating tree volume to girth fit_1 <- lm(Volume ~ Girth, data = trees) trees.Girth = trees %>% select(Girth) # Use predict function to predict volume data.predicted = c(predict(fit_1, data.frame(Girth = trees.Girth))) data.predictedSaída: 1 2 3 4 5 6 7 8 9 5.103149 6.622906 7.636077 16.248033 17.261205 17.767790 18.780962 18.780962 19.287547 10 11 12 13 14 15 16 17 18 19.794133 20.300718 20.807304 20.807304 22.327061 23.846818 28.406089 28.406089 30.432431 19 20 21 22 23 24 25 26 27 32.458774 32.965360 33.978531 34.991702 36.511459 44.110244 45.630001 50.695857 51.709028 28 29 30 31 53.735371 54.241956 54.241956 67.413183Agora temos o volume real dos troncos das cerejeiras e o previsto, impulsionado pelos modelos de regressão linear. Finalmente usermse() função para obter o erro relativo entre os valores reais e previstos. # Load the Metrics package library(Metrics) # Applying rmse() function rmse(trees$Volume, predict(fit_1, data.frame(Girth = trees.Girth)))Saída: [1] 4.11254Como o valor do erro é 4,11254, o que é uma boa pontuação para um modelo linear. Mas pode ser reduzido ainda mais adicionando mais preditores (Modelo de Regressão Múltipla). Então, em resumo, pode-se dizer que é muito fácil encontrar a raiz do erro quadrático médio usando R. Pode-se executar essa tarefa usando a rmse()função em R.
A formatação deste artigo precisa de melhorias (Março de 2021) A formatação do texto não segue as recomendações da Wikipedia: deve ser " wikificado ".
Como fazer ?
Os seguintes pontos de melhoria são os casos mais frequentes. Os detalhes dos pontos a serem revisados podem ser especificados na página de discussão .
Para obter ajuda detalhada, consulte Ajuda: Wikificação . Se você acha que esses pontos foram resolvidos, você pode remover este banner e melhorar a formatação de outro artigo . O erro quadrático médio ( RMSE ) ou desvio quadrático médio (inglês, desvio quadrático médio ) é uma medida comumente usada das diferenças entre os valores (valores de amostra ou população) previstos por um modelo ou estimador e os valores observados (ou valores verdadeiros). O REQM representa a raiz quadrada do segundo momento de amostragem das diferenças entre os valores previstos e os valores observados. Esses desvios são chamados de resíduos quando os cálculos são realizados na amostra de dados que foi usada para a estimativa ou são chamados de erros (ou erros de previsão) quando são calculados em dados fora da amostra. REQM agrega erros de previsão de diferentes pontos de dados em uma única medida de maior poder preditivo. REQM é uma medida de precisão , que é usada para comparar os erros de diferentes modelos preditivos para um determinado conjunto de dados e não entre diferentes conjuntos de dados, pois depende da escala. O REQM é sempre positivo e um valor 0 (quase nunca alcançado na prática) indicaria um ajuste perfeito aos dados. Em geral, um valor REQM menor indica melhor precisão do que um valor REQM maior. No entanto, as comparações entre diferentes conjuntos de dados não seriam válidas porque a medida depende da escala relativa dos números usados. O REQM é a raiz quadrada da média dos erros quadrados. O efeito de cada um dos erros no REQM é proporcional ao tamanho do quadrado do erro; portanto, erros maiores têm um efeito desproporcional no REQM. Portanto, o REQM é sensível a outliers ou anomalias. FórmulaO REQM de um estimador em relação a um parâmetro estimado é definido como a raiz quadrada do erro quadrático médio : θ^{\ displaystyle {\ hat {\ theta}}}θ{\ displaystyle \ theta} REQM(θ^)=EQM(θ^)=E((θ^-θ)2).{\ displaystyle \ operatorname {REQM} ({\ hat {\ theta}}) = {\ sqrt {\ operatorname {EQM} ({\ hat {\ theta}})}} = {\ sqrt {\ operatorname {E} (({\ hat {\ theta}} - \ theta) ^ {2})}}.}Para um estimador imparcial , o REQM é a raiz quadrada da variância, também chamada de desvio padrão . O REQM dos valores previstos para os instantes t da variável dependente de uma regressão, com variáveis observadas T vezes, é calculado para T diferentes previsões como a raiz quadrada da média dos quadrados dos desvios: y^t{\ displaystyle {\ hat {y}} _ {t}} yt{\ displaystyle y_ {t}} REQM=∑t=1T(y^t-yt)2T.{\ displaystyle \ operatorname {REQM} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} ({\ hat {y}} _ {t} -y_ {t}) ^ {2} } {T}}}.}(Para regressões em dados de seção transversal , o índice t é substituído por i e T é substituído por n .) Em algumas disciplinas, o REQM é usado para comparar as diferenças entre duas quantidades que podem variar, nenhuma das quais é aceita como um "padrão". Por exemplo, ao medir a diferença média entre duas séries temporais e , a fórmula torna-se x1,t{\ displaystyle x_ {1, t}}x2,t{\ displaystyle x_ {2, t}} REQM=∑t=1T(x1,t-x2,t)2T.{\ displaystyle \ operatorname {REQM} = {\ sqrt {\ frac {\ sum _ {t = 1} ^ {T} (x_ {1, t} -x_ {2, t}) ^ {2}} {T }}}.}estandardizaçãoA normalização do REQM torna mais fácil comparar conjuntos de dados ou modelos em diferentes escalas. Embora não haja meios consistentes de normalização na literatura, as escolhas comuns são a média ou intervalo (definido como o valor máximo menos o valor mínimo) dos dados medidos: REQMNÃO=REQMymax-ymin{\ displaystyle \ mathrm {REQMN} = {\ frac {\ mathrm {REQM}} {y _ {\ max} -y _ {\ min}}}}ou .REQMNÃO=REQMy¯{\ displaystyle \ mathrm {REQMN} = {\ frac {\ mathrm {REQM}} {\ bar {y}}}}Esse valor é comumente referido como a raiz do desvio quadrático médio normalizado ou a raiz do erro quadrático médio normalizado (REQMN) e frequentemente expresso como uma porcentagem, onde valores menores indicam menor variância residual. Em muitos casos, especialmente para amostras menores, a faixa de amostragem provavelmente será afetada pelo tamanho da amostra, o que dificultaria as comparações. Outra maneira possível de tornar o REQM uma medida de comparação mais útil é dividir o REQM pelo intervalo interquartil (também chamado de intervalo interquartil). Ao dividir o REQM pelo EI, o valor normalizado se torna menos sensível aos valores extremos da variável de destino. REQMDEeu=REQMEeu{\ displaystyle \ mathrm {REQMDEI} = {\ frac {\ mathrm {REQM}} {EI}}} ou Eeu=Q3-Q1{\ displaystyle EI = Q_ {3} -Q_ {1}}com e onde Q é a função quantil . Q1=Q(0,25){\ displaystyle Q_ {1} = {\ text {Q}} (0,25)}Q3=Q(0,75),{\ displaystyle Q_ {3} = {\ text {Q}} (0,75),} Ao normalizar pelo valor médio das medições, o termo coeficiente de variação de REQM, CV (REQM) pode ser usado para evitar ambigüidade. Isso é análogo ao coeficiente de variação , o REQM tomando o lugar do desvio padrão . VSV(REQM)=REQMy¯.{\ displaystyle \ mathrm {CV (REQM)} = {\ frac {\ mathrm {REQM}} {\ bar {y}}}.}Medidas relacionadasAlguns pesquisadores recomendaram usar o erro absoluto médio (MAE) em vez da raiz do erro quadrático médio. EAM tem vantagens de interpretabilidade sobre REQM. O EAM é a média dos valores absolutos dos erros. O EAM é fundamentalmente mais fácil de entender do que a raiz quadrada dos erros quadráticos médios. Além disso, cada erro influencia o EAM diretamente na proporção do valor absoluto do erro, o que não é o caso do REQM. Formulários
Veja tambémNotas e referências
|