Modèle mal spécifié

Posted on 15 lutego 2019 by admin

Dans l`analyse de régression, le surajustement se produit fréquemment. [5] comme exemple extrême, s`il y a des variables p dans une régression linéaire avec des points de données p, la ligne ajustée peut aller exactement à travers chaque point. [6] pour les modèles de régression logistique ou de risques proportionnels de Cox, il existe une variété de règles de base (par exemple 5 – 9 [7], 10 [8] et 10 – 15 [9] — la ligne directrice de 10 observations par variable indépendante est connue sous le nom de règle «une sur dix»). Dans le processus de sélection du modèle de régression, l`erreur quadratique moyenne de la fonction de régression aléatoire peut être fractionnée en bruit aléatoire, en biais d`approximation et en variance dans l`estimation de la fonction de régression. Le compromis Bias-variance est souvent utilisé pour surmonter les modèles de surajustement. Bass, F. M. & Clarke, D. G. Testing a distribué des modèles de lag de l`effet publicitaire.

Journal of Marketing Research, 1972, 9, 298-308. Le surajustement est l`utilisation de modèles ou de procédures qui violent le rasoir d`Occam, par exemple en incluant des paramètres plus réglables que ceux qui sont finalement optimaux, ou en utilisant une approche plus compliquée que ce qui est finalement optimal. Pour un exemple où il y a trop de paramètres réglables, considérez un DataSet où les données d`apprentissage pour y peuvent être adéquatement prédites par une fonction linéaire de deux variables dépendantes. Une telle fonction ne nécessite que trois paramètres (l`interception et deux pentes). Remplacer cette fonction simple par une nouvelle fonction quadratique plus complexe, ou avec une nouvelle fonction linéaire plus complexe sur plus de deux variables dépendantes, comporte un risque: le rasoir d`Occam implique que toute fonction complexe donnée est a priori moins probable que n`importe quelle donnée fonction simple. Si la nouvelle fonction plus compliquée est choisie au lieu de la fonction simple, et s`il n`y avait pas un gain assez important dans l`ajustement de données de formation pour compenser l`augmentation de la complexité, alors la nouvelle fonction complexe «suradapte» les données, et la fonction complexe surmontée sera probablement pire que la fonction plus simple sur les données de validation en dehors de la formation, même si la fonction complexe effectuée aussi bien, ou peut-être encore mieux, sur le jeu de données d`apprentissage. [10] tout modèle significatif fait des prédictions. Un modèle bien spécifié, s`il est correctement implémenté et utilisé de manière appropriée, fait des prédictions généralement utiles. Ceci est vrai si un modèle est utilisé pour prédire les tremblements de terre, prévoir le temps ou évaluer le risque de marché.

Le deuxième modèle, dans lequel l`eau est laissée hors du modèle, est probablement un modèle sous-spécifié. Maintenant, quel est l`effet de laisser la consommation d`eau hors du modèle de régression? Il est très possible qu`un modèle produira une grande bonté d`ajustement tout en étant essentiellement sans rapport avec le lien causal. Cela peut se produire en raison d`une corrélation fausse entre deux variables (Blalock, 1964). Par conséquent, deux variables A et B peuvent apparaître liées puisqu`une troisième variable C affecte À la fois a et B. Malheureusement, la bonté du niveau d`ajustement n`indique pas si une relation fausse existe ou non. Dans de nombreuses situations, un modèle est essentiellement développé à partir de données plutôt que testées par elle. D`où la bonté de l`ajustement d`un tel modèle est biaisé vers le haut. Cela est particulièrement vrai lorsque des procédures par étapes sont employées. Dans de nombreux cas, un modèle potentiellement valide peut être appliqué de manière inappropriée. Par exemple, l`estimation des modèles multi-attributaires à travers les individus au moyen de la régression, bien que populaire (Wilkie & Pessemier, 1973), semble une application inappropriée d`un modèle individuel (Beckwith & Lehmann, 1973).

Dans de tels cas, la bonté de l`ajustement du modèle ne fait guère pour indiquer son utilité. Un modèle de régression est sous-spécifié (résultat 2) si l`équation de régression manque une ou plusieurs variables prédictitrices importantes.