Le modèle de tobit, également appelé modèle de régression censuré, est conçu pour estimer les relations linéaires entre les variables quand il y en a Soit la censure à gauche ou à droite dans la variable dépendante (également appelée censure de bas en haut, respectivement). La censure d'en haut a lieu lorsque les cas dont la valeur est égale ou supérieure à un certain seuil, prennent tous la valeur de ce seuil, de sorte que la valeur réelle peut être égale au seuil, mais elle peut aussi être plus élevée. Dans le cas de la censure par le bas, les valeurs qui tombent à un seuil ou au-dessous sont censurées. Remarque: Le but de cette page est de montrer comment utiliser diverses commandes d'analyse de données. Il ne couvre pas tous les aspects du processus de recherche que les chercheurs sont censés faire. En particulier, elle ne couvre pas le nettoyage et le contrôle des données, la vérification des hypothèses, le diagnostic du modèle et les analyses de suivi éventuelles. Exemples de régression tobit Exemple 1. Dans les années 1980, il y a eu une loi fédérale qui restreignait les relevés de vitesse à 85 mi / h. Donc, si vous voulez essayer de prédire une vitesse supérieure de véhicules à partir d'une combinaison de puissance de cheval et la taille du moteur, vous obtiendriez une lecture pas plus élevé que 85, indépendamment de la vitesse à laquelle le véhicule était vraiment voyager. Il s'agit d'un cas classique de censure de droite (censure d'en haut) des données. La seule chose dont nous sommes certains, c'est que ces véhicules voyageaient à au moins 85 mph. Exemple 2. Un projet de recherche étudie le niveau de plomb dans l'eau potable domestique en fonction de l'âge d'une maison et du revenu familial. La trousse d'analyse de l'eau ne peut pas détecter des concentrations de plomb inférieures à 5 parties par milliard (ppb). L'EPA estime que les niveaux supérieurs à 15 ppb sont dangereux. Ces données sont un exemple de censure à gauche (censure d'en bas). Exemple 3. Considérons la situation dans laquelle nous avons une mesure d'aptitude académique (échelle 200-800) que nous voulons modéliser en utilisant les résultats des tests de lecture et de mathématiques, ainsi que le type de programme dans lequel l'étudiant est inscrit (universitaire, général , Ou professionnelle). Le problème ici est que les étudiants qui répondent à toutes les questions sur le test d'aptitude académique reçoivent correctement un score de 800, même si il est probable que ces étudiants ne sont pas vraiment égaux en aptitude. Il en va de même pour les étudiants qui répondent à toutes les questions de façon incorrecte. Tous ces étudiants auraient un score de 200, bien qu'ils ne peuvent pas tous être d'aptitude égale. Description des données On poursuit l'exemple 3 ci-dessus. Nous avons un fichier de données hypothétiques, tobit. dta avec 200 observations. La variable d'aptitude scolaire est apte, les résultats des tests de lecture et de mathématiques sont respectivement lus et mathématiques. Le prog variable est le type de programme dans lequel l'étudiant est, c'est une variable nominale (nominale) qui prend trois valeurs, académique (prog 1), générale (prog 2) et professionnelle (prog 3). Regardons les données. Notez que dans cet ensemble de données, la valeur la plus basse d'apt est 352. Aucun étudiant n'a reçu un score de 200 (c'est-à-dire le score le plus bas possible), ce qui signifie que même si la censure par le bas était possible, elle ne se produit pas dans l'ensemble de données. En regardant l'histogramme ci-dessus montrant la distribution de l'apt. Nous pouvons voir la censure dans les données, c'est-à-dire, il ya beaucoup plus de cas avec des scores de 750 à 800 que l'on pourrait s'attendre à regarder le reste de la distribution. Ci-dessous un autre histogramme qui met en évidence l'excès de cas où apt 800. Dans l'histogramme ci-dessous, l'option discrète produit un histogramme où chaque valeur unique d'apt a sa propre barre. L'option freq fait que l'axe y est étiqueté avec la fréquence pour chaque valeur plutôt que la densité. Puisque apt est continu, la plupart des valeurs d'apt sont uniques dans l'ensemble de données, bien que près du centre de la distribution il existe quelques valeurs de apt qui ont deux ou trois cas. Le pic à l'extrême droite de l'histogramme est la barre pour les cas où apt 800, la hauteur de cette barre par rapport à tous les autres montre clairement le nombre excessif de cas avec cette valeur. Ensuite explorons les relations bivariées dans notre ensemble de données. Dans la dernière rangée de la matrice de nuage de points montrée ci-dessus, nous voyons les diagrammes de dispersion montrant lecture et apt. Ainsi que les mathématiques et apt. Notez la collection de cas en haut de chaque diagramme de dispersion en raison de la censure dans la distribution de l'apt. Méthodes d'analyse que vous pourriez envisager Voici une liste de quelques méthodes d'analyse que vous avez pu rencontrer. Certaines des méthodes énumérées sont tout à fait raisonnables alors que d'autres sont tombés en faillite ou ont des limites. Tobit régression, le centre de cette page. Régression OLS - Vous pouvez analyser ces données en utilisant la régression OLS. La régression OLS traitera les 800 comme les valeurs réelles et non comme la limite supérieure de l'aptitude académique supérieure. Une limitation de cette approche est que lorsque la variable est censurée, la MCO fournit des estimations incohérentes des paramètres, ce qui signifie que les coefficients de l'analyse n'approcheront pas nécessairement les paramètres de population quottruequot à mesure que la taille de l'échantillon augmente. Voir Long (1997, chapitre 7) pour une discussion plus détaillée des problèmes d'utilisation de la régression des MCO avec les données censurées. Régression tronquée - Il ya parfois confusion quant à la différence entre les données tronquées et les données censurées. Avec les variables censurées, toutes les observations sont dans l'ensemble de données, mais nous ne connaissons pas les valeurs quottruequot de certaines d'entre elles. Avec la troncature, certaines des observations ne sont pas incluses dans l'analyse en raison de la valeur de la variable. Lorsqu'une variable est censurée, les modèles de régression pour les données tronquées fournissent des estimations incohérentes des paramètres. Voir Long (1997, chapitre 7) pour une discussion plus détaillée des problèmes d'utilisation des modèles de régression pour les données tronquées pour analyser les données censurées. Régression de Tobit Ci-dessous, nous exécutons le modèle tobit, en utilisant read. les maths . Et prog pour prédire apt. L'option ul () dans la commande tobit indique la valeur à laquelle commence la censure à droite (c'est-à-dire la limite supérieure). Il ya aussi une option ll () pour indiquer la valeur de la censure de gauche (la limite inférieure) qui n'était pas nécessaire dans cet exemple. Le i. Avant prog indique que prog est une variable factorielle (c'est-à-dire une variable catégorielle) et qu'elle doit être incluse dans le modèle sous la forme d'une série de variables fictives. Notez que cette syntaxe a été introduite dans Stata 11. La vraisemblance du journal final (-1041.0629) est affichée en haut de la sortie, elle peut être utilisée dans les comparaisons de modèles imbriqués, mais nous n'en montrerons pas ici un exemple. En outre, au sommet de la production, nous voyons que les 200 observations de notre ensemble de données ont été utilisées dans l'analyse (moins d'observations auraient été utilisées si l'une de nos variables avait des valeurs manquantes). Le ratio de vraisemblance chi-carré de 188,97 (df4) avec une valeur de p de 0,0001 nous indique que notre modèle dans son ensemble s'ajuste nettement mieux qu'un modèle vide (c'est-à-dire un modèle sans prédicteurs). Dans le tableau, nous voyons les coefficients, leurs erreurs-types, la statistique t, les valeurs p associées et l'intervalle de confiance 95 des coefficients. Les coefficients de lecture et de mathématiques sont statistiquement significatifs, de même que le coefficient de prog 3. Les coefficients de régression de Tobit sont interprétés de la même façon que les coefficients de régression de la MCO, mais l'effet linéaire est sur la variable latente non censurée et non sur le résultat observé. Voir McDonald et Moffitt (1980) pour plus de détails. Pour une augmentation d'une unité en lecture. Il ya une augmentation de 2,7 points de la valeur prédite de apt. Une augmentation d'une unité en mathématiques est associée à une augmentation de 5,91 unités dans la valeur prédite de apt. Les termes pour prog ont une interprétation légèrement différente. La valeur prédite de apt est 46,14 points de moins pour les élèves d'un programme professionnel (prog 3) que pour les étudiants d'un programme académique (prog 1). La statistique auxiliaire sigma est analogue à la racine carrée de la variance résiduelle dans la régression des MCO. La valeur de 65,67 peut être comparée à l'écart-type de l'aptitude scolaire qui était de 99,21, une réduction substantielle. La sortie contient également une estimation de l'erreur standard de sigma ainsi que l'intervalle de confiance 95. Enfin, le résultat fournit un résumé du nombre de valeurs censurées à gauche, non censurées et censurées à droite. Nous pouvons tester l'effet global de prog en utilisant la commande test. On voit ci-dessous que l'effet global du prog est statistiquement significatif. Nous pouvons également tester d'autres hypothèses sur les différences dans les coefficients pour différents niveaux de prog. Ci-dessous nous testons que le coefficient pour prog 2 est égal au coefficient pour prog 3. Dans la sortie ci-dessous nous voyons que le coefficient pour prog 2 est significativement différent du coefficient pour prog 3. Nous pouvons également souhaiter voir des mesures de comment bien Notre modèle s'adapte. Cela peut être particulièrement utile lors de la comparaison de modèles concurrents. Une méthode consiste à comparer les valeurs prédites basées sur le modèle tobit aux valeurs observées dans l'ensemble de données. Ci-dessous, nous utilisons predict pour générer des valeurs prédites d'apt sur la base du modèle. Ensuite, on corrèle les valeurs observées de apt avec les valeurs prédites (yhat). La corrélation entre les valeurs prédites et observées de apt est de 0,7825. Si on place cette valeur, on obtient la corrélation au carré multiple, ce qui indique que les valeurs prédites partagent environ 61 (0,78252 0,6123) de leur variance avec apt. En outre, nous pouvons utiliser la commande utilisateur-écrit fitstat pour produire une variété de statistiques d'ajustement. Vous pouvez trouver plus d'informations sur fitstat en tapant findit fitstat (voir Comment puis-je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Stata Online Manuel tobit Stats associés Commandes cnreg - régression normale censurée, dans laquelle les valeurs de censure peuvent changer d'observation à observation. Intreg - intervalle, où les observations peuvent être des données ponctuelles, des données d'intervalle, des données censurées à gauche ou des données censurées à droite. Références Long, J. S. (1997). Modèles de régression pour variables catégorielles et dépendantes limitées. Thousand Oaks, Californie: Sage Publications. McDonald, J. F. et Moffitt, R. A. 1980. Les utilisations de l'analyse Tobit. L'examen de l'économie et des statistiques Vol 62 (2): 318-321. Tobin, J. (1958). Estimation des relations pour des variables dépendantes limitées. Econometrica 26: 24-36. Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site web, d'un livre ou d'un produit logiciel particulier par l'Université de Californie. Annaissance 01 Nov 2015, 12:44 La syntaxe est pantob depvar indepvar nom de variable indexant votre croix (C'est-à-dire les entreprises) si (par exemple, si vous vouliez exclure les firmes où la variable fictive prend la valeur de zéro, y compris celles, elle dirait si 1). Puis une virgule, séparant les options. Le défaut est l'estimateur Honore développé en utilisant une fonction de perte quadratique. Si vous voulez son autre estimateur (en utilisant une fonction de perte de valeur absolue), tapez absloss. L'autre option est sur les erreurs standard - si vous tapez bootstrap il va calculer par bootstraps. Enfin, il ya une option de détails que je n'ai pas utilisé. Notez que cela peut prendre beaucoup de temps pour exécuter ce, en particulier avec bootstrap.
No comments:
Post a Comment