SciELO - Scientific Electronic Library Online

 
vol.55 issue2INFLUÊNCIA DE HERBICIDAS APLICADOS EM CONDIÇÕES DE PÓS-EMEGÊNCIA NO CRESCIMENTO DA PLANTA E FIXAÇÃO SIMBIÓTICA DO NITROGÊNIO NA CULTURA DO AMENDOIMON THE ESTIMATION AND PREDICTION IN MIXED LINEAR MODELS author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Scientia Agricola

Print version ISSN 0103-9016

Sci. agric. vol. 55 n. 2 Piracicaba May/Aug. 1998

http://dx.doi.org/10.1590/S0103-90161998000200018 

UNA ALTERNATIVA PARA DETECTAR OBSERVACIONES INFLUYENTES EN FUNCIONES DE PRODUCCIÓN UNIVARIADAS1

 

L.F. RINCÓN2; L.A. LÓPEZ2; A.F. IEMMA3
2Depto. de Matemáticas y Estadísticas-UN - Santa Fe de Bogotá, Colombia.
3Depto. de Matemática e Estatística-ESALQ/USP, C.P. 9, CEP: 13418-900 - Piracicaba, SP.

 

 

RESUMEN: En muchas aplicaciones agrícolas o biológicas, se ajustan modelos basados en funciones de producción Yi = (Xi, q) + e para un conjunto de variables predictoras Xj j = 1,. . . , k y un vector parámetros q. En este trabajo se presenta una alternativa para detectar observaciones influyentes, cuando la función de producción es univariada y la estimación de los parámetros se realiza por el método de Gauss - Newton.
Descriptores:
función de producción, observacione influyente

 

UMA ALTERNATIVA PARA DETECTAR OBSERVAÇÕES
INFLUENTES EM FUNÇÕES UNIVARIADAS DE PRODUÇÃO

RESUMO: Em muitas aplicações agrícolas ou bilógicas, ajustam-se modelos baseados em funções de produção Yi = (Xi, q) + e, para um conjunto de variáveis preditoras xj , j=1,..., k e um vetor de parâmetros q. Neste estudo apresenta-se uma alternativa para detectar observações influentes, quando a função de produção é univariada e a estimação dos parâmetros é executada através do método de Gauss-Newton.
Descritores:
funções de produção, observações influentes

 

AN ALTERNATIVE FOR THE DETECTION OF INFLUENT
OBSERVATIONS IN UNIVARIATE PRODUCTION FUNCTIONS

ABSTRACT: Models of production functions Yi = (Xi , q) + e, with explanatory variables xj , j=1,..., k and a parameter vector q are used in agricultural and biological areas. In the present work we present an alternative to detect influent observations, when the production function is univariate and the Gauss-Newton method is used to estimate the parameters.
Key Words:
production function, influent observation

 

 

INTRODUCCIÓN

En un estudio con funciones de producción aplicadas a problemas agrícolas, pecuarios o a ciencias biológicas en general, frecuentemente se ajusta modelos no lineales para describir el comportamiento de la variables Yi en función de un conjunto de k variables predictoras X = (Xi1,...,Xik) i = 1,...,n.

En el caso de tener una sola variable de predicción, se puede caracterizar la ecuación de regresión por el modelo no lineal univariado

Yi = f (Xi, q) + ei   i = 1,..., n (1)

donde f (Xi, q) es una función de respuesta conocida, q un vector p-dimensional de parámetros desconocidos, y ei el error aleatorio, como puede verse en Gallant (1987) y Rivas et al (1993).

Para obtener la estimación de los parámetros en el modelo (1), generalmente se hace uso de procedimientos basados en métodos iterativos.

En este trabajo, se uso el método de Gauss - Newton para la estimación de los parámetros, por la facilidad de los cálculos y la rapidez de convergencia de los estimadores. Para la aplicación del método de estimación, se debe tener en cuenta los siguientes pasos:

1 - Se determina un vector q0 de valores iniciales para los parámetros, y se calcula

f (Xi, q0 ), i=1, 2,....., n

2 - Se define el campo vectorial

Image644.gif (1632 bytes)

3 - Se propone el modelo lineal

Image646.gif (1049 bytes) (2)

donde

Zi = Yi - f (xi, q0 ) i = 1, ..., n B = q - q0

Image647.gif (950 bytes) es la matriz Jacobiana de F de orden n x p calculada en q0, es decir, la i-ésima fila de Image647.gif (950 bytes) tiene como elementos las derivadas parciales

Image648.gif (1146 bytes) j = 1, ..., p i = 1,..., n

Cuando Image647.gif (950 bytes) es de rango completo la estimación mínimos cuadrados

Image651.gif (1337 bytes)

siendo

Image652.gif (1244 bytes) (3)

Del modelo (2), se obtiene la estimación, la cual será tomada como segundo valor inicial para el proceso iterativo, que se repite hasta satisfacer un criterio de convergencia preestablecido.

 

MÉTODO PARA DETECTAR OBSERVACIONES INFLUYENTES

Dado el modelo no lineal univariado (1) con f (xi, q) una función de respuesta conocida, q un vector p-dimensional de parámetros desconocidos, y ei el error experimental; al aplicar el método de estimación de Gauss - Newton descrito en la sección anterior, la estimación Image657.gif (861 bytes) al final de la primera iteración para cada parámetro estimado corresponde a la expresión:

Image655.gif (1151 bytes) (4)

Donde qj0 es el valor inicial propuesto para la estimación del parámetro qj y mij los elementos de la j-ésima columna de la matriz M definida en (3).

Al introducir una modificación Image662.gif (933 bytes) en la primera observación de la forma:

Image661.gif (1217 bytes)

para el nuevo modelo Image660.gif (1053 bytes) y nuevamente por mínimos cuadrados se sigue que:

Image659.gif (1341 bytes)

teniendo como resultado al final de la primera iteración, que la influencia de g1 en los parámetros estimados esta dada por:

Image658.gif (1132 bytes)

Donde mjl son los elementos de la primera columna de la matriz M, Image663.gif (886 bytes)es la estimación del j-ésimo parámetro en el modelo modificado y Image666.gif (880 bytes)es la estimación del j-ésimo parámetro en el modelo original.

Si la modificación se hace en la i-ésima observación para algún i =1 , . . ., n definiendo:

Image665.gif (1049 bytes)    para    Image667.gif (890 bytes)

la diferencia en las estimaciones del j-ésimo parámetro al modificar la i-ésima observación se obtiene a partir de la expresión:

Image664.gif (1229 bytes) (5)

con mji el elemento de la j-ésima fila e i-ésimo columna de la matriz M.

De (5) se define la estadística DFBeta  Image668.gif (1001 bytes) que cuantifica al final de la primera interacción, el efecto en la estimación de los parámetros al eliminar la i-ésima observación en el modelo (1)

M*i representa la i-ésima columna de la matriz M y Image669.gif (864 bytes) es la constante de ajuste que define la estadística DFBeta(i) para el modelo (2). Esta constante se obtiene en forma sencilla usando la metodología de Rincón (1995) a partir de la expresión:

Image670.gif (1121 bytes)             con

Image671.gif (1375 bytes)

 

ILUSTRACIÓN DEL MÉTODO

En Quintero (1994), se presentan los siguientes datos relacionados con la ganancia promedio de peso de 27 novillos, los cuales se observaron durante ocho periodos distintos de tiempo:

55n2a18f287.gif (5641 bytes)

Para este conjunto de datos, se analizaron diferentes modelos, los cuales buscaban explicar la ganancia de peso medio de los novillos, en función del tiempo. Para estos datos se presenta el análisis buscando detectar observaciones influyentes en el modelo que mejor se ajusto a los datos, este fue:

Image672.gif (1648 bytes) (6)

Donde Pi representa el peso promedio de los 27 novillos en el tiempo ti , Image673.gif (1156 bytes)es el vector de parámetros, y ei el error experimental, el cual se asume que se distribuye Image674.gif (977 bytes), el modelo (6) también fue usado por Menchaca (1990) en un estudio de crecimiento.

Se usó como vector de valores iniciales q0 = (63.594093, 0.003672, -0.000002) obtenido de las estimaciones mínimos cuadrados cuando se uso el modelo transformado Image675.gif (1194 bytes) con este valor inicial de q0 y usando la metodología propuesta en Rincón (1995) para detectar observaciones influyentes en modelos de regresión; se ajusto el modelo:

Image676.gif (1376 bytes) (7)

Obteniendo los resultados que se presentan en la tabla No. 1, en donde:

Image677.gif (1949 bytes)

Ri son las constantes de ajuste Image678.gif (865 bytes) para cada observación y A* - A, B* - B, C* - C son las componentes de la estadística DFBeta(i).

Qi : Mide el aporte de cada observación al error.

 

55n2a18t1.gif (14840 bytes)

 

De los resultados de la tabla 1 es posible concluir que la 1a observación merece especial atención, puesto que es la que mayor error aporta al modelo (Q1 = 78.1864) y además es la más influyente en la estimación de los parámetros.

Una vez detectado la observación influyente se procedió a ajustar los datos. Los resultados de este ajuste se presentan la tabla 2. Se debe tener en cuenta que Image679.gif (994 bytes), es decir, el modelo ajustado con la modificación Image680.gif (1025 bytes) verificándose que:

Image681.gif (2081 bytes)

los cuales coinciden con los obtenidos al ajustar el modelo después de eliminar la 1a observación.

 

55n2a18t2.gif (15059 bytes)

 

Obteniendo finalmente un buen ajuste del modelo cuando se tiene el siguiente conjunto de parámetros q = qo + (10.3767; - 0.00067; 7.023 x 10-7) = (73.9707; 0.003; 0.0000019).

Los parámetros obtenidos ajustando la primera observación son bastante aproximados, a los encontrados cuando se remueve la observación influyente como puede observarse en la salida numero 3 del anexo, las cuales son una buena aproximación a las estimaciones logradas después de la primera iteración realizada en SAS en él modulo NLIN.

En el anexo se presenta el programa cuando se uso del procedimiento NLIN del paquete estadístico SAS usando como método de estimación el procedimiento de Gauss - Newton. Además se muestran: en la salida 1. los resultados de la estimación para el modelo (2) con los datos originales; en la salida 2. los resultados de la estimación modificando la primera observación con su constante de ajuste Image682.gif (868 bytes), es decir, con Image683.gif (1087 bytes), y finalmente en la salida 3. Los resultados de la estimación eliminando la 1a observación, donde se verifica que DFBeta (i) esta bien definida y que las estimaciones logradas después de la primera iteración con el método de Gauss - Newton se aproximan bastante bien a las obtenidas con el método descrito en la sección 2.

 

ANEXO
Programa para SAS procedimiento NLIN

data edad;
input t p @@;
cards ;
100 87.32 200 126.33 300 165.33 400 204.33
500 243.33 600 282.33 700 321.33 800 360.34
;
proc print;
run;
proc nlin iter=25 convergence=1.0E-13 ;
parms a=63.594093 b=0.003672 c=-0.000002 ;
model p=a*exp(b*t+c*t*t) ;
der.a=exp(b*t+c*t*t) ;
der.b=a*t*exp(b*t+c*t*t) ;
der.c=a*t*t*exp(b*t+c*t*t) ;
output out=salida p=Pajus residual=res ;
proc print;
run;

SALIDA 1.

OBS   T P
100 87.32
200 126.33
3   300 165.33
4   400 204.33
500 243.33
6 600 282.33
7 700 321.33
8   800 360.34

Non-Linear Least Squares Iterative Phase
Dependent Variable P Method: Gauss-Newton

Iter    A B C Sum of Squares
0    63.594093 0.003672 -0.0000020000 872.796280
1     68.303627 0.003319 -0.0000015641 104.842263
2    68.261021 0.003333 -0.0000015803 103.201986
68.264904 0.003333  -0.0000015802 103.201944
4   68.264794 0.003333 -0.0000015802 103.201944
5    68.264797 0.003333 -0.0000015802 103.201944
68.264797 0.003333  -0.0000015802 103.201944

NOTE: Convergence criterion met.
Non-Linear Least Squares Summary Statistics Dependent Variable P

Source    DF Sum of Squares Mean Square
Regression   3 464583.20946 154861.06982
Residual   5 103.20194 20.64039
Uncorrected Total  8 464686.41140
(Corrected Total)   7 63887.46020

Parameter Estimate Asymptotic Asymptotic 95 %
Std. Error Confidence Interval

  Lower Upper
A 68.26479688  3.3810321194 59.573703099
76.955890663
0.00333328 0.0001956212 0.002830430
0.003836136
C -0.00000158 0.0000001815 -0.000002047 -
0.000001114

 

OBS  T P PAJUS RES
100 87.32 93.777 -6.45711
2     200 126.33 124.816 1.51360
3     300 165.33 160.961 4.36876
4    400 204.33 201.116 3.21441
5    500 243.33 243.470 -0.13974
6    600 282.33 285.574 -3.24425
7    700 321.33 324.540 -3.20975
8   800 360.34 357.348 2.99183

SALIDA 2.

OBS   T P
100 99.26
200 126.33
300 165.33
4 400 204.33
5   500 243.33
600 282.33
700 321.33
8   800 360.34

Non-Linear Least Squares Iterative Phase
Dependent Variable P Method: Gauss-Newton

Iter    A B C Sum of Squares
0 63.594093  0.003672 -0.0000020000 951.552926
73.972579 0.003000  -0.0000012974 81.997711
2    74.334861 0.003029 -0.0000013271 26.109729
3 74.337439  0.003029 -0.0000013268 26.108548
4   74.337408 0.003029 -0.0000013268 26.108548

Non-Linear Least Squares Summary Statistics Dependent Variable P

Source  DF Sum of Squares  Mean Square
Regression    3 466888.06805 155629.35602
Residual   5 26.10855 5.22171
Uncorrected Total  8 466914.17660
(Corrected Total)  7 60752.34455

Parameter Estimate Asymptotic Asymptotic 95%
Std. Error Confidence Interval

  Lower Upper
A    74.33740846 1.7860217247 69.746359999
78.928456920
B    0.00302915 0.0000957940 0.002782907
0.003275392
C   -0.00000133 0.0000000894 -0.000001557
-0.000001097

 

OBS     T P PAJUS RES
1    100 99.26 99.311 -0.05147
2    200 126.33 129.201 -2.87128
3    300 165.33 163.685 1.64471
4    400 204.33 201.943 2.38743
5     500 243.33 242.617 0.71283
6   600 282.33 283.851 -1.52111
7    700 321.33 323.396 -2.06631
8     800 360.34 358.802 1.53792

SALIDA 3.

OBS   T P
1   200 126.33
2   300 165.33
400 204.33
500 243.33
600 282.33
700 321.33
7   800 360.34

Non-Linear Least Squares Iterative Phase
Dependent Variable P Method: Gauss-Newton

Iter     A B C Sum of Squares
0     63.594093 0.003672 -0.0000020000 865.656787
1   73.973455 0.003000 -0.0000012974 81.528988
2    74.386075 0.003027 -0.0000013251 26.104506
3 74.389706  0.003027 -0.0000013247 26.103486
4    74.389640 0.003027 -0.0000013247 26.103486
74.389641 0.003027  -0.0000013247 26.103486

NOTE: Convergence criterion met.
Non-Linear Least Squares Summary Statistics Dependent Variable P

Source    DF Sum of Squares Mean Square
Regression  3 457035.52551 152345.17517
Residual   4 26.10349 6.52587
Uncorrected Total  7

457061.62900

(Corrected Total)  6 42590.34009

Parameter Estimate Asymptotic Asymptotic 95%
Std. Error Confidence Interval

  Lower Upper
A 74.38964104  2.7508495823 66.752161518
82.027120553
B    0.00302664 0.0001405117 0.002636518
0.003416753
C -0.00000132 0.0000001255 -0.000001673
-0.000000976

 

OBS     T P PAJUS RES
200 126.33 129.238  -2.90792
300 165.33 163.708  1.62229
3    400 204.33 201.949 2.38088
500 243.33 242.610 0.72015
5    600 282.33 283.837 -1.50668
700 321.33 323.387  -2.05677
800 360.34 358.814  1.52582

 

REFERENCIAS BIBLIOGRÁFICAS

GALLANT, R. Nonlinear Statistical Models. New York, John Wiley. 1987.         [ Links ]

MENCHACA. M. A. Modelo de crecimiento en peso de bovinos. Revista Cubana de Ciencia Agrícola. Instituto de Ciencia Animal. v.25, p.125, 1990.         [ Links ]

RIVAS, G.; LÓPEZ, L. A., y VELASCO, A. Regresión no lineal. Revista Colombiana de Estadística. v.27, p.89, 1993.         [ Links ]

QUINTERO, R. Ajuste de modelos no lineales para la ganancia de peso en bovinos. Tesis de grado, Universidad Nacional de Colombia. 1994.         [ Links ]

RINCÓN, L. F. An alternative to calculate the Qk Statistic in Simple Linear Regresión Models. Resumos, Actas 4a Escola de Modelos de Regressão. Aguas de São Pedro, Brasil. 1995.         [ Links ]

 

 

Recebido para publicação em 05.07.96
Aceito para publicação em 28.11.97

 

 

1 Este trabajo tuvo apoyo financiero de COLCIENCIAS - COLOMBIA.