Acessibilidade / Reportar erro

Estímulo discriminativo de extinção produzido por respostas de observação em pombos

Discriminative stimulus of extinction produced by observing responses in pigeons

Resumos

Pombos privados de comida foram expostos a tentativas que podiam terminar com ou sem a apresentação de comida independentemente de qualquer resposta. Durante uma tentativa, bicadas podiam mudar a cor do disco de resposta de branco para verde (S+) ou vermelho (S-) a depender do acionamento (ou não) do comedouro. Em linha de base, bicadas produziam ambas as cores em intervalos médios variáveis de 15 s. Em duas condições experimentais distintas, tandem VI DRH foi empregado na produção, ora de S+, ora de S-. Resultados mostraram que o esquema tandem levou a uma diminuição geral na freqüência de estímulos discriminativos produzidos, marcadamente na de S+, mas não na de S-. Esses dados fornecem suporte para o modelo de reforçamento condicionado baseado na redução da incerteza.

Resposta de Observação; Reforçamento Condicionado; Modelo da Redução do Atraso; Modelo da Redução da Incerteza; Pombos


Food-deprived pigeons were given a series of trials in which half ended with response- independent food presentation and half without it. During a trial, pecking the key could change its color from white to green (S+) or red (S-), depending on whether food was programmed or not. In baseline conditions, pecks produced both stimuli (colors) on a 15-s variable-interval schedule. In two different conditions, tandem VI DRH was applied to produce either S+ or S-. Results showed that the tandem contingency resulted in a general decrease in the discriminative stimulus production, markedly to S+, but not to S-. The findings are consistent with the uncertainty-reduction model of conditioned reinforcement.

Observing Response; Conditioned Reinforcement; Delay-reduction Model; Uncertainty-reduction Model; Pigeons


PROCESSOS PSICOLÓGICOS BÁSICOS

Estímulo discriminativo de extinção produzido por respostas de observação em pombos

Discriminative stimulus of extinction produced by observing responses in pigeons

Gerson Yukio Tomanari* * Endereço para correspondência: Universidade de São Paulo, Instituto de Psicologia, Departamento de Psicologia Experimental, Avenida Professor Mello Moraes, 1721, Butantã, São Paulo, SP, Brasil, CEP 05508-030. E-mail: tomanari@usp.br Este artigo teve origem na tese de livre docência do autor (Tomanari, 2008). A realização da pesquisa contou com auxílios financeiros da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) e Conselho Na-cional de Desenvolvimento Científico e Tecnológico (CNPq), bem como com uma bolsa de produtividade em pesquisa do CNPq.

Universidade de São Paulo, São Paulo, Brasil

RESUMO

Pombos privados de comida foram expostos a tentativas que podiam terminar com ou sem a apresentação de comida independentemente de qualquer resposta. Durante uma tentativa, bicadas podiam mudar a cor do disco de resposta de branco para verde (S+) ou vermelho (S-) a depender do acionamento (ou não) do comedouro. Em linha de base, bicadas produziam ambas as cores em intervalos médios variáveis de 15 s. Em duas condições experimentais distintas, tandem VI DRH foi empregado na produção, ora de S+, ora de S-. Resultados mostraram que o esquema tandem levou a uma diminuição geral na freqüência de estímulos discriminativos produzidos, marcadamente na de S+, mas não na de S-. Esses dados fornecem suporte para o modelo de reforçamento condicionado baseado na redução da incerteza.

Palavras-chave: Resposta de Observação; Reforçamento Condicionado; Modelo da Redução do Atraso; Modelo da Redução da Incerteza; Pombos.

ABSTRACT

Food-deprived pigeons were given a series of trials in which half ended with response- independent food presentation and half without it. During a trial, pecking the key could change its color from white to green (S+) or red (S-), depending on whether food was programmed or not. In baseline conditions, pecks produced both stimuli (colors) on a 15-s variable-interval schedule. In two different conditions, tandem VI DRH was applied to produce either S+ or S-. Results showed that the tandem contingency resulted in a general decrease in the discriminative stimulus production, markedly to S+, but not to S-. The findings are consistent with the uncertainty-reduction model of conditioned reinforcement.

Keywords: Observing Response; Conditioned Reinforcement; Delay-reduction Model; Uncertainty-reduction Model; Pigeons.

Em 1952, Wyckoff relatou que, dada a oportunidade, pombos emitem respostas que produzem estímulos discriminativos dos esquemas de reforçamento em vigor (Wyckoff, 1952). Na ocasião, Wyckoff analisava como respostas que permitem a orientação do organismo a estímulos (i.e., respostas de observação) são adquiridas ao longo do estabelecimento de uma discriminação.

No procedimento pioneiro de Wyckoff (1952, 1969), pombos foram expostos a esquemas em que se alternavam componentes em que ocorria reforçamento (FI 30 s) e componentes em que não havia reforçamento programado (Extinção). Um pedal próximo aos discos era o manipulando que, se acionado, produzia a apresentação dos estímulos relacionados aos componentes em vigor. Os dados de Wyckoff mostraram que os pombos mantinham o pedal pressionado por mais tempo quando o estímulo produzido se correlacionava com reforçamento do que com ausência de reforçamento. A resposta que produzia os estímulos foi chamada de resposta de observação porque colocava o sujeito em contato com os estímulos discriminativos, permitindo, assim, que pudesse observar tais estímulos.

A resposta de observação desempenha papel importante em qualquer situação na qual o comportamento do organismo seja controlado por estímulos discriminati-vos, caracterizando uma situação de atenção seletiva (Dinsmoor, 1983). Além disso, vários procedimentos experimentais são planejados de forma que uma resposta seja definida especialmente para garantir que o sujeito entre em contato visual com um determinado estímulo (ignorando outros) ou um aspecto particular dele (ignorando outros; Dinsmoor, 1995a, 1995b).

Uma característica importante em relação à definição proposta por Wyckoff (1952, 1969) de respostas de observação é o fato de sua única conseqüência consistir na produção de estímulos discriminativos e, portanto, não alterarem diretamente a programação de reforços atribuída a respostas na chave de reforçamento principal. Em função disso, o procedimento tem sido considerado a "melhor técnica disponível para demonstrar a legitimidade e a importância do próprio conceito de reforçamento secundário ou condicionado" (Dinsmoor, 1983, p. 696; Tomanari, 2001a).

Utilizando procedimentos de respostas de observação, uma das conclusões consensuais a que os pesquisadores e teóricos têm chegado é a de que um estímulo que discrimina presença (versus ausência) ou freqüência maior (versus freqüência menor) de reforçadores positivos incondicionados mantém respostas de observação que o produzem. Por outro lado, em relação ao estímulo associado à menor probabilidade de reforçamento (S-), este parece não apenas não contribuir para manter respostas de observação como, até mesmo, mantém respostas que eventualmente evitam a sua apresentação (Allen & Lattal, 1989; Blanchard, 1975; Carvalho & Machado, 1992; Case & Fantino, 1981; Case, Fantino, & Wixted, 1985; Case, Ploog, & Fantino, 1990; Dinsmoor, Bowe, Green, & Hanson, 1988; Dinsmoor, Mulvaney, & Jwaideh, 1981; Fantino & Case, 1983; Fantino, Case, & Altus, 1983; Gaynor & Shull, 2002; Jenkins & Boakes, 1973; Jwaideh & Mulvaney, 1976; Mueller & Dinsmoor, 1984, 1986; Mulvaney, Dinsmoor, Jwaideh, & Hughes, 1974; Preston, 1985; Roger & Zentall, 1999; Schaal, Odum, & Shahan, 2000; Tomanari, 2001a, 2001b, 2004; Tomanari, Dube, & Machado, 1998; Williams, 1994).

Esses resultados configuram a maior parte dos dados disponíveis na literatura em respostas de observação e fornecem suporte ao modelo da redução do atraso como constructo teórico do processo de reforçamento condicionado. Segundo o modelo da redução do atraso (Fantino, 1977; Fantino & Logan, 1979), o papel de um estímulo como reforçador condicionado se estabelece em função do tempo transcorrido desde a apresentação deste estímulo até a chegada do reforçador primário. Trata-se de uma medida relativa ao estado anterior à apresentação do estímulo, ou seja, quanto maior a redução temporal relativa sinalizada pelo estímulo correlacionado com o reforçador primário, maior será seu valor reforçador condicionado (Fantino & Logan, 1979). No caso do procedimento de respostas de observação, em relação a um estado estimulatório indiscriminado, S+ sinalizaria uma redução no tempo até a apresentação do reforçador primário, enquanto S- sinalizaria um aumento do mesmo.

Em contraposição a esses dados mais consensuais na área, há, contudo, um menor conjunto de resultados divergentes. Estes dizem respeito particularmente às possíveis funções neutras ou aversivas de S- sobre as respostas de observação, pois mostram que há condições em que S- pode, sim, manter respostas que o produzem (Lieberman, 1972; Lieberman, Cathro, Nichol, & Watson, 1997; Madden & Perone, 1999; Perone & Baron, 1980; Schrier, Thompson, & Spector, 1980).

Os dados que mostram respostas de observação mantidas por S- sustentariam um modelo teórico alternativo, o modelo da redução da incerteza, o qual con-sidera que o valor reforçador condicionado de um estímulo depende do quanto ele informa sobre a disponibilidade ou a ausência do reforçador primário (Berlyne, 1957; Hendry, 1969, 1983). Segundo Berlyne (1957), a produção de informação seria reforçadora na medida em que a incerteza seria aversiva para os organismos. No caso do procedimento de resposta de observação, S- exerceria função reforçadora por "informar" acerca da vigência dos períodos de extinção, ainda que não estivesse associado a um reforçador primário evidente (Fantino & Silberberg, 2010).

No contexto dessa controvérsia com relação ao papel reforçador dos estímulos discriminativos, em particular o de S-, Blanchard (1975), Tomanari (2001b) e Tomanari et al. (1998) submeteram pombos privados de comida a tentativas discretas que podiam terminar com ou sem o acionamento do comedouro independentemente de qualquer bicada no único disco de resposta disponível na caixa operante. No procedimento empregado nesses três estudos, as bicadas neste único disco produziam tanto o estímulo discriminativo de reforçamento (S+) quanto o de extinção (S-). Blanchard (1975) e Tomanari et al. (1998) compararam a produção de S+ e de S- introduzindo o esquema tand VI DRL para a produção de cada um deles em diferentes fases experimentais. Nessa situação, os resultados mostraram uma menor produção de S- do que de S+, levando os autores a considerar que funções aversivas de S- mantinham respostas ao disco (na verdade, um elevado número de respostas, conforme mostraram posteriormente Tomanari et al., 1998) por reforçamento negativo.

Para compreender esse suposto processo de reforça-mento negativo, Tomanari (2001b) executou uma variação no procedimento, substituindo o esquema de tand VI DRL por tand VI FR. Assim, a suposta função aversiva de S- seria demonstrada pela emissão de um número de respostas que não completasse a exigência do FR.

Os resultados de Tomanari (2001b) mostraram que S- e S+ exerceram controles distintos sobre o responder em tand VI FR. No primeiro caso, a freqüência de produção de S- praticamente se manteve como em linha de base, em VI. No segundo, a produção de S+ reduziu-se, tendo sido menor do que a própria produção de S-. Esses re-sultados parecem mostrar que S- atuou como reforçador condicionado e manteve as respostas de observação que o produziam. Esses resultados, no entanto, divergem do anteriormente mencionado conjunto majoritário de estudos que mostram que S- não adquire função reforçadora ou adquire função aversiva.

Quando os resultados de Tomanari (2001b) são comparados aos de Blanchard (1975) e Tomanari et al. (1998), que empregaram procedimentos semelhantes entre si, o fato de os pombos bicarem em alta freqüência tanto em tand VI DRL quanto em tand VI FR sugere um controle indiferenciado e possivelmente pouco preponderante por parte de S-. Possivelmente, efeitos sobrepostos de variáveis ainda não identificadas podem ter gerado a alta freqüência generalizada de respostas de observação que resultou, ora na produção (em tand VI FR), ora na esquiva (em tand VI DRL) de S-. Nesse caso, novas manipulações experimentais são necessárias para analisar a efetiva contribuição de S- para a manutenção das respostas de observação e compreender os resultados aparentemente divergentes desses estudos.

Um ponto de partida seria considerar que as respostas de observação que mantiveram a produção de S- em tand VI FR, mas que o evitaram em tand VI DRL, podem ter sido geradas, em parte, por características dos próprios esquemas. Sob DRL, a resposta conseqüenciada deveria manter um intervalo mínimo entre sua precedente, tornando a taxa de respostas um fator relevante para o cumprimento das exigências do esquema. Sob FR, diferentemente, o fator relevante para a produção do estímulo era o número de respostas e não a relação temporal entre elas. Os dois esquemas, portanto, controlaram o desempenho dos sujeitos a partir de diferentes aspectos, número ou taxa de respostas, o que pode ter afetado fundamentalmente os desempenhos obtidos.

Para analisar essa variável, o presente estudo investigou o papel reforçador condicionado de S+ e S- sob esquema tand VI DRH. O esquema tand VI DRH gera alta freqüência de respostas (assim como o esquema tand VI FR, em Tomanari, 2001b), porém sob controle dos intervalos entre respostas (assim como o esquema tand VI DRL, em Blanchard, 1975 e Tomanari et al., 1998). Na busca por identificar possíveis funções paramétricas, os intervalos entre respostas requeridos pelo tand VI DRH foram manipulados sistematicamente.

Método

Sujeitos

Foram utilizados três pombos (Columbia livia) experimentalmente ingênuos, variedade correio, identificados como Pombos 32, 36 e 37. Os animais foram alojados em gaiolas individuais e mantidos, no decorrer do experimento, em regime de restrição de comida de modo a terem seus pesos reduzidos a 85% do peso ad libitum. O acesso à água era livre.

Equipamento

Foram utilizadas duas caixas de condicionamento operante modulares para pombos (modelo ENV-008) fabricadas por Med Associates Inc (Vermont, EUA). As caixas estavam inseridas dentro de câmaras de isolamento acústico equipadas com circuladores de ar que produziam som contínuo. O interior das caixas era iluminado por luz ambiente (ENV-215M). Esta câmara estava equipada com um comedouro (ENV-205M) que, normalmente, permanecia fora do alcance dos pombos, mas que, ao ser acionado, era iluminado e permitia o acesso dos pombos a grãos. Logo acima do comedouro, na mesma parede da caixa, havia um disco de respostas (ENV-123AM) que podia ser trans-iluminado por quatro cores diferentes, branco, azul, vermelho ou verde. Cada acionamento do disco de resposta era acompanhado por um clique gerado por um relé (ENV-135M). Em uma sala adjacente havia um micro computador padrão IBM-PC que, por meio do aplicativo MED-PC (SOF-700W), comandava a interface (DIG-715P1) de controle das contingências e o registro das respostas.

Procedimentos

Procedimento Geral. Inicialmente, todos os três pombos passaram por treino ao comedouro e auto-modelagem da resposta de bicar o disco iluminado pela cor azul (Brown & Jenkins, 1968). Instalada a resposta de bicar o disco, iniciou-se a etapa de fortalecimento destas respostas. Nela, os pombos foram submetidos a três sessões de reforçamento contínuo, seguidas por cinco sessões de VI 30 s e, finalmente, por cinco sessões de VI 60 s, programados segundo Fleshler e Hoffman (1962). Na seqüência, deu-se início ao procedimento de resposta de observação, cujas características básicas, aplicadas a todas as sessões, nas diferentes fases do experimento, encontram-se descritas a seguir.

No decorrer da coleta de dados, foram realizadas até duas sessões diárias, com intervalo de seis horas entre si, de cinco a sete dias por semana. Durante as sessões, a luz ambiente da caixa operante e o circulador de ar permaneceram ligados continuamente. Cada sessão era formada por 30 tentativas de duração mínima de 50 s. Independentemente do comportamento dos sujeitos, metade dessas tentativas (i.e., 15) terminava com a apresentação do comedouro por 4 s (tentativas TS+); a outra metade (i.e., 15) encerrava-se sem a apresentação do comedouro (tentativas TS-). A seqüência de apresentação das 30 tenta-tivas era aleatória e alterava-se a cada sessão respeitando-se o critério de que um mesmo tipo de tentativa não se repetisse mais do que três vezes consecutivas.

Iniciando as sessões e intercalando-se com as 30 tentativas havia intervalos entre tentativas (IETs) de 60 s de duração. Durante os IETs, o disco de respostas permanecia apagado. Cada tentativa iniciava-se com a iluminação do disco com luz branca, em cuja presença bicadas podiam mudar a cor do disco e produzir uma cor, verde ou vermelha, correlacionada sistematicamente ao tipo de tentativa em vigor (resposta de observação). Para o Pombo 32, o disco tornava-se vermelho se a tentativa corrente fosse terminar com a apresentação do comedouro; ou verde, se a tentativa fosse terminar sem a apresentação do comedouro. Para os Pombos 36 e 37, as cores foram invertidas.

Uma vez exibida a cor verde ou vermelha, esta permanecia no disco de respostas até o final da tentativa e, no caso das tentativas TS+, estendia-se até o final dos 4 s de apresentação do comedouro. O término de uma tentativa e o início do IET só acontecia após terem transcorridos 50 s da tentativa e de ter havido um intervalo mínimo de 3 s sem uma única resposta ao disco. Independentemente do estímulo presente no disco de respostas (branco, vermelho ou verde) ou do tipo de tentativa em vigor (TS+ ou TS-), uma resposta ao disco, nos 3 s finais da tentativa, provocava o prolongamento da sua duração por 3 s contados a partir da resposta. Assim, procurou-se evitar a ocorrência de relações acidentais entre as respostas ao disco e o término das tentativas ou, no caso das tentativas TS+, a liberação de comida. Na vigência da contingência que prolongava a duração das tentativas, desde que fossem cumpridas as exigências dos esquemas, mantinha-se a possibilidade de mudança na cor do disco. Durante uma tentativa, quando não ocorriam respostas ao disco ou quando as respostas não satisfaziam os critérios do esquema, esta finalizava na presença do disco branco.

Procedimento Específico. O procedimento geral descrito acima foi empregado ao longo de todo experimento sem qualquer alteração. No decorrer das diferentes fases experimentais, foram manipulados os esquemas para a produção das cores verde e vermelha. Como treino inicial, os pombos passaram por dez sessões nas quais uma única resposta ao disco produzia a mudança na cor do disco. Na seqüência, foram submetidos às seguintes fases:

Fase 1 VI S+/S- (Linha de Base 1): nesta fase, respostas ao disco, em ambos os tipos de tentativas, TS+ e TS-, produziam a mudança na cor do disco sob o esquema de VI 15 s. Os intervalos do VI (2, 5, 11, 18 e 39 s, Fleshler & Hoffman, 1962) foram apresentados em seqüência aleatória e começavam a vigorar assim que uma tentativa era iniciada. Para cada tipo de tentativa, havia uma programação de VI sendo executada. Ao término de uma tentativa, o prosseguimento do VI era temporariamente interrompido e reiniciado, no princípio da tentativa seguinte do mesmo tipo, a partir do estado anterior. Esta fase foi mantida em vigor até que a mudança na cor do disco, observada por inspeção visual, revelasse estabilidade por três sessões consecutivas.

Fase 2 tand VI DRH: nesta fase vigorou o esquema tand VI 15 s DRH t s para a produção de S+, para os Pombos 32 e 36, e de S-, para o Pombo 37. A produção do estímulo alternativo foi mantida em VI 15 s. Sob tand VI DRH, a resposta que cumpria o intervalo corrente do VI foi seguida imediatamente pelo início do DRH na ausência de qualquer evento exteroceptivo programado. Durante a vigência do DRH, a primeira resposta ao disco que mantivesse um intervalo entre respostas (IRT) de t ou menos segundos era seguida pela mudança na cor do disco. Quatro valores de t foram empregados nesta fase, 0,8 s, 0,6 s, 0,4 s e 0,2 s, constituindo quatro diferentes condições experimentais executadas nessa exata seqüência. Cada condição experimental foi mantida em vigor por, no mínimo, dez sessões1 1 As Condições 4a e 4b contiveram nove sessões, pois uma sessão precisou ser descartada. e até que a mudança na cor do disco, observada por inspeção visual, mostrasse relativa estabilidade ao longo de três sessões consecutivas. Sempre que possível, as condições experimentais eram alteradas simultaneamente para todos os três sujeitos.

Fase 3 VI S+/S- (Linha de Base 2): foram replicadas as condições programadas na Fase 1.

Fase 4 tand VI DRH: nesta fase, foram replicadas as condições programadas para a Fase 2, modificando-se apenas a atribuição dos sujeitos. Assim, o esquema tand VI 15 s DRH t s esteve em vigor para a produção de S+, para o Pombo 37, e de S-, para os Pombos 32 e 36.

A Tabela 1 resume o planejamento experimental descrito acima, incluindo os valores do DRH usados em cada uma das condições das Fases 2 e 4. A Tabela 2 mostra o número de sessões realizadas em cada fase e condições experimentais.

Resultados

A Figura 1 mostra, para todos os sujeitos, o número médio de S+ (círculos) e de S- (losangos) produzidos nas cinco últimas sessões de todas as quatro fases do experimento, tanto em Linha de Base (símbolos vazados) quanto em cada uma das condições em que foram empregados diferentes valores do esquema tand VI DRH (símbolos cheios). Para os Pombos 32 e 36, o esquema tand VI DRH vigorou nas tentativas TS+ e TS- nas respectivas Fases 2 e 4. Para o Pombo 37, a seqüência foi invertida.


Os dados mostram que, em linha de base, a condição em que vigorava VI 15 s em ambos os tipos de tentativas, S+ e S- foram igualmente produzidos em praticamente todas as 30 tentativas (15 de cada tipo) que compunham uma sessão experimental. De modo geral, a introdução do tand VI DRH com a exigência de IRTs iguais ou menores a 0,8 s, 0,6 s e 0,4 s não afetou marcadamente a produção de qualquer dos dois estímulos. Sob IRTs iguais ou menores a 0,2 s, no entanto, os efeitos foram acentuados e diferenciados a depender do estímulo em questão. Quando em vigor nas tentativas TS+, houve uma diminuição sistemática na produção de S+, em diferentes graus, a diferentes sujeitos. Quando em vigor nas tentativas TS-, diferentemente, não houve alteração no número de apresentações de S- relativamente à linha de base (Pombos 32 e 36) ou houve uma diminuição, ainda que em grau menor comparativamente à produção de S+ (Pombo 37). A produção dos estímulos mantida em VI, indicada no gráfico pelos símbolos vazados, tendeu a acompanhar a diminuição na produção dos estímulos sob DRH 0,2 s, com exceção do Pombo 37 (Fases 2 e 4) e Pombo 36 (Fase 2).

A Figura 2 permite comparar mais diretamente, e ao longo das sessões, os efeitos das manipulações dos valores do DRH sobre a produção dos estímulos discriminativos. Ela mostra, para todos os sujeitos, o número médio de S+ (círculos vazados) e de S- (círculos cheios) produzido nas condições em que cada um desses estímulos encontrava-se sob tand VI DRH 0,8 s, 0,6 s, 0,4 s e 0,2 s. As sessões são mostradas em quartis de cada condição experimental.


Os dados mostram que, em linha de base, a condição em que vigorava VI 15 s em ambos os tipos de tentativas, S+ e S- foram igualmente produzidos em praticamente todas as 30 tentativas (15 de cada tipo) que compunham uma sessão experimental. De modo geral, a introdução do tand VI DRH com a exigência de IRTs iguais ou menores a 0,8 s, 0,6 s e 0,4 s não afetou marcadamente a produção de qualquer dos dois estímulos. Sob IRTs iguais ou menores a 0,2 s, no entanto, os efeitos foram acentuados e diferenciados a depender do estímulo em questão. Quando em vigor nas tentativas TS+, houve uma diminuição sistemática na produção de S+, em diferentes graus, a diferentes sujeitos. Quando em vigor nas tentativas TS-, diferentemente, não houve alteração no número de apresentações de S- relativamente à linha de base (Pombos 32 e 36) ou houve uma diminuição, ainda que em grau menor comparativamente à produção de S+ (Pombo 37). A produção dos estímulos mantida em VI, indicada no gráfico pelos símbolos vazados, tendeu a acompanhar a diminuição na produção dos estímulos sob DRH 0,2 s, com exceção do Pombo 37 (Fases 2 e 4) e Pombo 36 (Fase 2).

De modo geral, os dados da Figura 2 mostram que a produção de S- foi mantida em praticamente todas as tentativas nas quais vigoraram DRH 0,8 s, 0,6 s e 0,4 s, para todos os sujeitos, com exceção do Pombo 37 sob DRH 0,4 s. Em relação à produção de S+ nesses três valores de DRH, a produção desse estímulo foi sempre menor (Pombos 36 e 37) ou muito próxima (Pombo 32) à de S-, com exceção de alguns pontos isolados (Pombo 36, 1o quartil, DRH 0,8 s; Pombo 37, 1o e 2o quartis, DRH 0,4 s). Sob DRH 0,8 s, 0,6 s e 0,4 s, ressalvadas as exceções, verifica-se uma relativa estabilidade na produção dos estímulos ao longo das sessões, em especial no que diz respeito a S-.

Os efeitos distintos do DRH 0,2 s sobre a produção de S+ e de S- são evidentes na Figura 2. Em relação a S-, a produção mantém-se próxima do número total de tentativas, para todos os sujeitos. Sob DRH 0,2 s, o Pombo 32 produz S- em praticamente todas as tentativas. O Pombo 36 o produz em cerca de 12 tentativas no primeiro quartil e aumenta essa produção a partir do segundo quartil até o final da condição. O Pombo 37, diferente dos outros dois, mostra uma maior variabilidade e uma leve tendência de diminuição na produção desse estímulo ao longo dos quartis. Em relação a S+, a produção é sistematicamente menor do que a de S- em todos os quartis sob DRH 0,2 s, para todos os pombos. Ao longo das sessões, verificam-se variações assistemáticas na produção de S+. Em três sujeitos, há três diferentes padrões. O Pombo 32 mostra um aumento gradual na produção de S+. O Pombo 36 mantém estabilidade ao longo de toda a condição. O Pombo 37 mostra uma tendência de diminuição.

A Figura 3 mostra a distribuição média de intervalos entre respostas na presença do disco iluminado pela cor branca em cada uma das fases e condições experimentais, para todos os três sujeitos, Pombos 32 (Painel A), 36 (Painel B) e 37 (Painel C).


Os dados dos Pombos 32 e 36 são bastante semelhantes entre si nos seguintes aspectos: na primeira linha de base, Fase 1, verifica-se uma concentração de IRTs em valores acima de 0,4 s. Na segunda linha de base, Fase 3, a concentração de IRTs passa a ocorrer entre 0,2 s e 0,4 s. Para esses dois sujeitos, na Fase 2, sob tand VI DRH em TS+, houve uma tendência de os IRTs acompanharem os valores programados do esquema. Sob DRH 0,8 s, houve predominância de IRTs entre 0,6-0,8 s; sob DRH 0,6 s, houve predominância de IRTs entre 0,4-0,6 s; sob DRH 0,4 s e 0,2 s, predominaram IRTS entre 0,2-0,4 s. De forma diferente, na Fase 4, sob tand VI DRH em TS-, houve predominância de IRTs entre 0,2-0,4 s na vigência de todos os quatro valores de DRH, com um acen-tuado aumento e acúmulo de IRTs sob DRH 0,2 s. Di-ferentemente dos Pombos 32 e 36, os dados do Pombo 37 revelam uma concentração de IRTs entre 0,2-0,4 s indistintamente, em todas as fases experimentais, sob todos os valores de DRH.

Discussão

Os resultados do presente experimento mostraram que as fases de linha de base (Fases 1 e 3), nas quais S+ e S- foram ambos produzidos em VI 15 s, propiciaram condições experimentais comparáveis nas tentativas TS+ e TS-, mantendo-as indiscriminadas na presença do disco branco e controlando a produção dos estímulos discri-minativos em praticamente todas as oportunidades. Com isso, as linhas de base forneceram condições apropriadas para a introdução do esquema tand VI DRH nas fases experimentais (Fases 2 e 4).

A análise dos intervalos entre respostas (Figura 3) sugere efeitos da história experimental sobre o desempenho dos sujeitos ao longo do experimento. Ainda que na segunda linha de base (Fase 3) tenha-se recuperado a produção dos estímulos à semelhança da Fase 1, os dados de dois sujeitos (Pombos 32 e 36) foram claros ao revelar que, na segunda, comparativamente à primeira, a freqüência de IRTs passou a se concentrar em intervalos mais curtos (ver discussão desse aspecto particular adiante). Tais efeitos de história experimental adquirem especial relevância frente ao fato de estes mesmos dois sujeitos terem sido expostos inicialmente ao esquema tand VI DRH nas tentativas TS+ (Pombos 32 e 36), enquanto que o outro sujeito, o Pombo 37, foi exposto inicialmente ao tand VI DRH nas tentativas TS-. Ao longo do experimento, os dados do Pombo 37 tenderam a se diferenciar daqueles obtidos com os Pombos 32 e 36, de modo que, em alguma medida, a seqüência de condições experimentais pode ter desempenhado algum papel relevante. Esse fato, entretanto, não compromete as análises a seguir, efetuadas para cada um dos três sujeitos sob seu próprio controle.

No que diz respeito aos efeitos do esquema tand VI DRH, a introdução desse esquema produziu efeitos diferenciados nos dois tipos de tentativas (Figura 2). Em TS-, a produção de S- ocorreu em praticamente todas as oportunidades, independentemente do valor do DRH, do início ao fim de cada condição experimental. Distintamente, em TS+, a produção de S+ tendeu a ser sempre menor do que a de S-, em todos os valores de IRTs. Entretanto, sob DRH 0,2 s, os efeitos foram acentuados e marcaram ainda mais as diferenças entre a produção de S+ e S-, sendo a primeira mais elevada do que a segunda.

A análise da distribuição de intervalos entre respostas (Figura 3) revelou dados muito semelhantes entre dois dos três sujeitos (Pombos 32 e 36), os quais iniciaram com tand VI DRH para a produção de S+. Para esses dois sujeitos, a primeira exposição ao DRH (Fase 2) afetou os intervalos entre respostas nas fases seguintes, sem, no entanto, alterar necessariamente o número de respostas, haja vista o aumento elevado no número de IRTs na vigência do DRH 0,2 s. Os dados do Pombo 37, distintamente dos demais, mostraram uma concentração de IRTs entre 0,2-0,4 s ao longo de todas as fases experimentais, sob todos os valores de DRH empregados.

Em suma, os resultados desse experimento alinham-se àqueles obtidos por Tomanari (2001b) ao descrever condições cujas respostas de observação são mantidas pela produção do estímulo discriminativo de ausência de comida. As exigências do DRH 0,2 s tenderam a ser cumpridas quando S-, mas não S+, era a conseqüência do responder. Os resultados parecem divergir daqueles obtidos por Blanchard (1975) e Tomanari et al. (1998) na medida em que, nesses dois estudos, a produção de S- era baixa sob tand VI DRL. Entretanto, analisada à luz do número de respostas, os dados de Tomanari et al. (1998) apontaram um responder elevado sob DRL nas tentativas TS-, o qual terminava por estender marcadamente a duração total da tentativa. Portanto, a freqüência de respostas em TS- sob tand VI DRL, tand VI FR e tand VI DRH tendeu a ser normalmente mais elevada do que em VI. Para compreender esse responder aparentemente indiferenciado nesses esquemas é necessário analisar o papel dos esquemas VI e tandem como discriminativos, em si, das tentativas TS+ e TS-.

Características específicas de esquemas de reforça-mento podem fornecer dicas potencialmente discri-minativas ao organismo (Rilling & McDiarmid, 1965). No presente experimento, é possível que aspectos temporais do esquemas VI e tandem VI DRH tenham constituído fatores preponderantes para a discriminação entre os dois tipos de tentativas. Sob esquema tandem, as apresentações do estímulo discriminativo aconteciam mais tardiamente nas tentativas. Devido a tal diferença na distribuição temporal de apresentação dos estímulos nas tentativas, uma estimulação discriminativa das tentativas passou a estar disponível aos sujeitos ainda na presença do disco iluminado pela cor branca. Ou seja, a passagem do tempo nas tentativas, sem que ocorresse mudança na cor do disco de respostas (dado que as respostas de observação fossem emitidas), podia diferenciar entre a vigência do esquema tandem e do VI. Devido ao fato de a presente análise envolver dois conjuntos de estímulos discriminativos, um originado pelo próprio desempenho dos pombos no esquema tandem e o outro pelas diferentes cores do disco, o primeiro conjunto será tratado como estimulação discriminativa e o segundo continuará sendo designado como estímulos discriminativos das tentativas TS+ e TS-.

A estimulação gerada pelo desempenho dos sujeitos em esquema tandem e os estímulos discriminativos das tentativas (S+ e S-) deveriam compartilhar funções discrimi-nativas semelhantes. Em ambos os casos, a correlação entre os estímulos discriminativos e o tipo de tentativa em vigor era alta (quando gerados pelo desempenho em tandem) ou perfeita (quando foram apresentados os estímulos discriminativos no disco de respostas). Assim como S+ e S- (cores do disco) exerceram um claro e diferenciado controle sobre as respostas de observação, é possível que uma estimulação similarmente discriminativa tenha exercido um controle comparável sobre o responder nas tentativas TS+ e TS- mesmo na presença do estímulo do esquema misto.

A aqui chamada estimulação discriminativa produzida pelo esquema tandem pode ter atuado, não apenas sobre as respostas ao disco (respostas de observação), mas também sobre outras respostas (Green & Rachlin, 1977; Rand, 1977), por exemplo, sobre respostas direcionadas ao comedouro, as chamadas respostas preparatórias (Perkins, 1968). Segundo Perkins (1968), respostas preparatórias são respostas mantidas pela otimização no consumo do reforço (por exemplo, a salivação facilitando o comer) ou pela minimização da exposição a estímulos aversivos (por exemplo, enrijecimento muscular quando o sujeito é exposto ao choque).

Baseando-se na possibilidade de ocorrência de res-postas preparatórias, uma estimulação correlacionada às tentativas TS+ pode ter estabelecido a ocasião para a ocorrência de respostas dirigidas ao comedouro. Elas provocariam uma diminuição na freqüência de respostas ao disco, uma vez que são respostas concorrentes. E, se isto de fato ocorreu, poderíamos compreender, finalmente, a menor freqüência de produção de S+, em relação a S-, em esquema tandem, não apenas nos dados sob tand VI DRH do presente estudo, como também sob tand VI FR (Tomanari, 2001b). Os dados de Tomanari et al. (1998) são compatíveis com interpretação semelhante. Em esquema tand VI DRL, nas tentativas TS+, as respostas preparatórias concorrentes com as respostas de observação teriam favorecido o cumprimento dos requisitos do esquema de baixa taxa de respostas. A maior freqüência de produção de S+ poderia, por essa razão, ter sido favorecida.

Finalmente, a análise que considera a interação entre respostas preparatórias e as respostas de observação sugere fatores que teriam influenciado a menor freqüência de produção de S+ em relação a S-. No entanto, esta interpretação não fornece elementos para se compreender, efetivamente, a emissão de respostas que geraram a apresentação de S- sob tand VI DRH e tand VI FR, porém evitaram-na sob tand VI DRL. Na ausência da identifi-cação das variáveis críticas, tentativas de interpretar o controle do responder pela produção ou esquiva de S- mostra-se extremamente frágil.

O procedimento básico empregado no presente estudo merece novos investimentos, pois oferece condições experimentais que, sob reforçamento independente de resposta, mantêm contingências que não apenas levam à emissão de respostas de observação sob controle das conseqüências, como também geram, em particular, a emissão do estímulo discriminativo de ausência de comida. No entanto, a manipulação dos esquemas como forma de avaliar as funções de S+ e S- requer que se consi-dere a possibilidade aqui identificada de que sejam introduzidos eventos potencialmente discriminativos que afetem a análise das respostas de observação ao colocá-las, não apenas sob efeito de suas conseqüências, mas também, elas próprias, sob controle de estímulos.

Recebido: 23/01/2009

1ª revisão: 22/03/2010

Aceite final: 30/04/2010

  • Allen, K. D., & Lattal, K. A. (1989). On conditional reinforcing effects of negative discriminative stimuli. Journal of the Experimental Analysis of Behavior, 52, 335-339.
  • Berlyne, D. E. (1957). Uncertainty and conflict: A point of contact between information theory and behavior concepts. Psychological Review, 64, 329-333.
  • Blanchard, R. (1975). The effect of S- on observing behavior. Learning and Motivation, 6, 1-10.
  • Brown, P. L., & Jenkins, H. M. (1968). Auto-shaping of the pigeon's key-peck. Journal of the Experimental Analysis of Behavior, 11, 1-8.
  • Carvalho, S. G., & Machado, L. M. C. M. (1992). Esquemas mistos e múltiplos concorrentes: Uma reavaliação da resposta de observação. Acta Comportamentalia, 109-144.
  • Case, D. A., & Fantino, E. (1981). The delay-reduction hypothesis of conditioned reinforcement and punishment: Observing behavior. Journal of the Experimental Analysis of Behavior, 35, 93-108.
  • Case, D. A., Fantino, E., & Wixted, J. (1985). Human observing maintained by negative informative stimuli only if correlated with improvement in response efficiency. Journal of the Experimental Analysis of Behavior, 43, 289-300.
  • Case, D. A., Ploog, B. O., & Fantino, E. (1990). Observing behavior in a computer game. Journal of the Experimental Analysis of Behavior, 54, 185-199.
  • Dinsmoor, J. A. (1983). Observing response and conditioned reinforcement. Behavioral and Brain Sciences, 6, 693-704.
  • Dinsmoor, J. A. (1995a). Stimulus control - Part I. The Behavior Analyst, 18, 51-68.
  • Dinsmoor, J. A. (1995b). Stimulus control - Part II. The Behavior Analyst, 18, 253-269.
  • Dinsmoor, J. A., Bowe, C. A., Green, L., & Hanson, J. (1988). Information on response requirements compared with information on food density as a reinforcer of observing in pigeons. Journal of the Experimental Analysis of Behavior, 49, 229-237.
  • Dinsmoor, J. A., Mulvaney, D. E., & Jwaideh, A. R. (1981). Conditioned reinforcement as a function of duration of stimulus. Journal of the Experimental Analysis of Behavior, 36, 41-49.
  • Fantino, E. (1977). Conditioned reinforcement: Choice and information. In W. K Honig & J. E. R. Staddon (Eds.), Handbook of operant behavior (pp. 313-339). New York: Prentice Hall.
  • Fantino, E., & Case, D. A. (1983). Human observing: Maintained by stimuli correlated with reinforcement but not extinction. Journal of the Experimental Analysis of Behavior, 40, 193-210.
  • Fantino, E., Case, D. A., & Altus, D. (1983). Observing reward-informative and uninformative stimuli by normal children of different ages. Journal of the Experimental Analysis of Behavior, 36, 437-452.
  • Fantino, E., & Logan, C. A. (1979). The experimental analysis of behavior: A biological perspective San Francisco: Freeman.
  • Fantino, E., & Silberberg, A. (2010). Revisiting the role of bad news in maintaining human observing behavior. Journal of the Experimental Analysis of Behavior, 93, 157-170.
  • Fleshler, C. B., & Hoffman, H. S. (1962). A progression for generating variable interval schedules. Journal of Experimental Analysis of Behavior, 5, 529-530.
  • Gaynor, S. T., & Shull, R. L. (2002). The generality of selective observing. Journal of the Experimental Analysis of Behavior, 77, 171-187.
  • Green, L., & Rachlin, H. (1977). Pigeon's preference for stimulus information: Effects of amount of information. Journal of Experimental Analysis of Behavior, 27, 255-263.
  • Hendry, D. P. (1969). Introduction. In D. P. Hendry (Ed.), Conditioned reinforcement (pp. 1-33). Homewood, IL: Dorsey.
  • Hendry, D. P. (1983). Uncertainty, information, observing. Behavioral and Brain Sciences, 6, 708-709.
  • Jenkins, H. M., & Boakes, R. A. (1973). Observing stimulus sources that signal food or not food. Journal of the Experimental Analysis of Behavior, 20, 197-207.
  • Jwaideh, A. R., & Mulvaney, D. E. (1976). Punishment of observing by a stimulus associated with the lower of two reinforcement densities. Learning and Motivation, 7, 211-222.
  • Lieberman, D. A. (1972). Secondary reinforcement and infor-mation as determinants of observing behavior in monkeys (Macaca mulatta). Learning and Motivation, 3, 341-358.
  • Lieberman, D. A., Cathro, S. S., Nichol, K., & Watson, E. (1997). The role of S- in human observing behavior: Bad news is sometimes better than no news. Learning and Motivation, 28, 20-42.
  • Madden, G. J., & Perone, M. (1999). Human sensitivity to concurrent schedules of reinforcement: Effects of observing schedule-correlated stimuli. Journal of the Experimental Analysis of Behavior, 71, 303-318.
  • Mueller, K. L., & Dinsmoor, J. A. (1984). Testing the reinforcement properties of S-: A replication of Lieberman's procedure. Journal of the Experimental Analysis of Behavior, 41, 17-25.
  • Mueller, K. L., & Dinsmoor, J. A. (1986). The effect of negative stimulus presentations on observing-response rates. Journal of the Experimental Analysis of Behavior, 46, 281-291.
  • Mulvaney, D. E., Dinsmoor, J. A., Jwaideh, A. R., & Hughes, L. H. (1974). Punishment of observing by the negative discriminative stimulus. Journal of the Experimental Analysis of Behavior, 21, 37-44.
  • Perkins, C. C., Jr. (1968). An analysis of concept of reinfor-cement. Psychological Review, 75, 155-172.
  • Perone, M., & Baron, A. (1980). Reinforcement of human observing behavior by stimulus correlated with extinction or increased effort. Journal of the Experimental Analysis of Behavior, 34, 239-261.
  • Preston, G. C. (1985). Observing responses in rats: Support for the secondary reinforcement hypothesis. The Quarterly Journal of Experimental Psychology, 37B, 23-31.
  • Rand, J. F. (1977). Behaviors observed during S- in a simple discrimination learning task. Journal of the Experimental Analysis of Behavior, 27, 103-117.
  • Rilling, M., & McDiarmid, C. (1965). Signal detection in fixed-ratio schedules. Science, 148, 526-527.
  • Roger, K. L., & Zentall, T. R. (1999). Observing behavior in pigeons: The effect of reinforcement probability and response cost using a symmetrical choice procedure. Learning and Motivation, 30, 201-220.
  • Schaal, D. W., Odum, A. L., & Shahan, T. A. (2000). Pigeons may not remember the stimuli that reinforced their recent behavior. Journal of the Experimental Analysis of Behavior, 73, 125-139.
  • Schrier, A. M., Thompson, C. R., & Spector, N. R. (1980). Observing behavior in monkeys (Macaca arctoides): Support for the information hypothesis. Learning and Motivation, 11, 355-365.
  • Tomanari, G. Y. (2001a). Reforçamento condicionado. Revista Brasileira de Terapia Comportamental e Cognitiva, 1, 61-77.
  • Tomanari, G. Y. (2001b). Respostas de observação controladas por estímulos sinalizadores de reforçamento e extinção. Acta Comportamentalia, 2, 119-143.
  • Tomanari, G. Y. (2004). Human observing behavior maintained by S+ and S-: Preliminary data. International Journal of Psychology and Psychological Therapy, 4, 155-163.
  • Tomanari, G. Y. (2008). Resposta de observação: As principais questões na área analisadas a partir de três experimentos com pombos Tese de Livre-Docência não-publicada, Instituto de Psicologia, Universidade de São Paulo, SP.
  • Tomanari, G. Y., Machado, L. M. C., & Dube, W. V. (1998). Pigeons' observing responses and response-independent food presentations. Learning and Motivation, 29, 2, 249-260.
  • Williams, B. W. (1994). Conditioned reinforcement: Experimental and theoretical issues. The Behavior Analyst, 17, 261-285.
  • Wyckoff, L. B. (1952). The role of observing responses in discrimination learning - Part I. Psychological Review, 59, 431-442.
  • Wyckoff, L. B. (1969). The role of observing responses in discrimination learning. In D. P. Hendry (Ed.), Conditioned reinforcement (pp. 237-260). Homewood, IL: Dorsey Press.
  • *
    Endereço para correspondência: Universidade de São Paulo, Instituto de Psicologia, Departamento de Psicologia Experimental, Avenida Professor Mello Moraes, 1721, Butantã, São Paulo, SP, Brasil, CEP 05508-030. E-mail:
    Este artigo teve origem na tese de livre docência do autor (Tomanari, 2008). A realização da pesquisa contou com auxílios financeiros da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) e Conselho Na-cional de Desenvolvimento Científico e Tecnológico (CNPq), bem como com uma bolsa de produtividade em pesquisa do CNPq.
  • 1
    As Condições 4a e 4b contiveram nove sessões, pois uma sessão precisou ser descartada.
  • Datas de Publicação

    • Publicação nesta coleção
      25 Out 2011
    • Data do Fascículo
      2011

    Histórico

    • Revisado
      22 Mar 2010
    • Recebido
      23 Jan 2009
    • Aceito
      30 Abr 2010
    Curso de Pós-Graduação em Psicologia da Universidade Federal do Rio Grande do Sul Rua Ramiro Barcelos, 2600 - sala 110, 90035-003 Porto Alegre RS - Brazil, Tel.: +55 51 3308-5691 - Porto Alegre - RS - Brazil
    E-mail: prc@springeropen.com