Melhoria da qualidade da informação organizacional pela agregação de resumo: análise de softwares geradores de resumo (summarizers)

De Sordi, José Osvaldo; Meireles, Manuel

doi:10.1590/S0100-19652009000100007

Resumos

A concisão é característica central da informação de qualidade, sendo o resumo o principal recurso para sua atribuição à informação organizacional. O resumo proporciona aos pesquisadores rápida compreensão da informação, melhora os níveis de acesso e utilização dos acervos de informações corporativas. A pesquisa avaliou a capacidade de softwares para geração automática de resumos (softwares resumidores) em selecionar as unidades de texto que expressem as ideias centrais em informações textuais extensas. Geraram-se, a partir desses, resumos para um artigo amplamente conhecido; estes, em conjunto com o resumo original do autor, foram avaliados por 20 pesquisadores, profundos conhecedores do texto. Observou-se que o autor humano apresenta qualidade superior, porém o nível de qualidade dos resumos gerados pelas novas gerações de softwares resumidores permite considerá-los como ferramentas importantes aos centros de informações organizacionais que necessitam agregar valor às suas coleções de informações.

Qualidade da informação; Resumo; Summarizer; Informação; Informação corporativa

Accuracy is an essential characteristic of quality information. And the summary is the main resource for organizational information. The summarty provides the researchers with a quick understanding of information, improves the levels of access and utilization of collections of corporative information. The research evaluated the capability of software for automatic generation of summaries, for selection of units of text which express the central ideas in extensive textual information. Therefrom, summaries have been generated for a widely known article. Together with the author's original summary, they were refereed by twenty expert ressearchers. Human authors present higher quality summaries, but the quality level of summaries created by the new generations of software summarizers enables them to be considered as important tools for the centers of organizational information that have to add aggregate values to their information collections.

Quality of information; Summary; Summarizer; Information; Corporative information

ARTIGOS

José Osvaldo De Sordi^I; Manuel Meireles^II

^IDocente-pesquisador do programa de mestrado em administração da Universidade Municipal de São Caetano do Sul (USCS) E-mail: de.sordi@terra.com.br

^IIDocente-pesquisador do programa de mestrado em administração da Faculdade Campo Limpo Paulista (FACCAMP) E-mail: profmeireles@uol.com.br

RESUMO

A concisão é característica central da informação de qualidade, sendo o resumo o principal recurso para sua atribuição à informação organizacional. O resumo proporciona aos pesquisadores rápida compreensão da informação, melhora os níveis de acesso e utilização dos acervos de informações corporativas.

A pesquisa avaliou a capacidade de softwares para geração automática de resumos (softwares resumidores) em selecionar as unidades de texto que expressem as ideias centrais em informações textuais extensas. Geraram-se, a partir desses, resumos para um artigo amplamente conhecido; estes, em conjunto com o resumo original do autor, foram avaliados por 20 pesquisadores, profundos conhecedores do texto. Observou-se que o autor humano apresenta qualidade superior, porém o nível de qualidade dos resumos gerados pelas novas gerações de softwares resumidores permite considerá-los como ferramentas importantes aos centros de informações organizacionais que necessitam agregar valor às suas coleções de informações.

Palavras-chave: Qualidade da informação. Resumo. Summarizer. Informação. Informação corporativa.

ABSTRACT

Accuracy is an essential characteristic of quality information. And the summary is the main resource for organizational information. The summarty provides the researchers with a quick understanding of information, improves the levels of access and utilization of collections of corporative information. The research evaluated the capability of software for automatic generation of summaries, for selection of units of text which express the central ideas in extensive textual information. Therefrom, summaries have been generated for a widely known article. Together with the author's original summary, they were refereed by twenty expert ressearchers. Human authors present higher quality summaries, but the quality level of summaries created by the new generations of software summarizers enables them to be considered as important tools for the centers of organizational information that have to add aggregate values to their information collections.

Keywords: Quality of information. Summary. Summarizer. Information. Corporative information.

INTRODUÇÃO

As literaturas sobre comunicação organizacional apontam uma situação paradoxal: embora se vivencie um período sem precedentes em termos de disponibilidade e abundância de informações nas organizações - em decorrência da evolução das tecnologias de informação e comunicação (TICs) -, a informação útil e relevante é quase sempre muito difícil de ser encontrada quando necessária (EDMUNDS; MORRIS, 2000). Parte significativa do problema reside na ênfase das organizações em atividades de captura e geração da informação, em detrimento ao desenvolvimento da cultura de observância aos aspectos pertinentes à qualidade da informação (EPPLER, 2006).

A discussão sobre qualidade da informação é uma atividade bastante árdua, complexa e de muita controvérsia. No meio científico-acadêmico, há muitas percepções, mas ainda não convergem para o consenso. Apresentam-se, a seguir, percepções de alguns autores que demonstram essa dificuldade.

A qualidade da informação constitui-se num conceito problemático. [...] não há consenso na literatura sobre definições teóricas e operacionais da qualidade da informação. Há uma alusão recorrente entre autores interessados no tema de que as definições de qualidade de informação são ambíguas, vagas ou subjetivas (PAIM; NEHMY; GUIMARÃES, 1996, p. 112).

Qualquer critério de avaliação da qualidade da informação é, por natureza, subjetivo. É praticamente impossível encontrar um critério de mensuração simples, preciso e satisfatório (SCHWUCHOW, apud PAIM; NEHMY; GUIMARÃES, 1996, p. 114).

A informação nunca será exata porque depende do contexto; nunca está isolada, tem vida própria e sua qualidade depende da visão, do nível de conhecimento, da interpretação de seu receptor. A busca da qualidade total da informação é similar à busca do eldorado (CASANOVA, apud PAIM; NEHMY; GUIMARÃES, 1996, p. 114).

Tal dificuldade não deve ser motivo para que a questão da qualidade da informação não seja considerada do ponto de vista da administração; pelo contrário, deve ser um estímulo ao seu estudo e compreensão em decorrência da importância crescente desse ativo à competitividade das organizações. Segundo Oleto (2006), os usuários do ambiente informacional carecem de referenciais teóricos que tragam os conceitos de qualidade da informação para o cotidiano do ambiente das organizações. Os usuários das informações não possuem "a experiência de pensar a informação a partir de sua qualidade (OLETO, 2006, p. 61).

Pesquisas sobre qualidade da informação abrangem taxionomia sobre a natureza e agrupamento de dimensões pertinentes. Há muitas formas de categorização das dimensões da qualidade da informação. Garvin (1988), Salmela (1997), Tozer (1999) e Huang et al. (1999) são alguns dos autores que esquematizaram diferentes conjuntos de dimensões. Huang et al. (1999), por exemplo, desenvolveram uma lista de 15 dimensões para análise da informação, classificadas em quatro categorias:

qualidade intrínseca - acurácia, objetividade, credibilidade e reputação;

qualidade de acessibilidade - acesso e segurança;

qualidade contextual - relevância, valor agregado, economia de tempo, completude e quantidade de dados;

qualidade representacional - interpretabilidade, facilidade de uso, representação concisa e representação consistente.

O objeto da presente pesquisa aborda uma das dimensões da qualidade da informação, mais especificamente a concisão da informação. Para Eppler (2006), a concisão da informação parte do conceito de "integrador da informação", que abrange qualquer mecanismo cognitivo ou automático que melhore a concisão, a compreensão, a conveniência e o acesso informação. Isso obtido pela eliminação de elementos não necessários à informação, pela criação de resumo ou agregação de fontes de informação. Eppler (2006) destaca 15 mecanismos integradores da informação, entre eles os diagramas, as tabelas, as categorizações, os meios estatísticos e, entre outros, os resumos, que constituem o meio mais direto de condensação ou compressão da informação.

No ambiente das organizações, a informação capturada e explicitada é predominantemente textual. Embora a condensação da informação seja uma das atividades que mais agregue valor, no sentido de torná-la mais compreensível, conveniente e acessível, tal atividade é pouco exercitada no ambiente organizacional (DAVENPORT, 1997). Isso configura um problema ao ambiente organizacional, em termos de qualidade das informações disponibilizadas, caracterizado por muitos relatórios e documentos textuais extensos, desprovidos de resumos. Trabalhadores do conhecimento destas organizações, que necessitam manipular conteúdo, convivem com o problema de terem de pesquisar e selecionar informações, em sua maioria sem resumos, em meio a grandes volumes dessas. Deste cenário, configurou-se o problema da presente pesquisa: os softwares para geração automática de resumos (softwares resumidores) podem ser considerados como alternativa para suprir a carência de resumos dos relatórios e demais documentos textuais extensos que predominam no ambiente informacional corporativo?

As organizações que, efetivamente, gerenciam e utilizam a informação estrategicamente têm como prática a autorização, motivação e capacitação de seus colaboradores no sentido de atuarem como trabalhadores do conhecimento, ou seja, como agentes que agregam valor às informações. Dentro deste propósito está a observância à concisão da informação, que implica a responsabilidade de desenvolver e publicar um resumo para cada nova informação textual e extensa disponibilizada à comunidade da organização.

Para que uma ferramenta seja efetiva no apoio ao trabalhador do conhecimento com relação à atividade concisão da informação, ela não deve simplesmente se ater aos cortes de textos a fim de torná-los sucintos, mas, principalmente, desempenhar a importante tarefa cognitiva de seleção das principais ideias do texto. Desta premissa, identificou-se o objetivo da pesquisa: analisar a capacidade dos softwares resumidores em selecionar as unidades de texto que efetivamente expressem as principais ideias contidas em extensas informações textuais.

REFERENCIAIS TEÓRICOS

Resumos e abstracts

Para Eppler (2006), a

informação de alta qualidade deve ser condensada ou comprimida (tornando-a compreensiva, concisa, conveniente e acessível), a fim de prover ao consumidor da informação uma visão geral antes dos detalhes serem apresentados (EPPLER, 2006, p.106).

Ele destaca ainda que o resumo é a forma mais direta de condensação ou compressão da informação e deve ser capaz de prover as seguintes informações ao leitor: quem disse o que (e para quem), quando, onde, por que e com quais resultados ou conclusões. O autor destaca, também, o que não deve estar incluso nos resumos: exemplos, formalidades, repetições, aspectos de menor importância e fatos genéricos já conhecidos.

No contexto da informação científica, o resumo é denominado abstract. Há muitas tipologias e classificações a respeito de abstracts, porém há consenso com relação a importante aspecto do abstract nestes estudos taxionômicos: sobre a forma de abordar ou não as conclusões e achados da pesquisa descrita no texto. Dessa situação, identificam-se dois tipos de abstract: o informativo, que declara os achados e conclusões da pesquisa, e o descritivo, que não os declara (TENOPIR; JACSO, 1993). Muitos autores e pesquisadores estabelecem a seguinte vinculação: abstracts informativos aplicados à descrição de pesquisas originais, como as encontradas em teses e artigos científicos; abstracts descritivos associados a documentos extensos, propostas para conferências, relatórios de campo e relatórios empresariais (DECEMBER; MURPHY, 2008). As normas técnicas brasileiras especificam os dois tipos de resumos, a única diferença é a identificação do abstract descritivo, denominado abstract indicativo (ASSOCIAÇÃO, 2003).

Resumos bem elaborados de informações extensas, por exemplo, de relatórios contendo muitas páginas, agregam muito valor à informação. Eles aceleram o processo de conscientização do provável leitor quanto ao conteúdo da informação e, consequentemente, facilitam a tomada de decisão no que tange à leitura ou não da informação. É por essa razão que a gestão da qualidade da informação recomenda que o atributo "resumo" ou "descrição" deva estar entre os atributos de identificação da informação, como "título", "data da criação", "responsável" e "palavras-chave".

Softwares para geração automática de resumos (automatic text summarization softwares ou softwares resumidores)

A contínua evolução e integração das tecnologias de telecomunicações e informática estão promovendo alterações significativas no contexto da sociedade, das organizações e dos indivíduos. O volume crescente de informações disponíveis à sociedade eleva a complexidade das atividades de busca e seleção de informações. Dentro dessa nova realidade, o conceito de "pessoa bem informada" alterou-se: não se trata mais daquela que possui maior volume de informações, mas, sim, da que possui os melhores e mais eficazes meios para obtenção e assimilação (consumo) das informações estritamente necessárias (ROCA, 2001).

Para atender aos desafios do novo ambiente informacional, diversos algoritmos foram desenvolvidos e disponibilizados na forma de softwares, a fim de serem utilizados como ferramentas de suporte aos trabalhadores da informação e do conhecimento. Dentro desse contexto, estão os softwares que desempenham funções pertinentes: a busca/recuperação de informação em bases de dados extensas, a tradução de textos para diferentes idiomas, a classificação e indexação de entidades de informação que facilitam futuras recuperações, o desenvolvimento de resumos para textos extensos (summarizers), entre outros.

Segundo Robb (2007, p. 29) os "summarizers são necessários para criação de resumos de documentos que auxiliam os usuários a decidir se realizam ou não o download do mesmo". A definição foi concebida considerando leitores do ambiente Internet, abrangendo desde o conteúdo das páginas Internet (web sites) até documentos textuais disponíveis na rede. Os summarizers aplicam-se a documentos textuais que estejam no formato digital, independentemente de localidade, seja na grande rede mundial Internet ou em pen drive pessoal, operacionalmente basta indicar ao software resumidor o diretório do texto a ser resumido.

Assim com os demais softwares que trabalham textos (classificação, recuperação, tradução, revisão ortográfica e gramatical), os softwares resumidores também utilizam intensivamente teorias e técnicas de processamento da linguagem natural (NLP). Isso implica dizer que tais softwares podem combinar técnicas para análise de texto a partir de distintos aspectos observáveis: da morfologia, da sintaxe, da semântica, do discurso e da prática (FELDMAN, 1999). A disponibilidade ou não dessas técnicas nos algoritmos são utilizadas para definir taxionomias para softwares resumidores. Roca (2001) descreve três categorias: baseada nas aparências superficiais do texto, sem análises mais profundas, nesta modalidade nenhuma análise linguística é executada; baseada nas entidades nomeadas no texto, nesta já há algum tipo de reconhecimento léxico e classificação; baseada na estrutura do discurso, que emprega alguma espécie de estrutura, normalmente da linguística, para processamento do documento.

A categoria baseada nas aparências superficiais do texto é a mais comumente encontrada em softwares comerciais (não científicos). Eles geralmente trabalham com frequências estatísticas para identificar repetições de trechos de textos (strings) e símbolos; os termos que apresentarem maior frequência serão considerados na lista de extratos do texto a serem considerados para composição resumo. Outros parâmetros empregados pelos softwares resumidores baseados na aparência superficial do texto são os seguintes: a) direcionamento pela natureza do texto a ser resumido (jornalístico, acadêmico, organizacional), por exemplo, em textos de jornais os primeiros parágrafos são mais importantes, no texto acadêmico há seção de conclusão e assim por diante; b) busca por palavras-chave, com atribuição destas a partir das palavras encontradas nos títulos e subtítulos; c) busca por palavras-chave a partir de lista de palavras com valor semântico sugestivo de elementos importantes do texto, como "em resumo", "sintetizando", "concluindo", "importante destacar".

Softwares resumidores que utilizam algoritmo baseado nas entidades nomeadas leem e analisam conjunto de caracteres para identificação de substantivos, verbos e demais unidades da língua. Os recursos de reconhecimento sintático e semântico são diversificados. Dependendo da complexidade e exatidão do método empregado, podem identificar entidades e seus relacionamentos. A partir disso, pode-se construir uma representação de conectividade entre partes do texto, de tal forma que o sistema possa decidir quais partes do texto (sentenças) são mais relevantes para composição do resumo.

Algoritmos baseados na estrutura do discurso utilizam recursos linguísticos e técnicas mais complexas, como as relativas à descoberta de marcadores do discurso, tal como conectores ou advérbios, o que permite construir e analisar a estrutura retórica vinculada ao texto.

Trabalhador da informação e trabalhador do conhecimento

Os termos knowledge worker e information worker são empregados por Rybczynski (2007). Segundo ele, os primeiros caracterizam-se por apresentar como função primária a criação de conhecimento, gerado por intermédio de trabalho colaborativo e cognitivo. Quanto aos information workers, caracterizam-se por ter a informação como parte do processo que constitui o seu fluxo de trabalho, ou seja, inclui atividade cognitiva, mas não é o foco primário do seu trabalho. Como exemplo de knowledge workers, Rybczynski cita analistas financeiros, executivos e pesquisadores. Quanto aos information workers, ele aponta como exemplo professores, enfermeiras, operadores de call center e atendentes de agências bancárias.

Desouza e Awazu (2006) utilizaram o termo radical knowledge workers para identificar aqueles que desenvolvem trabalho inovativo e utilizam intensivamente o recurso conhecimento. Embora não citem exemplos destes, dão exemplo daqueles que não o são, indicando os operadores de call center como trabalhadores da informação padrão ou standard knowledge workers. Estes apresentam como principal característica a realização de tarefas padronizadas.

O exemplo clássico para distinguir trabalhadores da informação de trabalhadores do conhecimento são as diferenças entre as atividades e competências requeridas ao docente-pesquisador e o docente (RYBCZYNSKI, 2007; DESOUZA; AWAZU, 2006). Ambos devem ter as competências requeridas ao docente como os próprios nomes indicam, ou seja, devem ter competências relacionadas à busca de informações e conhecimentos relevantes que lhe permitam realizar a atividade de obtenção dos conhecimentos ou conteúdos para suas disciplinas, devem ter competências de comunicação que lhe deem eficácia na atividade de distribuição/compartilhamento do seu conteúdo, entre outras competências. O aspecto diferencial entre eles está na capacidade de criação, de geração de novos conhecimentos, competência requerida, exclusivamente, do docente-pesquisador. Resumidamente, tem-se que o elemento diferenciador entre o trabalhador do conhecimento e o trabalhador da informação é a capacidade de criação de conhecimento.

METODOLOGIA

O método de pesquisa é qualitativo e consistiu em selecionar o artigo How Competitive Forces Shape Strategy (PORTER, 1979), um dos artigos mais referenciados no campo administração, e gerar quatro abstracts por meio de distintos softwares resumidores (S1, S2, S4 e S5). Os quatro abstracts juntados ao original, elaborado pelo autor do artigo, identificado como S3, foram submetidos a julgamento de trabalhadores do conhecimento que exerceram o papel de juízes, dado que procederam à avaliação da qualidade dos abstracts.

Amostra

A amostra dos respondentes foi constituída de forma intencional, na medida em que os sujeitos foram selecionados em razão de atributos específicos: pesquisadores e autores de textos científicos sobre estratégia no qual referencie o artigo How Competitive Forces Shape Strategy. Para identificação de respondentes internacionais, aplicaram-se tais critérios aos artigos científicos disponíveis nas bases de dados de periódicos ProQuest e EBSCO. Para identificar respondentes nacionais, aplicaram-se os mesmos critérios aos artigos publicados em revistas científicas brasileiras, citadas e classificadas como Nacional "A" pelo comitê de avaliação da área de administração, ciências contábeis e turismo da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes).

Para cada profissional selecionado a partir dos critérios, encaminhou-se correspondência eletrônica (e-mail) convidando-o a participar como avaliador da pesquisa. A comunicação está descrita no quadro 1, a seguir. A amostra final foi constituída por 20 profissionais, sendo seis brasileiros, que avaliaram os cinco abstracts.

Coleta

A coleta das avaliações foi feita por meio de um questionário de opiniões e atitudes, que requeria para cada abstract uma pontuação a ser atribuída pelo juiz, como pode se verificar no quadro 2, a seguir. Observa-se que o questionário não indica a autoria dos abstracts, concebidos, respectivamente, pelas seguintes entidades:

S1. gerado pelo software Intellexer Summarizer - Trial Version (outubro de 2008), desenvolvido pela EffectiveSoft Ltd.;

S2. gerado pelo software Copernic Summarizer - Version 2.1, desenvolvido pela Copernic Technologies Inc.;

S3. desenvolvido pelo próprio autor do artigo: Michael Porter;

S4. gerado pelo software Clearly Understood - Standard Version 1.6.1.0, desenvolvido pela Clearly Understood Inc.;

S4. gerado pelo software Office Word (função Auto Resumo) - Professional 2003, desenvolvido pela Microsoft.

O critério para seleção dos softwares resumidores foi a disponibilidade de versão de testes para download via Internet, exceto para o software editor de texto Office Word (função Auto Resumo), cujo critério foi sua ampla difusão no contexto das organizações.

Além de parâmetros para indicação do tamanho do resumo a ser gerado, alguns dos softwares resumidores testados permitiam a introdução de outros parâmetros. São eles Intellexer Summarizer, com a opção tipo de texto, assinalado como "texto científico"; Clearly Understood, que permitia a introdução de palavras-chave do texto a ser resumido, às quais foram fornecidas: "strategy formulation, five forces, new entrants, buyers, suppliers, substitute products, competitors".

É sabido que a medição de opiniões e de atitudes requer processo especial, pois trata da quantificação de elementos com características nitidamente subjetivas. Uma atitude é essencialmente a disposição mental em face de uma ação potencial (MANN, 1970); uma opinião representa uma posição mental consciente, manifesta, sobre algo ou alguém (ANDER-EGG, 1978). Tanto as atitudes quanto as opiniões carecem de ação, e isto dificulta a sua métrica: atribuição de números a parâmetros descritores de objetos, ou acontecimentos ou situações, de acordo com certa regra (KAPLAN,1975).

Quando não se dispõe de processo direto de medição - e isso ocorre usualmente com aspectos subjetivos -, é necessário recorrer ao uso de escalas. A escala é um instrumento científico de observação e mensuração de fenômenos sociais. Ander-Egg (1978) esclarece que a escala foi idealizada com a finalidade de medir a intensidade das atitudes e opiniões na forma mais objetiva possível.

Há diversos tipos de escalas, inúmeras técnicas que transformam uma série de fatos qualitativos em fatos quantitativos ou variáveis, às quais se podem aplicar processos de mensuração e de análise estatística. Em Marconi e Lakatos (1986), pode-se encontrar algumas. Ander-Egg (1978) indica seis tipos de escalas: (1) de ordenação (de pontos, de classificação direta e de comparações binárias); (2) de intensidade; (3) de distância social (de Bogardus; de Dood; de Crespi); (4) de Thurstone; (5) de Guttman e (6) de Likert. A escala utilizada na presente pesquisa é a de pontos.

Variáveis

A principal variável da pesquisa é a pontuação atribuída pelos juízes aos abstracts expressando a opinião quanto à qualidade deles, e é uma variável qualitativa ordinal (pontuação de 1 a 5). Na medida em que a principal variável é qualitativa ordinal, apenas é possível aplicar testes não paramétricos.

Instrumentos de análise

Os métodos não paramétricos podem ser aplicados a ampla diversidade de situações, porque não exigem populações distribuídas normalmente. Ao contrário dos métodos paramétricos, os não paramétricos podem frequentemente ser aplicados a dados não numéricos. Os métodos não paramétricos em geral envolvem cálculos mais simples do que seus correspondentes paramétricos, sendo, assim, mais fáceis de entender. Os métodos não paramétricos tendem a perder informação, porque os dados numéricos são frequentemente reduzidos a uma forma qualitativa. Os testes não paramétricos não são tão eficientes quanto os testes paramétricos; com um teste não paramétrico, em geral necessitamos de amostra maior ou maiores diferenças para então rejeitarmos uma hipótese nula (SIEGEL,1959).

O teste K-S (Kolmogorov-Smirnov) é muito parecido com o teste Qui-quadrado, no dizer de Baquero (1970). Um dos elementos específicos do teste K-S é a acumulação das frequências obtidas em determinada amostra, sob o princípio de que, se as amostras forem tiradas da mesma população, deve-se esperar que as frequências acumuladas sejam iguais. Segundo Siegel (1959), o teste Kolmogorov-Smirnov determina se os valores da amostra podem razoavelmente ser considerados como provenientes de população com determinada distribuição teórica, e isso é feito determinando-se o ponto em que essas duas distribuições - teórica e observada - acusam maior divergência. A prova de Kolmogorov-Smirnov deve ser usada quando se pode admitir que a variável em estudo tenha distribuição contínua. De acordo com Goodman (1954), se esta prova é aplicada quando a distribuição da população é descontínua, o erro resultante é para o lado da segurança, isto é, se H₀ é rejeitada de acordo com tal prova, pode-se ter plena confiança na decisão.

O teste Kruskal-Wallis trata de averiguar se duas ou mais amostras provêm da mesma população. É chamado também teste H. Trata-se de teste extremamente útil para decidir se k amostras (k > 2) independentes provêm de populações com médias iguais. Esse teste só deve ser aplicado se a amostra for pequena e/ou as pressuposições, exigidas para proceder à Análise de Variância, estiverem seriamente comprometidas. Como o de Mann-Whitney, esse teste condiciona que a variável em análise seja medida em escala ordinal ou numérica. Exige variâncias iguais, por isso não deve ser usado se as diferentes amostras têm variâncias muito diferentes, trata-se de um teste unilateral à direita.

Procedimentos

A pesquisa foi realizada adotando-se os seguintes passos:

a) seleção de artigo amplamente difundido internacionalmente com abstract desenvolvido pelo autor;

b) identificação de softwares resumidores com versão para testes disponível na Internet;

c) Geração de quatro abstracts do artigo selecionado no passo um via software resumidores. Na geração, optou-se por parâmetros que pudessem gear abstracts de tamanho similar ao do autor, no caso 100 palavras;

d) identificação de pesquisadores que tenham referenciado em suas publicações relevantes o artigo selecionado no passo um;

e) envio de convite com questionário aos pesquisadores selecionados;

f) recebimento das avaliações feitas pelos juízes;

g) tabulação das respostas, ou seja, das avaliações atribuídas pelos juízes;

h) aplicação de técnicas não paramétricas para verificar se os postos referentes à qualidade dos abstracts gerados pelos softwares resumidores e pelos autores dos artigos diferem significativamente, em especial: a) teste de Kolmogorov-Smirnov e b) teste de Kruskal-Wallis;

i) desenvolvimento de análises e conclusões.

Resultados

A percepção da qualidade dos abstracts pelos juízes é exibida na tabela 1. Nela são apresentadas as avaliações dos 20 juízes aos cinco abstracts: os quatro gerados pelos softwares resumidores e o do autor Michael Porter. Pode-se observar que o abstract produzido por Porter teve avaliações dos tipos 4 e 5 (bom e excelente). O software mais bem avaliado foi o Copernic Summarizer (S2), com moda 3 (regular): "aproximadamente metade das informações selecionadas é relevante, ou seja, exprime ideias centrais contidas no texto".

Thumbnail

A tabela 2, a seguir, exibe as mesmas informações da tabela 1, apenas destacando-se a estratificação dos respondentes. Observar que a avaliação modal dos estrangeiros (me) é igual à avaliação modal dos brasileiros (mb).

Thumbnail

S1 vs. S2 -39.400 *** P<0.001 S1 vs. S3 -64.325 *** P<0.001 S2 vs. S5 40.850 *** P<0.001 S3 vs. S4 40.975 *** P<0.001 S3 vs. S5 65.775 *** P<0.001

O teste Kruskal-Wallis executado no software estatístico GraphPad InStat, versão 3.06, mostrou que, quando se consideram todos os abstracts, há diferença muito significativa entre eles, como mostra a tabela 3, ao nível de significância de 0,0001. Pelo teste de comparações múltiplas para Kruskal-Wallis (Teste de Dunn), foram identi-ficadas diferenças significativas especialmente entre:

Thumbnail

O teste de Dunn é um pós-teste Kruskal-Wallis que compara a diferença na soma de postos entre duas colunas de dados, baseado no número de grupos e o tamanho deles. Para cada par de colunas, é determinado um p value. Se a hipótese nula é verdadeira, todos os dados pertencem à mesma população com idêntica distribuição, pelo que as diferenças entre os grupos são devidas a variações estatísticas das amostras. O teste Dumm, como mostra a tabela 3, indicou que as avaliações dos abstracts gerados por S2 (Copernic Summarizer) e S3 (Michael Porter) diferem significativamente dos demais.

A tabela 4, pelo teste Mann-Whitney, mostra que há uma diferença significativa entre a avaliação do abstract elaborado por Porter (S3) e o mais bem avaliado entre os gerados por softwares resumidores, o S2 (Copernic Summarizer).

Thumbnail

Os abstracts gerados pelos sumarizers S1 (Intellexer Summarizer) e S5 (Office Word) tiveram avaliações que não diferem significativamente, como mostra a tabela 5.

Thumbnail

A análise de agrupamentos traz também ajuda no sentido de identificar a similaridade das avaliações. A análise de agrupamentos é o nome dado ao conjunto de procedimentos que busca reunir objetos em grupos homogêneos (FREI, 2006). Utilizando-se o software PAST, a figura 1 mostra, à esquerda, o dendograma da análise de cluster: observa-se que os softwares resumidores S1 (Intellexer Summarizer) e S5 (Office Word) foram considerados iguais e constituem o primeiro grupo, ao qual se juntou S4 (Clearly Understood). As avaliações dos resumos do software resumidore S2 (Copernice Summarizer) e de S3 (Porter) constituem outro grupo. Foram usadas distâncias euclideanas de similaridade indicadas na abscissa. Na mesma figura, à direita, o dendograma do método neighbor-joining indica os objetos mais similares por intermédio da matriz de similaridade. Novamente se agrupam os objetos S1 (Intellexer Summarizer) e S5 (Office Word) e destaca-se, como o mais afastado, o objeto S3 (Porter).

DISCUSSÃO E CONCLUSÃO

Os resultados alcançados pelo software Copernic Summarizer (S2) merecem ser destacados. Esse, em conjunto com o resumo original do autor - Michael Porter (S3) -, compôs um grupo indicado pelo teste Dumm como significativamente diferente dos demais resumos, conforme tabela 3. As modas das avaliações para esses resumos foram, respectivamente, 3 e 4. A avaliação 3 significa que, para os juízes, metade das informações contidas no resumo gerado pelo software Copernic Summarizer (S2) é relevante, ou seja, exprime as ideias centrais contidas no texto.

Espera-se que o desempenho dos softwares resumidores no contexto das organizações seja superior ao apurado pelo experimento, considerando que:

a) o texto analisado era de natureza científica, assim como o público de juízes era constituído por acadêmicos. Tratou-se, portanto, da análise de um abstract. Para o contexto das organizações, o foco altera-se, o objeto central passa a ser resumo (summary) de informação organizacional, e não abstracts científicos. Isso é significativo em termos de redução do nível de exigências ou de dificuldades para os softwares resumidores, considerando que a informação organizacional, predominantemente, não apresenta conclusões e achados da pesquisa a serem identificados;

b) no experimento realizado, cada um dos quatro softwares resumidores testados foi executado apenas uma vez, para o processamento de um texto específico: o de Porter (1979). Softwares resumidores com estrutura de algoritmo não baseada em aparências superficiais do texto, ou seja, baseada nas entidades nomeadas ou baseada na estrutura do discurso, apresentam potencialidade para aprimoramento de desempenho pelo uso contínuo ("aprendizagem pelo uso"), o que deve ocorrer nos centros de informações das organizações em decorrência da grande demanda por resumos.

Essas informações são importantes para responder à questão central da pesquisa, relativa à possibilidade de os softwares resumidores suprirem a carência de resumos dos relatórios e demais documentos textuais extensos que predominam no ambiente informacional corporativo. A questão central não é simplesmente gerar uma informação concisa de 100 ou 200 palavras, como os quatro softwares testados foram capazes de gerar, mas ter a precisão, ou seja, a acurácia necessária para o processo de escolha das sentenças e/ou palavras que expressarão as ideias centrais do texto.

O indivíduo que pesquisa conteúdos disponíveis nos centros de informações das empresas terá, em primeiro momento, maior probabilidade de acessar determinada informação em função da existência do resumo. Muitos algoritmos de busca permitem o pesquisador trabalhar como critério de seleção a disponibilidade de resumos. No segundo momento, a informação transmitida pelo resumo influenciará na continuidade ou não da leitura do documento. Resumos facilitam, incentivam, promovem a ocorrência dos processos de pesquisas nos centros de informações, aspecto fundamental para reutilização de informações, para geração de novas ideias e demais aspectos importantes às práticas de gestão do conhecimento organizacional e de aprendizagem organizacional.

A questão passa a ser o que é melhor ou menos danoso para a organização: ter informações disponíveis que não possuem resumos ou ter informações disponíveis com resumos, mesmo que eles descrevam metade dos aspectos centrais do texto? Deve-se considerar que a não utilização de softwares resumidores significa disponibilizar informação apenas na íntegra, ou seja, sem resumo. O entendimento dos pesquisadores é que os softwares resumidores com desempenho similar ao mais bem identificado pela pesquisa (acurácia de 50%) são válidos e, portanto, devem ser considerados pelos centros de informações das organizações. Os ganhos de promoção do acesso e do contato inicial de leitores com a informação na íntegra são maiores que os riscos pelo desinteresse ou desmotivação provocados por resumo parcial.

É importante destacar o desempenho dos softwares resumidores no experimento perante suas categorias. Infelizmente nem toda associação é facilmente percebida, considerando-se a não publicação dos algoritmos ou dos softwares fontes, porém alguns são explicitamente declarados pelos seus desenvolvedores ou percebidos em função da literatura disponível e/ou dos conjuntos de softwares que os acompanham quando da instalação. O software com pior desempenho no experimento, o Office Word (S5), apresenta algoritmo com estrutura baseada em aparências superficiais do texto e o mais bem avaliado, Copernic Summarizer (S2), apresenta algoritmo com estrutura baseada na estrutura do discurso. Tais informações, associadas à inviabilidade da "aprendizagem por uso" dos softwares resumidores com estrutura baseada em aparências superficiais do texto, são suficientes para descartar essa categoria de softwares resumidores para fins organizacionais.

Deve-se distinguir o uso do softwares resumidores apenas para fins operacionais, ou seja, como ferramenta para aquele que publica a informação na base de conteúdo e não tem como solicitar ao autor que desenvolva o resumo. Softwares resumidores não devem ser considerados pelos trabalhadores do conhecimento para expressar, para resumir suas criações na forma de textos. Na pesquisa, evidenciou-se a qualidade superior do resumo humano (S3) com relação a todos os demais gerados pelos algoritmos, conforme pode se observar no dendograma da figura 1.

Apesar de alguns softwares resumidores considerarem leitura e geração em vários idiomas, o padrão predominante destes softwares é o idioma inglês. Um possível viés considerado e analisado pela pesquisa foi com relação à língua nativa dos juízes; especulou-se o quanto isso poderia dar predileção ou não pelo uso dos softwares resumidores. Por exemplo, juízes que não possuem o inglês como língua nativa, consequentemente com maior dificuldade no domínio do idioma, poderiam apresentar maior apreço pelos softwares resumidores. Tal viés não se observou com o experimento, considerando que a avaliação modal dos juízes estrangeiros (me) foi igual à avaliação modal dos juízes brasileiros (mb), conforme se pode observar na tabela 2.

A identificação dos principais grupos de usuários para softwares resumidores nas organizações é um tema de interesse para futuras pesquisas. Cabe destacar algumas das variáveis importantes para essa decisão: volume do trabalho em termos de leitura de resumos que deve existir, por exemplo, para os trabalhadores da informação que realizam muitas pesquisas em fontes diversas; quantidade de trabalhadores que necessitam gerar resumos mesmo não sendo estes autores, por exemplo, os trabalhadores de centro de informações para disponibilizar novos conteúdos às organizações. Para essas duas variáveis, já há possibilidade de dois grupos distintos: grupos de pesquisadores que realizam muitos acessos de forma geral (trabalhadores da informação e/ou trabalhadores do conhecimento) e grupos de funcionários que atuam em centros de informações agregando valor a essas.

Artigo submetido em 28/01/2009 e aceito em 08/04/2009.

ANDER-EGG, E. Introducción a las técnicas de investigación social Buenos Aires: Nueva Visión, 1978.
ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS - ABNT. NBR 6028: informação e documentação: resumo: apresentação. Rio de Janeiro, 2003.
BAQUERO, G. Métodos de pesquisa pedagógica São Paulo: Loyola, 1970.
DAVENPORT, T. H. Information ecology Oxford: Oxford University Press, 1997.
DECEMBER, J.; MURPHY, M. Abstracts Disponível em: <www.rpi.edu/web/writingcenter/wc_web/handouts/Abstracts.doc>. Acesso em: 24 set. 2008.
DESOUZA, K.C.; AWAZU, Y. Engaging tensions of knowledge management control. Singapore Management Review, Singapore, v. 18, n. 1, p. 1-13, 2006.
EDMUNDS, A.; MORRIS, A. The problem of information overload in business organisations: a review of the literature. International Journal of Information Management, Amsterdam, v. 20, n. 1, p. 17-28, Feb. 2000.
EPPLER, M.J. Managing information quality: increasing the value of information in knowledge-intensive products and processes. 2nd ed. New York: Springer, 2006.
FELDMAN, S. NLP meets the jabberwocky. Online, Medford, v. 23, n. 3, p. 62-72, May/June 1999.
FREI, F. Introdução à análise de agrupamentos São Paulo: UNESP, 2006.
GARVIN, D. A. Managing quality New York: The Free Press, 1988.
GOODMAN, L. A. Kolmogorov-Smirnov tests for psychological research. Psychological Bulletin, Washington, v. 51, n. 2, p. 160-168, Mar. 1954.
HUANG, K.; LEE, Y. W.; WANG, R. Y. Quality information and knowledge New York: Prentice-Hall, 1999.
KAPLAN, A. A conduta na pesquisa: metodologia para as ciências do comportamento. São Paulo: EDUSP, 1975.
MANN, P. H. Método de investigação sociológica Rio de Janeiro: Zahar, 1970.
MARCONI, M. A.; LAKATOS, E. M. Técnicas de pesquisa São Paulo: Atlas, 1986.
OLETO, R. R. Percepção da qualidade da informação. Ciência da Informação, Brasília, v. 35, n. 1, p. 57-62, jan./abr. 2006.
PAIM, I.; NEHMY, R. M. Q.; GUIMARÃES, C. G. Problematização do conceito "Qualidade" da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 1, n. 1, p. 111-119, jan./jun. 1996.
PORTER, M. E. How competitive forces shape strategy. Harvard Business Review, Boston, v. 57, n. 2, p. 137-145, Mar./Apr. 1979.
ROBB, D. How search is converging with business intelligence. Business Communications Review, Hinsdale, v. 37, n. 8, p. 28-31, Aug. 2007.
ROCA, S. C. Automatic text summarization. Revista Digital D´Humanitats - Digithum, Barcelona, n. 3, Set. 2001.
RYBCZYNSKI, T. UC for all employees transforms the enterprise. Business Communications Review, Hinsdale, v. 37, n. 6, p. 30-34, jun. 2007.
SALMELA, H. From information systems quality to sustainable business quality. Information and Software Technology, Amsterdam, v. 39, n. 12, p. 819-25, 1997.
SIEGEL, S. Nonparametric statistics for the behavioral sciences New York: McGraw-Hill, 1959.
TENOPIR, C.; JACSO, P. Quality of abstracts. Online, Medford, v. 17, n. 3, p. 44-53, May 1993.
TOZER, G. Metadata management for information control and business success Norwood: Artech House, 1999.

**Melhoria da qualidade da informação organizacional pela agregação de resumo: análise de softwares geradores de resumo (summarizers)**

Improvement of organizational quality information by agregation of summaries created by summarizers softwares

Datas de Publicação

Publicação nesta coleção
15 Out 2009
Data do Fascículo
Abr 2009

Histórico

Recebido
28 Jan 2009
Aceito
08 Abr 2009

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

[1] ANDER-EGG, E. Introducción a las técnicas de investigación social Buenos Aires: Nueva Visión, 1978.

[2] ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS - ABNT. NBR 6028: informação e documentação: resumo: apresentação. Rio de Janeiro, 2003.

[3] BAQUERO, G. Métodos de pesquisa pedagógica São Paulo: Loyola, 1970.

[4] DAVENPORT, T. H. Information ecology Oxford: Oxford University Press, 1997.

[5] DECEMBER, J.; MURPHY, M. Abstracts Disponível em: <www.rpi.edu/web/writingcenter/wc_web/handouts/Abstracts.doc>. Acesso em: 24 set. 2008.

[6] DESOUZA, K.C.; AWAZU, Y. Engaging tensions of knowledge management control. Singapore Management Review, Singapore, v. 18, n. 1, p. 1-13, 2006.

[7] EDMUNDS, A.; MORRIS, A. The problem of information overload in business organisations: a review of the literature. International Journal of Information Management, Amsterdam, v. 20, n. 1, p. 17-28, Feb. 2000.

[8] EPPLER, M.J. Managing information quality: increasing the value of information in knowledge-intensive products and processes. 2nd ed. New York: Springer, 2006.

[9] FELDMAN, S. NLP meets the jabberwocky. Online, Medford, v. 23, n. 3, p. 62-72, May/June 1999.

[10] FREI, F. Introdução à análise de agrupamentos São Paulo: UNESP, 2006.

[11] GARVIN, D. A. Managing quality New York: The Free Press, 1988.

[12] GOODMAN, L. A. Kolmogorov-Smirnov tests for psychological research. Psychological Bulletin, Washington, v. 51, n. 2, p. 160-168, Mar. 1954.

[13] HUANG, K.; LEE, Y. W.; WANG, R. Y. Quality information and knowledge New York: Prentice-Hall, 1999.

[14] KAPLAN, A. A conduta na pesquisa: metodologia para as ciências do comportamento. São Paulo: EDUSP, 1975.

[15] MANN, P. H. Método de investigação sociológica Rio de Janeiro: Zahar, 1970.

[16] MARCONI, M. A.; LAKATOS, E. M. Técnicas de pesquisa São Paulo: Atlas, 1986.

[17] OLETO, R. R. Percepção da qualidade da informação. Ciência da Informação, Brasília, v. 35, n. 1, p. 57-62, jan./abr. 2006.

[18] PAIM, I.; NEHMY, R. M. Q.; GUIMARÃES, C. G. Problematização do conceito "Qualidade" da informação. Perspectivas em Ciência da Informação, Belo Horizonte, v. 1, n. 1, p. 111-119, jan./jun. 1996.

[19] PORTER, M. E. How competitive forces shape strategy. Harvard Business Review, Boston, v. 57, n. 2, p. 137-145, Mar./Apr. 1979.

[20] ROBB, D. How search is converging with business intelligence. Business Communications Review, Hinsdale, v. 37, n. 8, p. 28-31, Aug. 2007.

[21] ROCA, S. C. Automatic text summarization. Revista Digital D´Humanitats - Digithum, Barcelona, n. 3, Set. 2001.

[22] RYBCZYNSKI, T. UC for all employees transforms the enterprise. Business Communications Review, Hinsdale, v. 37, n. 6, p. 30-34, jun. 2007.

[23] SALMELA, H. From information systems quality to sustainable business quality. Information and Software Technology, Amsterdam, v. 39, n. 12, p. 819-25, 1997.

[24] SIEGEL, S. Nonparametric statistics for the behavioral sciences New York: McGraw-Hill, 1959.

[25] TENOPIR, C.; JACSO, P. Quality of abstracts. Online, Medford, v. 17, n. 3, p. 44-53, May 1993.

[26] TOZER, G. Metadata management for information control and business success Norwood: Artech House, 1999.

Brasil

Brasil

Melhoria da qualidade da informação organizacional pela agregação de resumo: análise de softwares geradores de resumo (summarizers)

Improvement of organizational quality information by agregation of summaries created by summarizers softwares

Resumos

**Melhoria da qualidade da informação organizacional pela agregação de resumo: análise de softwares geradores de resumo (summarizers)**

Datas de Publicação

Histórico

S1 vs. S2	-39.400 *** P<0.001
S1 vs. S3	-64.325 *** P<0.001
S2 vs. S5	40.850 *** P<0.001
S3 vs. S4	40.975 *** P<0.001
S3 vs. S5	65.775 *** P<0.001