Accessibility / Report Error

A tomada de decisão em recursos humanos com dados replicados e inconsistentes: uma aplicação da teoria dos conjuntos aproximativos

Resumos

Este estudo trata da tomada de decisão com dados replicados e inconsistentes, relativos ao universo de Recursos Humanos, em uma instituição financeira nacional. A replicação ocorre por questões técnicas e/ou econômicas, e visa o atendimento de necessidades corporativas e departamentais dessa instituição. Como metodologia de pesquisa, utilizou-se a observação direta das inconsistências e a simulação com base em dados reais que refletissem a replicação com inconsistências. Os autores apresentam a aplicação de um método multicritério para tornar racional o processo de tomada de decisão, e que se transformou em elemento de motivação deste estudo. O método utilizado foi a Teoria dos Conjuntos Aproximativos (TCA). Um algoritmo foi desenvolvido para indicar as relações de equivalência, aproximações inferior e superior, região de fronteira, medida da exatidão, reduções e núcleo e, posteriormente, implementado em um software.

tomada de decisão; inconsistência; teoria dos conjuntos aproximativos


This study deals about decision-making with replicated and inconsistent data, relating to the universe of Human Resources, within a domestic financial institution. Replication occurs because of technical and/or economic questions, and seeks to meet corporate and departmental requirements of such an institution. As research methodology, direct observation of such inconsistencies was used as well as a simulation based on actual data which would reflect replication with inconsistencies. The authors introduce an application of a multi-criteria method to render the decision-making process rational, and was transformed into an element that stimulated this study. The method used was the Rough Set Theory (RST). An algorithm was developed to indicate the equivalence relations, lower and higher approximations, borderline region, accuracy measure, reducts and core and was subsequently implemented into a software.

decision-making; inconsistency; rough set theory


A tomada de decisão em recursos humanos com dados replicados e inconsistentes: uma aplicação da teoria dos conjuntos aproximativos

Ayrton Benedito Gaia do CoutoI* * Corresponding author / autor para quem as correspondências devem ser encaminhadas ; Luiz Flavio Autran Monteiro GomesII

IBNDES Rio de Janeiro - RJ, Brasil acouto@bndes.gov.br

IIIbmec/RJ Rio de Janeiro - RJ, Brasil autran@ibmecrj.br

RESUMO

Este estudo trata da tomada de decisão com dados replicados e inconsistentes, relativos ao universo de Recursos Humanos, em uma instituição financeira nacional. A replicação ocorre por questões técnicas e/ou econômicas, e visa o atendimento de necessidades corporativas e departamentais dessa instituição. Como metodologia de pesquisa, utilizou-se a observação direta das inconsistências e a simulação com base em dados reais que refletissem a replicação com inconsistências. Os autores apresentam a aplicação de um método multicritério para tornar racional o processo de tomada de decisão, e que se transformou em elemento de motivação deste estudo. O método utilizado foi a Teoria dos Conjuntos Aproximativos (TCA). Um algoritmo foi desenvolvido para indicar as relações de equivalência, aproximações inferior e superior, região de fronteira, medida da exatidão, reduções e núcleo e, posteriormente, implementado em um software.

Palavras-chave: tomada de decisão; inconsistência; teoria dos conjuntos aproximativos.

ABSTRACT

This study deals about decision-making with replicated and inconsistent data, relating to the universe of Human Resources, within a domestic financial institution. Replication occurs because of technical and/or economic questions, and seeks to meet corporate and departmental requirements of such an institution. As research methodology, direct observation of such inconsistencies was used as well as a simulation based on actual data which would reflect replication with inconsistencies. The authors introduce an application of a multi-criteria method to render the decision-making process rational, and was transformed into an element that stimulated this study. The method used was the Rough Set Theory (RST). An algorithm was developed to indicate the equivalence relations, lower and higher approximations, borderline region, accuracy measure, reducts and core and was subsequently implemented into a software.

Keywords: decision-making; inconsistency; rough set theory.

1. Introdução

O presente estudo tem como ponto de partida, a situação encontrada em pesquisas (ex. consulta de quantitativo de pessoal) a banco de dados replicados e inconsistentes de Recursos Humanos (RH), de uma instituição financeira nacional. Dado que, as inconsistências ocorriam esporadicamente, utilizou-se da simulação em planilha eletrônica para ilustrar as situações de replicação comumente encontradas.

Por possuir base matemática para o tratamento da imprecisão de dados e, por não haver necessidade de informação preliminar sobre os dados em questão, os autores propõem mostrar a utilização da Teoria dos Conjuntos Aproximativos (Rough Set Theory) ou TCA como método multicritério de apoio à tomada de decisão, ante a situação de replicação de dados com inconsistência. De forma resumida, são apresentados os fundamentos principais, exemplos de aplicações e restrições da TCA e, por último, a sua aplicação a um problema prático em um ambiente de RH. Para tornar racional essa tomada de decisão, desenvolveu-se um algoritmo (e posteriormente implementado em software) para indicar as aproximações inferior e superior e a região de fronteira, calcular a medida de exatidão (sistema de informação), indicar as fontes de dados (in)dispensáveis, sugerir as fontes essenciais ("reduções") e, possivelmente, a fonte de dados principal ("núcleo"), como opções ao conjunto de dados replicados.

2. Definição do Problema

Ao se elaborarem pesquisas (consultas) a bancos de dados (sistemas de armazenamento de dados em computador), uma situação particularmente encontrada é a replicação de dados, isto é, quando múltiplas cópias de um mesmo conjunto de dados são disponibilizadas para consulta, por exemplo, com o objetivo de descentralizar o seu acesso (Date, 1984; Son, 1988). Mas, se a atualização dessas cópias não for efetuada sob algum controle (redundância controlada), haverá ocasiões em que as cópias não serão concordantes, isto é, quando no mínimo uma cópia não tiver sido atualizada integralmente. Nesse caso, o banco de dados é dito estar "inconsistente" (Codd, 1970; Date, 1984; Son, 1988).

É com base na situação de replicação concomitante com a inconsistência de dados que este estudo foi desenvolvido. Em uma determinada instituição financeira nacional, especifica-mente com relação a dados de RH, constatou-se que, esporadicamente, havia discordâncias (inconsistências) nos resultados de uma mesma pesquisa (ex. quantitativo de pessoal), proveniente de dados replicados. Essa replicação deve-se a questões técnicas, sendo a principal o atendimento a demandas corporativas e departamentais, provenientes de plataformas (ambientes) tecnológicas distintas.

Com o objetivo de ilustrar a aplicação de um método multicritério de apoio à tomada de decisão - neste contexto, "como escolher uma fonte de dados ante a constatação de que os dados estão replicados e inconsistentes?", os autores desse estudo optaram pela TCA, pelas seguintes razões: (a) existência de dado impreciso (inconsistente) e indiscernível; (b) possibi-lidade de processar os dados sob a perspectiva (matemática) de um "sistema de informação"; (c) possibilidade de tratar a imprecisão por meio de aproximações "inferior" e "superior"; (d) possibilidade de obter as fontes essenciais ("reduções") e a fonte principal ("núcleo") de dados como opções ao conjunto de dados original; (e) inexistência de qualquer informação preliminar sobre os dados em questão (ex. frequência de ocorrência das replicações com inconsistência). Outras teorias poderiam ser utilizadas - ex. Fuzzy Set Theory ou Teoria dos Conjuntos Nebulosos, proposta por Lotfi Asker Zadeh, em 1965, como uma extensão da lógica convencional (booleana) para introduzir o conceito de verdade não absoluta (Gomes, Gomes & Almeida, 2006). Assim, A TCA e a Fuzzy Set Theory são abordagens independentes para o tratamento do conhecimento imperfeito (incompleto) e impreciso (vago, indeterminado) (Pawlak et al., 1995). Ademais, um algoritmo foi desenvolvido e implementado em um programa de computador (pelo primeiro autor desse estudo), em linguagem Borland® Delphi/ Pascal, que tornou racional a tomada de decisão pela indicação das possíveis "reduções" de dados e do "núcleo", caso exista, além das relações de equivalência, aproximações inferior e superior, região de fronteira e cálculo da medida da exatidão (sistema de informação).

3. A Teoria dos Conjuntos Aproximativos

A TCA, proposta pelo matemático polonês, Zdzislaw Pawlak, em 1982, destina-se ao tratamento da imprecisão de dados, por meio de "aproximações" (inferior e superior) de um conjunto de dados (Pawlak, 1991). Tem como ponto inicial, a relação de "indiscernibilidade" (indiscernibility), isto é, aquela que identifica os objetos com a mesma propriedade. Objetos de interesse que possuem as mesmas propriedades são "indiscerníveis" e, conseqüentemente, são tratados como idênticos ou similares ("grânulos"). Esses grânulos são conhecidos como "conjuntos elementares" (elementary sets) e constituem os "conceitos" (concepts) de conheci-mento sobre algo de interesse (Pawlak, 2000). A "granularidade" (granularity) na representa-ção da informação, segundo Pawlak & Slowinski (1994), pode ser origem de inconsistências nas decisões, dada à ambigüidade para explicar e prescrever com base em informação inconsistente. Por sua vez, Grzymala-Busse (1988) cita que os fenômenos do mundo real, quando são representados por sistemas de informação, incluem inconsistências, que têm origem, por exemplo, nas ações distintas de diferentes especialistas para o mesmo objeto em questão.

Em Pawlak (1991) encontra-se um exemplo que ilustra alguns conceitos. Dado o conjunto U = {x1,x2, x3, x4, x5, x6, x7, x8} de brinquedos, classificado de acordo com a cor (vermelha, azul, amarela), forma (quadrada, redonda, triangular) e tamanho (pequeno, grande), ter-se-ia:

e foram definidas três relações de equivalência, R1, R2 e R3, para cor, forma e tamanho, respectivamente, tendo as seguintes classes de equivalência:

as quais são conceitos (categorias) elementares na base de conhecimento K = (U, {R1, R2, R3}).

Assim, de acordo com Pawlak (1991), o conhecimento apóia-se na habilidade em classificar objetos. Nesse caso, um objeto pode ser algo real ou abstrato. Assim, dado um conjunto finito U ≠ Ø de objetos (o universo), um subconjunto é referenciado como um "conceito" ou "categoria" em U, podendo ser qualquer família de conceitos em U deno-minada "conhecimento abstrato" ou, de forma abreviada, "conhecimento" sobre U. Ademais, não é usual tratar com uma única classificação, mas com uma família de classificações básicas (ex. cor, temperatura etc.) sobre U. Neste ponto, "relações de equivalência" e "classificações" têm o mesmo significado, indistintamente. De acordo com Grzymala-Busse (1988) e Ziarko (1993), a "relação de equivalência" também é conhecida como "relação de indiscernibilidade"; e "classes de equivalência" são conhecidas como "conjuntos elementares". Assim, se R é uma relação de equivalência sobre U, então U/R significa a família de todas as classes de equivalência de R (Pawlak, 1991). Ainda de acordo com Pawlak (1991), se e , então (interseção de todas as relações de equivalência pertencentes a P) é também uma relação de equivalência, e é indicado por IND(P), e é conhecido como "relação de indiscernibilidade" sobre P. Assim, U/IND(P) significa a família de todas as classes de equivalência da relação de equivalência IND(P), e representa o conhecimento associado com a família de relações de equivalência de P. No Anexo I Anexo I , encontra-se um exemplo de aplicação dos conceitos anteriormente definidos.

De acordo com a TCA, um conjunto de conceitos elementares pode originar um conceito "preciso" (crisp ou precise), ou "aproximativo", ou "impreciso" (rough ou imprecise). Assim, os conceitos aproximativos não podem ser expressos em termos de conceitos elementares, mas expressos com a utilização de aproximações "inferior" (lower) e "superior" (upper) de um conceito. A aproximação "inferior" de um conceito é a união de todos os conceitos elementares que estão inclusos naquele conceito; enquanto que a aproximação "superior" é a união de todos os conceitos elementares que têm alguma interseção (não vazia) com o conceito em questão. A diferença entre essas aproximações é conhecida como "região de fronteira" (boundary region) (Pawlak, 2000). Assim, segundo Pawlak (2000), ficaria fácil identificar se um conceito é "aproximativo": se a região de fronteira não for vazia ou se as aproximações inferior e superior forem diferentes. Uma outra definição importante no contexto dessa Teoria, refere-se a "sistema de informação". Um sistema de informação (information system) ou sistema de representação do conhecimento (knowledge representation system) ou base de dados (database) é uma tabela finita, em que as linhas são identificadas pelos objetos e as colunas, pelos atributos. Assim, um sistema do conhecimento pode ser visto como uma coleção de objetos descritos pelos valores dos atributos (Pawlak, 1991; Pawlak & Slowinski, 1994; Pawlak, 2000). Segundo Pawlak & Slowinski (1994), por sistema de informação entende-se como uma tupla S = (U, Q, V, f), onde U é um conjunto finito de objetos, Q é um conjunto finito de atributos, , onde Vq é o domínio do atributo q e, é uma função total tal que, f(x, q)∈Vqpara cada qQ, x∈U, conhecida como "função de informação". Ainda de acordo com Pawlak & Slowinski (1994), dado um sistema de informação, S = (U, Q, V, f), e , e x,y∈U, é dito que x e y são "indiscerníveis" pelo conjunto de atributos P em S, se f(x,q) = f(y,q) para todo qP. Portanto, todo gera uma relação binária em U, conhecida como "relação de indiscernibilidade", denotada por IND(P). Dado que, e , a aproximação inferior e a aproximação superior são definidas como

Assim, Y é um conjunto "aproximativo" (rough) com relação a P, se e somente se, (Pawlak, 1991). A "região de fronteira" (borderline region) de um conjunto Y é definida como

Para todo conjunto , pode-se associar a "precisão" (accuracy) de aproximação do conjunto Y por P, em S (Pawlak & Slowinski, 1994):

A precisão mede o "quanto está completo" (completeness) o conhecimento sobre o conjunto Y. A falta de exatidão de um conjunto é devida à existência da região de fronteira. Quanto maior a região de fronteira, menor é a precisão (Pawlak, 1991). Retornando-se ao exemplo das lojas (Quadro 3, no Anexo I Anexo I ), pode-se então calcular a "precisão" para o conjunto lucro:

de:

então:

4. Redução e núcleo de um Sistema do Conhecimento

Dois importantes conceitos: a "redução" (reduct) e o "núcleo" (core) de um sistema do conhecimento. A redução é a sua parte essencial, isto é, o conjunto de atributos que fornece a mesma qualidade de classificação que o conjunto original de atributos; é o conjunto mínimo de atributos de condição que permite tomar as mesmas decisões caso houvesse todos os atributos de condição (Pawlak, 1991; Pawlak & Slowinski, 1994; Pawlak, 2000). Segundo Ziarko (1993), a redução de atributos é uma das mais úteis idéias da TCA. O núcleo pode ser interpretado como a parte mais importante desse conhecimento, ou seja, a coleção dos atributos mais importantes de um sistema do conhecimento (Pawlak, 1991; Pawlak & Slowinski, 1994; Pawlak, 2000). Considere-se que R seja uma família de relações e RR. Diz-se que R é "dispensável" em R se IND(R) = IND(R - {R}); de outra forma, R é "indispensável" em R. A família R é "independente" se cada RR é indispensável em R; caso contrário, R é "dependente" (Pawlak, 1991).

Pawlak (1991) define as seguintes proposições:

a) Se R é independente e PR, então P é também independente.

b) CORE(P) =RED(P), onde RED(P) é a família de todas as "reduções" de P.

Em Pawlak (1991) encontra-se um exemplo que ilustra como obter as reduções e o núcleo de um sistema do conhecimento: dada a família R = {P, Q, R} de três relações de equivalência P, Q e R, com as seguintes classes de equivalência:

Assim, a relação IND(R) tem as seguintes classes de equivalência:

A relação P é indispensável em R, dado que:

Para a relação Q, tem-se que:

assim, a relação Q é dispensável em R.

Similarmente, para a relação R, obtém-se:

a relação R é também dispensável em R.

Isto significa que a classificação definida pelas três relações de equivalência P, Q e R é a mesma que a classificação definida pela relação P e Q ou P e R. Com o intuito de encontrar as reduções da família R = {P, Q, R}, verifica-se se cada par de relação "P,Q" e "P,R" são independentes ou não. Dado que U/IND({P,Q}) ≠ U/IND(Q) e U/IND({P,Q}) ≠ U/IND(P), as relações P e Q são independentes e, conseqüentemente, {P,Q} é uma redução de R. Procedimento semelhante é utilizado para encontrar a redução formada pela relação {P,R}. Assim, há duas reduções na família R, {P,Q} e {P,R}, e a interseção dessas reduções ({P,Q} ∩ {P,R}) é o núcleo {P} (Pawlak, 1991).

Tendo como referência o exemplo anterior ("família R"), um algoritmo foi desenvolvido pelo primeiro autor desse estudo para obter as relações de equivalência (in)dispensáveis, as reduções e o núcleo:

1- Para cada relação de equivalência, coloca-se uma ordem (início em "1"), para cada classe de equivalência encontrada. Das expressões abaixo:

obtém-se o Quadro 4:


2- Obtém-se a relação principal R, da seguinte forma: com base no quadro anterior (Quadro 4) e, com início em "x1" (classe de ordem "1,1,1", respectivamente U/P, U/Q e U/R), busca-se outra classe que possua essa mesma ordem ("x5"). Neste caso, encontra-se a classe {x1, x5}; essa é a classe de ordem "1,1,1". Repete-se o processo para as demais classes. Para a relação R, obtém-se a ordem mostrada no Quadro 5:


3- A relação principal é então obtida de acordo com a ordem apresentada no Quadro 5:

4- Repete-se o processo para a obtenção das demais relações conforme mostram os Quadros 6, 7 e 8:

a) Obtenção de {R - P}. De:


b) Obtenção de {R - Q}. De:


c) Obtenção de {R - R}:


5- Comparam-se as ordens obtidas, conforme mostrado no Quadro 9:


Como a ordem de {R - P} é diferente da ordem de R, P é "indispensável". Como as ordens de {R - Q} e {R - R} são iguais à ordem de R, Q e R são "dispensáveis".

6- Verificam-se as possíveis reduções entre "P,Q" e "P,R", de acordo com os Quadros 10 e 11:

a) para {P,Q}:


Como a ordem de {P,Q} é diferente das ordens de P e de Q, {P,Q} é uma redução.

b) para {P,R}:


Como a ordem de {P,R} é diferente das ordens de P e de R, {P,R} é uma redução.

7- Pela interseção das reduções, verifica-se se há um núcleo:

5. Exemplos de aplicação da TCA

Desde o início de sua criação em 1982, encontra-se na literatura várias aplicações da TCA, tais como: análise e simplificação de circuitos digitais (Pawlak, 1991); inteligência artificial (Pawlak, 1991; Pawlak et al., 1995); análise de conflito no Oriente Médio (Pawlak, 1991; Pawlak & Slowinski, 1994); pesquisa de mercado (Ziarko, 1999); especificação de produtos (Shao et al., 2006); recuperação de informações (Das-Gupta, 1988; Huang et al., 2006; Xiaoyue & Rujiang, 2006); data mining (Flinkman et al., 2000); tratamento da imprecisão em sistemas de informação (Gomes & Gomes, 2001); processamento de grandes bases de dados (Lin, 2008); aprendizagem indutiva (Ziarko & Wong, 1986); sistemas de robótica (Bit & Beaubouef, 2008); medicina (Tsumoto, 2000; Hassanien, Abdelhafez & Own, 2008); construção civil (Tam, Tong & Chan, 2006).

6. Restrições da TCA

Ziarko (1993; 1993a) aponta algumas restrições da TCA, quando aplicada a um conjunto de informações ("classificações"):

1- A TCA necessita que essas classificações estejam completas e corretas, ou seja, a TCA é sensível a pequenos erros de classificação, causados por problemas de dependência de atributos.

2- As conclusões derivadas desse conjunto são aplicáveis somente a esse conjunto, o que na prática, limita a generalização das conclusões para um conjunto maior de informações.

Como alternativa a essas restrições, Ziarko (1993; 1993a) propõe o uso de um modelo, VP (variable precision), para o reconhecimento da presença de dependência de dados em situações em que os mesmos seriam considerados independentes.

Nowicki (2008) também aponta restrições quando as classificações estão incompletas e propõe um modelo alternativo que combine arquiteturas Neuro-Fuzzy com a TCA.

Ademais, Greco, Matarazzo & Slowinski (2005) observam que o princípio da indiscerni-bilidade não é suficiente para cobrir toda a semântica de um conjunto de informações. Por exemplo: duas empresas, a e b, são avaliadas pelo critério do risco de falência, dado pela "relação de débito" (total de débito/total de ativos). Se a empresa a tem uma baixa relação de débito e a empresa b tem uma alta relação de débito, então, dentro da TCA, a é diferente (discernível) de b no que diz respeito a essa relação. Entretanto, do ponto de vista da avaliação do risco de falência, a relação de débito da empresa a não é simplesmente diferente da relação de débito da empresa b, mas a empresa a está em melhor condição do que a empresa b. Agora, considere-se que outros atributos (rentabilidade, qualidade gerencial, posição de mercado, etc.) sejam iguais para ambas as empresas e, por algum motivo, um decisor tenha feito uma avaliação de que a empresa a tem um risco de falência maior que o da empresa b. Nesse caso, pela TCA, as empresas a e b são discerníveis e uma relação de débito menor está associada a um risco maior de falência enquanto que uma relação de débito maior está associada a um risco menor de falência. Isso é contraditório. Dentro do Apoio Multicritério à Decisão, o princípio da indiscernibilidade tem que ser substituído pelo "princípio da dominância": se x domina y, isto é, se x é ao menos tão bom quanto y com relação a todos os critérios considerados, então x deveria pertencer a uma classe não pior do que a classe de y; se não, há uma inconsistência entre x e y (Roy & Bouyssou, 1993). Aplicando-se o princípio da dominância na análise das empresas a e b, constata-se uma inconsistência entre a relação de débito e o risco de falência, o que leva ao seguinte paradoxo: "menor relação de débito, risco maior de falência". Assim, para que seja possível tratar com problemas de apoio multicritério à decisão (multiple-criteria decision aiding), deve-se estender a TCA com a substituição da relação de indiscernibilidade pela "relação de dominância", utilizando-se de "modelos de preferência", isto é, de regras de decisão do tipo "se ..., então ..." ("if ..., then ...") (Greco, Matarazzo & Slowinski, 2005).

7. Aplicação prática na empresa

Observou-se que, em uma instituição financeira nacional, especificamente com relação a RH, na replicação de dados oriundos de um "banco de dados principal" (neste contexto, armazenado em um computador central), para outros bancos de dados em plataformas tecnológicas distintas, ocorriam esporadicamente inconsistências. Até porque essa replicação não era tempestiva, isto é, a replicação não acontecia imediatamente após a ocorrência de um evento (ex. designação de um empregado para a função de chefe de departamento). As inconsistências eram detectadas quando os resultados obtidos dos bancos de dados replicados eram comparados entre si. Ou seja, por algum motivo que foge ao escopo deste estudo, o processo de replicação não era perfeito. Um procedimento de conferência de dados foi então montado: a mesma pesquisa deveria ser realizada em dois ou mais bancos de dados. Caso houvesse alguma discordância, uma pesquisa mais ampla deveria ser realizada para dirimir as diferenças encontradas nos resultados. Essa replicação ocorria por questões técnicas, isto é, para atender necessidades específicas (corporativas e departamentais). A partir da fonte principal (banco de dados principal), diariamente, os dados eram replicados para um banco de dados que servia de suporte ao correio eletrônico e ao fluxo eletrônico de documentos, para um segundo banco de dados, para atender necessidades específicas (departamentais) e, por último, para atender necessidades de agregações de dados (business intelligence). A Figura 1 ilustra a arquitetura assim constituída.


Ressalve-se que, no dia-a-dia, não há uma visão global dos dados, isto é, a visão é exclusivamente do banco de dados em uso (correio eletrônico, uso departamental ou agregado de dados). Mas, geralmente, ao se elaborar qualquer consulta, tinha-se o cuidado de comparar o resultado obtido com os resultados de consultas provenientes das demais fontes (bancos de dados). Cabia ao "decisor" (executivo responsável pela gestão e uso das informações), identificar a fonte mais confiável. O foco de atenção foi no "quantitativo de empregados" no exercício da função executiva de "chefe de departamento".

8. Aplicação da TCA

Neste contexto, cada registro de um determinado arquivo de banco de dados, descreve um "empregado" (entidade) e tem, além de vários outros atributos, a matrícula que o identifica e a função executiva em exercício. Para simplificar, serão considerados apenas os atributos "matrícula" e a "função executiva", ilustrados na Figura 2.


A atualização é efetuada no banco de dados B0 e os dados replicados para os demais bancos de dados B1, B2 e B3, conforme a sua finalidade (correio eletrônico, uso departamental e agregado de dados, respectivamente). Quando se realiza uma consulta aos dados replicados, tem-se uma visão única do banco de dados pesquisado (B1, B2 ou B3), o que não permite, de imediato, saber se a replicação ocorreu de forma perfeita. A consulta é restrita à fonte de dados pesquisada. Para simular a replicação com inconsistência do atributo "função executiva", utilizou-se uma planilha eletrônica (Microsoft Excel), com a função matemática ALEATÓRIOENTRE. Foram considerados dados reais: em um universo aproximado de 2.000 (dois mil) empregados, há 69% (ou 1.381 empregados) com nível superior de instrução, no exercício (ou não) de função executiva: coordenador de serviços (CD), gerente (GR), chefe de departamento (CH) e superintendente (SD). Na planilha, "NN" indica que um empregado não exerce função executiva. Ressalve-se que há 116 empregados que exercem a função executiva de "chefe de departamento". Na planilha, cada linha simula um determinado empregado - a matrícula original foi substituída por um numeral seqüencial (coluna "Empr."), e uma coluna para cada atributo "função executiva", originário dos bancos de dados B0, B1, B2 e B3. Foram selecionados os dez primeiros registros (ou empregados), mostrados no Quadro 12.


Essa simulação foi obtida pelo uso da função ALEATÓRIOENTRE, em dois momentos: para selecionar o registro (ALEATÓRIOENTRE(1;10)) e, para selecionar a base (ou banco de dados) B1, B2 ou B3, a ser replicada com inconsistência (ALEATÓRIOENTRE(1;3)), pela indicação de um "X" ("xis"). Esse procedimento foi executado quatro vezes. As inconsistências foram geradas nos registros "0001", "0003", "0004" e "0007" (Quadro 12). Para o universo considerado - empregados que exercem função executiva de "chefe de departamento" (CH), atribuiu-se "1" (um) para aqueles que foram replicados perfeitamente e "0" (zero) para aqueles que não o foram ou que não pertencem a esse universo, o que se indica no Quadro 13.


Pelo Quadro 13, constata-se que há uma inconsistência para os empregados "0003", "0004" e "0007", com relação às replicações em B2, B2 e B1, respectivamente. Pela análise de "B1", por exemplo, há uma relação de "indiscernibilidade" quanto aos empregados "0002", "0003", "0004", "0005" e "0006", tendo em vista que todos possuem o valor "1". Para o conjunto de empregados (E), foram identificados os que pertencem ao conjunto aproximativo inferior (), ou seja, aqueles que, com certeza, foram replicados corretamente ("1" em B1, B2 e B3):

Para aqueles que podem ter sido replicados corretamente em B1, B2 e B3, obtém-se o conjunto aproximativo superior:

A região de fronteira é, portanto:

Como os conjuntos aproximativos inferior (E) e superior (E) são distintos, deduz-se que o conjunto de empregados em questão pode ser tratado pela TCA. Para o conjunto de empregados considerados, foram estabelecidas as seguintes relações de equivalência:

Essas relações foram obtidas da seguinte forma: primeiro, um subconjunto foi formado para aqueles empregados que possuíam o valor "1" (um) e um outro subconjunto para aqueles com valor "0" (zero). Tendo como base as relações anteriores e o algoritmo desenvolvido, foi estabelecida uma relação principal (R), identificando-se primeiro os empregados com valor "1" e, em seguida, os empregados subseqüentes:

Para saber se cada relação RB1, RB2 ou RB3 é indispensável em relação a R (Pawlak, 1991), estabeleceu-se uma nova relação comum (RR), suprimindo-se, consecutivamente, as relações RB1, RB2 e RB3:

Como as relações RRB1 e RRB2 são diferentes de R, RB1 e RB2 são indispensáveis. Como RRB3 é igual à relação R, RB3 édispensável. Para encontrar as "reduções", deve-se identificar uma nova relação (RT) para cada par de relações {B1, B3} e {B2, B3}:

Como RTB1B3 ≠ RB1 e RTB1B3 ≠ RB3, a relação {B1, B3} é uma "redução". Como RTB2B3 ≠ RB2 e RTB2B3 ≠ RB3, também a relação {B2, B3} é uma "redução".

Dadas as reduções {B1, B3} e {B2, B3}, tem-se que:

ou seja, identifica-se que B3 é o "núcleo" desse sistema de informação, de acordo com a proposição CORE(P) = ∩ RED(P), onde RED(P) é a família de todas as "reduções" de P (Pawlak, 1991). Pelo Quadro 13, observa-se que não houve inconsistência na replicação para o banco de dados B3, no que se refere ao universo de empregados com função executiva de chefe de departamento (CH). Por uma análise de sensibilidade, o banco de dados B3 representa a melhor alternativa ante as inconsistências detectadas nos outros bancos de dados (B1 e B2), e que está alinhada com a sugestão obtida pela aplicação da TCA. Para facilitar a aplicação da TCA, com a identificação das relações, aproximações inferior e superior, região de fronteira, medida da exatidão, indicação das reduções e do núcleo, o algoritmo foi implementado em linguagem de computador, Borland® Delphi/Pascal, versão 2007, pelo primeiro autor desse estudo. A Figura 3 ilustra a interface utilizada pelo programa desenvolvido.


Ademais, foram realizadas outras duas simulações:

1- Com 1.381 registros e 3 ocorrências de inconsistência: empregados "1313" (em B1), "0055" (em B3) e "0501" (em B1) (Figura 4). Nesse caso, B2 foi replicado corretamente.


Por uma análise de sensibilidade, constata-se que o banco de dados B2 foi perfeitamente replicado, comparando-se as indicações de atualização ("1") com o que está registrado no banco de dados principal B0: há 116 empregados com função executiva de chefe de departamento (CH). Assim, a indicação do núcleo (B2) pela TCA - interseção dos conjuntos {B1, B2} e {B2, B3}, está de acordo com essa constatação. Ademais, esse resultado corrobora com o somatório de células com valor "1", na coluna "B2": há também 116 empregados com a função executiva de chefe de departamento (Quadro 14).


Por questões de simplificação, o Quadro 14 reproduz somente o final da planilha.

2- Com 1.381 registros e 4 ocorrências de inconsistência: empregados "1313" (em B1), "0055" (em B3), "0501" (em B1) e "0202" (em B2) (Quadro 15 e Figura 5).



Por questões de simplificação, o Quadro 15 reproduz somente o início da planilha.

Como houve inconsistência na replicação em B1, B2 e B3, o resultado sugerido indica que, todas as bases são "indispensáveis" (Figura 5). Nesse caso, também por uma análise de sensibilidade, não havia como indicar uma base de referência para consulta, dada à inconsistência gerada em cada base. Provavelmente, o melhor resultado da pesquisa (quantitativo de chefes de departamento) deveria ser alguma "composição" dos resultados obtidos de cada base (Quadro 16), ou, simplesmente, ser descartado e se aguardar por uma nova replicação.


Por questões de simplificação, o Quadro 16 reproduz somente o final da planilha.

Com referência à complexidade computacional, de acordo com Toscani & Veloso (2008), o cálculo da complexidade (de um algoritmo) concentra-se em determinar a ordem de magnitude do número de operações fundamentais na execução do algoritmo. A operação escolhida como fundamental deve ser tal que, a contagem do número de vezes que ela é executada sobre uma entrada expresse a quantidade de trabalho ("esforço computacional" ou custo) do algoritmo, dispensando outras medidas.

Para o algoritmo de pesquisa em questão, o seu desenvolvimento consistiu de 6 (seis) fases (Quadro 17). Para obter o custo de complexidade para cada fase, conforme Anexo II Anexo II , determinou-se que a operação fundamental seria o "loop" de pesquisa ("faça enquanto ... fim-faça") utilizado em cada fase, para o "pior caso".


Segundo Wang et al. (2006), encontrar reduções (mínimas) para sistemas de informação ou tabelas de decisão tornou-se um problema "complexo" ("NP-complete problem"), tendo em vista a possibilidade da existência de mais de uma redução. Assim, para o contexto dessa pesquisa, o algoritmo desenvolvido limitou-se a pesquisar as aproximações inferior e superior, a região de fronteira, calcular a medida da exatidão, obter a relação de equivalência principal, e identificar as bases de dados (in)dispensáveis e as reduções e possível núcleo para um sistema de informação com 3 (três) "atributos" (função executiva "chefe de departamento" oriunda das bases replicadas B1, B2 e B3), face a dificuldade conhecida de se pesquisar reduções para muitos ("n") atributos de um sistema de informação.

9. Conclusões e sugestões para pesquisas futuras

Para o ambiente da empresa em questão (instituição financeira nacional) e, ante a situação encontrada - bancos de dados replicados e inconsistentes, cuja inconsistência é de natureza desconhecida para o estudo em questão e de ocorrência esporádica, coube ao "decisor" (executivo responsável pela gestão e uso das informações), adotar, inicialmente, um padrão de conferência dos resultados obtidos: de forma manual, cada resultado de consulta (ex. quanti-tativo de pessoal) era confrontado com consultas extraídas de mais de um banco de dados. Ressalve-se que, na simulação, há uma visão completa dos dados replicados e da sua origem (B0). Porém, no ambiente da empresa em estudo, a consulta aos dados replicados é restrita, ou seja, é realizada por meio de uma aplicação específica com acesso a uma única fonte de dados (B1, B2 ou B3). Não há como comparar o resultado de uma consulta com a origem dos dados (B0), que não seja de forma manual. A TCA, como método de apoio à decisão, mostrou-se adequada para o tratamento da "indiscernibilidade", mediante as indicações das "reduções" e de um "núcleo" de dados, quando foi possível. A sua aplicabilidade provém da própria natureza dos dados pesquisados (da área de RH da empresa): neste caso, não há qualquer informação adicional sobre a ocorrência das inconsistências, mas tão somente, o próprio dado. Nesse contexto, este estudo revelou-se uma alternativa viável para a tomada de decisão com dados replicados e inconsistentes, dentre as prováveis alternativas de solução, mesmo que não seja possível obter uma fonte de referência para consulta (Quadro 16). Nesse caso, torna-se uma ferramenta indicativa de que uma nova replicação deve ser efetuada com o intuito de dirimir as inconsistências observadas.

Ao abordar o problema de decisão com dados replicados e inconsistentes, esta pesquisa res-tringiu-se a um cenário com três bancos de dados replicados, 1.381 registros (ou empregados) e um atributo (função executiva) em questão. Inicialmente, uma oportunidade que se deriva é a TCA aplicada a um número maior de casos de replicação com inconsistência, para um universo maior de empregados e para um conjunto mais amplo de atributos, com o objetivo de averiguar se os resultados correspondem às expectativas. Nesse caso, deve-se adaptar o algoritmo e, conseqüentemente, o software desenvolvido, para a captura e análise dos dados.

Um outro papel para a TCA que se conjetura seria como ferramenta de auxílio ao monitoramento das replicações de dados, necessário à minimização ou eliminação das conseqüências indesejáveis, que podem advir de uma decisão com dados replicados e inconsistentes. Como, pela própria abordagem da TCA, não é preciso qualquer informação adicional sobre os dados em questão (ex. freqüência de ocorrência das inconsistências), sugere-se o mesmo tipo de pesquisa por meio de outras abordagens (ex. Fuzzy Set Theory, Neuro-Fuzzy com TCA etc.), com o objetivo de avaliar a relação "custo versus benefícios" para cada abordagem utilizada.

A extensão da TCA proposta por Ziarko (1993; 1993a), pelo uso do "modelo VP" (variable precision), mostra-se uma alternativa interessante para o tratamento da indiscernibilidade de dados com dependência entre si. As restrições apontadas na TCA e a proposta de um modelo alternativo ("relação de dominância"), por Greco, Matarazzo & Slowinski (2005), mostram-se, também, uma alternativa à TCA clássica, que pode ser aplicada ao estudo em questão.

Agradecimento

Os autores agradecem ao CNPq pelo apoio na elaboração deste artigo através do Processo Número 310603/2009-9.

Recebido em 12/2008; aceito em 03/2010

Received December 2008; accepted March 2010

Anexo I

Anexo II

  • (1) Bit, M. & Beaubouef, T. (2008). Rough set uncertainty for robotic systems.Journal of Computing Sciences in Colleges, ACM, 23(6), 126-132.
  • (2) Codd, E.F. (1970). A relational model of data for large shared data banks. Communications of the ACM, 13(6), 377-387.
  • (3) Das-Gupta, P. (1988). Rough sets and information retrieval.SIGIR'88: Proceedings of the 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, p. 567-581.
  • (4) Date, C.J. (1984). Introduçăo a sistemas de bancos de dados Campus, Rio de Janeiro.
  • (5) Flinkman, M.; Michalowski, W.; Nilsson, S.; Slowinski, R.; Susmaga, R. & Wilk, S. (2000). Use of rough sets analysis to classify siberian forest ecosystems according to net primary production of phytomass. Information Systems & Operational Research, 38(3), 145-160.
  • (6) Gomes, L.F.A.M. & Gomes, C.F.S. (2001). Uma técnica de data mining: princípios básicos dos conjuntos aproximativos e suas aplicaçőes. Revista ANGRAD, 2(1), 13-22.
  • (7) Gomes, L.F.A.M.; Gomes, C.F.S. & Almeida, A.T. (2006). Tomada de decisăo gerencial: enfoque multicritério Atlas, Săo Paulo.
  • (8) Greco, S.; Matarazzo, B. & Slowinski, R. (2005). Decision rule approach. In: Multiple criteria decision analysis state of the art surveys [edited by J. Figueira, S. Greco and M. Ehrgott]. Springer Science, New York + Business media, cap. 13, p. 507-561.
  • (9) Grzymala-Busse, J.W. (1988). Knowledge acquisition under uncertainty - a rough set approach. Journal of Intelligent and Robotic Systems, 1, 3-16.
  • (10) Hassanien, A.E.; Abdelhafez, M.E. & Own, H.S. (2008). Rough sets data analysis in knowledge discovery: a case of kuwaiti diabetic children patients Hindawi Publishing Corporation, Advances in Fuzzy Systems, a. id 528461, p. 1-13.
  • (11) Huang, C.-C.; Tseng, T.-L; Chuang, H.-F & Liang, H.-F. (2006). Rough-set-based approach to manufacturing process document retrieval. International Journal of Production Research, 44(14), 2889-2911.
  • (12) Lin, T.Y. (2008). Rough set theory in very large databases Disponível em: http://www.cs.sjsu.edu/~tylin/publications/paperList/82_rs_dm8.pdf>.
  • (13) Nowicki, R. (2008). On combining neuro-fuzzy architectures with the rough set theory to solve classification problems with incomplete data. IEEE Transactions on Knowledge and Data Engineering Disponível em: <http://ieeexplore.ieee.org/Xplore/login.jsp?url=/iel5/69/4358933/04487067.pdf?tp=&arnumber=4487067&isnumber=4358933>
  • (14) Pawlak, Z. (2000). Rough sets and decision analysis. Information Systems & Operational Research, 38(3), 132-144.
  • (15) ______. (1991). Rough sets. Theoretical aspects of reasoning about data Kluwer Academic Publishers, Dordrecht.
  • (16) Pawlak, Z.; Grzymala-Busse, J.; Slowinski, R. & Ziarko, W. (1995). Rough sets. Communications of the ACM, 38(11), 89-95.
  • (17) Pawlak, Z. & Slowinski, R. (1994). Rough set approach to multi-attribute decision analysis. European Journal of Operational Research, Invited Review, 72, 443-459.
  • (18) Roy, B. & Bouyssou, D. (1993). Aide Multicritčre ŕ la Décision: Méthodes et Cas Economica, Paris.
  • (19) Shao, X.-Y.; Wang Z.-H.; Li, P.-G. & Feng, C.-X.J. (2006). Integrating data mining and rough set for customer group-based discovery of product configuration rules. International Journal of Production Research, 44(14), 2789-2811.
  • (20) Son, S.H. (1988). Replicated data management in distributed database systems. Sigmod Record, 17(4), 62-69.
  • (21) Tam, C.M.; Tong, T.K.L. & Chan, K.K. (2006). Rough set theory for distilling construction safety measures. Construction Management and Economics, 24(24), 1199‑1206.
  • (22) Toscani, L.V. & Veloso, P.A.S. (2008). Complexidade de algoritmos Bookman, Săo Paulo.
  • (23) Tsumoto, S. (2000). Automated knowledge discovery in clinical databases based on rough set model. Information Systems & Operational Research, 38(3), 196-207.
  • (24) Xiaoyue, W. & Rujiang, B. (2006). An effective hybrid classifier based on rough sets and neural networks. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.
  • (25) Wang, R.; Miao, D. & Hu, G. (2006). Discernibility matrix based algorithm for reduction of attributes. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.
  • (26) Ziarko, W. (1993). Analysis of uncertain information in the framework of variable precision rough sets. Foundations of Computing and Decision Sciences, 18(3-4), 381‑396.
  • (27) ______. (1999). Discovery through rough set theory. Communications of the ACM, 42(11), 55-57.
  • (28) ______. (1993a). Variable precision rough set model. Journal of Computer and System Sciences, 46(1), 39-59.
  • (29) Ziarko, W. & Wong, S.K.M. (1986). On learning and evaluation of decision rules in the context of rough sets. Proceedings of the ACM SIGART International Symposium on Methodologies for Intelligent Systems, Knoxville, p. 308-324.

Anexo I

Anexo II

  • *
    Corresponding author / autor para quem as correspondências devem ser encaminhadas
  • Datas de Publicação

    • Publicação nesta coleção
      04 Mar 2011
    • Data do Fascículo
      Dez 2010

    Histórico

    • Aceito
      Mar 2010
    • Recebido
      Dez 2008
    Sociedade Brasileira de Pesquisa Operacional Rua Mayrink Veiga, 32 - sala 601 - Centro, 20090-050 Rio de Janeiro RJ - Brasil, Tel.: +55 21 2263-0499, Fax: +55 21 2263-0501 - Rio de Janeiro - RJ - Brazil
    E-mail: sobrapo@sobrapo.org.br