Acessibilidade / Reportar erro

Modelo multidimensional para mensurar qualidade em website de e-commerce utilizando a teoria da resposta ao item

Resumo

O presente artigo propõe um modelo multidimensional para medir a qualidade de websites comerciais com uso da Teoria da Resposta ao Item (TRI). A qualidade de um website engloba características técnicas (usabilidade/navegabilidade, apresentação da informação e interatividade) e não técnicas (design, estética, apelo visual, confiabilidade, hedonismo, imagem), configurando-se, teoricamente, como contexto multidimensional. As suposições iniciais das dimensões e elaboração dos itens foram baseadas em análise bibliográfica sobre o tema qualidade em websites de e-commerce. Um conjunto de 75 itens foi elaborado e uma amostra de 441 websites de e-commerce dos mais variados setores foi a ele submetido. O tratamento e análise dos dados foram feitos utilizando-se a TRI. Nessa etapa, foram discutidas questões referentes à dimensionalidade e à escolha do modelo mais adequado. Por fim, um modelo multidimensional com quatro dimensões foi ajustado contemplando as dimensões navegabilidade ou condução/orientação do usuário, acessibilidade e confiabilidade do sistema, interatividade e apresentação da informação.

Palavras-chave:
Qualidade em websites; E-commerce; Modelagem; Teoria da Resposta ao Item Multidimensional

Abstract

The goal of this article is to propose a multidimensional modeling to measure the quality of commercial websites with the use of Item Response Theory (IRT). The quality of a website encompasses technical characteristics (usability-navigability, presentation of information and interactivity) and non-technical characteristics (design, aesthetics, visual appeal, reliability, hedonism, image), theoretically configuring a multidimensional context. The initial hypothesis of the dimensions and the elaboration of the items were based on a bibliographic analysis about the theme of e-commerce website quality. A set of 75 items was prepared and submitted to a sample of 441 e-commerce websites from a wide variety of sectors. The treatment and analysis of data was conducted using IRT. In this step, questions related to dimensionality and the choice of the most suitable model was discussed. Finally, a multidimensional model with four dimensions was adjusted.

Keywords:
Quality in websites; E-commerce; Modeling; Multidimensional Item Response Theory

1 Introdução

O mercado de comércio eletrônico (e-commerce) vem crescendo exponencialmente desde o início da década passada em todo o mundo, aumentando seu poder de difusão e competitividade ( Kim et al., 2012 Kim, C., Galliers, R. D., Shin, N., Ryoo, J., & Kim, J. (2012). Factors influencing Internet shopping value and customer repurchase intention. Electronic Commerce Research and Applications, 11(4), 374-387. http://dx.doi.org/10.1016/j.elerap.2012.04.002.
http://dx.doi.org/10.1016/j.elerap.2012...
). Com isso, as empresas reconhecem cada vez mais a necessidade competitiva de estar presente na web e se engajar nesse mercado ( Deng & Poole, 2012 Deng, L., & Poole, M. S. (2012). Aesthetic design of e-commerce web pages – webpage complexity, order and preference. Electronic Commerce Research and Applications , 11(4), 420-440. http://dx.doi.org/10.1016/j.elerap.2012.06.004.
http://dx.doi.org/10.1016/j.elerap.2012...
). Isso tem estimulado um crescimento maciço de sites comerciais e intensificado a concorrência por clientes online, gerando uma proliferação de sites fornecendo funcionalidades similares e produtos, serviços ou informações idênticas, permitindo que os clientes possam mudar de um site para outro sem esforço. Assim, para atrair e reter clientes por meio da internet, uma organização precisa fazer seu website o mais simples e atraente, caso contrário os clientes potenciais podem simplesmente ir para outro website ( Taylor & England, 2006 Taylor, M. J., & England, D. (2006). Internet marketing: web site navigational design issues. Marketing Intelligence & Planning, 24(1), 77-85. http://dx.doi.org/10.1108/02634500610641570.
http://dx.doi.org/10.1108/0263450061064...
).

Websites comerciais estão se tornando cada vez mais complexos, pois o número de funcionalidades oferecidas aos consumidores está aumentando constantemente, a fim de melhorar tanto o processo de coleta de informações quanto a experiência de compra online ( Éthier et al., 2008 Éthier, J., Hadaya, P., Talbot, J., & Cadieux, J. (2008). Interface design and emotions experienced on B2C Web sites: empirical testing of a research model. Computers in Human Behavior, 24(2), 2771-2791. http://dx.doi.org/10.1016/j.chb.2008.04.004.
http://dx.doi.org/10.1016/j.chb.2008.04...
). Com esses novos desenvolvimentos, gestores e desenvolvedores de websites estão sobrecarregados de abordagens com recomendações sobre como criar e manter um website atraente e de qualidade.

Pesquisadores de várias áreas desenvolveram e testaram instrumentos para medir a qualidade de website (por exemplo, Aladwani & Palvia, 2002 Aladwani, A. M., & Palvia, P. C. (2002). Developing and validating an instrument for measuring user-perceived web quality. Information & Management, 39(6), 467-476. http://dx.doi.org/10.1016/S0378-7206(01)00113-6.
http://dx.doi.org/10.1016/S0378-7206(01...
; Loiacono et al., 2002 Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V. ; van der Merwe & Bekker, 2003 van der Merwe, R., & Bekker, J. (2003). A framework and methodology for evaluating e-commerce Web sites. Internet Research Electronic Networking Applications and Policy , 13(5), 330-341. http://dx.doi.org/10.1108/10662240310501612.
http://dx.doi.org/10.1108/1066224031050...
). Nesses estudos, um grande número de itens foi gerado para medir a qualidade de websites e esses foram aplicados em uma variedade de sites comerciais ou não comerciais por meio de avaliação de usuários experientes, novatos, estudantes, desenvolvedores, entre outros, e os achados têm indicado que a qualidade em websites representa um construto multidimensional ( Kim & Stoel, 2004 Kim, S., & Stoel, L. (2004). Dimensional hierarchy of retail website quality. Information & Management, 41(5), 619-633. http://dx.doi.org/10.1016/j.im.2003.07.002.
http://dx.doi.org/10.1016/j.im.2003.07....
; Hasan, 2016 Hasan, B. (2016). Perceived irritation in online shopping: the impact of website design characteristics. Computers in Human Behavior, 54, 224-230. http://dx.doi.org/10.1016/j.chb.2015.07.056.
http://dx.doi.org/10.1016/j.chb.2015.07...
).

Nesse sentido, segundo Aladwani & Palvia (2002) Aladwani, A. M., & Palvia, P. C. (2002). Developing and validating an instrument for measuring user-perceived web quality. Information & Management, 39(6), 467-476. http://dx.doi.org/10.1016/S0378-7206(01)00113-6.
http://dx.doi.org/10.1016/S0378-7206(01...
, a construção de medidas de qualidade no contexto de websites é uma tarefa desafiadora, por ser um conceito complexo e de natureza multidimensional. A maioria dos estudos envolve características técnicas tais como velocidade de download ( Palmer, 2002 Palmer, J. W. (2002). Web site usability, design, and performance metrics. Information Systems Research, 13(2), 151-167. http://dx.doi.org/10.1287/isre.13.2.151.88.
http://dx.doi.org/10.1287/isre.13.2.151...
; Galletta et al., 2004 Galletta, D. F., Henry, R., McCoy, S., & Polak, P. (2004). Web site delays: how tolerant are users? Journal of the Association for Information Systems, 5(1), 1-28. ; Gata & Gilang, 2017 Gata, W., & Gilang, O. (2017). Analysis of information system quality of service on bsi academy’s environment using webqual methods, importance performance analysis and fishbone. Journal of Theoretical and Applied Information Technology , 95(2), 229. ), segurança ( Flavián & Guinalíu, 2006 Flavián, C., & Guinalíu, M. (2006). Consumer trust, perceived security and privacy policy: three basic elements of loyalty to a web site. Industrial Management & Data Systems, 106(5), 601-620. http://dx.doi.org/10.1108/02635570610666403.
http://dx.doi.org/10.1108/0263557061066...
; Braz et al., 2007 Braz, C., Seffah, A., & M’Raihi, D. (2007). Designing a trade-off between usability and security: a metrics based-model. Lecture Notes in Computer Science , 4663, 114-126. http://dx.doi.org/10.1007/978-3-540-74800-7_9.
http://dx.doi.org/10.1007/978-3-540-748...
), usabilidade ( Bangor et al., 2008 Bangor, A., Kortum, P. T., & Miller, J. T. (2008). An empirical evaluation of the system usability scale. International Journal of Human-Computer Interaction , 24(6), 574-594. http://dx.doi.org/10.1080/10447310802205776.
http://dx.doi.org/10.1080/1044731080220...
; Fang & Holsapple, 2007 Fang, X., & Holsapple, C. W. (2007). An empirical study of web site navigation structures’ impacts on web site usability. Decision Support Systems, 43(2), 476-491. http://dx.doi.org/10.1016/j.dss.2006.11.004.
http://dx.doi.org/10.1016/j.dss.2006.11...
; Singh et al., 2016 Singh, T., Malik, S., & Sarkar, D. (2016). E-commerce website quality assessment based on usability. In International Conference on Computing, Communication and Automation (ICCCA) (pp. 101-105). USA: IEEE. ), qualidade do conteúdo ( Agarwal & Venkatesh, 2002 Agarwal, R., & Venkatesh, V. (2002). Assessing a firm’s web presence: a heuristic evaluation procedure for the measurement of usability. Information Systems Research , 13(2), 168-186. http://dx.doi.org/10.1287/isre.13.2.168.84.
http://dx.doi.org/10.1287/isre.13.2.168...
; Goldberg & Allen, 2008 Goldberg, C. B., & Allen, D. G. (2008). Black and white and read all over: Race differences in reactions to recruitment Web sites. Human Resource Management, 47(2), 217-236. http://dx.doi.org/10.1002/hrm.20209.
http://dx.doi.org/10.1002/hrm.20209 ...
; Stoyanov et al., 2015 Stoyanov, S. R., Hides, L., Kavanagh, D. J., Zelenko, O., Tjondronegoro, D., & Mani, M. (2015). Mobile app rating scale: a new tool for assessing the quality of health mobile apps. JMIR mHealth and uHealth, 3(1), e27. http://dx.doi.org/10.2196/mhealth.3422. PMid:25760773.
http://dx.doi.org/10.2196/mhealth.3422 ...
) e características não técnicas, como estética ( Pandir & Knight, 2006 Pandir, M., & Knight, J. (2006). Homepage aesthetics: the search for preference factors and the challenges of subjectivity. Interacting with Computers, 18(6), 1351-1370. http://dx.doi.org/10.1016/j.intcom.2006.03.007.
http://dx.doi.org/10.1016/j.intcom.2006...
; Lindgaard et al., 2006 Lindgaard, G., Gary, J. F., Cathy, D., & Brown, J. (2006). Attention Web Designers: You Have 50 Milliseconds to Make a Good First Impression! Behaviour & Information Technology, 25(2), 115-126. http://dx.doi.org/10.1080/01449290500330448.
http://dx.doi.org/10.1080/0144929050033...
; Stoyanov et al., 2015 Stoyanov, S. R., Hides, L., Kavanagh, D. J., Zelenko, O., Tjondronegoro, D., & Mani, M. (2015). Mobile app rating scale: a new tool for assessing the quality of health mobile apps. JMIR mHealth and uHealth, 3(1), e27. http://dx.doi.org/10.2196/mhealth.3422. PMid:25760773.
http://dx.doi.org/10.2196/mhealth.3422 ...
), confiabilidade ( Seffah et al., 2006 Seffah, A., Donyaee, M., Kline, R. B., & Padda, H. K. (2006). Usability measurement and metrics: a consolidated model. Software Quality Control, 14(2), 159-178. http://dx.doi.org/10.1007/s11219-006-7600-8.
http://dx.doi.org/10.1007/s11219-006-76...
; Flavián et al., 2006 Flavián, C., Guinalíu, M., & Gurrea, R. (2006). The influence of familiarity and usability on loyalty to online journalistic services: the role of user experience. Journal of Retailing and Consumer Services, 13(5), 363-375. http://dx.doi.org/10.1016/j.jretconser.2005.11.003.
http://dx.doi.org/10.1016/j.jretconser....
) e apelo visual ( Kulviwat et al., 2007 Kulviwat, S., Bruner, G. C., 2nd., Kumar, A., Nasco, S. A., & Clark, T. (2007). Toward a unified theory of consumer acceptance of technology. Psychology and Marketing , 24(12), 1067-1092. http://dx.doi.org/10.1002/mar.20196.
http://dx.doi.org/10.1002/mar.20196 ...
; Lindgaard, 2007 Lindgaard, G. (2007). Aesthetics, visual appeal, usability, and user satisfaction: What do the user’s eyes tell the user’s brain? Australian Journal of Emerging Technologies and Society, 5(1), 1-14. ). Entretanto, poucos estudos têm explorado a hierarquia das dimensões desses elementos, de modo que pouco se sabe sobre as relações entre as diversas escalas ou a construção global de uma escala para medir qualidade do website. Uma alternativa para resolver esse problema é o desenvolvimento de uma sistemática ou modelo multidimensional considerando, da forma mais abrangente, os fatores que influenciam diretamente a qualidade de um website. A elaboração de um modelo em forma de uma medida multidimensional foi a proposta central deste artigo. Nesse sentido, a Teoria da Resposta ao Item Multidimensional (TRIM) surge como alternativa para o desenvolvimento desse processo, uma vez que está associada a uma estrutura matemática e metodológica robusta, capaz de criar uma escala multidimensional na qual é possível posicionar na mesma escala item e respondente.

Este artigo é organizado da seguinte forma: após esta introdução é realizada uma breve definição de qualidade na web e criação de escalas, na sequência é apresentado o processo de medida proposto, seguido dos resultados e discussões, conclusões e referências.

2 Definição de qualidade na web

Reflexões a partir de estudos sobre a interação das pessoas com a tecnologia implicam que a avaliação dos clientes das novas tecnologias seja um processo distinto do tradicional ( Parasuraman et al., 2005 Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). E-S-Qual: a multiple-item scale for assessing electronic service quality. Journal of Service Research , 7(3), 213-233. http://dx.doi.org/10.1177/1094670504271156.
http://dx.doi.org/10.1177/1094670504271...
), pois envolve um modo diferente de fazer negócios, comumente chamado de e-service . Rust (2001) Rust, R. T. (2001). The rise of E-Service. Journal of Service Research , 3(4), 283-284. http://dx.doi.org/10.1177/109467050134001.
http://dx.doi.org/10.1177/1094670501340...
define e-service como o fornecimento de serviço utilizando redes eletrônicas.

Seguindo essa mesma ideia, Gefen (2002) Gefen, D. (2002). Consumer loyalty in e-commerce. Journal of the Association for Information Systems, 3(1), 27-51. http://dx.doi.org/10.17705/1jais.00022.
http://dx.doi.org/10.17705/1jais.00022 ...
, Zeithaml et al. (2000) Zeithaml, V. A., Parasuraman, A., & Malhotra, A. (2000). E-service quality: definition, dimensions and conceptual model (Working Paper). Cambridge: Marketing Science Institute. , DeLone & McLean (2003) DeLone, W. H., & McLean, E. R. (2003). The DeLone and McLean model of information systems success: a ten-year update. Journal of Management Information Systems , 19(4), 9-30. http://dx.doi.org/10.1080/07421222.2003.11045748.
http://dx.doi.org/10.1080/07421222.2003...
, Silva et al. (2015) Silva, R. G. S., Frio, R. S., Sampaio, C. H., & Broilo, P. L. (2015). Qualidade percebida do autosserviço online: validação da escala e-SELFQUAL no contexto brasileiro. Revista Brasileira de Marketing, 14(2), 138-154. e outros têm se concentrado no desenvolvimento e adaptação de modelos para avaliação de serviço online. Entretanto, segundo Serkan et al. (2010) Serkan, A., Eda, A., & Safak, A. (2010). Re-assessment of E-S-Qual and E-RecS-Qual in a pure service setting. Journal of Business Research, 63(3), 232-240. http://dx.doi.org/10.1016/j.jbusres.2009.02.018.
http://dx.doi.org/10.1016/j.jbusres.200...
, em comparação com a pesquisa abundante no contexto tradicional de qualidade em serviços, as pesquisas sobre a qualidade do serviço online ainda estão no começo.

Do ponto de vista técnico, as avaliações em serviços online receberam também influência dos estudos voltados para avaliação de sistemas de informação. Esses estudos atinham-se em conceituar tópicos específicos nesse contexto, tais como qualidade do gerenciamento de dados ( Kaplan et al., 1998 Kaplan, D., Krishnan, R., Padman, R., & Peters, J. (1998). KRISHNAN, R. PADMAN, R. PETERS, J. Assessing data quality in accounting information systems. Communications of the ACM, 41(2), 72-78. http://dx.doi.org/10.1145/269012.269024.
http://dx.doi.org/10.1145/269012.269024...
; Wang et al., 1995 Wang, R., Storey, V., & Firth, A. (1995). A framework for data quality research. IEEE Transactions on Knowledge and Data Engineering, 7(4), 623-640. http://dx.doi.org/10.1109/69.404034.
http://dx.doi.org/10.1109/69.404034 ...
), qualidade da informação ( King & Epstein, 1983 King, W. R., & Epstein, B. J. (1983). Assessing information system value: an experimental study. Decision Sciences, 14(1), 34-45. http://dx.doi.org/10.1111/j.1540-5915.1983.tb00167.x.
http://dx.doi.org/10.1111/j.1540-5915.1...
; Haga & Zviran, 1994 Haga, W. J., & Zviran, M. (1994). Information systems effectiveness: research designs for causal inference. Journal of Information Systems, 4(2), 141-166. http://dx.doi.org/10.1111/j.1365-2575.1994.tb00048.x.
http://dx.doi.org/10.1111/j.1365-2575.1...
), qualidade de softwares ( ISO, 1992 International Organisation for Standardization – ISO. (1992). ISO9126: Information Technology — Software Product Evaluation — Quality Characteristics and Guidelines for Their Use. Geneva: ISO. ; Schneidewind, 1992 Schneidewind, N. F. (1992). Methodology for validating software metrics. IEEE Transactions on Software Engineering, 18(5), 410-422. http://dx.doi.org/10.1109/32.135774.
http://dx.doi.org/10.1109/32.135774 ...
; Kitchenham & Pfleege, 1996 Kitchenham, B., & Pfleege, S. L. (1996). Software quality: the elusive target. IEEE Software, 13(1), 12-21. http://dx.doi.org/10.1109/52.476281.
http://dx.doi.org/10.1109/52.476281 ...
), qualidade global do sistema ( Kettinger & Lee, 1994 Kettinger, W. J., & Lee, C. C. (1994). Perceived service quality and user satisfaction with the information services function. Decision Sciences, 25(5-6), 737-766. http://dx.doi.org/10.1111/j.1540-5915.1994.tb01868.x.
http://dx.doi.org/10.1111/j.1540-5915.1...
; Nelson, 1996 Nelson, K. G. (1996). Global information systems quality: key issues and challenges. Journal of Global Information Management, 4(4), 4-14. http://dx.doi.org/10.4018/jgim.1996100101.
http://dx.doi.org/10.4018/jgim.19961001...
), entre outros. Esses estudos eram muito mais focados na avaliação do sistema, seu desempenho e sua relação com usuários específicos.

A partir de meados da década de 1990, com o desenvolvimento e popularização da internet, desenvolvedores e pesquisadores têm se esforçado para definir qualidade no contexto da internet (por exemplo: Barnes & Vidgen, 2000 Barnes, S. J., & Vidgen, R. T. (2000). WebQual: an exploration of web site quality. In Proceedings of the 8th European Conference on Information Systems (Vol. 1, pp. 298-305). Vienna: Wirtschaftsunivsitat Wien.
Wirtschaftsunivsitat Wien ...
; Day, 1997 Day, A. (1997). A model for monitoring Web site effectiveness. Internet Research: Electronic Networking Applications and Policy, 7(2), 1-9. http://dx.doi.org/10.1108/10662249710165244.
http://dx.doi.org/10.1108/1066224971016...
; Lindroos, 1997 Lindroos, K. (1997). Use quality and the World Wide Web. Information and Software Technology, 39(12), 827-836. http://dx.doi.org/10.1016/S0950-5849(97)00041-4.
http://dx.doi.org/10.1016/S0950-5849(97...
; Xie et al., 1998 Xie, M., Wang, H., & Goh, T. N. (1998). Quality dimensions of Internet search engines. Journal of Information Science, 24(5), 365-372. http://dx.doi.org/10.1177/016555159802400509.
http://dx.doi.org/10.1177/0165551598024...
; Loiacono et al., 2002 Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V. ). Lindroos (1997) Lindroos, K. (1997). Use quality and the World Wide Web. Information and Software Technology, 39(12), 827-836. http://dx.doi.org/10.1016/S0950-5849(97)00041-4.
http://dx.doi.org/10.1016/S0950-5849(97...
discute as diferenças entre os sistemas de informação baseados na web e sistemas de informação convencionais a partir da perspectiva de qualidade de software. Barnes & Vidgen (2000) Barnes, S. J., & Vidgen, R. T. (2000). WebQual: an exploration of web site quality. In Proceedings of the 8th European Conference on Information Systems (Vol. 1, pp. 298-305). Vienna: Wirtschaftsunivsitat Wien.
Wirtschaftsunivsitat Wien ...
, Loiacono et al. (2002) Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V. , Parasuraman et al. (2005) Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). E-S-Qual: a multiple-item scale for assessing electronic service quality. Journal of Service Research , 7(3), 213-233. http://dx.doi.org/10.1177/1094670504271156.
http://dx.doi.org/10.1177/1094670504271...
e Ding et al. (2011) Ding, D. X., Hu, P. J. H., & Sheng, O. R. L. (2011). e-SELFQUAL: a scale for measuring online self-service quality. Journal of Business Research, 64(1), 508-515. http://dx.doi.org/10.1016/j.jbusres.2010.04.007.
http://dx.doi.org/10.1016/j.jbusres.201...
desenvolveram modelos focados em sites comerciais. Esses e vários outros estudos decompõem a qualidade dos websites em vários atributos. A criação de tais modelos é baseada principalmente em experiências de muitos anos no desenvolvimento e manutenção de sistemas de informação e web. A validação desses modelos é feita principalmente por estudos empíricos, tais como a análise dos dados coletados em testes com usuários, questionários de satisfação e entrevistas.

Entretanto, a falta de uma definição clara dificulta a direção da pesquisa e impede a comparação e a integração dos resultados. Segundo Fassnacht & Koese (2006) Fassnacht, M., & Koese, I. (2006). Quality of electronic services: conceptualizing and testing a hierarchical model. Journal of Service Research, 9(1), 19-37. http://dx.doi.org/10.1177/1094670506289531.
http://dx.doi.org/10.1177/1094670506289...
, dimensões e subdimensões propostas em um artigo podem não ser sempre comparáveis com as de outros estudos. Por exemplo, Gummerus et al. (2004) Gummerus, J., Liljander, V., Pura, M., & van Riel, A. (2004). Customer loyalty to content-based web sites: the case of an online health-care service. Journal of Services Marketing, 18(3), 175-186. http://dx.doi.org/10.1108/08876040410536486.
http://dx.doi.org/10.1108/0887604041053...
discutem a dimensão da qualidade da resposta em termos de feedback aos clientes, enquanto no trabalho de Loiacono et al. (2002) Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V. essa dimensão refere-se ao tempo de carregamento dos sites. Por meio de uma revisão da literatura no período de 2000 à 2016, tendo como referência as bases de dados Scopus, ScienceDirect, EBSCO e Emerald, usando as palavras-chave “ e-commerce” ou “web site” ou “ website” ou “online shopping” ou “internet shopping” e “quality ” no título ou no resumo pode-se evidenciar o caráter multidimensional dos estudos. Dentre esses, encontraram-se abordagens práticas com no mínimo 3 e no máximo 15 dimensões. A maioria delas trabalhando com testes e percepção de usuários e utilizando como técnica de análise a análise fatorial exploratória e/ou confirmatória, demonstrando que o desenvolvimento e/ou aplicação de novas técnicas pode representar um avanço técnico-metodológico nesse campo. As dimensões mais encontradas nesses estudos foram apresentação da informação, segurança, usabilidade e interatividade.

Além disso, a grande maioria dos estudos encontrados é na realidade adaptação ou aplicação de modelos já existentes e, de acordo com Fassnacht & Koese (2006) Fassnacht, M., & Koese, I. (2006). Quality of electronic services: conceptualizing and testing a hierarchical model. Journal of Service Research, 9(1), 19-37. http://dx.doi.org/10.1177/1094670506289531.
http://dx.doi.org/10.1177/1094670506289...
, a estrutura e o significado das dimensões elaboradas têm sido geralmente determinados a posteriori pelos resultados de análise de dados.

Uma questão relevante dos estudos nessa área, do ponto de vista metodológico, é a grande diferença no tamanho da amostra. Por exemplo, enquanto Jun et al. (2004) Jun, M., Yang, Z., & Kim, D. S. (2004). Customers’ perceptions of online retailing service quality and their satisfaction. International Journal of Quality & Reliability Management, 21(8), 817-840. http://dx.doi.org/10.1108/02656710410551728.
http://dx.doi.org/10.1108/0265671041055...
utilizam 137 usuários (estudantes e profissionais), Yang et al. (2005) Yang, Z., Cai, S., Zhou, Z., & Zhou, N. (2005). Development and validation of an instrument to measure user perceived service quality of information presenting Web portals. Information & Management, 42(4), 575-589. utilizam 1.992 usuários. Como a grande maioria das abordagens pesquisadas utiliza como procedimento para análise dos dados a análise fatorial, pode-se comparar a confiabilidade das escalas propostas. No caso da escala proposta por Jun et al. (2004) Jun, M., Yang, Z., & Kim, D. S. (2004). Customers’ perceptions of online retailing service quality and their satisfaction. International Journal of Quality & Reliability Management, 21(8), 817-840. http://dx.doi.org/10.1108/02656710410551728.
http://dx.doi.org/10.1108/0265671041055...
, a confiabilidade (alpha de Cronbach) ficou entre 0,59 e 0,92, enquanto que no estudo de Yang et al. (2005) Yang, Z., Cai, S., Zhou, Z., & Zhou, N. (2005). Development and validation of an instrument to measure user perceived service quality of information presenting Web portals. Information & Management, 42(4), 575-589. variou de 0,66 a 0,89. Geralmente assume-se como aceitável valores acima de 0,70, mas, segundo Kline (2000) Kline, P. (2000). The handbook of psychological testing. London: Routledge. , em casos com grande diversidade de construtos como, por exemplo, testes psicológicos, são aceitáveis valores abaixo de 0,70. A maioria dos estudos pesquisados apresentou um alpha de Cronbach maior que 0,70, com exceção do estudo de Ibrahim et al. (2006) Ibrahim, E. E., Joseph, M., & Ibeh, K. I. N. (2006). Customers’ perception of electronic service delivery in the UK retail banking sector. International Journal of Bank Marketing, 24(7), 475-493. http://dx.doi.org/10.1108/02652320610712094.
http://dx.doi.org/10.1108/0265232061071...
, o qual apresenta uma amplitude de 0,33 a 0,84.

O presente estudo se encaixa na classificação de Cristobal et al. (2007) Cristobal, E., Flavian, C., & Guinaliu, M. (2007). Perceived e-service quality (PeSQ): measurement validation and effects on consumer satisfaction and web site loyalty. Managing Service Quality, 17(3), 317-340. http://dx.doi.org/10.1108/09604520710744326.
http://dx.doi.org/10.1108/0960452071074...
como um estudo da qualidade e design de website. Dentro desse escopo, assume-se qualidade em websites como a qualidade de um sistema de informação que, segundo Loiacono et al. (2002) Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V. , foca-se no armazenamento, processamento, apresentação e transferência da informação.

Sendo assim, o conceito adotado de qualidade em websites é o de um conjunto de características técnicas e não técnicas de um sistema web, as quais permitem ao usuário realizar seus objetivos em um website de forma acessível, eficiente e agradável. Como características técnicas entende-se usabilidade/navegabilidade, apresentação da informação, acessibilidade e interatividade do sistema. Como características não técnicas entende-se design, estética, apelo visual/comercial, confiabilidade, hedonismo, empatia.

3 Criação de escalas: teoria da resposta ao item e qualidade na web

A construção de escalas de medida facilita o entendimento de conceitos complexos. Três razões explicam isso. Primeiramente, procurar por vários aspectos de uma variável fornece a criação de conhecimento sobre ela. Segundo, várias perspectivas realçam o intervalo de variação, o que permite distinções mais precisas, principalmente se envolver medidas ordinais. Em terceiro lugar, a construção de medidas permite uma redução eficiente dos dados por meio da qual uma pontuação numérica pode representar a posição ordinal em que determinada característica do item ou de elementos da população em avaliação se encontram na escala, o que permite comparabilidade ( Babbie, 2005 Babbie, E. (2005). The basics of social research. Belmont: Wadsworth Publishing. ).

Para construir uma escala baseada num conjunto de itens, as variáveis devem estar ligadas teorica ou conceitualmente com o que a pesquisa visa medir ( Baker, 2009 Baker, D. L. (2009). Advancing E-Government performance in the United States through enhanced usability benchmarks. Government Information Quarterly, 26(1), 82-88. http://dx.doi.org/10.1016/j.giq.2008.01.004.
http://dx.doi.org/10.1016/j.giq.2008.01...
). Com isso, a maior implicação das escalas é a possibilidade de comparação entre escores e estatísticas apropriadas que resumem esses escores. Em uma escala de medida, o papel dos números é representar um objeto, ou uma pessoa, de forma que a relação entre os números represente a relação empírica entre os objetos ou entre as pessoas. Essa representatividade fornece ao objeto importantes propriedades tais como o poder de distinção entre objetos, ordem, adição e razão ( Embretson & Reise, 2000 Embretson, S., & Reise, S. P. (2000). Item response theory for psychologists. New Jersey: Lawrence Erlbaum Associates, Inc. Publishers. ).

A Teoria de Resposta ao Item (TRI) é composta de um conjunto de modelos probabilísticos que relaciona um traço latente de um respondente (Ө), que não pode ser medido diretamente, com a probabilidade de ele responder a um item dentro de uma determinada categoria ( Lord, 1980 Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum. ).

Na TRI, a escolha do modelo matemático depende basicamente do tipo de item e representa a probabilidade de resposta a um item em função dos parâmetros do item e da proficiência do respondente ( Tavares et al., 2004 Tavares, H. R., Andrade, D. F., & Pereira, C. A. B. (2004). Detection of determinant genes and diagnostic via item response theory. Genetics and Molecular Biology , 27(4), 679-685. http://dx.doi.org/10.1590/S1415-47572004000400033.
http://dx.doi.org/10.1590/S1415-4757200...
; Reise et al., 1993 Reise, S. P., Widaman, K. F., & Pugh, R. H. (1993). Confirmatory factor analysis and item response theory: Two approaches for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566. http://dx.doi.org/10.1037/0033-2909.114.3.552. PMid:8272470.
http://dx.doi.org/10.1037/0033-2909.114...
). O modelo mais utilizado para itens com resposta dicotômica é o modelo logístico de dois parâmetros unidimensional (ML2P) desenvolvido por Birnbaum (1968) Birnbaum, A. (1968). Some latent trait models and their use in infering an examiniee’s Ability. In F. M. Lord, & M. R. Novick. Statistical theories of mental test scores (Vol. 38, pp. 123-140). Boston: Addison-Wesley. , com base em Lord (1952) Lord, F. M. (1952). A theory of test scores (Psychometric Monograph, No. 7). Madison: Psychometric Society. . Sendo Uij = 1 a probabilidade de o indivíduo j responder afirmativamente ao item i, o ML2P é representado pela Equação 1:

P ( U i j = 1 / θ j ) = 1 1 + e a i ( θ j b i ) (1)

em que θ é o traço latente que se quer medir, supostamente, numa escala com média zero e desvio padrão um; θj é o valor do traço latente para o indivíduo j; bi é o valor do traço latente em que a probabilidade do item i ser respondido afirmativamente é igual a 0,5; ai é o parâmetro de discriminação do item i , proporcional à inclinação da Curva Característica do Item (CCI) no ponto bi. A CCI representa a relação entre a resposta prevista ao item e o traço latente do indivíduo ( Reckase, 1997 Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden & W. J. Hambleton (Ed.), Handbook of modern item response theory (pp. 271-286). New York: Springer. ).

Uma das suposições empregadas nesse modelo é a da unidimensionalidade, a qual define que todos os itens do teste estão medindo o mesmo traço latente ou a mesma composição de múltiplas habilidades. Entretanto, existem muitas situações em que os itens que compõem o instrumento de medida podem estar medindo diferentes dimensões do traço latente, ou diferentes composições de múltiplas habilidades ( Ackerman, 1994 Ackerman, T. A. (1994). Using multidimensional item response theory to understand what items and tests are measuring. Applied Measurement in Education, 7(4), 255-278. http://dx.doi.org/10.1207/s15324818ame0704_1.
http://dx.doi.org/10.1207/s15324818ame0...
) como, por exemplo, a qualidade de websites comerciais.

Reckase (1985) Reckase, M. D. (1985). The difficulty of test items that measure more than one ability. Applied Psychological Measurement, 9(4), 401-412. http://dx.doi.org/10.1177/014662168500900409.
http://dx.doi.org/10.1177/0146621685009...
descreve o modelo multidimensional compensatório de dois parâmetros como uma extensão multidimensional do ML2P apresentado na Equação 1 , da forma apresentada na Equação 2:

P(Uij=1|θjk',di,aik')=e(k=1maikθik+di)1+e(k=1maikθik+di) , (2)

em que: Ui j = resposta da pessoa j ao item i (0 ou 1); aik = parâmetro de discriminação do item i na dimensão k;θjk = traço latente da pessoa j na dimensão k ; di = parâmetro de dificuldade do item i .

O expoente de e no modelo 2 pode ser escrito conforme Equação 3:

k = 1 m a i k θ i k + d i = a i 1 θ j 1 + a i 2 θ j 2 + + a i m θ j m + d i (3)

A Equação 3 mostra que o expoente é uma função linear de elementos de θ, com o parâmetro d como a ordenada na origem e os elementos do vetor a como parâmetros de inclinação ou de discriminação. Uma das propriedades desse modelo é que a expressão representada no expoente define uma reta num espaço de k dimensões que pode gerar linhas de equiprobabilidade, ou seja, essa forma multidimensional permite que existam infinitas combinações lineares que resultam no mesmo expoente, gerando a mesma probabilidade de acerto. Essa propriedade confere ao modelo a característica compensatória. Para mais detalhes ver Reckase (2009) Reckase, M. D. (2009). Multidimensional item response theory. New York: Springer. http://dx.doi.org/10.1007/978-0-387-89976-3.
http://dx.doi.org/10.1007/978-0-387-899...
.

A utilização dos modelos da teoria da resposta ao item multidimensional (TRIM) para lidar com problemas de medição em avaliação educacional em larga escala tem sido realizada desde o início dos anos 1990 ( Ackerman, 1992 Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement , 29(1), 67-91. http://dx.doi.org/10.1111/j.1745-3984.1992.tb00368.x.
http://dx.doi.org/10.1111/j.1745-3984.1...
; Camilli, 1992 Camilli, G. (1992). A conceptual analysis of differential item functioning in terms of a multidimensional item response model. Applied Psychological Measurement, 16(2), 129-147. http://dx.doi.org/10.1177/014662169201600203.
http://dx.doi.org/10.1177/0146621692016...
; Embretson, 1991 Embretson, S. E. (1991). A multidimensional latent trait model for measuring learning and change. Psychometrika, 56(3), 495-515. http://dx.doi.org/10.1007/BF02294487.
http://dx.doi.org/10.1007/BF02294487 ...
; Glas, 1992 Glas, C. A. W. (1992). A rasch model with a multivariate distribution of ability. In M. Wilson (Ed.), Objective measurement: theory into practice (pp. 236-258). Norwood: Ablex. ; Oshima & Miller, 1992 Oshima, T. C., & Miller, M. D. (1992). Multidimensionality and item bias in item response theory. Applied Psychological Measurement, 16(3), 237-248. http://dx.doi.org/10.1177/014662169201600304.
http://dx.doi.org/10.1177/0146621692016...
; Reckase & McKinley, 1991 Reckase, M. D., & McKinley, R. L. (1991). The discriminating power of items that measure more than one dimension. Applied Psychological Measurement, 15(4), 361-373. http://dx.doi.org/10.1177/014662169101500407.
http://dx.doi.org/10.1177/0146621691015...
). No entanto, segundo Adams et al. (1997) Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model. Applied Psychological Measurement, 21(1), 1-23. http://dx.doi.org/10.1177/0146621697211001.
http://dx.doi.org/10.1177/0146621697211...
, Hartig & Höhler (2008) Hartig, J., & Höhler, J. (2008). Representation of competencies in multidimensional IRT models with within-item and between-item multidimensionality. The Journal of Psychology, 216(2), 88-100. e Rauch & Hartig (2010) Rauch, D., & Hartig, J. (2010). Multiple‐choice versus open‐ended response formats of reading test items: a two‐dimensional IRT analysis. Psychological Test and Assessment Modeling, 52(4), 354-379. , a aplicação de modelos em teste prático fora da área educacional é relativamente rara. Na avaliação de sistemas, mais especificamente sistemas web, as aplicações da TRI são muito raras, Schmettow & Vietze (2008) Schmettow, M., & Vietze, W. (2008). Introducing item response theory for measuring usability inspection processes. In Proceeding of the twenty-sixth annual SIGCHI conference on Human factors in computing systems. New York: ACM. http://dx.doi.org/10.1145/1357054.1357196.
http://dx.doi.org/10.1145/1357054.13571...
propõem a aplicação do modelo de Rasch ( Rasch, 1960 Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research. ) para o processo de inspeção de usabilidade, Tezza et al. (2011) Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
aplicaram o modelo logístico de dois parâmetros unidimensional para mensurar usabilidade em websites comerciais e Tezza et al. (2016) Tezza, R., Bornia, A. C., Spenassato, D., & Trierweiller, A. C. (2016). Empirical comparison of the multidimensional models of item response theory in e-commerce. Pesquisa Operacional, 36(3), 503-532. http://dx.doi.org/10.1590/0101-7438.2016.036.03.0503.
http://dx.doi.org/10.1590/0101-7438.201...
comparam modelos hierárquicos e não hierárquicos na TRI no contexto de websites comerciais. No entanto, não foi encontrada na literatura a apresentação de um modelo multidimensional da TRI interpretável para avaliação da qualidade de websites comerciais.

4 Método

A construção dos itens partiu de um levantamento da literatura conforme descrito na seção 2. Procurou-se consolidar os diversos estudos presentes na literatura específica e desenvolver um instrumento abrangente e consistente. Mais especificamente, a construção dos itens se deu por meio da associação dos conceitos resultantes da análise de 213 artigos e livros pesquisados. Alguns itens foram elaborados a partir dos conceitos mais recorrentes na literatura. Outros foram extraídos integralmente de estudos anteriores como, por exemplo, Tezza et al. (2011) Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
e W3C (2008) W3C. (2008). Web content accessibility guidelines (WCA G) 2.0. W3C Recommendation . Recuperado em 25 de maio de 2012, de http://www.w3.org/TR/WCAG20/
http://www.w3.org/TR/WCAG20/ ...
.

O planejamento do levantamento de dados seguiu a proposta de Stepchenkova et al. (2010) Stepchenkova, S., Tang, L., Jang, S. S., Kirilenko, A. P., & Morrison, A. M. (2010). Benchmarking CVB website performance: Spatial and structural patterns. Tourism Management , 31(5), 611-620. http://dx.doi.org/10.1016/j.tourman.2009.06.015.
http://dx.doi.org/10.1016/j.tourman.200...
e Tezza et al. (2011) Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
, no qual os itens são construídos para avaliar o sistema e não com o objetivo de captar percepção de clientes ou usuários, tendo, portanto, a característica objetiva de um checklist. Com isso, trabalhou-se a elaboração de itens objetivos, capazes de verificar a existência ou não de determinada característica associada à qualidade do website comercial. Sendo assim, todos os itens foram formulados de forma objetiva e com respostas dicotômicas.

Foram elaborados 75 itens. Após a elaboração dos itens os mesmos foram submetidos à avaliação de três especialistas, com o objetivo de verificar a adequação dos itens ao constructo – qualidade em websites comerciais.

Os dados utilizados na presente análise foram formados por uma amostra da população de sites de e-commerce de origem brasileira. A coleta dessa amostra foi feita com o auxílio de buscadores como Google.com, Bing.com e Yahoo.com no período de janeiro e fevereiro de 2012. Foram analisados 441 sites de e-commerce , abrangendo vários gêneros, escolhidos de forma aleatória. Durante o processo de amostragem tomou-se o cuidado de garantir que a mesma fosse a mais diversificada possível. Para isso, além de sites com os mais diversos gêneros de produtos comercializados, observou-se a variedade de estilos de design, contemplando desde sites simples até muito elaborados, o que não necessariamente implica em maior qualidade mas contribui para a diversidade, necessária para aplicação da Teoria da Resposta ao Item ( Tezza et al., 2011 Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
).

Dos 75 itens gerados, 56 deles tiveram suas respostas obtidas por meio de coleta manual, na qual o pesquisador, após navegação no website em análise, responde se o mesmo possui ou não as características em questão. Esse método manual de coleta de dados em websites baseou-se em Pinterits et al. (2006) Pinterits, A., Treiblmaier, H., & Pollach, I. (2006). Environmental websites: an empirical investigation of functionality and accessibility. International Journal of Technology Policy and Management, 6(1), 103-119. http://dx.doi.org/10.1504/IJTPM.2006.010075.
http://dx.doi.org/10.1504/IJTPM.2006.01...
, Al-Khalifa (2010) Al-Khalifa, H. S. (2010). The accessibility of Saudi Arabia government Web sites: an exploratory study. Universal Access in the Information Society, 10(4). http://dx.doi.org/10.1007/s10209-016-0495-7.
http://dx.doi.org/10.1007/s10209-016-04...
, Stepchenkova et al. (2010) Stepchenkova, S., Tang, L., Jang, S. S., Kirilenko, A. P., & Morrison, A. M. (2010). Benchmarking CVB website performance: Spatial and structural patterns. Tourism Management , 31(5), 611-620. http://dx.doi.org/10.1016/j.tourman.2009.06.015.
http://dx.doi.org/10.1016/j.tourman.200...
e Tezza et al. (2011) Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
. A coleta manual foi realizada pelo primeiro autor. Essa coleta manual levou dois meses – março a maio de 2012. Ao todo foram avaliados 441 websites. Os 19 itens restantes foram analisados de forma semiautomática utilizando a ferramenta livre AChecker (2012) AChecker. (2012). Web accessibility checker. Recuperado em 25 de maio de 2012, de https://achecker.ca/checker/index.php
https://achecker.ca/checker/index.php ...
. Essa ferramenta verifica as diretrizes de acessibilidade, com o objetivo de estabelecer o nível de acessibilidade de websites ao detectar erros de acordo com as diretrizes de Acessibilidade para Conteúdo Web (WCAG) 2.0.

Constituiu o ambiente para coleta de dados um computador com tela de 15”. O navegador utilizado foi o Internet Explorer versão 7. A resolução da tela utilizada foi de 1.024 por 768 pixels.

Na etapa de análise dos dados foi realizada inicialmente uma análise fatorial exploratória para verificar a qualidade dos itens e, posteriormente, análises de dimensionalidade, também por meio de uma análise exploratória para identificação do número de dimensões e a adequação de cada item às dimensões. Por fim foi verificada a adequação do modelo multidimensional compensatório da teoria da resposta ao item e interpretação da escala.

5 Resultados e discussões

5.1 Avaliação da qualidade do conjunto de itens iniciais

Inicialmente foi realizada uma avaliação da qualidade do conjunto inicial de dados com 75 itens, por meio do método de análise fatorial exploratória de informação plena. A análise foi conduzida baseada na verificação das cargas fatoriais de cada item, o que reflete a relação do item com os fatores subjacentes (traços latentes) presentes no conjunto de dados.

Para verificação das cargas fatoriais, utilizou-se, após analisar estruturas com 1, 2, 3 e 4 dimensões, a estrutura de 3 dimensões. A utilização de 3 dimensões se deu com base no critério sugerido por Chalmers (2012) Chalmers, R. P. (2012). Mirt: a multidimensional item response theory package for the R environment. Journal of Statistical Software, 48(6), 1-29. http://dx.doi.org/10.18637/jss.v048.i06.
http://dx.doi.org/10.18637/jss.v048.i06...
, o qual afirma que o número de dimensões que gera um melhor ajuste aos dados pode ser verificado por meio da uma comparação de modelos, utilizando uma análise de variância genérica (ANOVA) implementada no software R com base no método da análise fatorial de informação plena. Como resultado tem-se a estatística qui-quadrado (χ2) associada ao teste de razão de verossimilhanças, bem como a diferença no AIC (Akaike Information Criterion – AIC) e BIC (Bayesian Information Criterion – BIC), que são estatísticas de comparação de ajuste de modelos (quanto menor, melhor). Foi feita a comparação de quatro modelos, o primeiro assumindo uma dimensão (Mod1), o segundo, duas (Mod2), o terceiro, três (Mod3) e o quarto, quatro (Mod4). A Tabela 1 demonstra os resultados.

Tabela 1
Comparação dos modelos de 1, 2, 3 e 4 dimensões.

Verifica-se, na Tabela 1 , que a diferença entre o modelo 1 e o modelo 2 é estatisticamente significante para α = 0,05, (hipótese alternativa aceita), indicando que o modelo que assume duas dimensões possui mais informação que o modelo de uma dimensão, e isso também pode ser visualizado nos critérios de informação AIC e BIC, nos quais verifica-se que existem diferenças positivas do modelo 1 em relação ao modelo 2. O mesmo ocorre na comparação do modelo 2 e do modelo 3. No entanto, nesse caso, verifica-se no AIC que há diferença positiva entre os modelos 2 e 3, mas no BIC o mesmo não ocorre.

Usando análise fatorial de informação plena, verificou-se que a maioria dos itens apresentou cargas fatoriais superiores a 0,3 em alguma dimensão, o que é considerado por alguns autores ( Johnson & Wichern, 2007 Johnson, R., & Wichern, D. (2007). Applied multivariate analysis (6th. ed.). New Jersey: Prentice Hall. ; Hair et al., 2009 Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6. ed.). Porto Alegre: Bookman. ) valor mínimo para se considerar o item na interpretação da dimensão. Itens com carga fatorial inferior a 0,3 em todas as dimensões foram assumidos como itens pouco informativos para o construto, sendo assim, foram eliminados. Essa ação resultou na retirada de 18 itens. A nova análise do conjunto, após essa primeira retirada, mostrou mais dois itens com carga fatorial, em módulo, inferior a 0,3 em todas das dimensões: os itens 1 e 42, os quais também foram eliminados. Foram realizadas cinco novas análises até extraim-ser todos os itens remanescentes com carga fatorial inferior a 0,3. Desta forma foram eliminados ao todo 31 itens, restando 44 nessa etapa.

5.2 Avaliação das dimensões

Após a verificação da qualidade do conjunto inicial de 75 itens por meio da análise das cargas fatoriais partiu-se para a avaliação da dimensionalidade dos 44 itens restantes. Para avaliar a dimensionalidade do construto utilizaram-se o método de análise de componentes principais e o método de análise fatorial de informação plena. No primeiro método, o número de dimensões foi verificado com base na matriz de correlação tetracórica e na análise paralela. Para isso foi utilizado o pacote psych ( Revelle, 2012 Revelle, W. (2012). Package ‘psych’: procedures for psychological, psychometric, and personality research. Version 1.2. 12. Recuperado em 25 de maio de 2012, de http://personality-project.org/r/psych.manual.pdf
http://personality-project.org/r/psych....
) implementado no software R ( R Core Team, 2012 R Core Team. (2012). R: a language and environment for statistical computing . Vienna: R Foundation for Statistical Computing. Recuperado em 25 de maio de 2012, de http://www.R-project.org/
http://www.R-project.org/ ...
). A análise de componentes principais, realizada por meio da matriz de correlação tetracórica, sugeriu a existência de 5 dimensões, assumindo-se o critério de pelo menos 50% da variância comum para o conjunto de fatores. A Tabela 2 mostra os primeiros 10 autovalores considerando os 44 itens.

Tabela 2
Valores próprios da matriz de correlação tetracórica dos primeiros 10 autovalores do conjunto de 44 itens.

Alguns autores, como McDonald (1981) McDonald, R. P. (1981). The dimensionality of test and items. The British Journal of Mathematical and Statistical Psychology, 33(1), 161-183. e Spector et al. (1997) Spector, P. E., Van Katwyk, P. T., Brannick, M. T., & Chen, P. Y. (1997). When two factors don’t reflect two constructs: How item characteristics can produce artificial factors. Journal of Management, 23(5), 659-677. http://dx.doi.org/10.1177/014920639702300503.
http://dx.doi.org/10.1177/0149206397023...
, argumentam que a análise fatorial clássica tende a superestimar o número de dimensões, criando fatores espúrios quando não há uniformidade na dificuldade dos itens. Dessa forma, não é muito conveniente considerar um número muito alto de dimensões tendo em vista também o número limitado da amostra.

Já a análise fatorial feita pela análise fatorial de informação plena mostrou que a primeira dimensão explica apenas 10,41% da variação total do conjunto de 44 itens, o que sugere um construto não unidimensional. A comparação do ajuste de modelos TRIM de 1, 2, 3 e 4 dimensões sugere 3 dimensões, pelo critério AIC, como pode ser visualizado na Tabela 3 .

Tabela 3
Seleção do melhor modelo com base nos critérios de informação AIC e BIC.

Complementarmente, foi usado o critério empírico, recomendado por diferentes autores, como Ford et al. (1986) Ford, J. K., Maccallum, R. C., & Tait, M. (1986). The application of exploratory factor analysis in applied psychology: a critical review and analysis. Personnel Psychology , 39(2), 292-314. http://dx.doi.org/10.1111/j.1744-6570.1986.tb00583.x.
http://dx.doi.org/10.1111/j.1744-6570.1...
, Fleck & Bourdel (1998) Fleck, M. P. A., & Bourdel, M. C. (1998). Método de simulação e escolha de fatores na análise dos principais componentes. Revista de Saude Publica, 32(3), 267-272. http://dx.doi.org/10.1590/S0034-89101998000300010. PMid:9778862.
http://dx.doi.org/10.1590/S0034-8910199...
, Podsakoff et al. (1997) Podsakoff, P. M., Ahearne, M., & Mackenzie, S. B. (1997). Organizational citizenship behaviors and the quantity and quality of work group performance. The Journal of Applied Psychology, 82(2), 262-270. http://dx.doi.org/10.1037/0021-9010.82.2.262. PMid:9109284.
http://dx.doi.org/10.1037/0021-9010.82....
. Esse método propõe considerar as dimensões que possam ser bem interpretadas. Nesse contexto, verificou-se melhor interpretação para o modelo TRIM com quatro dimensões.

A Tabela 4 mostra a descrição dos 44 itens e a distribuição das cargas fatoriais de cada item nas 4 dimensões, utilizando a rotação ortogonal varimax. A primeira dimensão agrupa itens com conteúdo voltado para acessibilidade e utilização do sistema, ou seja, verificação de possíveis entraves no sistema, que possam impedir, confundir ou dificultar o acesso dos usuários, particularmente usuários que possuam alguma limitação física ou cognitiva. Nota-se que a maioria dos itens dessa dimensão pertence ao conjunto de recomendações de acessibilidade WCAG 2.0 (W3C, 2008 W3C. (2008). Web content accessibility guidelines (WCA G) 2.0. W3C Recommendation . Recuperado em 25 de maio de 2012, de http://www.w3.org/TR/WCAG20/
http://www.w3.org/TR/WCAG20/ ...
). A segunda dimensão traz itens relacionados diretamente com a apresentação da informação, praticamente todos os itens com maior carga fatorial nessa dimensão remetem a algum conceito de organização ou apresentação da informação. A terceira dimensão, assim como a segunda, apresenta todos os itens com maior carga nessa dimensão no mesmo sentido, ou seja, todos positivos, com exceção do item 73. Analisando-se os conceitos envolvidos em cada item característico dessa dimensão, verifica-se que a maioria possui conceito adjacente ao controle por parte do usuário ou interação desse com o sistema. Na quarta dimensão, os itens 5 e 8 apresentaram carga em sentido contrário ao da maioria. Essa peculiaridade pode ser justificada pela própria característica dos itens nesse contexto, ou seja, considerando-se que todos os itens dessa dimensão estão relacionados diretamente com o conceito de orientação do usuário durante a navegação. O Quadro 1 mostra um resumo das dimensões e os respectivos itens de maior carregamento nessas, segundo a análise fatorial.

Tabela 4
Análise fatorial utilizando o método da informação plena, rotação ortogonal varimax aos 44 itens em 4 dimensões.
Quadro 1
Classificação dos itens conforme a dimensão, segundo a análise fatorial.

5.3 Aplicação do modelo multidimensional compensatório da TRI

Dadas as conclusões e verificações discutidas na seção anterior, assumiu-se que o construto contendo 44 itens é composto de 4 dimensões. Sendo assim, trabalhou-se uma modelagem multidimensional de 4 dimensões, utilizando-se a teoria da resposta ao item. A TRIM (Teoria da Resposta ao Item Multidimensional) possui algumas similaridades com a análise fatorial, entretanto a TRIM apresenta vantagens consideráveis ante a abordagem puramente fatorial, principalmente pelo fato de tratar os itens de uma forma individual e não apenas em termos de agrupamento fatorial. Nessa linha é possível analisar, além da qualidade do item, seu grau de dificuldade e, com isso, estimar escores aos respondentes. Segundo Bartolucci et al. (2012) Bartolucci, F., Montanari, G. E., & Pandolfi, S. (2012). Dimensionality of the latent structure and item selection via latent class multidimensional IRT models. Psychometrika , 77(4), 782-802. http://dx.doi.org/10.1007/s11336-012-9278-0.
http://dx.doi.org/10.1007/s11336-012-92...
, nenhuma outra abordagem estatística permite estudar a dimensionalidade e o poder de discriminação de itens de maneira mais simples do que a TRIM.

A estimação dos parâmetros multidimensionais dos 44 itens apresentou alguns problemas pontuais com quatro itens (itens 5, 24, 58, 73). Tais itens apresentaram parâmetros superestimados e/ou com erro padrão alto e, portanto, foram eliminados.

A Tabela 5 mostra a estimativa dos parâmetros dos 40 itens utilizando o modelo multidimensional compensatório de dois parâmetros ( Equação 2 ) por meio do software flexMIRTTM ( Cai, 2012 Cai, L. (2012). FlexMIRTTM version 1.86: a numerical engine for multilevel item factor analysis and test scoring. Seattle: Vector Psychometric Group. ). A Tabela 5 mostra também os parâmetros de discriminação de cada item em cada dimensão (a1, a2, a3, a4) e o parâmetro de discriminação multidimensional (MDISC). Quanto maior o parâmetro de discriminação multidimensional (MDISC), maior é o poder de discriminação multidimensional do item, ou seja, mais o item diferencia o nível de qualidade para o website. Além disso, a Tabela 5 mostra o valor do parâmetro de localização d relativa a cada item, que, segundo Reckase (1997) Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden & W. J. Hambleton (Ed.), Handbook of modern item response theory (pp. 271-286). New York: Springer. , está relacionado à dificuldade do item.

Tabela 5
Estimativas dos parâmetros multidimensionais para os 40 itens, assumindo o modelo multidimensional de dois parâmetros compensatório.

O parâmetro de discriminação, assim como a carga fatorial, pode ser arbitrário em cada dimensão, considerando que possa haver algum tipo de rotação, esses carregamentos podem ser comparados identificando-se itens semelhantes na mesma dimensão, da mesma forma como é feita a análise fatorial ( Reckase, 1997 Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden & W. J. Hambleton (Ed.), Handbook of modern item response theory (pp. 271-286). New York: Springer. ). Sendo assim, espera-se que o parâmetro de discriminação de um determinado item seja maior na dimensão em que ele tenha maior poder de discriminação, ou seja, na dimensão em que possua mais informação.

A estrutura apresentada na Tabela 5 assemelha-se à apresentada na análise fatorial da Tabela 4 , a qual considera 4 dimensões. Entretanto, a configuração multidimensional da Tabela 5 apresenta algumas peculiaridades que a diferenciam daquela. Primeiramente, quatro itens foram retirados por apresentarem problemas nas estimativas dos parâmetros. Em segundo, apesar de possuírem uma base estatística comum, análise fatorial de informação plena e a teoria de resposta ao item multidimensional, a última trabalha com estimação de mais parâmetros, o que justifica algumas particularidades no processo de estimação, as quais podem gerar problemas de convergência como os que ocorreram nos itens 5, 24, 58 e 73. Por fim, a consequência gerada pelas reestimativas dos parâmetros é a possibilidade de reorganização dos itens nas dimensões e de alteração no significado base de alguma das dimensões, o que de fato ocorreu, particularmente com a dimensão caracterizada na análise fatorial como acessibilidade e utilização do sistema e agora na reestimação da TRIM, como acessibilidade e confiabilidade do sistema, representada pela dimensão 2.

Os valores em negrito na Tabela 5 destacam a dimensão na qual o item possui maior parâmetro de discriminação, indicando em qual dimensão o item possui maior informação. Entretanto, como se trata de uma modelagem multidimensional compensatória, um item nem sempre é exclusivo de uma só dimensão, podendo contribuir para a estimação do traço latente do respondente (website) em várias dimensões.

De uma forma geral, a primeira dimensão agrupa itens com características voltadas para condução/orientação do usuário no website, também classificada, por alguns autores, como navegabilidade e usabilidade ( González & Palacios, 2004 González, F. J. M., & Palacios, T. M. B. (2004). Quantitative evaluation of commercial websites: an empirical study of Spanish firms. International Journal of Information Management, 24(4), 313-328. https://doi.org/10.1016/j.ijinfomgt.2004.04.009.
https://doi.org/10.1016/j.ijinfomgt.200...
; Nusair & Kandampully, 2008 Nusair, K., & Kandampully, J. (2008). The antecedents of customer satisfaction with online travel services: a conceptual model. European Business Review, 20(1), 4-19. http://dx.doi.org/10.1108/09555340810843663.
http://dx.doi.org/10.1108/0955534081084...
; Singh et al., 2016 Singh, T., Malik, S., & Sarkar, D. (2016). E-commerce website quality assessment based on usability. In International Conference on Computing, Communication and Automation (ICCCA) (pp. 101-105). USA: IEEE. ). Essa dimensão contém itens com carregamento secundário principalmente na dimensão 4, a qual é caracterizada por itens relacionados com apresentação da informação. Isso se deve ao fato de que, apesar de ser utilizada rotação ortogonal para apresentação dos resultados, existe algum tipo de relação entre as dimensões, e isso fica mais evidente nas dimensões 1 e 4, particularmente porque essas características são tratadas em alguns estudos ( Tezza et al., 2011 Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
http://dx.doi.org/10.1016/j.intcom.2011...
; Yang et al., 2004 Yang, Z., Jun, M., & Peterson, R. T. (2004). Measuring customer perceived online service quality: scale development and managerial implications. International Journal of Operations & Production Management, 21(11), 1149-1174. http://dx.doi.org/10.1108/01443570410563278.
http://dx.doi.org/10.1108/0144357041056...
) como características altamente correlacionadas. Jun et al. (2004) Jun, M., Yang, Z., & Kim, D. S. (2004). Customers’ perceptions of online retailing service quality and their satisfaction. International Journal of Quality & Reliability Management, 21(8), 817-840. http://dx.doi.org/10.1108/02656710410551728.
http://dx.doi.org/10.1108/0265671041055...
classificam a organização da informação como facilidade de uso, que nesse contexto se pode entender como usabilidade. A dimensão 3 agrupa itens associados à interatividade.

No presente estudo, a correlação entre a dimensão 1 e a dimensão 4 foi de aproximadamente 0,4. O comportamento dessas duas dimensões reflete-se no carregamento dos itens 3, 19, 23, 35, 37 e 43.

Essa estrutura compensatória permite que o aumento de qualidade em uma dimensão possa compensar a redução em outra. No item 19, descrito como “as palavras aparentemente clicáveis são de fato clicáveis”, é nítido o conceito de navegação e orientação do usuário. Entretanto, esse item possui reflexos em outros conceitos como, por exemplo, o de apresentação da informação, ou seja, a apresentação de uma palavra ou frase transmite uma informação de funcionalidade que orienta e informa o usuário na interface.

A segunda dimensão evidenciou itens de acessibilidade, de forma semelhante à primeira dimensão da análise fatorial da Tabela 4 , e confiabilidade/segurança. Os itens característicos dessa dimensão são os itens 12, 25, 45, 47, 57 e 75. O item 12 (existe informações de contato telefônico ou endereço) é uma característica importante para transmitir ao usuário confiabilidade e segurança de que, se ocorrer algum imprevisto, ele terá um endereço físico ou um telefone para recorrer ( Nielsen & Tahir 2002 Nielsen, J., & Tahir, M. 2002. Homepage usability: 50 sites deconstructed. Indianapolis: New Riders Publishing. ). O item 25 (o site permite navegação em suas páginas em apenas uma janela, ou seja, não há abertura de novas janelas em meio a navegação) é um item ligado a confiabilidade e interação. Nielsen & Loranger (2006) Nielsen, J., & Loranger, H. (2006). Prioritizing web usability. California: New Riders. afirmam que a maioria dos usuários não entende como manipular várias janelas e se concentra na que está mais à frente na tela. Se não puderem voltar, eles ficarão presos e confusos. Nos itens 45 e 47, a questão relacionada com segurança fica mais evidente, uma vez que o primeiro item verifica se existe indicação de ambiente seguro no momento da efetivação da compra e o segundo verifica se o site possui outras formas de pagamento além do cartão de crédito. Os itens 57 e 75, conforme discutido na análise fatorial, na seção 4.3, estão ligados diretamente com a acessibilidade do sistema.

A dimensão 3 apresenta itens característicos de interatividade. Por exemplo, os itens 21 e 28 estão ligados diretamente ao mecanismo de busca do website, o qual representa uma ferramenta bastante comum que permite ao usuário interagir com o sistema efetuando sua busca por produtos e/ou informações. Os itens 64, 65 e 70 refletem o controle e poder de interação do usuário para com o sistema, possibilitando que o usuário possa pausar ou interromper algum conteúdo interativo ou de atualização automática.

A quarta dimensão, como discutido anteriormente, possui correlação com a primeira dimensão. Entretanto, existem itens característicos que a caracterizam como sendo apresentação da informação, como, por exemplo, os itens 27, 37, 60 e 74.

Na grande maioria das aplicações da teoria da resposta ao item, seja ela unidimensional ou multidimensional, os parâmetros de discriminação do modelo são positivos. Isso ocorre principalmente por questões relacionadas ao próprio construto, ou seja, assume-se que um valor positivo de parâmetro de discriminação resulta em uma monotonicidade crescente, ou seja, com o aumento da proficiência do indivíduo aumenta a probabilidade de resposta positiva ao item. Esse comportamento é bastante comum nas áreas educacional e psicológica, nas quais a TRI é mais difundida. Entretanto, é possível se ter valores do parâmetro de discriminação (parâmetro a) negativos, tal situação mantém o pressuposto da monotonicidade, porém decrescente.

A Figura 1 mostra a estrutura criada pelo modelo compensatório multidimensional da teoria da resposta ao item. Para construção desse diagrama assumiu-se o carregamento em cada dimensão com base no sentido da carga de discriminação e na sua intensidade, assumindo-se aqui como sendo relevantes cargas maiores que 0,70. Segundo Hair et al. (2009) Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6. ed.). Porto Alegre: Bookman. , em uma análise fatorial, cargas fatoriais na faixa de +0,30 a +0,40 são consideradas como tendo nível mínimo para interpretação de estrutura. Cargas de +0,50 ou maiores são tidas como praticamente significantes e maiores de +0,70 são consideradas indicativas de estrutura bem definida. Dessa forma, optou-se por considerar como relevantes cargas maiores que 0,70.

Figura 1
Representação gráfica da relação de cada um dos 40 itens nas 4 dimensões caracterizadas.

A Figura 1 demonstra parte da complexidade que uma modelagem multidimensional compensatória envolve. As linhas cheias representam a interação de maior carga discriminatória e as pontilhadas, as interações secundárias com carga discriminatória no mesmo sentido da principal e com intensidade maior que 0,70. Por exemplo, o item 47 (O site possui outras formas de pagamento além do cartão de crédito) possui maior discriminação na dimensão acessibilidade e confiabilidade com a = 1,57 e interação secundária na dimensão navegação e orientação com a = 1,37. Do ponto de vista prático, representa que a característica de possuir outras formas de pagamento além do cartão de crédito contribui do ponto de vista de qualidade em um website em termos de confiabilidade, ou seja, o website possibilita e permite ao usuário escolher a forma de pagamento que lhe pareça mais conveniente e segura, sendo, portanto, uma característica comum às duas dimensões, como tantas outras características apresentada na Figura 1 .

O Quadro 2 mostra a distribuição dos itens quanto às dimensões caracterizadas, considerando-se as maiores cargas.

Quadro 2
Classificação dos itens conforme a dimensão, segundo o modelo multidimensional da teoria da resposta ao item.

5.4 Interpretação da escala gerada

Com base na estimação dos parâmetros de discriminação multidimensional é possível classificar cada item conforme seu poder de discriminação ou seu poder informativo no construto, bem como, com base no parâmetro de dificuldade, classificar cada item conforme sua dificuldade.

Na Tabela 5 verifica-se que os itens 43, 29, 57, 74 e 28 são os itens que exigem mais de um website, ou seja, são os cinco itens mais difíceis do construto. Do ponto de vista prático, isso faz sentido. Por exemplo, o item 43 é relativo a multimídia para apresentação de produtos. Essa é uma característica pouco comum na maioria dos websites, encontrada apenas em websites mais maduros do ponto de vista de qualidade da apresentação da informação. O mesmo acontece com os itens 28 e 29, os quais tratam do aperfeiçoamento da ferramenta de busca.

Quanto ao ranque de discriminação, na Tabela 5 verifica-se que os cinco itens mais discriminantes foram os itens 33, 57, 21, 56 e 25.

A Tabela 6 mostra a estimação da habilidade dos quatro primeiros websites analisados, na escala normal N (0;1), ou seja, média zero e variância um, caracterizando estatisticamente, portanto, uma escala padronizada. Verifica-se que o primeiro website possui um maior domínio dos itens relacionados à apresentação da informação, precisando, assim, desenvolver melhor sua qualidade, principalmente no controle por parte do usuário/interatividade, a qual apresentou domínio abaixo da média. No website número 2 observa-se que existe um bom domínio da acessibilidade/confiabilidade do sistema, havendo, entretanto, necessidade de melhoramento no que se refere aos requisitos de controle por parte do usuário/interatividade e apresentação da informação.

Tabela 6
Estimação do grau de qualidade multidimensional dos quatro primeiros websites da amostra com base no modelo multidimensional de dois parâmetros compensatório.

Entretanto, em um modelo multidimensional, a análise pontual das estimações das proficiências dos respondentes, nesse caso o grau de qualidade de um website pode remeter a uma avaliação simplista do modelo, uma vez que a estrutura multidimensional agrega mais informação e complexidade que um modelo unidimensional. Sendo assim, cada dimensão pode ser avaliada em particular, considerando-se cada item associado ao grau de qualidade estimado de cada website, como pode ser visualizado na Tabela 7 . Essa tabela traz a probabilidade de acerto (resposta positiva) de cada item, com base nas estimativas do grau de qualidade dos quatro primeiros websites, conforme Tabela 6 .

Tabela 7
Estimativa do grau de qualidade multidimensional dos quatro primeiros sites da amostra com base no modelo multidimensional de dois parâmetros compensatório.

Do ponto de vista prático, a análise apresentada na Tabela 7 demonstra, com base no grau de qualidade do website estimado pelo modelo multidimensional compensatório de quatro dimensões, os itens que são teoricamente dominados pelo website. Considerando o conceito de itens âncoras definidos por Beaton & Allen (1992) Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17(2), 191-204. e Andrade et al. (2000) Andrade, D. F., Tavares, H. R., & Valle, R. C. (2000). Teoria de resposta ao item: conceitos e aplicações. São Paulo: ABE. , no qual um dos critérios para caracterizar um item em determinado grau da escala é a probabilidade maior do que 0,650 naquele ponto da escala, verifica-se que o website 1 domina a maioria dos itens, exceto os itens 27, 28, 29, 37, 38, 40, 43, 57, 61, 70 e 74, os quais apresentam probabilidade de resposta positiva inferior a 0,650. Observa-se que, apesar de o website 1 apresentar maior grau de qualidade na dimensão 4, ele tem, assim como os outros três websites mostrados na Tabela 7 , probabilidade abaixo de 0,650 (p = 0,511) de responder positivamente ao item 37, o qual trata, segundo o modelo, de uma característica associada a apresentação da informação. Isso se dá particularmente por se tratar de um item com parâmetro de dificuldade acima da média (0,360). Tal análise pode ser seguida aos demais itens.

A análise de cada website associado com a probabilidade de resposta positiva a cada item amplia a análise prática da modelagem multidimensional, pois particulariza cada item e demonstra onde, pontualmente, melhorias precisam ser implementadas. Já a análise geral do grau de qualidade apresentado na Tabela 6 dá um indicativo relativo à dimensão ou ao conceito nos quais o website precisa melhorar ou deve explorar mais.

6 Considerações finais

O trabalho desenvolveu um modelo multidimensional utilizando a teoria da resposta ao item para mensurar qualidade em websites comerciais. Para criação do modelo utilizou-se como base o modelo logístico de dois parâmetros multidimensional com quatro dimensões e um conjunto de 40 itens. As quatro dimensões mostraram-se associadas a conceitos de navegabilidade ou condução/orientação do usuário, acessibilidade e confiabilidade do sistema, interatividade e apresentação da informação. Essas dimensões encontradas no presente trabalho remetem às dimensões mais citadas na literatura e relacionadas diretamente com a definição de qualidade em websites, que é um conjunto de características técnicas e não técnicas de um sistema web que permitem ao usuário realizar seus objetivos em um website de forma acessível, eficiente e agradável. Como características técnicas, entende-se usabilidade/navegabilidade, apresentação da informação, acessibilidade e interatividade do sistema. Como características não técnicas, design, estética, apelo visual/comercial, confiabilidade, hedonismo, empatia.

Do ponto de vista de implicações teóricas ao campo de qualidade em websites, o presente trabalho desenvolveu um modelo para avaliar requisitos de qualidade, discutiu questões relativas à dimensionalidade e sugeriu um modelo multidimensional capaz de avaliar individualmente cada item e cada website, nas respectivas dimensões.

Do ponto de vista prático, o trabalho abre outras possibilidades de mensuração da qualidade em websites comerciais, com a finalidade de identificar melhorias possíveis da interface e, possivelmente, o desenvolvimento de ferramentas automatizadas para diagnósticos úteis para melhoria de projetos de website.

  • Suporte financeiro: Essa pesquisa contou com apoio financeiro parcial do CNPq.

Referências

  • AChecker. (2012). Web accessibility checker. Recuperado em 25 de maio de 2012, de https://achecker.ca/checker/index.php
    » https://achecker.ca/checker/index.php
  • Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement , 29(1), 67-91. http://dx.doi.org/10.1111/j.1745-3984.1992.tb00368.x.
    » http://dx.doi.org/10.1111/j.1745-3984.1992.tb00368.x
  • Ackerman, T. A. (1994). Using multidimensional item response theory to understand what items and tests are measuring. Applied Measurement in Education, 7(4), 255-278. http://dx.doi.org/10.1207/s15324818ame0704_1.
    » http://dx.doi.org/10.1207/s15324818ame0704_1
  • Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model. Applied Psychological Measurement, 21(1), 1-23. http://dx.doi.org/10.1177/0146621697211001.
    » http://dx.doi.org/10.1177/0146621697211001
  • Agarwal, R., & Venkatesh, V. (2002). Assessing a firm’s web presence: a heuristic evaluation procedure for the measurement of usability. Information Systems Research , 13(2), 168-186. http://dx.doi.org/10.1287/isre.13.2.168.84.
    » http://dx.doi.org/10.1287/isre.13.2.168.84
  • Aladwani, A. M., & Palvia, P. C. (2002). Developing and validating an instrument for measuring user-perceived web quality. Information & Management, 39(6), 467-476. http://dx.doi.org/10.1016/S0378-7206(01)00113-6.
    » http://dx.doi.org/10.1016/S0378-7206(01)00113-6
  • Al-Khalifa, H. S. (2010). The accessibility of Saudi Arabia government Web sites: an exploratory study. Universal Access in the Information Society, 10(4). http://dx.doi.org/10.1007/s10209-016-0495-7.
    » http://dx.doi.org/10.1007/s10209-016-0495-7
  • Andrade, D. F., Tavares, H. R., & Valle, R. C. (2000). Teoria de resposta ao item: conceitos e aplicações São Paulo: ABE.
  • Babbie, E. (2005). The basics of social research Belmont: Wadsworth Publishing.
  • Baker, D. L. (2009). Advancing E-Government performance in the United States through enhanced usability benchmarks. Government Information Quarterly, 26(1), 82-88. http://dx.doi.org/10.1016/j.giq.2008.01.004.
    » http://dx.doi.org/10.1016/j.giq.2008.01.004
  • Bangor, A., Kortum, P. T., & Miller, J. T. (2008). An empirical evaluation of the system usability scale. International Journal of Human-Computer Interaction , 24(6), 574-594. http://dx.doi.org/10.1080/10447310802205776.
    » http://dx.doi.org/10.1080/10447310802205776
  • Barnes, S. J., & Vidgen, R. T. (2000). WebQual: an exploration of web site quality. In Proceedings of the 8th European Conference on Information Systems (Vol. 1, pp. 298-305). Vienna: Wirtschaftsunivsitat Wien.
    » Wirtschaftsunivsitat Wien
  • Bartolucci, F., Montanari, G. E., & Pandolfi, S. (2012). Dimensionality of the latent structure and item selection via latent class multidimensional IRT models. Psychometrika , 77(4), 782-802. http://dx.doi.org/10.1007/s11336-012-9278-0.
    » http://dx.doi.org/10.1007/s11336-012-9278-0
  • Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17(2), 191-204.
  • Birnbaum, A. (1968). Some latent trait models and their use in infering an examiniee’s Ability. In F. M. Lord, & M. R. Novick. Statistical theories of mental test scores (Vol. 38, pp. 123-140). Boston: Addison-Wesley.
  • Braz, C., Seffah, A., & M’Raihi, D. (2007). Designing a trade-off between usability and security: a metrics based-model. Lecture Notes in Computer Science , 4663, 114-126. http://dx.doi.org/10.1007/978-3-540-74800-7_9.
    » http://dx.doi.org/10.1007/978-3-540-74800-7_9
  • Cai, L. (2012). FlexMIRTTM version 1.86: a numerical engine for multilevel item factor analysis and test scoring Seattle: Vector Psychometric Group.
  • Camilli, G. (1992). A conceptual analysis of differential item functioning in terms of a multidimensional item response model. Applied Psychological Measurement, 16(2), 129-147. http://dx.doi.org/10.1177/014662169201600203.
    » http://dx.doi.org/10.1177/014662169201600203
  • Chalmers, R. P. (2012). Mirt: a multidimensional item response theory package for the R environment. Journal of Statistical Software, 48(6), 1-29. http://dx.doi.org/10.18637/jss.v048.i06.
    » http://dx.doi.org/10.18637/jss.v048.i06
  • Cristobal, E., Flavian, C., & Guinaliu, M. (2007). Perceived e-service quality (PeSQ): measurement validation and effects on consumer satisfaction and web site loyalty. Managing Service Quality, 17(3), 317-340. http://dx.doi.org/10.1108/09604520710744326.
    » http://dx.doi.org/10.1108/09604520710744326
  • Day, A. (1997). A model for monitoring Web site effectiveness. Internet Research: Electronic Networking Applications and Policy, 7(2), 1-9. http://dx.doi.org/10.1108/10662249710165244.
    » http://dx.doi.org/10.1108/10662249710165244
  • DeLone, W. H., & McLean, E. R. (2003). The DeLone and McLean model of information systems success: a ten-year update. Journal of Management Information Systems , 19(4), 9-30. http://dx.doi.org/10.1080/07421222.2003.11045748.
    » http://dx.doi.org/10.1080/07421222.2003.11045748
  • Deng, L., & Poole, M. S. (2012). Aesthetic design of e-commerce web pages – webpage complexity, order and preference. Electronic Commerce Research and Applications , 11(4), 420-440. http://dx.doi.org/10.1016/j.elerap.2012.06.004.
    » http://dx.doi.org/10.1016/j.elerap.2012.06.004
  • Ding, D. X., Hu, P. J. H., & Sheng, O. R. L. (2011). e-SELFQUAL: a scale for measuring online self-service quality. Journal of Business Research, 64(1), 508-515. http://dx.doi.org/10.1016/j.jbusres.2010.04.007.
    » http://dx.doi.org/10.1016/j.jbusres.2010.04.007
  • Embretson, S. E. (1991). A multidimensional latent trait model for measuring learning and change. Psychometrika, 56(3), 495-515. http://dx.doi.org/10.1007/BF02294487.
    » http://dx.doi.org/10.1007/BF02294487
  • Embretson, S., & Reise, S. P. (2000). Item response theory for psychologists. New Jersey: Lawrence Erlbaum Associates, Inc. Publishers.
  • Éthier, J., Hadaya, P., Talbot, J., & Cadieux, J. (2008). Interface design and emotions experienced on B2C Web sites: empirical testing of a research model. Computers in Human Behavior, 24(2), 2771-2791. http://dx.doi.org/10.1016/j.chb.2008.04.004.
    » http://dx.doi.org/10.1016/j.chb.2008.04.004
  • Fang, X., & Holsapple, C. W. (2007). An empirical study of web site navigation structures’ impacts on web site usability. Decision Support Systems, 43(2), 476-491. http://dx.doi.org/10.1016/j.dss.2006.11.004.
    » http://dx.doi.org/10.1016/j.dss.2006.11.004
  • Fassnacht, M., & Koese, I. (2006). Quality of electronic services: conceptualizing and testing a hierarchical model. Journal of Service Research, 9(1), 19-37. http://dx.doi.org/10.1177/1094670506289531.
    » http://dx.doi.org/10.1177/1094670506289531
  • Flavián, C., & Guinalíu, M. (2006). Consumer trust, perceived security and privacy policy: three basic elements of loyalty to a web site. Industrial Management & Data Systems, 106(5), 601-620. http://dx.doi.org/10.1108/02635570610666403.
    » http://dx.doi.org/10.1108/02635570610666403
  • Flavián, C., Guinalíu, M., & Gurrea, R. (2006). The influence of familiarity and usability on loyalty to online journalistic services: the role of user experience. Journal of Retailing and Consumer Services, 13(5), 363-375. http://dx.doi.org/10.1016/j.jretconser.2005.11.003.
    » http://dx.doi.org/10.1016/j.jretconser.2005.11.003
  • Fleck, M. P. A., & Bourdel, M. C. (1998). Método de simulação e escolha de fatores na análise dos principais componentes. Revista de Saude Publica, 32(3), 267-272. http://dx.doi.org/10.1590/S0034-89101998000300010. PMid:9778862.
    » http://dx.doi.org/10.1590/S0034-89101998000300010
  • Ford, J. K., Maccallum, R. C., & Tait, M. (1986). The application of exploratory factor analysis in applied psychology: a critical review and analysis. Personnel Psychology , 39(2), 292-314. http://dx.doi.org/10.1111/j.1744-6570.1986.tb00583.x.
    » http://dx.doi.org/10.1111/j.1744-6570.1986.tb00583.x
  • Galletta, D. F., Henry, R., McCoy, S., & Polak, P. (2004). Web site delays: how tolerant are users? Journal of the Association for Information Systems, 5(1), 1-28.
  • Gata, W., & Gilang, O. (2017). Analysis of information system quality of service on bsi academy’s environment using webqual methods, importance performance analysis and fishbone. Journal of Theoretical and Applied Information Technology , 95(2), 229.
  • Gefen, D. (2002). Consumer loyalty in e-commerce. Journal of the Association for Information Systems, 3(1), 27-51. http://dx.doi.org/10.17705/1jais.00022.
    » http://dx.doi.org/10.17705/1jais.00022
  • Glas, C. A. W. (1992). A rasch model with a multivariate distribution of ability. In M. Wilson (Ed.), Objective measurement: theory into practice (pp. 236-258). Norwood: Ablex.
  • Goldberg, C. B., & Allen, D. G. (2008). Black and white and read all over: Race differences in reactions to recruitment Web sites. Human Resource Management, 47(2), 217-236. http://dx.doi.org/10.1002/hrm.20209.
    » http://dx.doi.org/10.1002/hrm.20209
  • González, F. J. M., & Palacios, T. M. B. (2004). Quantitative evaluation of commercial websites: an empirical study of Spanish firms. International Journal of Information Management, 24(4), 313-328. https://doi.org/10.1016/j.ijinfomgt.2004.04.009.
    » https://doi.org/10.1016/j.ijinfomgt.2004.04.009
  • Gummerus, J., Liljander, V., Pura, M., & van Riel, A. (2004). Customer loyalty to content-based web sites: the case of an online health-care service. Journal of Services Marketing, 18(3), 175-186. http://dx.doi.org/10.1108/08876040410536486.
    » http://dx.doi.org/10.1108/08876040410536486
  • Haga, W. J., & Zviran, M. (1994). Information systems effectiveness: research designs for causal inference. Journal of Information Systems, 4(2), 141-166. http://dx.doi.org/10.1111/j.1365-2575.1994.tb00048.x.
    » http://dx.doi.org/10.1111/j.1365-2575.1994.tb00048.x
  • Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2009). Análise multivariada de dados (6. ed.). Porto Alegre: Bookman.
  • Hartig, J., & Höhler, J. (2008). Representation of competencies in multidimensional IRT models with within-item and between-item multidimensionality. The Journal of Psychology, 216(2), 88-100.
  • Hasan, B. (2016). Perceived irritation in online shopping: the impact of website design characteristics. Computers in Human Behavior, 54, 224-230. http://dx.doi.org/10.1016/j.chb.2015.07.056.
    » http://dx.doi.org/10.1016/j.chb.2015.07.056
  • Ibrahim, E. E., Joseph, M., & Ibeh, K. I. N. (2006). Customers’ perception of electronic service delivery in the UK retail banking sector. International Journal of Bank Marketing, 24(7), 475-493. http://dx.doi.org/10.1108/02652320610712094.
    » http://dx.doi.org/10.1108/02652320610712094
  • International Organisation for Standardization – ISO. (1992). ISO9126: Information Technology — Software Product Evaluation — Quality Characteristics and Guidelines for Their Use Geneva: ISO.
  • Johnson, R., & Wichern, D. (2007). Applied multivariate analysis (6th. ed.). New Jersey: Prentice Hall.
  • Jun, M., Yang, Z., & Kim, D. S. (2004). Customers’ perceptions of online retailing service quality and their satisfaction. International Journal of Quality & Reliability Management, 21(8), 817-840. http://dx.doi.org/10.1108/02656710410551728.
    » http://dx.doi.org/10.1108/02656710410551728
  • Kaplan, D., Krishnan, R., Padman, R., & Peters, J. (1998). KRISHNAN, R. PADMAN, R. PETERS, J. Assessing data quality in accounting information systems. Communications of the ACM, 41(2), 72-78. http://dx.doi.org/10.1145/269012.269024.
    » http://dx.doi.org/10.1145/269012.269024
  • Kettinger, W. J., & Lee, C. C. (1994). Perceived service quality and user satisfaction with the information services function. Decision Sciences, 25(5-6), 737-766. http://dx.doi.org/10.1111/j.1540-5915.1994.tb01868.x.
    » http://dx.doi.org/10.1111/j.1540-5915.1994.tb01868.x
  • Kim, C., Galliers, R. D., Shin, N., Ryoo, J., & Kim, J. (2012). Factors influencing Internet shopping value and customer repurchase intention. Electronic Commerce Research and Applications, 11(4), 374-387. http://dx.doi.org/10.1016/j.elerap.2012.04.002.
    » http://dx.doi.org/10.1016/j.elerap.2012.04.002
  • Kim, S., & Stoel, L. (2004). Dimensional hierarchy of retail website quality. Information & Management, 41(5), 619-633. http://dx.doi.org/10.1016/j.im.2003.07.002.
    » http://dx.doi.org/10.1016/j.im.2003.07.002
  • King, W. R., & Epstein, B. J. (1983). Assessing information system value: an experimental study. Decision Sciences, 14(1), 34-45. http://dx.doi.org/10.1111/j.1540-5915.1983.tb00167.x.
    » http://dx.doi.org/10.1111/j.1540-5915.1983.tb00167.x
  • Kitchenham, B., & Pfleege, S. L. (1996). Software quality: the elusive target. IEEE Software, 13(1), 12-21. http://dx.doi.org/10.1109/52.476281.
    » http://dx.doi.org/10.1109/52.476281
  • Kline, P. (2000). The handbook of psychological testing London: Routledge.
  • Kulviwat, S., Bruner, G. C., 2nd., Kumar, A., Nasco, S. A., & Clark, T. (2007). Toward a unified theory of consumer acceptance of technology. Psychology and Marketing , 24(12), 1067-1092. http://dx.doi.org/10.1002/mar.20196.
    » http://dx.doi.org/10.1002/mar.20196
  • Lindgaard, G. (2007). Aesthetics, visual appeal, usability, and user satisfaction: What do the user’s eyes tell the user’s brain? Australian Journal of Emerging Technologies and Society, 5(1), 1-14.
  • Lindgaard, G., Gary, J. F., Cathy, D., & Brown, J. (2006). Attention Web Designers: You Have 50 Milliseconds to Make a Good First Impression! Behaviour & Information Technology, 25(2), 115-126. http://dx.doi.org/10.1080/01449290500330448.
    » http://dx.doi.org/10.1080/01449290500330448
  • Lindroos, K. (1997). Use quality and the World Wide Web. Information and Software Technology, 39(12), 827-836. http://dx.doi.org/10.1016/S0950-5849(97)00041-4.
    » http://dx.doi.org/10.1016/S0950-5849(97)00041-4
  • Loiacono, E., Watson, R., & Goodhue, D. (2002). WEBQUAL: a measure of web site quality. In K. Evans, & L. Scheer (Eds.), Marketing Educators’ Conference: Marketing Theory and Applications (Vol. 13, pp. 432-437). Amsterdam: Elsevier Science B.V.
  • Lord, F. M. (1952). A theory of test scores (Psychometric Monograph, No. 7). Madison: Psychometric Society.
  • Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum.
  • McDonald, R. P. (1981). The dimensionality of test and items. The British Journal of Mathematical and Statistical Psychology, 33(1), 161-183.
  • Nelson, K. G. (1996). Global information systems quality: key issues and challenges. Journal of Global Information Management, 4(4), 4-14. http://dx.doi.org/10.4018/jgim.1996100101.
    » http://dx.doi.org/10.4018/jgim.1996100101
  • Nielsen, J., & Loranger, H. (2006). Prioritizing web usability California: New Riders.
  • Nielsen, J., & Tahir, M. 2002. Homepage usability: 50 sites deconstructed. Indianapolis: New Riders Publishing.
  • Nusair, K., & Kandampully, J. (2008). The antecedents of customer satisfaction with online travel services: a conceptual model. European Business Review, 20(1), 4-19. http://dx.doi.org/10.1108/09555340810843663.
    » http://dx.doi.org/10.1108/09555340810843663
  • Oshima, T. C., & Miller, M. D. (1992). Multidimensionality and item bias in item response theory. Applied Psychological Measurement, 16(3), 237-248. http://dx.doi.org/10.1177/014662169201600304.
    » http://dx.doi.org/10.1177/014662169201600304
  • Palmer, J. W. (2002). Web site usability, design, and performance metrics. Information Systems Research, 13(2), 151-167. http://dx.doi.org/10.1287/isre.13.2.151.88.
    » http://dx.doi.org/10.1287/isre.13.2.151.88
  • Pandir, M., & Knight, J. (2006). Homepage aesthetics: the search for preference factors and the challenges of subjectivity. Interacting with Computers, 18(6), 1351-1370. http://dx.doi.org/10.1016/j.intcom.2006.03.007.
    » http://dx.doi.org/10.1016/j.intcom.2006.03.007
  • Parasuraman, A., Zeithaml, V. A., & Malhotra, A. (2005). E-S-Qual: a multiple-item scale for assessing electronic service quality. Journal of Service Research , 7(3), 213-233. http://dx.doi.org/10.1177/1094670504271156.
    » http://dx.doi.org/10.1177/1094670504271156
  • Pinterits, A., Treiblmaier, H., & Pollach, I. (2006). Environmental websites: an empirical investigation of functionality and accessibility. International Journal of Technology Policy and Management, 6(1), 103-119. http://dx.doi.org/10.1504/IJTPM.2006.010075.
    » http://dx.doi.org/10.1504/IJTPM.2006.010075
  • Podsakoff, P. M., Ahearne, M., & Mackenzie, S. B. (1997). Organizational citizenship behaviors and the quantity and quality of work group performance. The Journal of Applied Psychology, 82(2), 262-270. http://dx.doi.org/10.1037/0021-9010.82.2.262. PMid:9109284.
    » http://dx.doi.org/10.1037/0021-9010.82.2.262
  • R Core Team. (2012). R: a language and environment for statistical computing . Vienna: R Foundation for Statistical Computing. Recuperado em 25 de maio de 2012, de http://www.R-project.org/
    » http://www.R-project.org/
  • Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research.
  • Rauch, D., & Hartig, J. (2010). Multiple‐choice versus open‐ended response formats of reading test items: a two‐dimensional IRT analysis. Psychological Test and Assessment Modeling, 52(4), 354-379.
  • Reckase, M. D. (1985). The difficulty of test items that measure more than one ability. Applied Psychological Measurement, 9(4), 401-412. http://dx.doi.org/10.1177/014662168500900409.
    » http://dx.doi.org/10.1177/014662168500900409
  • Reckase, M. D. (1997). A linear logistic multidimensional model for dichotomous items response data. In W. J. van der Linden & W. J. Hambleton (Ed.), Handbook of modern item response theory (pp. 271-286). New York: Springer.
  • Reckase, M. D. (2009). Multidimensional item response theory New York: Springer. http://dx.doi.org/10.1007/978-0-387-89976-3.
    » http://dx.doi.org/10.1007/978-0-387-89976-3
  • Reckase, M. D., & McKinley, R. L. (1991). The discriminating power of items that measure more than one dimension. Applied Psychological Measurement, 15(4), 361-373. http://dx.doi.org/10.1177/014662169101500407.
    » http://dx.doi.org/10.1177/014662169101500407
  • Reise, S. P., Widaman, K. F., & Pugh, R. H. (1993). Confirmatory factor analysis and item response theory: Two approaches for exploring measurement invariance. Psychological Bulletin, 114(3), 552-566. http://dx.doi.org/10.1037/0033-2909.114.3.552. PMid:8272470.
    » http://dx.doi.org/10.1037/0033-2909.114.3.552
  • Revelle, W. (2012). Package ‘psych’: procedures for psychological, psychometric, and personality research. Version 1.2. 12 Recuperado em 25 de maio de 2012, de http://personality-project.org/r/psych.manual.pdf
    » http://personality-project.org/r/psych.manual.pdf
  • Rust, R. T. (2001). The rise of E-Service. Journal of Service Research , 3(4), 283-284. http://dx.doi.org/10.1177/109467050134001.
    » http://dx.doi.org/10.1177/109467050134001
  • Schmettow, M., & Vietze, W. (2008). Introducing item response theory for measuring usability inspection processes. In Proceeding of the twenty-sixth annual SIGCHI conference on Human factors in computing systems New York: ACM. http://dx.doi.org/10.1145/1357054.1357196.
    » http://dx.doi.org/10.1145/1357054.1357196
  • Schneidewind, N. F. (1992). Methodology for validating software metrics. IEEE Transactions on Software Engineering, 18(5), 410-422. http://dx.doi.org/10.1109/32.135774.
    » http://dx.doi.org/10.1109/32.135774
  • Seffah, A., Donyaee, M., Kline, R. B., & Padda, H. K. (2006). Usability measurement and metrics: a consolidated model. Software Quality Control, 14(2), 159-178. http://dx.doi.org/10.1007/s11219-006-7600-8.
    » http://dx.doi.org/10.1007/s11219-006-7600-8
  • Serkan, A., Eda, A., & Safak, A. (2010). Re-assessment of E-S-Qual and E-RecS-Qual in a pure service setting. Journal of Business Research, 63(3), 232-240. http://dx.doi.org/10.1016/j.jbusres.2009.02.018.
    » http://dx.doi.org/10.1016/j.jbusres.2009.02.018
  • Silva, R. G. S., Frio, R. S., Sampaio, C. H., & Broilo, P. L. (2015). Qualidade percebida do autosserviço online: validação da escala e-SELFQUAL no contexto brasileiro. Revista Brasileira de Marketing, 14(2), 138-154.
  • Singh, T., Malik, S., & Sarkar, D. (2016). E-commerce website quality assessment based on usability. In International Conference on Computing, Communication and Automation (ICCCA) (pp. 101-105). USA: IEEE.
  • Spector, P. E., Van Katwyk, P. T., Brannick, M. T., & Chen, P. Y. (1997). When two factors don’t reflect two constructs: How item characteristics can produce artificial factors. Journal of Management, 23(5), 659-677. http://dx.doi.org/10.1177/014920639702300503.
    » http://dx.doi.org/10.1177/014920639702300503
  • Stepchenkova, S., Tang, L., Jang, S. S., Kirilenko, A. P., & Morrison, A. M. (2010). Benchmarking CVB website performance: Spatial and structural patterns. Tourism Management , 31(5), 611-620. http://dx.doi.org/10.1016/j.tourman.2009.06.015.
    » http://dx.doi.org/10.1016/j.tourman.2009.06.015
  • Stoyanov, S. R., Hides, L., Kavanagh, D. J., Zelenko, O., Tjondronegoro, D., & Mani, M. (2015). Mobile app rating scale: a new tool for assessing the quality of health mobile apps. JMIR mHealth and uHealth, 3(1), e27. http://dx.doi.org/10.2196/mhealth.3422. PMid:25760773.
    » http://dx.doi.org/10.2196/mhealth.3422
  • Tavares, H. R., Andrade, D. F., & Pereira, C. A. B. (2004). Detection of determinant genes and diagnostic via item response theory. Genetics and Molecular Biology , 27(4), 679-685. http://dx.doi.org/10.1590/S1415-47572004000400033.
    » http://dx.doi.org/10.1590/S1415-47572004000400033
  • Taylor, M. J., & England, D. (2006). Internet marketing: web site navigational design issues. Marketing Intelligence & Planning, 24(1), 77-85. http://dx.doi.org/10.1108/02634500610641570.
    » http://dx.doi.org/10.1108/02634500610641570
  • Tezza, R., Bornia, A. C., & Andrade, D. F. (2011). Measuring web usability using item response theory: principles, features and opportunities. Interacting with Computers , 23(2), 167-175. http://dx.doi.org/10.1016/j.intcom.2011.02.004.
    » http://dx.doi.org/10.1016/j.intcom.2011.02.004
  • Tezza, R., Bornia, A. C., Spenassato, D., & Trierweiller, A. C. (2016). Empirical comparison of the multidimensional models of item response theory in e-commerce. Pesquisa Operacional, 36(3), 503-532. http://dx.doi.org/10.1590/0101-7438.2016.036.03.0503.
    » http://dx.doi.org/10.1590/0101-7438.2016.036.03.0503
  • van der Merwe, R., & Bekker, J. (2003). A framework and methodology for evaluating e-commerce Web sites. Internet Research Electronic Networking Applications and Policy , 13(5), 330-341. http://dx.doi.org/10.1108/10662240310501612.
    » http://dx.doi.org/10.1108/10662240310501612
  • W3C. (2008). Web content accessibility guidelines (WCA G) 2.0. W3C Recommendation . Recuperado em 25 de maio de 2012, de http://www.w3.org/TR/WCAG20/
    » http://www.w3.org/TR/WCAG20/
  • Wang, R., Storey, V., & Firth, A. (1995). A framework for data quality research. IEEE Transactions on Knowledge and Data Engineering, 7(4), 623-640. http://dx.doi.org/10.1109/69.404034.
    » http://dx.doi.org/10.1109/69.404034
  • Xie, M., Wang, H., & Goh, T. N. (1998). Quality dimensions of Internet search engines. Journal of Information Science, 24(5), 365-372. http://dx.doi.org/10.1177/016555159802400509.
    » http://dx.doi.org/10.1177/016555159802400509
  • Yang, Z., Cai, S., Zhou, Z., & Zhou, N. (2005). Development and validation of an instrument to measure user perceived service quality of information presenting Web portals. Information & Management, 42(4), 575-589.
  • Yang, Z., Jun, M., & Peterson, R. T. (2004). Measuring customer perceived online service quality: scale development and managerial implications. International Journal of Operations & Production Management, 21(11), 1149-1174. http://dx.doi.org/10.1108/01443570410563278.
    » http://dx.doi.org/10.1108/01443570410563278
  • Zeithaml, V. A., Parasuraman, A., & Malhotra, A. (2000). E-service quality: definition, dimensions and conceptual model (Working Paper). Cambridge: Marketing Science Institute.

Datas de Publicação

  • Publicação nesta coleção
    Oct-Dec 2018

Histórico

  • Recebido
    07 Jun 2016
  • Aceito
    17 Maio 2017
Universidade Federal de São Carlos Departamento de Engenharia de Produção , Caixa Postal 676 , 13.565-905 São Carlos SP Brazil, Tel.: +55 16 3351 8471 - São Carlos - SP - Brazil
E-mail: gp@dep.ufscar.br