EASSIGNER: DESIGN AND MODELING SOFTWARE FOR AUTOMATING PHILOLOGICAL-LINGUISTIC ANNOTATIONS IN ELECT
DOI:
https://doi.org/10.54221/rdtdppglinuesb.2017.v5i1.119Keywords:
Annotation, Corpus, eAssigner, Computational LinguisticsAbstract
ABSTRACT
This research work intends to discuss and help solve the problem of inconsistencies generated by the lack of efficiency of the manual philological editing process that can cause noise in the linguistic corpus annotation, which may compromise its morphosyntactic labeling and syntactic annotation, causing a loss of linguistic research. To solve this problem, this research discusses the importance of the use of Information Technology as a tool to help the work of linguists, particularly with regard to Corpus Linguistics. Thus, throughout this work, we define the terms Corpus Linguistics, Computational Linguistics and current uses of Artificial Intelligence are described emphasizing the problems related to Linguistics and the modern strategies in search of solutions. From there, the research describes the importance of the use of annotation softwares in electronic corpora and the consequent need to automate some of these operations through the project for software development. Thus, the design and modeling of the eAssigner tool was also made, presenting its characteristics, limitations and stage of development. To illustrate the need to use the software are presented results of some tests performed on Corpus DoViC document samples.
Metrics
References
ALMIRO FILHO, Américo; XIMENES, Expedito Eloísio. Estudo de Documento Oitocentista. Revista Philologus / Círculo Fluminense de Estudos Filológicos e Linguísticos, ano 20, N. 59, (maio/ago. 2014) – Rio de Janeiro, 2014.
ALUÍSIO, Sandra Maria; ALMEIDA, Gladis Maria de Barcellos. O que é e como se constrói um corpus? Calidoscópio Vol. 4, n. 3, p. 156-178, set/dez 2006.
APPOLINÁRIO, Fábio. Metodologia da Ciência: filosofia e prática da pesquisa. 2ª ed. São Paulo: Cengage Learning, 2012.
AUROUX, Sylvain. A filosofia da linguagem. Tradução de José Horta Nunes. Campinas, SP: Editora da Unicamp, 1998.
______. A revolução tecnológica da gramatização. Campinas, SP: Editora da Unicamp, 2001.
BENVENISTE, Émile. Da subjetividade na linguagem. In: Problemas de Linguística Geral. São Paulo: Ed. Nacional, Editora da Universidade de São Paulo, 1976.
BRASIL. Lei n. 9609 de 19 de fevereiro de 1998. Dispõe sobre a proteção da propriedade intelectual de programa de computador, sua comercialização no País, e dá outras providências. Disponível em http://www.planalto.gov.br/ccivil_03/leis/L9609.htm. Acesso em 10 jan. 2017.
CHATBOTS. Virtual Agents / Chatbots Directory. List of all chatbots (virtual assistants, chat bot, conversational agents, virtual agents) in the World. Disponível em https://www.chatbots.org/chatbot/eliza. Acesso em Dez. 2015.
COPPIN, Ben. Inteligência Artificial. Rio de Janeiro: LTC, 2010.
DACOS, Marin. Manifesto das Humanidades Digitais. Produzido em 26 mar. 2011. Poster publicado no THAT Camp 2012. Tradução de Hervé Théry. Disponível em https://humanidadesdigitais.org/manifesto-das-humanidades-digitais. Acesso em 10 jan. 2017.
DIAS-DA-SILVA, Bento Carlos. O estudo Linguístico-Computacional da Linguagem. Letras de Hoje. Porto Alegre. v. 41, nº 2, p. 103-138, junho, 2006. Disponível em http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/viewFile/597/428. Acesso em 13 out. 2015.
FARIA, Pablo; GALVES, Charlotte. Criando “Bancos de Árvores”: O Sistema de Anotação e o Processo Automático. Cadernos de Estudos Linguísticos. Campinas: v. 58, n. 2 p. 299-315, maio/ago./2016. Disponível em http://revistas.iel.unicamp.br/index.php/cel/article/view/5133. Acesso em 30 dez. 2016.
GIRÃO, Márcio. Humanidades Digitais: quando o software conta a história através do tempo. In: Timaior, Rio de Janeiro. 11ª edição, dezembro, 2016. Disponível em http://www.timaior.com.br/m/capa-portal-do-software-publico/intervalo-humanidadesdigitais. Acesso em 12 fev. 2017.
GONÇALVES, Maria Filomena; BANZA, Ana Paula (coord.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: CIDEHUS, 2013. ISBN: 978-989-95669-7-2.
HEXSEL, R. A. SOFTWARE LIVRE. Paraná: Universidade Federal do Paraná, 2002, disponível em < http://www.inf.ufpr.br/pos/techreport/RT_DINF004_2002.pdf >. Acesso em 02 fev. 2017.
HOUAISS, Antônio (Ed.). Dicionário Houaiss da Língua Portuguesa, Edição digital, Versão 3.0. Rio de Janeiro: Editora Objetiva, 2009. 1 CD ROM.
HOVY, Eduard; LAVID, Julia. Towards a ‘Science’ of Corpus Annotation: A New Methodological Challenge for Corpus Linguistics. International Journal of Translation. Califórnia: v. 22, n. 1, Jan-Jun 2010. Disponível em . Acesso em 20 jun. 2017.
LAKATOS, Eva Maria; MARCONI, Marina de Andrade. Fundamentos de Metodologia Científica. 6ª ed. São Paulo: Atlas, 2006.
LEECH, Geoffrey. Adding Linguistic Annotation. Lancaster University: 2004. In: WYNNE, Martin (editor). Developing Linguistic Corpora: a Guide to Good Practice. ISSN 1463 5194. Virgínia (EUA): Oxbow Books, 2005.
LOMBARDO, Elena. Representação do Conhecimento e Humanidades. HD br: publicado em 08/08/2014. Disponível em <http://hdbr.hypotheses.org/5125#more-5125>. Acesso em 10 fev. 2017.
NAMIUTI, Cristiane (Coord.). Novos meios para antigas fontes: Sintaxe diacrônica em corpus eletrônico: do português pré-clássico às variantes modernas. Projeto de Pesquisa. UESB, Vitória da Conquista, 2010.
NAMIUTI, Cristiane (Coord.); SANTOS, Jorge Viana (Co-coordenador). Memória Conquistense: implementação de um corpus digital. CNPq 485098/2013-0. UESB, Vitória da Conquista, 2013. (Projeto de Pesquisa).
NAMIUTI-TEMPONI, Cristiane; COSTA, Aline Silva. Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC. Letras & Letras. v. 30, n. 2 (jul/dez. 2014) - ISSN 1981-5239. Disponível em http://www.seer.ufu.br/index.php/letraseletras. Acesso em 08 Jun. 2016.
NAMIUTI-TEMPONI, Cristiane; SANTOS, Jorge Viana. Novos desafios para antigas fontes: a experiência DOViC na nova linguística histórica. “E-Book do Congresso de Humanidades Digitais em Portugal: Construir pontes e quebrar barreiras na era digital – 2015”. Lisboa: Universidade Nova de Lisboa, 2017 (no prelo).
NAMIUTI-TEMPONI, Cristiane; VIANA SANTOS, Jorge; LEITE, Cândida Mara Brito. Propostas e Desafios dos Novos Meios das Antigas Fontes: a preservação da memória pela Linguística de Corpus. Trabalho apresentado no IX Colóquio do Museu Pedagógico. UESB, Vitória da Conquista: 2011. Disponível em <http://periodicos.uesb.br/index.php/cmp/article/viewFile/2717/2382>. Acesso em 2 ago. 2016. ISSN: 2175-5493.
OTHERO, Gabriel de Ávila. Linguística Computacional: uma breve introdução. LETRAS DE HOJE – ediPUCRS v. 41, n. 2 (2006) disponível em <http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/view/605>, acesso em 29 set. 2015.
OTHERO, Gabriel de Ávila; MENUZZI, Sérgio de Moura. Linguística Computacional - princípios e aplicações. São Paulo: Parábola Editorial, 2005.
PAIXÃO DE SOUSA, Maria Clara. A anotação semiautomática de divergências de grafia como fundamento para o processamento automático de textos antigos: Uma experiência na Brasiliana Digital. 18º Intercâmbio de Pesquisas em Linguística Aplicada, PUC, São Paulo, 2011.
______. Memórias do Texto. In: Revista Texto Digital, ISSN 1807-9288, ano 2 n.1 2006. Disponível em http://www.textodigital.ufsc.br/num02/paixao.htm. Acesso em 02 jan. 2017.
______. A Filologia Digital em Língua Portuguesa: alguns caminhos. In: GONÇALVES, Maria Filomena; BANZA, Ana Paula (coord.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: CIDEHUS, 2013. p. 113-138. ISBN: 978-989-95669-7-2.
______. O Corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. Filologia e Linguística Portuguesa, Brasil, v. 16, p. 53-93, dec. 2014. ISSN 2176-9419. Disponível em: <http://www.revistas.usp.br/flp/article/view/88404/91296>. Acesso em: 12 maio 2017. doi:http://dx.doi.org/10.11606/issn.2176-9419.v16ispep53-93.
PAIXÃO DE SOUSA, Maria Clara; KEPLER, Fabio Natanael; FARIA, Pablo Picasso Feliciano de. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. Resumos, 2009.
______. e-Dictor. Versão 1.0 beta 10, 2013. Programa de Computador. Disponível em: <https://edictor.net/download>. Acesso em 01 jun.2016.
PÉREZ-PAREDES, Pascual (Coord.). SACODEYL. Múrcia, Espanha: Universidad de Murcia, 2008. Disponível em http://www.um.es/sacodeyl/en/pages/software.htm#annotator. Acesso em 17 jun.2017.
RIBEIRO, Rafael Dias. Métodos Revogáveis de Busca. Rio de Janeiro: 2011. Disponível em http://www.rafaeldiasribeiro.com.br/downloads/IC1_7.pdf. Acesso em 25 jun. 2017.
ROCHA, Anderson; DORINI, Leyza Baldo. Algoritmos gulosos: definições e aplicações. Campinas: 2004. Disponível em http://www.ic.unicamp.br/~rocha/msc/complex/algoritmosGulososFinal.pdf. Acesso em 25 jun. 2017.
RUSSELL, Stuart; NORVIG, Peter. Inteligência Artificial. 3ª ed. Rio de Janeiro: Elsevier, 2013 [e-book].
SANTOS, Jorge Viana. Técnicas de transporte do texto manuscrito para o meio digital. Trabalho apresentado na I Oficina de Linguística de Corpus da Bahia (UEFS, UESB, UFBA). Feira de Santana, Brasil, Dezembro 15-17, 2010.
SARDINHA, Tony Berber. Linguística de Corpus: Histórico e Problemática. DELTA, vol.16 nº 2, páginas 323-369. Scielo: São Paulo, 2000. Disponível em <http://www.scielo.br/scielo.php?pid=S0102-44502000000200005&script=sci_abstract&tlng=pt>. Acesso em 03 jul. 2016.
SILVEIRA, Paulo et al. Introdução à Arquitetura e Design de Software. Rio de Janeiro: Elsevier, 2012 [e-book].
SILVEIRA, S. A. da. SOFTWARE LIVRE: a luta pela liberdade de conhecimento. São Paulo: ed. Fundação Perseu Abramo, 2004.
SIMOV, Kiril et al. CLaRK - an XML-based System for Corpora Development. In: Proc. of the Corpus Linguistics, 2001. Conference, pages: 558-560.
SINCLAIR, John. Corpus and Text - Basic Principles. In: WYNNE, Martin (editor). Developing Linguistic Corpora: a Guide to Good Practice. ISSN 1463 5194. Virgínia (EUA): Oxbow Books, 2005.
STEPHAN, Druskat et al. Atomic: an open-source software platform for multi-layer corpus annotation. In Josef Ruppert and Gertrud Faaß (eds.): Proceedings of the 12th Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), Hildesheim, October 2014. 228–234. ISBN 978-3-934105-46-1. Disponível em <http://corpus-tools.org/atomic/>. Acesso em 16 jun. 2017.
TAURION, C. SOFTWARE LIVRE: Potencialidades e Modelos de Negócio. Rio de Janeiro: ed. Brasport, 2004.
TURING, Alan. Computing Machinery and Intelligence. Mind, vol. 59, nº 236, outubro, 1950, páginas 433-460, disponível em <http://loebner.net/Prizef/TuringArticle.html>, acesso em 10 out. 2015.
VELLOSO, Fernando de Castro. Informática: conceitos básicos. 7ª ed. revista e atualizada. Rio de Janeiro: Elsevier, 2004.
VIEIRA, Renata; LIMA, V.L.S. Linguística Computacional: princípios e aplicações. In: IX Escola de Informática da SBC-Sul. Luciana Nedel (Ed.) Passo Fundo, Maringá, São José. SBC-Sul, 2001.
WAZLAWICK, Raul Sidnei. Metodologia de Pesquisa para Ciência da Computação. Rio de Janeiro: Elsevier, 2008.