EASSIGNER: CONCEPÇÃO E MODELAGEM DE UM SOFTWARE PARA A AUTOMATIZAÇÃO DE ANOTAÇÕES FILOLÓGICO-LINGUÍSTICAS EM CORPORA ELETRÔNICOS USANDO XML

Autores

  • Luiz Fernando Cardeal de Souza Universidade Estadual do Sudoeste da Bahia (UESB/Brasil)

DOI:

https://doi.org/10.54221/rdtdppglinuesb.2017.v5i1.119

Palavras-chave:

Anotação, Corpus, eAssigner, Linguística Computacional

Resumo

Este trabalho pretende discutir e ajudar a resolver o problema das inconsistências geradas pela falta de eficiência do processo de edição filológica manual que podem causar ruídos na anotação linguística do corpus, podendo comprometer sua etiquetagem morfossintática e a anotação sintática, causando prejuízo para a pesquisa linguística. Para resolver esse problema, este trabalho discute a importância da utilização da Tecnologia da Informação como ferramenta de auxílio aos trabalhos dos linguistas, particularmente no que se refere à Linguística de Corpus. Assim, ao longo desse trabalho se define a Linguística de Corpus, a Linguística Computacional e são descritas utilizações atuais da Inteligência Artificial (IA) enfatizando os problemas relacionados à Linguística e as estratégias modernas em busca de soluções. A partir daí, descreve a importância do uso de softwares de anotação em corpora eletrônicos e a decorrente necessidade de automatizar algumas dessas operações através do projeto para desenvolvimento do software. Assim, também foi feita a concepção e modelagem da ferramenta eAssigner, apresentando as suas características, limitações e estágio de desenvolvimento. Para ilustrar a necessidade de uso do software são apresentados resultados de alguns testes realizados em amostra de documentos do Corpus DoViC.

Métricas

Carregando Métricas ...

Referências

ALMIRO FILHO, Américo; XIMENES, Expedito Eloísio. Estudo de Documento Oitocentista. Revista Philologus / Círculo Fluminense de Estudos Filológicos e Linguísticos, ano 20, N. 59, (maio/ago. 2014) – Rio de Janeiro, 2014.

ALUÍSIO, Sandra Maria; ALMEIDA, Gladis Maria de Barcellos. O que é e como se constrói um corpus? Calidoscópio Vol. 4, n. 3, p. 156-178, set/dez 2006.

APPOLINÁRIO, Fábio. Metodologia da Ciência: filosofia e prática da pesquisa. 2ª ed. São Paulo: Cengage Learning, 2012.

AUROUX, Sylvain. A filosofia da linguagem. Tradução de José Horta Nunes. Campinas, SP: Editora da Unicamp, 1998.

______. A revolução tecnológica da gramatização. Campinas, SP: Editora da Unicamp, 2001.

BENVENISTE, Émile. Da subjetividade na linguagem. In: Problemas de Linguística Geral. São Paulo: Ed. Nacional, Editora da Universidade de São Paulo, 1976.

BRASIL. Lei n. 9609 de 19 de fevereiro de 1998. Dispõe sobre a proteção da propriedade intelectual de programa de computador, sua comercialização no País, e dá outras providências. Disponível em http://www.planalto.gov.br/ccivil_03/leis/L9609.htm. Acesso em 10 jan. 2017.

CHATBOTS. Virtual Agents / Chatbots Directory. List of all chatbots (virtual assistants, chat bot, conversational agents, virtual agents) in the World. Disponível em https://www.chatbots.org/chatbot/eliza. Acesso em Dez. 2015.

COPPIN, Ben. Inteligência Artificial. Rio de Janeiro: LTC, 2010.

DACOS, Marin. Manifesto das Humanidades Digitais. Produzido em 26 mar. 2011. Poster publicado no THAT Camp 2012. Tradução de Hervé Théry. Disponível em https://humanidadesdigitais.org/manifesto-das-humanidades-digitais. Acesso em 10 jan. 2017.

DIAS-DA-SILVA, Bento Carlos. O estudo Linguístico-Computacional da Linguagem. Letras de Hoje. Porto Alegre. v. 41, nº 2, p. 103-138, junho, 2006. Disponível em http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/viewFile/597/428. Acesso em 13 out. 2015.

FARIA, Pablo; GALVES, Charlotte. Criando “Bancos de Árvores”: O Sistema de Anotação e o Processo Automático. Cadernos de Estudos Linguísticos. Campinas: v. 58, n. 2 p. 299-315, maio/ago./2016. Disponível em http://revistas.iel.unicamp.br/index.php/cel/article/view/5133. Acesso em 30 dez. 2016.

GIRÃO, Márcio. Humanidades Digitais: quando o software conta a história através do tempo. In: Timaior, Rio de Janeiro. 11ª edição, dezembro, 2016. Disponível em http://www.timaior.com.br/m/capa-portal-do-software-publico/intervalo-humanidadesdigitais. Acesso em 12 fev. 2017.

GONÇALVES, Maria Filomena; BANZA, Ana Paula (coord.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: CIDEHUS, 2013. ISBN: 978-989-95669-7-2.

HEXSEL, R. A. SOFTWARE LIVRE. Paraná: Universidade Federal do Paraná, 2002, disponível em < http://www.inf.ufpr.br/pos/techreport/RT_DINF004_2002.pdf >. Acesso em 02 fev. 2017.

HOUAISS, Antônio (Ed.). Dicionário Houaiss da Língua Portuguesa, Edição digital, Versão 3.0. Rio de Janeiro: Editora Objetiva, 2009. 1 CD ROM.

HOVY, Eduard; LAVID, Julia. Towards a ‘Science’ of Corpus Annotation: A New Methodological Challenge for Corpus Linguistics. International Journal of Translation. Califórnia: v. 22, n. 1, Jan-Jun 2010. Disponível em . Acesso em 20 jun. 2017.

LAKATOS, Eva Maria; MARCONI, Marina de Andrade. Fundamentos de Metodologia Científica. 6ª ed. São Paulo: Atlas, 2006.

LEECH, Geoffrey. Adding Linguistic Annotation. Lancaster University: 2004. In: WYNNE, Martin (editor). Developing Linguistic Corpora: a Guide to Good Practice. ISSN 1463 5194. Virgínia (EUA): Oxbow Books, 2005.

LOMBARDO, Elena. Representação do Conhecimento e Humanidades. HD br: publicado em 08/08/2014. Disponível em <http://hdbr.hypotheses.org/5125#more-5125>. Acesso em 10 fev. 2017.

NAMIUTI, Cristiane (Coord.). Novos meios para antigas fontes: Sintaxe diacrônica em corpus eletrônico: do português pré-clássico às variantes modernas. Projeto de Pesquisa. UESB, Vitória da Conquista, 2010.

NAMIUTI, Cristiane (Coord.); SANTOS, Jorge Viana (Co-coordenador). Memória Conquistense: implementação de um corpus digital. CNPq 485098/2013-0. UESB, Vitória da Conquista, 2013. (Projeto de Pesquisa).

NAMIUTI-TEMPONI, Cristiane; COSTA, Aline Silva. Reflexões sobre anotação sintática e ferramentas de busca - Uso da linguagem XML para anotação sintática no corpus digital DOViC. Letras & Letras. v. 30, n. 2 (jul/dez. 2014) - ISSN 1981-5239. Disponível em http://www.seer.ufu.br/index.php/letraseletras. Acesso em 08 Jun. 2016.

NAMIUTI-TEMPONI, Cristiane; SANTOS, Jorge Viana. Novos desafios para antigas fontes: a experiência DOViC na nova linguística histórica. “E-Book do Congresso de Humanidades Digitais em Portugal: Construir pontes e quebrar barreiras na era digital – 2015”. Lisboa: Universidade Nova de Lisboa, 2017 (no prelo).

NAMIUTI-TEMPONI, Cristiane; VIANA SANTOS, Jorge; LEITE, Cândida Mara Brito. Propostas e Desafios dos Novos Meios das Antigas Fontes: a preservação da memória pela Linguística de Corpus. Trabalho apresentado no IX Colóquio do Museu Pedagógico. UESB, Vitória da Conquista: 2011. Disponível em <http://periodicos.uesb.br/index.php/cmp/article/viewFile/2717/2382>. Acesso em 2 ago. 2016. ISSN: 2175-5493.

OTHERO, Gabriel de Ávila. Linguística Computacional: uma breve introdução. LETRAS DE HOJE – ediPUCRS v. 41, n. 2 (2006) disponível em <http://revistaseletronicas.pucrs.br/ojs/index.php/fale/article/view/605>, acesso em 29 set. 2015.

OTHERO, Gabriel de Ávila; MENUZZI, Sérgio de Moura. Linguística Computacional - princípios e aplicações. São Paulo: Parábola Editorial, 2005.

PAIXÃO DE SOUSA, Maria Clara. A anotação semiautomática de divergências de grafia como fundamento para o processamento automático de textos antigos: Uma experiência na Brasiliana Digital. 18º Intercâmbio de Pesquisas em Linguística Aplicada, PUC, São Paulo, 2011.

______. Memórias do Texto. In: Revista Texto Digital, ISSN 1807-9288, ano 2 n.1 2006. Disponível em http://www.textodigital.ufsc.br/num02/paixao.htm. Acesso em 02 jan. 2017.

______. A Filologia Digital em Língua Portuguesa: alguns caminhos. In: GONÇALVES, Maria Filomena; BANZA, Ana Paula (coord.). Património Textual e Humanidades Digitais: da antiga à nova Filologia. Évora: CIDEHUS, 2013. p. 113-138. ISBN: 978-989-95669-7-2.

______. O Corpus Tycho Brahe: contribuições para as humanidades digitais no Brasil. Filologia e Linguística Portuguesa, Brasil, v. 16, p. 53-93, dec. 2014. ISSN 2176-9419. Disponível em: <http://www.revistas.usp.br/flp/article/view/88404/91296>. Acesso em: 12 maio 2017. doi:http://dx.doi.org/10.11606/issn.2176-9419.v16ispep53-93.

PAIXÃO DE SOUSA, Maria Clara; KEPLER, Fabio Natanael; FARIA, Pablo Picasso Feliciano de. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. Resumos, 2009.

______. e-Dictor. Versão 1.0 beta 10, 2013. Programa de Computador. Disponível em: <https://edictor.net/download>. Acesso em 01 jun.2016.

PÉREZ-PAREDES, Pascual (Coord.). SACODEYL. Múrcia, Espanha: Universidad de Murcia, 2008. Disponível em http://www.um.es/sacodeyl/en/pages/software.htm#annotator. Acesso em 17 jun.2017.

RIBEIRO, Rafael Dias. Métodos Revogáveis de Busca. Rio de Janeiro: 2011. Disponível em http://www.rafaeldiasribeiro.com.br/downloads/IC1_7.pdf. Acesso em 25 jun. 2017.

ROCHA, Anderson; DORINI, Leyza Baldo. Algoritmos gulosos: definições e aplicações. Campinas: 2004. Disponível em http://www.ic.unicamp.br/~rocha/msc/complex/algoritmosGulososFinal.pdf. Acesso em 25 jun. 2017.

RUSSELL, Stuart; NORVIG, Peter. Inteligência Artificial. 3ª ed. Rio de Janeiro: Elsevier, 2013 [e-book].

SANTOS, Jorge Viana. Técnicas de transporte do texto manuscrito para o meio digital. Trabalho apresentado na I Oficina de Linguística de Corpus da Bahia (UEFS, UESB, UFBA). Feira de Santana, Brasil, Dezembro 15-17, 2010.

SARDINHA, Tony Berber. Linguística de Corpus: Histórico e Problemática. DELTA, vol.16 nº 2, páginas 323-369. Scielo: São Paulo, 2000. Disponível em <http://www.scielo.br/scielo.php?pid=S0102-44502000000200005&script=sci_abstract&tlng=pt>. Acesso em 03 jul. 2016.

SILVEIRA, Paulo et al. Introdução à Arquitetura e Design de Software. Rio de Janeiro: Elsevier, 2012 [e-book].

SILVEIRA, S. A. da. SOFTWARE LIVRE: a luta pela liberdade de conhecimento. São Paulo: ed. Fundação Perseu Abramo, 2004.

SIMOV, Kiril et al. CLaRK - an XML-based System for Corpora Development. In: Proc. of the Corpus Linguistics, 2001. Conference, pages: 558-560.

SINCLAIR, John. Corpus and Text - Basic Principles. In: WYNNE, Martin (editor). Developing Linguistic Corpora: a Guide to Good Practice. ISSN 1463 5194. Virgínia (EUA): Oxbow Books, 2005.

STEPHAN, Druskat et al. Atomic: an open-source software platform for multi-layer corpus annotation. In Josef Ruppert and Gertrud Faaß (eds.): Proceedings of the 12th Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), Hildesheim, October 2014. 228–234. ISBN 978-3-934105-46-1. Disponível em <http://corpus-tools.org/atomic/>. Acesso em 16 jun. 2017.

TAURION, C. SOFTWARE LIVRE: Potencialidades e Modelos de Negócio. Rio de Janeiro: ed. Brasport, 2004.

TURING, Alan. Computing Machinery and Intelligence. Mind, vol. 59, nº 236, outubro, 1950, páginas 433-460, disponível em <http://loebner.net/Prizef/TuringArticle.html>, acesso em 10 out. 2015.

VELLOSO, Fernando de Castro. Informática: conceitos básicos. 7ª ed. revista e atualizada. Rio de Janeiro: Elsevier, 2004.

VIEIRA, Renata; LIMA, V.L.S. Linguística Computacional: princípios e aplicações. In: IX Escola de Informática da SBC-Sul. Luciana Nedel (Ed.) Passo Fundo, Maringá, São José. SBC-Sul, 2001.

WAZLAWICK, Raul Sidnei. Metodologia de Pesquisa para Ciência da Computação. Rio de Janeiro: Elsevier, 2008.

Downloads

Publicado

30-12-2017