WEBSINC: UMA FERRAMENTA WEB PARA BUSCAS SINTÁTICAS E MORFOSSINTÁTICAS EM CORPORA ANOTADOS - ESTUDO DE CASO DO CORPUS DOVIC - BAHIA
DOI:
https://doi.org/10.54221/rdtdppglinuesb.2015.v3i1.51Palavras-chave:
Corpora Anotados, Ferramentas de Busca, XML, SintaxeResumo
As necessidades de quantidade de dados, agilidade e automação, itensificaram a produção de corpora de línguas naturais, computacionalmente trabalháveis, anotados morfológica e sintaticamente, para pesquisas na área de Gramática. Com isso, a ciência Linguística passou a contar com a possibilidade de utilização de recursos para buscas automáticas por categorias sintáticas ou morfossintáticas em textos de corpora anotados. A utilização de softwares que realizem tais buscas é fundamental, uma vez que permitem a análise de grandes corpora, com grande volume de dados textuais. No entanto, grande parte das pesquisas que utilizam recursos automatizados para a busca de dados em corpora anotados não contam com ferramentas com interface gráfica, tendo, o pesquisador, que aprender uma linguagem de consulta que exige certo conhecimento de programação para aplicá-la em interface texto. O uso de um software que forneça o recurso de buscas automáticas com interface gráfica facilita o processo de busca, dispensando o aprendizado de comandos ou linguagens de consulta pelo linguista, contribuindo, desta maneira, com os estudos gramaticais, sobretudo da área de sintaxe. Consideramos que um esquema de anotação linguística baseado em padrões, como a linguagem XML (Extensible Markup Language), aliado a um aparato tecnológico para essa mesma linguagem, propicia mais flexibilidade às buscas, além de reuso e independência de tecnologias. Nesse contexto, o presente trabalho teve como objetivo o desenvolvimento de um sistema web de buscas morfossintáticas e sintáticas, denominado de WebSinC, para ser utilizado em corpora digitais com anotação XML baseados na metodologia do Corpus Tycho Brahe, seguido de aplicação e testes no corpus digital DOViC. O software provê também o gerenciamento e a publicação do corpus, disponibilizando-o na Internet para pesquisadores interessados. A metodologia de pesquisa utilizada no trabalho caracteriza-se como pesquisa aplicada. O WebSinC foi modelado utilizando-se da Linguagem de Modelagem Unificada (UML) e sua implementação utilizou a linguagem de programação Java e o framework Java Server Faces (JSF). O banco de dados utilizado no software foi o PostgreSQL. Os testes das buscas sintáticas e morfossintáticas implementadas no software foram realizados utilizando-se como dados uma carta do corpus DOViC, entitulada Carta de Alforria da cabra de nome Sofia, escrita em 1845, e um texto do corpus Tycho Brahe, escrito em 1502 por Pero Magalhães de Gandavo. Os testes foram realizados comparando os resultados do sistema WebSinC com os resultados produzidos pela ferramenta de busca Corpus Search, já utilizada em muitas outras pesquisas. Foi possível demonstrar a adequação dos resultados das buscas produzidos pelo WebSinC aos resultados esperados e/ou a igualdade com os resultados produzidos pelo Corpus Search. A utilização da linguaguem XML para todo o esquema de anotação e buscas conferiu maior possibilidade de recuperação de informação dos textos, explorando potencialidades de extração de dados em diferentes versões nas buscas, contribuindo assim para a possibilidade de garantia de fidedignidade das versões e controle das edições dos documentos. Também foi demonstrada a aplicabilidade da ferramenta em pesquisas realizadas em corpora anotados, dando exemplos de buscas automáticas que poderiam ser feitas com este recurso do WebSinC, o que leva à conclusão de que o WebSinC é uma ferramenta singular que trará possibilidades que até então não haviam sido exploradas no mundo dos corpora anotados para a pesquisa linguística.
Como citar:
COSTA, Aline Silva. WebSinc: uma ferramenta Web para buscas sintáticas e morfossintáticas em corpora anotados – estudo de caso do corpus DOViC – Bahia. Orientadora: Cristiane Namiuti. Coorientador: Jorge Viana Santos. 2015. 187f. Dissertação (mestrado em Linguística) – Universidade Estadual do Sudoeste da Bahia, Programa de Pós-graduação em Linguística, Vitória da Conquista, 2015. DOI: https://doi.org/10.54221/rdtdppglinuesb.2015.v3i1.51 . Acesso em: xxxxxxxx
Métricas
Referências
ACIOLY, B.M; BEDREGAL, B.R.C. Introdução à Teoria da Computação. Linguagens Formais e Computabilidade. 2000.
ALUISIO, M. et al. The Lacio-Web Project: overview and issues in brazilian portuguese corpora creation. In: CORPUS LINGUISTICS 2003, 2003, Lancaster, UK. Proceedings of the Corpus Linguistics 2003 Conference: UCREL technical paper number 16. UCREL, Lancaster, UK: Lancaster University, 2003. v. 16.
AMERICAN NATIONAL CORPUS (ANC) . Open Data for language research and education. 2012. Disponível em:< http://www.anc.org>. Acesso em: 01 nov. 2014.
ANDERSON, S. R. Where´s morphology. Linguistic Inquiry, v. 13, 1982.
ANTONELLI, A. Sintaxe da Posição do Verbo e Mudança Gramatical na História do Português Europeu. 2011. 248 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2011.
ASSOCIAÇÃO DAS HUMANIDADES DIGITAIS, 2013. Disponível em: < http://ahdig.org/associacao-das-humanidades-digitais/>. Acesso em: 04 dez. 2014.
BENNET, G. R. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Michigan: Michigan ELT, 2010.
BEZERRA, Eduardo. Princípios de Análise e Projeto de Sistemas com UML. 2 ed. Rio de Janeiro: Campus, 2007.
BICK, E. The parsing system palavras: automatic grammatical analysis of portuguese in a constraint grammar framework. 2000. 505 f. Tese (Doutorado em Linguística) - Aarhus University Press, Aarhus, 2000.
BRITISH NATIONAL CORPUS. 2009. Disponível em: <http://www.natcorp.ox.ac.uk/>. Acesso em: 05 dez. 2014.
BRITTO, H.; FINGER, M.; GALVES,C. Computational and linguistic aspects of the construction of the Tycho Brahe Parsed Corpus of Historical Portuguese. São Paulo: Unicamp, 1998. Disponível em:<http://www.tycho.iel.unicamp.br/~tycho/pesquisa/artigos/GALVES_Cetal-Fase1b.pdf> Acesso em: 05 nov. 2014.
BUITELAAR, P. et al. A Multi-layered, XML-Based Approach to the Integration of Linguistic and Semantic Annotations. In: PROCEEDINGS OF EACL 2003 WORKSHOP ON LANGUAGE TECHNOLOGY AND THE SEMANTIC WEB. 2003. Disponível em: < http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.8382 >. Acesso em: 05 dez. 2014.
CÂNDIDO JÚNIOR, A.; ALUÍSIO, S.M. Criação de um ambiente para o processamento de corpus de Português Histórico. USP, 2008. Disponível em: <http://www.icmc.usp.br/~posgrad/geral/artigos2008/Artigo_Arnaldo_Candido_Junior>. Acesso em: 19 out 2012.
CARROLL, J. Parsing. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
CE-DOHS. Corpus Eletrônico de Documentos Históricos do Sertão [ CE-DOHS ]. Disponível em: <http://www2.uefs.br/cedohs/apresenta.html 2010>. Acesso em: 02 dez. 2014.
CENTRO DE LINGUÍSTICA DA UNIVERSIDADE DE LISBOA. CRPC: Corpus de Referencia do Português Contemporâneo. Lisboa, 2014. Disponível em: <http://www.clul.ul.pt/pt/recursos/183-reference-corpus-of-contemporary-portuguese-crpc > Acesso em: 4 ago. 2014.
CHOMSKY, N. Lectures on government and binding. The Pisa lectures. 7 ed. Berlim; New Yortk: Mouton de Gruyter, 1993.
______. Minimalist program. The MIT Press, 1995. Tradução portuguesa: RAPOSO, E. O programa minimalista. Lisboa: Caminho, 1999.
CORDIAL-SIN. Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN). 2014.
Disponível em:<http://www.clul.ul.pt/pt/recursos/212-cordial-sin-syntax-oriented-corpus-ofportuguese-dialects>. Acesso em: 03 dez. 2014.
CORPUS SEARCH. Corpus Search Users Guide. 2009. Disponível em: <http://corpussearch.sourceforge.net/CS-manual/Contents.html>. Acesso em: 25 jul. 2013.
DEITEL, H.M.; DEITEL, P.J.; NIETO, T.M.; LIN, T.M.; SHADU, P.V. XML: Como programar. Porto Alegre: Bookman, 2005.
DEITEL, H. M. et al. Perl - Como Programar. Apresentando CGI e Python. São Paulo: Bookman. 2001.
DEITEL, H.M; DEITEL, P.J. Java: como programar. 6.ed. São Paulo: Pearson Prentice Hall, 2005.
DELAMARO, M.E. Como construir um compilador. Utilizando ferramentas Java. São Paulo: Novatec, 2004.
ECKART, K. Aspects of annotations.In: CLARIN-D User Guide. Universität Stuttgart, 2012. Disponível em: <http://media.dwds.de/clarin/userguide/text/annotation_aspects.xhtml>. Acesso em: 7 ago. 2014.
EDISYN. EDISYN Home Page. 2012. Disponível em: < http://www.dialectsyntax.org/wiki/About_Edisyn>. Acesso em: 05 dez 2014.
EISENBACH, A.; EISENBACH, M. PhpSyntaxTree: Software para desenho de árvores sintáticas. Disponível em: <http://ironcreek.net/phpsyntaxtree/?>. 2003. Acesso em: 14 out. 2013.
EVANS, D. Information about Corpus building and investigation: a on-line information pack about corpus investigation techniques for the Humanities. Birmingham: Centre for Corpus Research/University of Birmingham, 2008. Disponível em: < http://www.birmingham.ac.uk/documents/collegeartslaw/corpus/intro/unit2.pdf >. Acesso em: 15 jul. 2014.
FINGER, M. Tagging a morphologically rich language. In Proceeding of the first Workshop on Text, Speech and Dialogue (TSD'98), pages 39-44, Brno, Czech Republic, 1998.
______. Técnicas de otimização da precisão empregadas no etiquetador tycho brahe. In V Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada (PROPOR2000), pages 141-154, Atibaia, Brazil, November 19-22 2000.
FLORIPI, S.A. Estudo da variação do determinante em sintagmas nominais possessivos do Português Médio ao Português Europeu Moderno. 2008. 271 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2008.
FRANCIS, W. N.; KUČERA, H. Brown Corpus manual. Rhode Island: Department of Linguistics, Brown University, 1979. Disponível em: <http://www.hit.uib.no/icame/brown/bcm.html>. Acesso em: 04 nov. 2014.
GALVES, C. M. C. Rhythmic Patterns, Parameter Setting and Language Change. 1998 (Projeto de pesquisa) .
GALVES, C.; BRITTO, H. A Construção do Corpus Anotado do Português Histórico Tycho Brahe – o sistema de anotação morfológica. 2008. Disponível em: <http://www.tycho.iel.unicamp.br/~tycho/pesquisa/artigos/GALVES_Cetal-Fase1a.pdf>. Acesso em: 5 ago. 2014.
GERBER, R. M.; VASILÉVSKI, V. Um percurso para pesquisas com base em corpus. Florianópolis: Editora da UFSC, 2007.
GODOY, M.C. A colocação dos clíticos no ambiente das orações infinitivas introduzidas por preposições no Português Clássico. 2006. 53 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2006.
GOLDSMITH, J.A. Segmentation and Morphology. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.
GOMES DOS SANTOS, C. A. Complemento-Verbo' vs. 'Verbo-Complemento': uma investigação sobre a estabilização da ordem na diacronia do português. 2013. 122 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2013.
GONÇALVES, C.A. Iniciação aos estudos morfológicos. Flexão e derivação em português. São Paulo: Contexto, 2011.
GRAVINA, A. P. Sujeito nulo e ordem VS no português brasileiro: um estudo diacrônico-comparativo baseado em corpus. 2014. 251 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2014.
GRISHMAN, R. TIPSTER Text Architecture Design. New York University. 1998.
HIRSCHMAN, L.; MANI, I. Evaluation. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
HUNSTON, S. Começando com as palavras pequenas: Padrões, léxico e sequências semânticas. In: SHEPHERD, T.M.; SARDINHA, T.B.; PINTO, M.V. (Organizadores). Caminhos da Linguística de Corpus. Campinas: Mercado de Letras, 2012.
IDE, N. Encoding Linguistic Corpora. In Proceedings of the Sixth Workshop on Very Large Corpora, 1998.
IDE, N.; BONHOMME, P.; ROMARY, L. XCES: An XML-based Encoding Standard for Linguistic Corpora. In: INTERNATIONAL LANGUAGE RESOURCES AND EVALUATION CONFERENCE, 2., 2000, Atenas. Proceedings of the Second International Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2000.
IDE, N.; ROMARY, L.; CLERGERIE, E. International Standard for a Linguistic Annotation Framework. In: WORKSHOP ON SOFTWARE ENGINEERING AND ARCHITECTURE OF LANGUAGE TECHNOLOGY SYSTEMS SEALTS, 2003.
Disponível em: < http://clair.eecs.umich.edu/aan/paper.php?paper_id=W03-0804#pdf>. Acesso em: 05 dez. 2014.
JACKSON, P.; MOULINIER, I. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam/Philadelphia: John Benjamins Publishing Company, 2002.
JARGAS, A.M. Expressões Regulares. Guia de consulta rápida. São Paulo: Novatec, 2001.
JOHANSSON, S.; STENSTROM, A. (Editores). English computer corpora: selected papers and research guide. berlin; New york: Mouton de Gruyter, 1991.
KAPLAN, R.M. Syntax. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
KAY, M. Introduction. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
KENNEDY, G. An introduction to Corpus linguistics. London: Longman, 1998.
KEPLER, F. N. ; FINGER, M. A Part-of-Speech Tagger Based on Variable Length Markov Chains. In: Concurso de Teses e Dissertações, 2006, Campo Grande, MS. Anais do XXVI Congresso da SBC, 2006.
KÖNIG, E.; LEZIUS, W; VOORMANN, H. TIGERSearch 2.1. User's Manual. IMS, University of Stuttgart. 2003. Disponível em: < http://www.ims.unistuttgart.de/forschung/ressourcen/werkzeuge/TIGERSearch/manual.html>. Acesso em: 05 dez. 2014.
KORTH, H. F.;SILBERSCHATZ, A. ;SUDARSHAN, S. Sistema de Banco de Dados. Rio de Janeiro: Elsevier, 2006.
KROCH, A.; TAYLOR, A. Penn-Helsinki Parsed Corpus of Middle English, second edition. 2000. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCME2-RELEASE-3/index.html >. Acesso em: 03 dez. 2014.
KROCH, A.; SANTORINI, B.; DIERTANI, A. Penn-Helsinki Parsed Corpus of Early Modern English. 2004. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCEMERELEASE-2/index.html >. Acesso em: 03 dez. 2014.
KROCH, A.; DIERTANI, A. Penn-Helsinki Parsed Corpus of Modern British English. 2010. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCMBERELEASE-1/index.html >. Acesso em: 03 dez. 2014.
LACIO-WEB. Compilação de Córpus do Português do Brasil e Implementação de Ferramentas para Análises Linguísticas. 2004. Disponível em: <http://www.nilc.icmc.usp.br/lacioweb/ferramentas.htm> . Acesso em: 4 ago. 2014.
LINGUATECA. Acesso a corpos de português: Projeto AC/DC. 2014. Disponível em: <http://www.linguateca.pt/ACDC/>. Acesso em: 31 jul. 2014.
LOURENÇATO, P.A. Colocação dos Clíticos em Orações Infinitivas introduzidas por Preposição no Português Clássico. 2001. 30 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2001.
LYONS, J. Lingua(gem) e Linguística. Uma introdução. Rio de Janeiro: LTC, 1981.
MAIA, B.; SARMENTO, L. Corpógrafo - Applications. In: Third International Workshop on Language Resources for Translation Work Research & Training, Satellite event of LREC 2006 (LR4Trans-III) 28 May 2006, pp. 55-58.
MANNING, C.D.; SCHUTZE, H. Foundations of Statistical Natural Language Processing. Massachusetts: The MIT Press, 2000.
MARCUS, M. P.; SANTORINI, B.; MARCINKIEWICZ, M.A. Building a Large Annotated Corpus of English: The Penn TreeBank. Computational Linguistics, v.19. 1993.
MARCUS, M.; TAYLOR, A. The Penn TreeBank Project. Disponível em: <http://www.cis.upenn.edu/~treebank/> 2002. Acesso 14 out. 2013.
McENERY, T. Corpus Linguistics. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
MENEZES, G. A Colocação de Clíticos nas Orações Coordenadas do Português Clássico. 2003. 7 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2003.
MENEZES, P. B. Linguagens Formais e Autômatos. Porto Alegre: Editora Sagra Luzzato, 2005.
MEGERDOOMIAN, K. Text mining, Corpus building, and testing. In:FARGHALY, Ali Ahmed Sabry (Ed.). Handbook for language engineers. Standford : CSLI, 2003. pp.14.
MELLO, H.; SOUZA, R. A linguagem da ciência: Prospecção de dados baseados em corpora. Anais – Seminários Teóricos Interdisciplinares do SEMIOTEC – I STIS. UFMG.
Disponível em: <http://www.periodicos.letras.ufmg.br/index.php/stis/issue/current>. Acesso em: 1 jul. 2014.
MENGEL, A.; LEZIUS, W. An XML-based representation format for syntactically annotated corpora. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=14E13F7984717A2C1EB5E6CB039C4C92?doi=10.1.1.26.6389&rep=rep1&type=pdf>. 2000. Acesso em: 4 ago. 2014.
MIKHEEV, A. Text Segmentation. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
MIOTO, C.; SILVA, M.C.F.; LOPES, R. Novo Manual de Sintaxe. São Paulo: Contexto, 2013.
MUNIZ, M. et al. Taming the tiger topic: an XCES compliant corpus Portal to generate subcorpus based on automatic text topic identification. In: CORPUS LINGUISTICS 2007 CONFERENCE, 2007, Birmingham. Proceedings of the Corpus Linguistics 2007 Conference. Birmingham: University of Birmingham, 2007. Disponível em: http://ucrel.lancs.ac.uk/publications/CL2007/>. Acesso em: 4 ago. 2014.
NAMIUTI, C. Universidade Estadual de Campinas, Campinas, 2005. Script na linguagem Perl (Código-fonte de software).
______. Aspectos da história gramatical do português: interpolação, negação e mudança. 2008. 331 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2008.
______. (Coord.) Memória Conquistense: implementação de um corpus digital. CNPq 485098/2013-0. UESB, Vitória da Conquista, 2013. (Projeto de Pesquisa).
______. (Coord.) Novos meios para antigas fontes: Sintaxe Diacrônica em corpus eletrônico do português. Projeto de Pesquisa. UESB, Vitória da Conquista, 2010.
______. Ordem e clíticos: fronteamento e interpolação na diacronia do Português. In: Anais do VII Congresso Internacional da Abralin, Curitiba 2011. p.923 – 938.
NAMIUTI, C. ; SANTOS, J. V. ; LEITE, C. M. B. Propostas e Desafios dos Novos Meios das Antigas Fontes: A Preservação da Memória pela Linguística de Corpus. In: X Colóquio Nacional e II Colóquio Internacional do Museu Pedagógico UESB, 2011, Vitória da Conquista. Anais do X Colóquio Nacional e II Colóquio Internacional do Museu Pedagógico UESB. Vitória da Conquista: UESB, 2011. v. 1. p. 1-11.
NAMIUTI, C. et al. Computação e linguística: importante diálogo para pesquisas e preservação da memória nos novos meios das antigas fontes. Revista Binacional Brasil Argentina: Diálogo entre as Ciências, Vitória da Conquista, vol.2, n.1, jul. 2013.
NEDERHOF, M. ; SATTA, A.G. Theory os Parsing. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.
NÚCLEO INTERINSTITUCIONAL DE LINGUÍSTICA COMPUTACIONAL (NILC). 2014. Disponível em: <http://www.nilc.icmc.usp.br>. Acesso em: 3 ago. 2014.
OTHERO, G.A. Linguística Computacional: Uma breve introdução. Letras de Hoje, Porto Alegre v.41, n.2, 2006.
OTHERO, G.A.; MENUZZI, S.M. Linguística Computacional: teoria & prática. São Paulo: Parábola Editorial, 2005.
PAIXÃO DE SOUSA, M.C. Memórias do Texto. Revista Texto Digital, n.2., 2006. Disponível em: <http://www.textodigital.ufsc.br/num02/paixao.htm>. Acesso em: 5 ago. 2014.
______. Sistema de Edições Eletrônicas do Corpus Histórico do Português Tycho Brahe. Fundamentos, Diretrizes e Procedimentos. 2007a. Disponível em: < http://www.tycho.iel.unicamp.br/corpus/manual/prep/manual_frameset.html>. Acesso em: 15 nov. 2014.
______. Digital Text: Conceptual and methodological frontiers. In: ROMERO, D.; SANZ, A. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge Scholarly, 2007b.
PAIXÃO DE SOUSA, M.C.; KEPLER, F. N.; FARIA, P.P. E-Dictor: novas perspectivas na codificação e edição de corpora de textos Históricos. 2010. In: SHEPHERD, T.M.; SARDINHA, T.B.; PINTO, M.V. (organizadores). Caminhos da Linguística de Corpus. Campinas: Mercado de Letras, 2012.
PAIXÃO DE SOUSA, M.C; TRIPPEL, T. Building a historical corpus for Classical Portuguese: some technological aspects. 2006. Disponível em: <http://www.ime.usp.br/~tycho/participants/psousa/2006/lrec_psousa_trippel.pdf>. Acesso em: 19 out 2012.
PATTERSON, David A. HENNESSY, John L. Organização e Projeto de Computadores: A interface hardware/software. Trad.: Daniel Vieira. 3ª Ed. Rio de Janeiro: Elsevier, 2005.
PAUMIER, S. Unitex 3.1 Beta: User Manual. Paris: University of Paris, 2003. Disponível em: < http://www-igm.univ-mlv.fr/~unitex/UnitexManual3.1.pdf>. Acesso em: jul. 2014.
PEREIRA NETO, A. PostgreSQL. Técnicas avançadas: Versões open source: Soluções para desenvolvedores e administradores de Banco de Dados. São Paulo: Editora Érica, 2003.
PINHEIRO, G. M.; ALUISIO, S.M. Corpus Nilc: descrição e análise crítica com vistas ao projeto Lácio-Web. São Paulo: USP, 2003. Apresentado no 51º Seminário do Grupo de Estudos Linguísticos do Estado de São Paulo (GEL) em maio 2003, UNITAU/São Paulo. Disponível em: <http://www.nilc.icmc.usp.br/lacioweb/downloads/NILC-TR-03-03.zip>. Acesso em: 30 jul. 2014.
PINTO, A.S. Introdução à utilização do Corpógrafo: Um pequeno tutorial. 2006.
Disponível em: < http://labclup.letras.up.pt/corpografo/docs/tutorial.pdf>. Acesso em: 25 jul. 2014.
PRESSMAN, R. S. Engenharia de software. 6 ed. São Paulo: McGraw-Hill, 2006.
PUCSP. Projeto Corpus Brasileiro. 2014. Disponível em: <http://corpusbrasileiro.pucsp.br/cb/Inicial.html>. Acesso em: 4 ago. 2014.
RAPOSO, E.P. Teoria da Gramática à faculdade da Linguagem. Lisboa: Caminho, 1992.
RESNICK, P.; LIN,J. Evaluation of NLP Systems. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.
RIOS, E.; MOREIRA, T. Teste de software. 2ª Edição. ed. Rio de Janeiro: Alta Books, 2006.
ROCHA, P. A. ; SANTOS, D. CETEMPúblico: um corpus de grandes dimensões de linguagem jornalística portuguesa. In: ENCONTRO PARA O PROCESSAMENTO COMPUTACIONAL DA LINGUA PORTUGUESA ESCRITA E FALADA, 5., 2000,
Atibaia, SP. V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR 2000). São Paulo: ICMC/USP, 2000.
RÖGNVALDSSON, E.; INGASON, A.K.; SIGURDSSON, E. Coping with variation in the icelandic parsed historical corpus (ICEPAHC). Language Variation Infrastructure, Oslo Studies in Language, 2011.
ROHDE, D.L.T. TGrep2 User Manual. 2005. Disponível em: <http://tedlab.mit.edu/~dr/Tgrep2/tgrep2.pdf>. Acesso em: 01 dez. 2014.
RUSSEL, Stuart. NORVIG, Peter. Inteligência Artificial. 2ª Ed. Rio de Janeiro: Elsevier, 2004.
SANDALO, M.F. Morfologia. In: MUSSALIM, F. BENTES, A.C. Introdução à linguística. 9 ed. São paulo: Cortez Editora, 2001.
SANTORINI, B. Annotation manual for the Penn Historical Corpora and the PCEEC. Disponível em: <http://www.ling.upenn.edu/hist-corpora/annotation/index.html>. 2010. Acesso em: 8 out. 2013.
SANTOS, J. V. (Coord.) Memória Conquistense: recuperação de documentos oitocentistas na implementação de um corpus digital. UESB, Vitória da Conquista, 2009. (Projeto de Pesquisa).
SANTOS, J. V. Um método de Fotografia técnica documental para formação de corpora digitais de documentos históricos manuscritos. 2013. (No prelo.)
SANTOS, J.V.; BRITO, G. S. Fotografia técnica de documentos para formação de corpora digitais eletrônicos: o método desenvolvido no Lapelinc. LETRAS & LETRAS, São Paulo, v.30, n.2, 2014, p.421-430.
SANTOS, D. Disponibilização de corpora através da WWW. In Palmira Marrafa & Maria Antónia Mota (eds.), Linguística Computacional: Investigação Fundamental e Aplicações. Actas do I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística (Lisboa, 25-27 de Maio de 1998), Lisboa: Colibri, 1999, pp.323-346.
SARDINHA, T. B. Linguística de corpus: histórico e problemática. Delta, São Paulo, v.16, n.2, 2000, p.323-367.
______. Linguística de Corpus. Barueri: Manole, 2004.
______. Pesquisa em Lingüística de Corpus com WordSmith Tools. 2006.
SILVA FILHO, A.M. Programando com XML. Rio de Janeiro: Elsevier, 2004.
SILVEIRA, D. M. Clivadas E Pseudo-Clivadas Na História Do Português: Uma Análise Diacrônica Das Estruturas De Foco E Implicações Da Gramática V2. 2014. 173 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2014.
SILVEIRA, F.P. Integração de ferramentas para compilação e exploração de corpora. 2008. 101 f. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.
SOMMERVILLE, I. Engenharia de software. 6 ed. São Paulo: Addison Wesley, 2003.
TANEMBAUM, A.S. Redes de computadores. Rio de Janeiro: Elsevier, 2003.
TEXT ENCODING INITIATIVE (TEI). Text Encoding Initiative. 2013. Disponível em: <http://www.tei-c.org/index.xml>. Acesso em: 04 nov. 2014.
TRANNIN, J. B. Aspectos sintáticos do infinitivo com verbos causativos no Português Europeu: uma abordagem diacrônica. 2010. 144 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2010.
TROST, H. Morphology. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
UFRJ. Para uma história do português do Brasil-RJ. 2000. Disponível em: <http://www.letras.ufrj.br/phpb-rj/>. Acesso em: 4 ago. 2014.
UNICAMP. Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística. 1998a.
Disponível em:<http://www.tycho.iel.unicamp.br/~tycho/prfpml/fase2/index.html> Acesso em: 31 jul. 2014.
______. Corpus Histórico Anotado do Português Tycho Brahe. 1998b. Disponível em: . Acesso em: 30 jul. 2014.
VAN VALIN JR, R.D. An Introduction to Syntax. New York: Cambridge University Press. 2001.
VIEIRA, R.; LIMA, V. L.S. Lingüística Computacional: princípios e aplicações. In: Ana Teresa Martins; Díbio Leandro Borges (Org.). SBC - Jornadas de Atualização em Inteligência Artificial (JAIA). Fortaleza, 2001, v. 3, p. 47-86.
VILAÇA, M.L. C. Pesquisa e ensino: Considerações e reflexões. Revista e-scrita. Uniabeu, v.1, n.2, 2010.
VOUTILAINEN, A. Part-of-Speech Tagging. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.
WALMSLEY, P. XQuery. Gravenstein Highway North, Sebastopol: O’Reilly Media, 2007.
W3C. XML Technology. 2010. Disponível em: < http://www.w3.org/standards/xml/> Acesso em: 8 out. 2013.
______. XQuery. Disponível em: <http://www.w3.org/XML/Query/> Acesso em: 10 out 2012.
Downloads
Publicado
Edição
Seção
Categorias
Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.