WEBSINC: A WEB TOOL FOR ANNOTATED SYNTACTIC AND MORPHOSYNTACTIC SEARCHES IN CORPORA - CORPUS CASE STUDY DOVIC - BAHIA

Authors

DOI:

https://doi.org/10.54221/rdtdppglinuesb.2015.v3i1.51

Keywords:

Annotated Corpora, Search Tools, XML, Syntax

Abstract

ABSTRACT

Recent research in the Grammar area requires amount of data data that can be retrieved automatically. This need intensified the production of annotaded corpora of natural languages. Thus, Linguistics science has, nowadays, the possibility of using resources for automatic searches for syntactic or morphosyntactic categories in annotated corpora. The use of software to perform such a search is crucial, since they allow the analysis of large corpora, with a large amount of textual data. However, much of the research that use automated tools for data search in annotated corpora do not have tools with graphical interface, and the researcher needs to learn a query language and some knowledge in computer programming. Using a software that provides on automatic searches with graphical interface facilitates the search process, eliminating the learning commands or query languages by linguist, and thus can contribute to the grammatical studies, especially the syntax area. The linguistic annotation scheme based on standards such as XML (Extensible Markup Language), combined with a technological apparatus for the same language, provides more flexibility to search, and reuse and independence technologies. In this context, this study aimed to develop a web system with a search tool for morphosyntactic and syntactic categories, that we called WebSinC. This web system can be used in any digital corpora with XML annotation based in Corpus Tycho Brahe methodology, followed by application and testing in digital corpus DOViC. The software also provides management and publication of the corpus, making it available on the Internet for interested researchers. The research methodology used in the work is characterized as applied research. The WebSinC was modeled using up the Unified Modeling Language (UML) and its implementation used the Java programming language and the Java Server Faces framework (JSF). The database software was used in PostgreSQL. The tests of syntactic and morphosyntactic search implemented in software have been conducted using data as a letter from DOViC corpus, entitled Carta de Alforria da cabra de nome Sofia, written in 1845, and a text of Corpus Tycho Brahe, written in 1502 by Pero Magellan Gandavo. Tests were performed comparing the results of WebSinC system with the results produced by the search engine search corpus already used in many other research. It was possible to demonstrate the adequacy of the search results produced by WebSinC the expected results and / or equal to the results produced by the Corpus Search. The use of XML linguaguem for all annotation scheme and searches has increased the possibility of recovering information from texts, exploring data extraction capabilities in different versions in searches, thus contributing to the reliability of the control versions and editions of the documents. It was also demonstrated the applicability of the tool in research in annotated corpora, giving examples of automated queries that could be made with this feature WebSinC, which leads to the conclusion that the WebSinC is a unique tool that will bring possibilities that until then had not been explored in the world of annotated corpora for linguistic research.

Metrics

Metrics Loading ...

References

ACIOLY, B.M; BEDREGAL, B.R.C. Introdução à Teoria da Computação. Linguagens Formais e Computabilidade. 2000.

ALUISIO, M. et al. The Lacio-Web Project: overview and issues in brazilian portuguese corpora creation. In: CORPUS LINGUISTICS 2003, 2003, Lancaster, UK. Proceedings of the Corpus Linguistics 2003 Conference: UCREL technical paper number 16. UCREL, Lancaster, UK: Lancaster University, 2003. v. 16.

AMERICAN NATIONAL CORPUS (ANC) . Open Data for language research and education. 2012. Disponível em:< http://www.anc.org>. Acesso em: 01 nov. 2014.

ANDERSON, S. R. Where´s morphology. Linguistic Inquiry, v. 13, 1982.

ANTONELLI, A. Sintaxe da Posição do Verbo e Mudança Gramatical na História do Português Europeu. 2011. 248 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2011.

ASSOCIAÇÃO DAS HUMANIDADES DIGITAIS, 2013. Disponível em: < http://ahdig.org/associacao-das-humanidades-digitais/>. Acesso em: 04 dez. 2014.

BENNET, G. R. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Michigan: Michigan ELT, 2010.

BEZERRA, Eduardo. Princípios de Análise e Projeto de Sistemas com UML. 2 ed. Rio de Janeiro: Campus, 2007.

BICK, E. The parsing system palavras: automatic grammatical analysis of portuguese in a constraint grammar framework. 2000. 505 f. Tese (Doutorado em Linguística) - Aarhus University Press, Aarhus, 2000.

BRITISH NATIONAL CORPUS. 2009. Disponível em: <http://www.natcorp.ox.ac.uk/>. Acesso em: 05 dez. 2014.

BRITTO, H.; FINGER, M.; GALVES,C. Computational and linguistic aspects of the construction of the Tycho Brahe Parsed Corpus of Historical Portuguese. São Paulo: Unicamp, 1998. Disponível em:<http://www.tycho.iel.unicamp.br/~tycho/pesquisa/artigos/GALVES_Cetal-Fase1b.pdf> Acesso em: 05 nov. 2014.

BUITELAAR, P. et al. A Multi-layered, XML-Based Approach to the Integration of Linguistic and Semantic Annotations. In: PROCEEDINGS OF EACL 2003 WORKSHOP ON LANGUAGE TECHNOLOGY AND THE SEMANTIC WEB. 2003. Disponível em: < http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.8382 >. Acesso em: 05 dez. 2014.

CÂNDIDO JÚNIOR, A.; ALUÍSIO, S.M. Criação de um ambiente para o processamento de corpus de Português Histórico. USP, 2008. Disponível em: <http://www.icmc.usp.br/~posgrad/geral/artigos2008/Artigo_Arnaldo_Candido_Junior>. Acesso em: 19 out 2012.

CARROLL, J. Parsing. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

CE-DOHS. Corpus Eletrônico de Documentos Históricos do Sertão [ CE-DOHS ]. Disponível em: <http://www2.uefs.br/cedohs/apresenta.html 2010>. Acesso em: 02 dez. 2014.

CENTRO DE LINGUÍSTICA DA UNIVERSIDADE DE LISBOA. CRPC: Corpus de Referencia do Português Contemporâneo. Lisboa, 2014. Disponível em: <http://www.clul.ul.pt/pt/recursos/183-reference-corpus-of-contemporary-portuguese-crpc > Acesso em: 4 ago. 2014.

CHOMSKY, N. Lectures on government and binding. The Pisa lectures. 7 ed. Berlim; New Yortk: Mouton de Gruyter, 1993.

______. Minimalist program. The MIT Press, 1995. Tradução portuguesa: RAPOSO, E. O programa minimalista. Lisboa: Caminho, 1999.

CORDIAL-SIN. Corpus Dialectal para o Estudo da Sintaxe (CORDIAL-SIN). 2014.

Disponível em:<http://www.clul.ul.pt/pt/recursos/212-cordial-sin-syntax-oriented-corpus-ofportuguese-dialects>. Acesso em: 03 dez. 2014.

CORPUS SEARCH. Corpus Search Users Guide. 2009. Disponível em: <http://corpussearch.sourceforge.net/CS-manual/Contents.html>. Acesso em: 25 jul. 2013.

DEITEL, H.M.; DEITEL, P.J.; NIETO, T.M.; LIN, T.M.; SHADU, P.V. XML: Como programar. Porto Alegre: Bookman, 2005.

DEITEL, H. M. et al. Perl - Como Programar. Apresentando CGI e Python. São Paulo: Bookman. 2001.

DEITEL, H.M; DEITEL, P.J. Java: como programar. 6.ed. São Paulo: Pearson Prentice Hall, 2005.

DELAMARO, M.E. Como construir um compilador. Utilizando ferramentas Java. São Paulo: Novatec, 2004.

ECKART, K. Aspects of annotations.In: CLARIN-D User Guide. Universität Stuttgart, 2012. Disponível em: <http://media.dwds.de/clarin/userguide/text/annotation_aspects.xhtml>. Acesso em: 7 ago. 2014.

EDISYN. EDISYN Home Page. 2012. Disponível em: < http://www.dialectsyntax.org/wiki/About_Edisyn>. Acesso em: 05 dez 2014.

EISENBACH, A.; EISENBACH, M. PhpSyntaxTree: Software para desenho de árvores sintáticas. Disponível em: <http://ironcreek.net/phpsyntaxtree/?>. 2003. Acesso em: 14 out. 2013.

EVANS, D. Information about Corpus building and investigation: a on-line information pack about corpus investigation techniques for the Humanities. Birmingham: Centre for Corpus Research/University of Birmingham, 2008. Disponível em: < http://www.birmingham.ac.uk/documents/collegeartslaw/corpus/intro/unit2.pdf >. Acesso em: 15 jul. 2014.

FINGER, M. Tagging a morphologically rich language. In Proceeding of the first Workshop on Text, Speech and Dialogue (TSD'98), pages 39-44, Brno, Czech Republic, 1998.

______. Técnicas de otimização da precisão empregadas no etiquetador tycho brahe. In V Encontro para o Processamento Computacional da Língua Portuguesa Escrita e Falada (PROPOR2000), pages 141-154, Atibaia, Brazil, November 19-22 2000.

FLORIPI, S.A. Estudo da variação do determinante em sintagmas nominais possessivos do Português Médio ao Português Europeu Moderno. 2008. 271 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2008.

FRANCIS, W. N.; KUČERA, H. Brown Corpus manual. Rhode Island: Department of Linguistics, Brown University, 1979. Disponível em: <http://www.hit.uib.no/icame/brown/bcm.html>. Acesso em: 04 nov. 2014.

GALVES, C. M. C. Rhythmic Patterns, Parameter Setting and Language Change. 1998 (Projeto de pesquisa) .

GALVES, C.; BRITTO, H. A Construção do Corpus Anotado do Português Histórico Tycho Brahe – o sistema de anotação morfológica. 2008. Disponível em: <http://www.tycho.iel.unicamp.br/~tycho/pesquisa/artigos/GALVES_Cetal-Fase1a.pdf>. Acesso em: 5 ago. 2014.

GERBER, R. M.; VASILÉVSKI, V. Um percurso para pesquisas com base em corpus. Florianópolis: Editora da UFSC, 2007.

GODOY, M.C. A colocação dos clíticos no ambiente das orações infinitivas introduzidas por preposições no Português Clássico. 2006. 53 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2006.

GOLDSMITH, J.A. Segmentation and Morphology. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.

GOMES DOS SANTOS, C. A. Complemento-Verbo' vs. 'Verbo-Complemento': uma investigação sobre a estabilização da ordem na diacronia do português. 2013. 122 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2013.

GONÇALVES, C.A. Iniciação aos estudos morfológicos. Flexão e derivação em português. São Paulo: Contexto, 2011.

GRAVINA, A. P. Sujeito nulo e ordem VS no português brasileiro: um estudo diacrônico-comparativo baseado em corpus. 2014. 251 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2014.

GRISHMAN, R. TIPSTER Text Architecture Design. New York University. 1998.

HIRSCHMAN, L.; MANI, I. Evaluation. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

HUNSTON, S. Começando com as palavras pequenas: Padrões, léxico e sequências semânticas. In: SHEPHERD, T.M.; SARDINHA, T.B.; PINTO, M.V. (Organizadores). Caminhos da Linguística de Corpus. Campinas: Mercado de Letras, 2012.

IDE, N. Encoding Linguistic Corpora. In Proceedings of the Sixth Workshop on Very Large Corpora, 1998.

IDE, N.; BONHOMME, P.; ROMARY, L. XCES: An XML-based Encoding Standard for Linguistic Corpora. In: INTERNATIONAL LANGUAGE RESOURCES AND EVALUATION CONFERENCE, 2., 2000, Atenas. Proceedings of the Second International Language Resources and Evaluation Conference. Paris: European Language Resources Association, 2000.

IDE, N.; ROMARY, L.; CLERGERIE, E. International Standard for a Linguistic Annotation Framework. In: WORKSHOP ON SOFTWARE ENGINEERING AND ARCHITECTURE OF LANGUAGE TECHNOLOGY SYSTEMS SEALTS, 2003.

Disponível em: < http://clair.eecs.umich.edu/aan/paper.php?paper_id=W03-0804#pdf>. Acesso em: 05 dez. 2014.

JACKSON, P.; MOULINIER, I. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. Amsterdam/Philadelphia: John Benjamins Publishing Company, 2002.

JARGAS, A.M. Expressões Regulares. Guia de consulta rápida. São Paulo: Novatec, 2001.

JOHANSSON, S.; STENSTROM, A. (Editores). English computer corpora: selected papers and research guide. berlin; New york: Mouton de Gruyter, 1991.

KAPLAN, R.M. Syntax. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

KAY, M. Introduction. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

KENNEDY, G. An introduction to Corpus linguistics. London: Longman, 1998.

KEPLER, F. N. ; FINGER, M. A Part-of-Speech Tagger Based on Variable Length Markov Chains. In: Concurso de Teses e Dissertações, 2006, Campo Grande, MS. Anais do XXVI Congresso da SBC, 2006.

KÖNIG, E.; LEZIUS, W; VOORMANN, H. TIGERSearch 2.1. User's Manual. IMS, University of Stuttgart. 2003. Disponível em: < http://www.ims.unistuttgart.de/forschung/ressourcen/werkzeuge/TIGERSearch/manual.html>. Acesso em: 05 dez. 2014.

KORTH, H. F.;SILBERSCHATZ, A. ;SUDARSHAN, S. Sistema de Banco de Dados. Rio de Janeiro: Elsevier, 2006.

KROCH, A.; TAYLOR, A. Penn-Helsinki Parsed Corpus of Middle English, second edition. 2000. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCME2-RELEASE-3/index.html >. Acesso em: 03 dez. 2014.

KROCH, A.; SANTORINI, B.; DIERTANI, A. Penn-Helsinki Parsed Corpus of Early Modern English. 2004. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCEMERELEASE-2/index.html >. Acesso em: 03 dez. 2014.

KROCH, A.; DIERTANI, A. Penn-Helsinki Parsed Corpus of Modern British English. 2010. Disponível em: < http://www.ling.upenn.edu/hist-corpora/PPCMBERELEASE-1/index.html >. Acesso em: 03 dez. 2014.

LACIO-WEB. Compilação de Córpus do Português do Brasil e Implementação de Ferramentas para Análises Linguísticas. 2004. Disponível em: <http://www.nilc.icmc.usp.br/lacioweb/ferramentas.htm> . Acesso em: 4 ago. 2014.

LINGUATECA. Acesso a corpos de português: Projeto AC/DC. 2014. Disponível em: <http://www.linguateca.pt/ACDC/>. Acesso em: 31 jul. 2014.

LOURENÇATO, P.A. Colocação dos Clíticos em Orações Infinitivas introduzidas por Preposição no Português Clássico. 2001. 30 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2001.

LYONS, J. Lingua(gem) e Linguística. Uma introdução. Rio de Janeiro: LTC, 1981.

MAIA, B.; SARMENTO, L. Corpógrafo - Applications. In: Third International Workshop on Language Resources for Translation Work Research & Training, Satellite event of LREC 2006 (LR4Trans-III) 28 May 2006, pp. 55-58.

MANNING, C.D.; SCHUTZE, H. Foundations of Statistical Natural Language Processing. Massachusetts: The MIT Press, 2000.

MARCUS, M. P.; SANTORINI, B.; MARCINKIEWICZ, M.A. Building a Large Annotated Corpus of English: The Penn TreeBank. Computational Linguistics, v.19. 1993.

MARCUS, M.; TAYLOR, A. The Penn TreeBank Project. Disponível em: <http://www.cis.upenn.edu/~treebank/> 2002. Acesso 14 out. 2013.

McENERY, T. Corpus Linguistics. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

MENEZES, G. A Colocação de Clíticos nas Orações Coordenadas do Português Clássico. 2003. 7 f. Relatório de Iniciação Científica - Universidade Estadual de Campinas, FAPESB, Campinas, 2003.

MENEZES, P. B. Linguagens Formais e Autômatos. Porto Alegre: Editora Sagra Luzzato, 2005.

MEGERDOOMIAN, K. Text mining, Corpus building, and testing. In:FARGHALY, Ali Ahmed Sabry (Ed.). Handbook for language engineers. Standford : CSLI, 2003. pp.14.

MELLO, H.; SOUZA, R. A linguagem da ciência: Prospecção de dados baseados em corpora. Anais – Seminários Teóricos Interdisciplinares do SEMIOTEC – I STIS. UFMG.

Disponível em: <http://www.periodicos.letras.ufmg.br/index.php/stis/issue/current>. Acesso em: 1 jul. 2014.

MENGEL, A.; LEZIUS, W. An XML-based representation format for syntactically annotated corpora. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=14E13F7984717A2C1EB5E6CB039C4C92?doi=10.1.1.26.6389&rep=rep1&type=pdf>. 2000. Acesso em: 4 ago. 2014.

MIKHEEV, A. Text Segmentation. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

MIOTO, C.; SILVA, M.C.F.; LOPES, R. Novo Manual de Sintaxe. São Paulo: Contexto, 2013.

MUNIZ, M. et al. Taming the tiger topic: an XCES compliant corpus Portal to generate subcorpus based on automatic text topic identification. In: CORPUS LINGUISTICS 2007 CONFERENCE, 2007, Birmingham. Proceedings of the Corpus Linguistics 2007 Conference. Birmingham: University of Birmingham, 2007. Disponível em: http://ucrel.lancs.ac.uk/publications/CL2007/>. Acesso em: 4 ago. 2014.

NAMIUTI, C. Universidade Estadual de Campinas, Campinas, 2005. Script na linguagem Perl (Código-fonte de software).

______. Aspectos da história gramatical do português: interpolação, negação e mudança. 2008. 331 f. Tese (Doutorado em Linguística) - Universidade Estadual de Campinas, Campinas, 2008.

______. (Coord.) Memória Conquistense: implementação de um corpus digital. CNPq 485098/2013-0. UESB, Vitória da Conquista, 2013. (Projeto de Pesquisa).

______. (Coord.) Novos meios para antigas fontes: Sintaxe Diacrônica em corpus eletrônico do português. Projeto de Pesquisa. UESB, Vitória da Conquista, 2010.

______. Ordem e clíticos: fronteamento e interpolação na diacronia do Português. In: Anais do VII Congresso Internacional da Abralin, Curitiba 2011. p.923 – 938.

NAMIUTI, C. ; SANTOS, J. V. ; LEITE, C. M. B. Propostas e Desafios dos Novos Meios das Antigas Fontes: A Preservação da Memória pela Linguística de Corpus. In: X Colóquio Nacional e II Colóquio Internacional do Museu Pedagógico UESB, 2011, Vitória da Conquista. Anais do X Colóquio Nacional e II Colóquio Internacional do Museu Pedagógico UESB. Vitória da Conquista: UESB, 2011. v. 1. p. 1-11.

NAMIUTI, C. et al. Computação e linguística: importante diálogo para pesquisas e preservação da memória nos novos meios das antigas fontes. Revista Binacional Brasil Argentina: Diálogo entre as Ciências, Vitória da Conquista, vol.2, n.1, jul. 2013.

NEDERHOF, M. ; SATTA, A.G. Theory os Parsing. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.

NÚCLEO INTERINSTITUCIONAL DE LINGUÍSTICA COMPUTACIONAL (NILC). 2014. Disponível em: <http://www.nilc.icmc.usp.br>. Acesso em: 3 ago. 2014.

OTHERO, G.A. Linguística Computacional: Uma breve introdução. Letras de Hoje, Porto Alegre v.41, n.2, 2006.

OTHERO, G.A.; MENUZZI, S.M. Linguística Computacional: teoria & prática. São Paulo: Parábola Editorial, 2005.

PAIXÃO DE SOUSA, M.C. Memórias do Texto. Revista Texto Digital, n.2., 2006. Disponível em: <http://www.textodigital.ufsc.br/num02/paixao.htm>. Acesso em: 5 ago. 2014.

______. Sistema de Edições Eletrônicas do Corpus Histórico do Português Tycho Brahe. Fundamentos, Diretrizes e Procedimentos. 2007a. Disponível em: < http://www.tycho.iel.unicamp.br/corpus/manual/prep/manual_frameset.html>. Acesso em: 15 nov. 2014.

______. Digital Text: Conceptual and methodological frontiers. In: ROMERO, D.; SANZ, A. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge Scholarly, 2007b.

PAIXÃO DE SOUSA, M.C.; KEPLER, F. N.; FARIA, P.P. E-Dictor: novas perspectivas na codificação e edição de corpora de textos Históricos. 2010. In: SHEPHERD, T.M.; SARDINHA, T.B.; PINTO, M.V. (organizadores). Caminhos da Linguística de Corpus. Campinas: Mercado de Letras, 2012.

PAIXÃO DE SOUSA, M.C; TRIPPEL, T. Building a historical corpus for Classical Portuguese: some technological aspects. 2006. Disponível em: <http://www.ime.usp.br/~tycho/participants/psousa/2006/lrec_psousa_trippel.pdf>. Acesso em: 19 out 2012.

PATTERSON, David A. HENNESSY, John L. Organização e Projeto de Computadores: A interface hardware/software. Trad.: Daniel Vieira. 3ª Ed. Rio de Janeiro: Elsevier, 2005.

PAUMIER, S. Unitex 3.1 Beta: User Manual. Paris: University of Paris, 2003. Disponível em: < http://www-igm.univ-mlv.fr/~unitex/UnitexManual3.1.pdf>. Acesso em: jul. 2014.

PEREIRA NETO, A. PostgreSQL. Técnicas avançadas: Versões open source: Soluções para desenvolvedores e administradores de Banco de Dados. São Paulo: Editora Érica, 2003.

PINHEIRO, G. M.; ALUISIO, S.M. Corpus Nilc: descrição e análise crítica com vistas ao projeto Lácio-Web. São Paulo: USP, 2003. Apresentado no 51º Seminário do Grupo de Estudos Linguísticos do Estado de São Paulo (GEL) em maio 2003, UNITAU/São Paulo. Disponível em: <http://www.nilc.icmc.usp.br/lacioweb/downloads/NILC-TR-03-03.zip>. Acesso em: 30 jul. 2014.

PINTO, A.S. Introdução à utilização do Corpógrafo: Um pequeno tutorial. 2006.

Disponível em: < http://labclup.letras.up.pt/corpografo/docs/tutorial.pdf>. Acesso em: 25 jul. 2014.

PRESSMAN, R. S. Engenharia de software. 6 ed. São Paulo: McGraw-Hill, 2006.

PUCSP. Projeto Corpus Brasileiro. 2014. Disponível em: <http://corpusbrasileiro.pucsp.br/cb/Inicial.html>. Acesso em: 4 ago. 2014.

RAPOSO, E.P. Teoria da Gramática à faculdade da Linguagem. Lisboa: Caminho, 1992.

RESNICK, P.; LIN,J. Evaluation of NLP Systems. In: CLARK, A.; FOX, C.; LAPPIN, S. (Editores). The Handbook of Computational Linguistics and Natural Language Processing. Willey-BackWell, 2010.

RIOS, E.; MOREIRA, T. Teste de software. 2ª Edição. ed. Rio de Janeiro: Alta Books, 2006.

ROCHA, P. A. ; SANTOS, D. CETEMPúblico: um corpus de grandes dimensões de linguagem jornalística portuguesa. In: ENCONTRO PARA O PROCESSAMENTO COMPUTACIONAL DA LINGUA PORTUGUESA ESCRITA E FALADA, 5., 2000,

Atibaia, SP. V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR 2000). São Paulo: ICMC/USP, 2000.

RÖGNVALDSSON, E.; INGASON, A.K.; SIGURDSSON, E. Coping with variation in the icelandic parsed historical corpus (ICEPAHC). Language Variation Infrastructure, Oslo Studies in Language, 2011.

ROHDE, D.L.T. TGrep2 User Manual. 2005. Disponível em: <http://tedlab.mit.edu/~dr/Tgrep2/tgrep2.pdf>. Acesso em: 01 dez. 2014.

RUSSEL, Stuart. NORVIG, Peter. Inteligência Artificial. 2ª Ed. Rio de Janeiro: Elsevier, 2004.

SANDALO, M.F. Morfologia. In: MUSSALIM, F. BENTES, A.C. Introdução à linguística. 9 ed. São paulo: Cortez Editora, 2001.

SANTORINI, B. Annotation manual for the Penn Historical Corpora and the PCEEC. Disponível em: <http://www.ling.upenn.edu/hist-corpora/annotation/index.html>. 2010. Acesso em: 8 out. 2013.

SANTOS, J. V. (Coord.) Memória Conquistense: recuperação de documentos oitocentistas na implementação de um corpus digital. UESB, Vitória da Conquista, 2009. (Projeto de Pesquisa).

SANTOS, J. V. Um método de Fotografia técnica documental para formação de corpora digitais de documentos históricos manuscritos. 2013. (No prelo.)

SANTOS, J.V.; BRITO, G. S. Fotografia técnica de documentos para formação de corpora digitais eletrônicos: o método desenvolvido no Lapelinc. LETRAS & LETRAS, São Paulo, v.30, n.2, 2014, p.421-430.

SANTOS, D. Disponibilização de corpora através da WWW. In Palmira Marrafa & Maria Antónia Mota (eds.), Linguística Computacional: Investigação Fundamental e Aplicações. Actas do I Workshop sobre Linguística Computacional da Associação Portuguesa de Linguística (Lisboa, 25-27 de Maio de 1998), Lisboa: Colibri, 1999, pp.323-346.

SARDINHA, T. B. Linguística de corpus: histórico e problemática. Delta, São Paulo, v.16, n.2, 2000, p.323-367.

______. Linguística de Corpus. Barueri: Manole, 2004.

______. Pesquisa em Lingüística de Corpus com WordSmith Tools. 2006.

SILVA FILHO, A.M. Programando com XML. Rio de Janeiro: Elsevier, 2004.

SILVEIRA, D. M. Clivadas E Pseudo-Clivadas Na História Do Português: Uma Análise Diacrônica Das Estruturas De Foco E Implicações Da Gramática V2. 2014. 173 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2014.

SILVEIRA, F.P. Integração de ferramentas para compilação e exploração de corpora. 2008. 101 f. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.

SOMMERVILLE, I. Engenharia de software. 6 ed. São Paulo: Addison Wesley, 2003.

TANEMBAUM, A.S. Redes de computadores. Rio de Janeiro: Elsevier, 2003.

TEXT ENCODING INITIATIVE (TEI). Text Encoding Initiative. 2013. Disponível em: <http://www.tei-c.org/index.xml>. Acesso em: 04 nov. 2014.

TRANNIN, J. B. Aspectos sintáticos do infinitivo com verbos causativos no Português Europeu: uma abordagem diacrônica. 2010. 144 f. Dissertação (Mestrado em Linguística) - Universidade Estadual de Campinas, Campinas, 2010.

TROST, H. Morphology. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

UFRJ. Para uma história do português do Brasil-RJ. 2000. Disponível em: <http://www.letras.ufrj.br/phpb-rj/>. Acesso em: 4 ago. 2014.

UNICAMP. Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística. 1998a.

Disponível em:<http://www.tycho.iel.unicamp.br/~tycho/prfpml/fase2/index.html> Acesso em: 31 jul. 2014.

______. Corpus Histórico Anotado do Português Tycho Brahe. 1998b. Disponível em: . Acesso em: 30 jul. 2014.

VAN VALIN JR, R.D. An Introduction to Syntax. New York: Cambridge University Press. 2001.

VIEIRA, R.; LIMA, V. L.S. Lingüística Computacional: princípios e aplicações. In: Ana Teresa Martins; Díbio Leandro Borges (Org.). SBC - Jornadas de Atualização em Inteligência Artificial (JAIA). Fortaleza, 2001, v. 3, p. 47-86.

VILAÇA, M.L. C. Pesquisa e ensino: Considerações e reflexões. Revista e-scrita. Uniabeu, v.1, n.2, 2010.

VOUTILAINEN, A. Part-of-Speech Tagging. In: MIKTOV, R. (Editor). The Oxford Handbook of Computational Linguistics. New York: Oxford University Press, 2003.

WALMSLEY, P. XQuery. Gravenstein Highway North, Sebastopol: O’Reilly Media, 2007.

W3C. XML Technology. 2010. Disponível em: < http://www.w3.org/standards/xml/> Acesso em: 8 out. 2013.

______. XQuery. Disponível em: <http://www.w3.org/XML/Query/> Acesso em: 10 out 2012.

Published

2015-12-30