estudo da lingua grega

7
Anais do CELSUL 2008 GT – Lingüística e Computação Construção de Software para o Estudo da Língua Grega Clássica: o Sistema Nominal do Dialeto Ático na Visão Temática Edenis Gois Cavalcanti 1 1 Faculdade de Filosofia, Letras e Ciências Humanas – Universidade de São Paulo (USP) [email protected] Abstract. The aim of this research is to study the nominal flexion of the Attican dialect in a digital environment, so as to fill a gap in studies of ancient languages with the use of digital technologies. The main objectives are: 1) the construction of a computer program that will make nominal flexion possible, providing the analysis of terms with, namely: the nominal theme, the case, gender, number, a table with all the combinations proposed by the program and the dictionary entry; 2) creation of a corpus of Attican dialect, with the generation of a database lexicon, in order to verify the existence of forms created by the program and provide subsidies for linguistic analysis, 3) creation of a direct search mechanism in the Thesaurus Linguae Graecae (TLG), from the Research Center of the University of California, Irvine, founded in 1972, with 99 million words - from Homer to the sixteenth century. In the generation of the program, we have used the Pascal Object Oriented Language, developed by Borland Delphi, for the Enterprise Software Corporation. For the development of the database - lexicon, table of desinencies and vocabulary - the Manager Database SQL Server 2005 Express, Microsoft Corporation was employed. This project offers two main contributions to Greek language studies: one – of a strictly linguistic character – presenting desinencies briefly, without the usual lengthy descriptions, facilitating viewing and understanding for language students. Another contribution – interdisciplinary – is the convergence of new digital technologies with the study of Ancient Greek, since morphological analysis is made available in the digital environment, fully and simultaneously. The information is provided in a very short time and with a negligible margin of error. Key-words: nominal flexion; Greek language; Attican dialect; new digital technologies; computer programming; linguistics; morphological calculus Resumo. Esta pesquisa tem por objeto de estudo a flexão nominal do dialeto ático em ambiente digital. A justificativa central relaciona-se ao preenchimento de uma lacuna existente nos estudos das línguas clássicas, isto é, ao uso das tecnologias digitais nos estudos das línguas antigas. Os objetivos principais são: 1) a construção de programa de computador que viabilize a flexão nominal, fornecendo a análise da palavra digitada, ou seja: o tema

Upload: afegao2

Post on 18-Dec-2015

214 views

Category:

Documents


1 download

DESCRIPTION

-

TRANSCRIPT

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    Construo de Software para o Estudo da Lngua Grega Clssica: o Sistema Nominal do Dialeto tico na Viso

    Temtica

    Edenis Gois Cavalcanti1

    1 Faculdade de Filosofia, Letras e Cincias Humanas Universidade de So Paulo (USP) [email protected]

    Abstract. The aim of this research is to study the nominal flexion of the Attican dialect in a digital environment, so as to fill a gap in studies of ancient languages with the use of digital technologies. The main objectives are: 1) the construction of a computer program that will make nominal flexion possible, providing the analysis of terms with, namely: the nominal theme, the case, gender, number, a table with all the combinations proposed by the program and the dictionary entry; 2) creation of a corpus of Attican dialect, with the generation of a database lexicon, in order to verify the existence of forms created by the program and provide subsidies for linguistic analysis, 3) creation of a direct search mechanism in the Thesaurus Linguae Graecae (TLG), from the Research Center of the University of California, Irvine, founded in 1972, with 99 million words - from Homer to the sixteenth century. In the generation of the program, we have used the Pascal Object Oriented Language, developed by Borland Delphi, for the Enterprise Software Corporation. For the development of the database - lexicon, table of desinencies and vocabulary - the Manager Database SQL Server 2005 Express, Microsoft Corporation was employed. This project offers two main contributions to Greek language studies: one of a strictly linguistic character presenting desinencies briefly, without the usual lengthy descriptions, facilitating viewing and understanding for language students. Another contribution interdisciplinary is the convergence of new digital technologies with the study of Ancient Greek, since morphological analysis is made available in the digital environment, fully and simultaneously. The information is provided in a very short time and with a negligible margin of error.

    Key-words: nominal flexion; Greek language; Attican dialect; new digital technologies; computer programming; linguistics; morphological calculus

    Resumo. Esta pesquisa tem por objeto de estudo a flexo nominal do dialeto tico em ambiente digital. A justificativa central relaciona-se ao preenchimento de uma lacuna existente nos estudos das lnguas clssicas, isto , ao uso das tecnologias digitais nos estudos das lnguas antigas. Os objetivos principais so: 1) a construo de programa de computador que viabilize a flexo nominal, fornecendo a anlise da palavra digitada, ou seja: o tema

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    2

    nominal, o caso, o gnero, o nmero, tabela com todas as combinaes propostas pelo programa e entrada no dicionrio; 2) criao de corpus do dialeto tico que permita a gerao de um lxico em banco de dados, visando verificar a existncia das formas criadas pelo programa e fornecer subsdios para eventual anlise lingstica; 3) criao de mecanismo de busca direta no corpus do TLG, Thesaurus Linguae Graecae (Centro de Pesquisa da Universidade da Califrnia, Irvine, fundado em 1972), com 99 milhes de palavras de Homero at o sculo XVI. Na gerao do programa, empregamos a Linguagem Pascal Orientada a Objetos, desenvolvida pela Borland Delphi, da Enterprise Software Corporation, e na constituio da base de dados lxico, tabela de desinncias e vocabulrio - o Gerenciador de Banco de Dados SQL Server 2005 Express, da Microsoft Corporation. So duas as contribuies ao estudo da lngua grega: uma estritamente lingstica , quando apresentamos as desinncias nominais sinteticamente, sem as longas descries tradicionais, facilitando a visualizao e compreenso, para o estudioso da lngua. Outra interdisciplinar, na convergncia das novas tecnologias digitais com as letras clssicas , quando disponibilizamos a anlise morfolgica em ambiente digital de forma integral e simultnea. As informaes so fornecidas em curto espao de tempo e com margem de erro desprezvel.

    Palavras-chave: flexo nominal; lngua grega; dialeto tico; novas tecnologias digitais; programa; lingstica; clculo morfolgico.

    1. Objeto de estudo, justificativa e objetivos

    Este trabalho tem por objeto de estudo a flexo nominal do dialeto tico uma das variantes dialetais do grego antigo, juntamente com o jnico, o drico e o elico. O interesse em processar o dialeto tico em ambiente digital surgiu em 2001, nas aulas de grego clssico do professor Dr. Henrique Graciano Murachco Departamento de Letras Clssicas , nos cursos de extenso da Universidade de So Paulo.

    Pelo fato de o mtodo do professor Henrique no privilegiar o modelo das gramticas tradicionais, considerado por ele descritivo, impositivo e prescritivo, mas pensar as formas lingsticas nominais e verbais levando em considerao suas partes fundamentais a saber, o tema (parte fixa, sede do significado virtual, absoluto ou abstrato) e as desinncias (que estabelecem a funo, a pessoa, o nmero, a voz, o modo e o aspecto) e os processos fonticos que integram a sua histria, criou-nos a convico de sua coerncia metodolgica, visto desaparecerem as irregularidades morfolgicas, e, portanto, a idia de que era possvel flexionar as formas em um programa de computador. Bastaria, para isso, criar um banco de dados com todas as desinncias nominais e verbais, extrair a desinncia da palavra a ser pesquisada e submet-la a um processo comparativo com as desinncias do banco e, desse modo, gerar as combinaes possveis. Criou-se ento um prottipo digital da flexo tica e, para este trabalho, decidimos desenvolver o mdulo relativo flexo nominal.

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    3

    Embora concordando com as gramticas gregas so impositivas, no podemos negar o papel de importncia indiscutvel que exerceram no ensino da lngua grega. Recorremos, no nosso estudo, inmeras vezes a elas, ora coletando informaes, ora confrontando-as em pontos duvidosos ou lacunosos, mas sempre as consultando. So nelas que, bem ou mal, encontramos o depsito das formas. Ainda que faamos uso de programas de computador em nossas pesquisas, nossa inteno no produzir um discurso de refutao, de desconsiderao ou negao da interferncia do outro, mas de complementao. Acreditamos que o saber coletivo, interdiscursivo, dialgico, feito por vrias mos e povoado por vrias vozes. Reconhecemos as limitaes, mas, tambm, o valor histrico das gramticas.

    O avano das novas tecnologias digitais em todos os ramos da vida humana coloca, entretanto, desafios intransferveis s pesquisas lingsticas. No obstante as gramticas tradicionais tenham desempenhado papel relevante na histria do ensino, imprescindvel, hoje, que o conhecimento lingstico esteja integrado ao conhecimento digital.

    H um dficit lingstico muito grande em estudos de lngua grega no Brasil, que utilizam os recursos computacionais de forma integrada. No h ferramenta informtica grego-portugus que fornea simultaneamente diversas informaes lingsticas sobre as formas nominais. Por causa disso, entendemos que a justificativa inicial de nosso trabalho esteja relacionada ao preenchimento da lacuna nos estudos das lnguas clssicas. A nossa contribuio relaciona-se, portanto, criao de um programa de computador que processe informaes sobre as formas nominais, isto , realize a flexo nominal, estabelecendo, simultaneamente, o tema, o caso, o gnero, o nmero, o conjunto das combinaes derivadas da anlise e do clculo morfolgicos, quadros paradigmticos de flexo, entrada no dicionrio e busca rpida em corpus extenso com margem de erro desprezvel, que possibilite o confronto com as formas criadas pelo computador, de forma a apontar para a validade ou no das combinaes. Isso realizado, diramos que ferramenta caberia o processamento de todas as informaes e ao estudioso a tarefa de compreender os conceitos e interpretar os resultados.

    Outro motivo relaciona-se eficcia fornecida pelas tecnologias digitais. Todos ns sabemos como penoso "decifrar" o nominativo singular dos nomes da terceira declinao (nomes com temas em consoante, soante, semivogal) ou das formas contratas, no grego antigo. Por causa dos acidentes fonticos que provocam as aparentes irregularidades morfolgicas , a busca da entrada nos dicionrios torna-se, muitas vezes, desanimadora. necessrio que se tenha pleno domnio dos processos fonticos, para efetuar a decomposio das formas e, assim, encontrar o nominativo singular e, portanto, a entrada no dicionrio. Isso implica em investimento de muito tempo em exerccios de traduo para se adquirir o know-how satisfatrio, o que provoca a desistncia, no raras vezes, do estudante da lngua grega. Por outro lado, se armazenssemos em um banco de dados todas as desinncias nominais, com seus respectivos processos fonticos, e transformssemos a "rotina" humana de decodificao nominal em um programa de computador, necessariamente o tempo da anlise diminuiria absurdamente.

    Postulamos, portanto, inequivocamente, o uso das novas tecnologias digitais nos estudos lingsticos, no como algo estranho que se agrega, mas como elemento constitutivo

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    4

    do processo de produo do conhecimento lingstico. Essa postulao est filiada, como vimos, a uma tendncia universal irreversvel de informatizao generalizada das rotinas humanas que exigem repetio, preciso, volume e rapidez no processamento; tendncia, alis, presente nos processos cientficos e acadmicos de produo do conhecimento dos grandes centros de excelncia.

    Em coerncia com o exposto acima, objetivamos, com este trabalho:

    1) construo de programa de computador que viabilize a flexo nominal, fornecendo a anlise da palavra digitada, isto : o tema nominal em vogal, consoante, soante, semivogal; o caso da forma digitada pelo usurio nominativo, vocativo, acusativo, genitivo, dativo, locativo e instrumental; o gnero masculino, feminino, neutro; o nmero singular e plural; o particpio infectum, aoristo e perfectum, em suas vozes ativa, mdia e passiva; tabela com todas as combinaes propostas pelo programa, com seus respectivos quadros de flexo; entrada no dicionrio nominativo singular; quadros paradigmticos para eventual confronto com as combinaes propostas pelo programa.

    2) Criao de corpus do dialeto tico que permita a gerao de um lxico em banco de dados, com indexao diferenciada dos itens lexicais, indicando o autor, a obra e a linha, visando verificar a existncia das formas criadas pelo programa busca indireta e fornecer subsdios para eventual anlise lingstica, atravs do clculo dos valores lexicais em cada autor e em cada item lexical. Para isso, usaremos a noo desvio reduzido da Estatstica Paramtrica, explicitada no mtodo matemtico-estatstico-computacional de anlise de textos de Andr Camlong, para a confeco das T.V.Ls. (Tabelas de Valores Lexicais).

    3) Criao de mecanismo de busca direta no corpus do TLG, Thesaurus Linguae Graecae (Centro de Pesquisa da Universidade da Califrnia, Irvine, fundado em 1972, que digitalizou textos literrios escritos em grego, desde Homero sculo VIII a.C. at a queda do Imprio Bizantino em 1453, totalizando 3800 autores, 12000 obras, 99 milhes de palavras). A busca direta nos textos tem por finalidade nica verificar, de forma rpida e ampla, a existncia das formas propostas pelo programa. A diferena entre as duas buscas a direta e a indireta reside no tamanho do universo lingstico pesquisado e na forma da organizao dos dados: a indireta realiza a pesquisa no lxico de 11 autores, dentro de um banco de dados, e a direta busca a forma nos textos dos 3800 autores. A inteno de alargar o universo de busca pr em prova, atravs de um corpus "gigante", as combinaes das formas propostas. Se houver convergncia entre as combinaes propostas e a busca realizada no corpus, isto , se a busca estornar resultado positivo, isso indica que as formas propostas pelo programa procedem.

    4) Reorganizao das desinncias nominais em conjuntos de desinncias, diferentemente da organizao apresentada pelas gramticas;

    5) Criao das tabelas de flexo dos particpios. As gramticas apresentam apenas o nominativo masculino, feminino, neutro singular, em cada aspecto verbal, deixando de desenvolver os demais casos;

    6) Apresentao do processo fontico que deu origem determinada forma nominal.

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    5

    2. Desenvolvimento: ambiente e banco de dados

    A escolha do ambiente de programao implicou algumas dificuldades. A primeira delas diz respeito grande variedade de linguagens de programao existentes no mercado. Precisvamos de uma linguagem que fosse produtiva, confivel e que tivesse acesso a vrios bancos de dados. A segunda, no-existncia de cdigos abertos (open source) ou projetos disponveis semelhantes para que pudssemos ter um ponto de partida na construo de um projeto de flexo nominal do dialeto tico. A terceira, ao suporte tcnico linguagem escolhida

    Dentre as linguagens do mercado, optamos em trabalhar com as que eram orientadas a objetos. Dentre elas, destacam-se o C++ e o Delphi, em sua verso 7, que tem, como linguagem nativa, o Pascal orientado a objetos. Decidimos pelo Delphi, pelo fato de ser um ambiente de fcil manipulao e de alta produtividade, alm de ter suporte tcnico disponvel, fornecido por vrias empresas, no Brasil (filiamo-nos ao Clube do Delphi, sediado na cidade de Avar, interior do estado de So Paulo).

    A escolha do banco de dados tambm no foi simples. Deveria ser robusto, confivel, com excelente perfrmance e gratuito. Os que se encaixavam nessas caractersticas eram: SQL Server 2005, PostGresSQL, FireBird e MySQL. Para efetuarmos a escolha, realizamos um teste de perfrmance com a tabela do lxico do dialeto tico, com 200689 registros. A busca realizou-se sobre o ltimo registro da tabela. O resultado foi o seguinte:

    200689 registros

    Busca do ltimo

    registro

    Banco de Dados

    (Gratis)

    Capacidade Componente Tempo

    em ms

    Perfrmance Problemas de

    cache

    Nativo

    do

    Delphi 7

    SQL Server 2005 4 GB por

    banco

    ADOQuery 140 21,34% 1 N S

    PostGresSQL sem limites ZQuery 172 26,22% 2 N N

    FireBird sem limites SQLQuery 188 28,66% 3 S S

    MySQL sem limites ZQuery 656 100,00% 4 S N

    Tabela1: perfrmance dos Bancos de Dados

    A escolha, a partir do teste de perfrmance, ficou clara: SQL Server 2005. Embora sua capacidade esteja limitada a 4 GB por banco, extremamente rpido, no d problemas de cache local e pode ser acessado por componente nativo do Delphi o componente ADO, Active Data Objects.

    Na atual fase do projeto, utilizamos o SQL Server 2005 e o FireBird. Na etapa final, migraremos todos os dados para um nico banco, isto , o SQL Server 2005.

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    6

    3. Constituio do Corpus tico: fontes, obras, autores, extrato dos textos e lxico

    O corpus que deu origem ao lxico foi formado a partir da coleta de textos na Internet, nos sites de domnio pblico, que disponibilizam obras de autores antigos. Basicamente, foram duas as fontes: a) Perseus Digital Library, em http://www.perseus.tufts.edu/; e b) Thesaurus Linguae Graecae, na seo aberta ao pblico, em http://www.tlg.uci.edu/demo.html.

    Os textos extrados da Internet foram processados e submetidos a uma indexao diferenciada das encontradas comumente. Para tal, criou-se uma ferramenta digital, de nome Corpus, que gerou o Lxico com: a) as freqncias de uso dos itens lexicais nas nas obras processadas, no todo e nas partes autor por autor; b) o endereo de cada item lexical, contendo: nome do autor, obra e linha em que se deu a ocorrncia da palavra; c) o peso (valor) lexical nas obras do Corpus.

    Tendo em vista o objeto deste trabalho, optamos por selecionar um conjunto de autores que escreveram em grego tico. A obra completa de cada autor est em formato texto (*.txt), num mesmo arquivo. Isso facilita a busca morfolgica e o reconhecimento por qualquer plataforma, como Windows e Linux.

    As obras dos autores que escreveram em grego tico, no nosso corpus, somam um total de 316.

    4. Concluso

    Enfatizamos que a pesquisa est em curso e, por isso, muitos aspectos podem sofrer alteraes. Acreditamos, entretanto, que a idia geral do projeto, a saber, a construo de um programa de computador que fornea um conjunto de informaes sobre a flexo nominal do dialeto tico, est, a cada passo da nossa pesquisa, concretizando-se.

    A orientao principal de se constituir um banco de dados para armazenar informaes para tratamento computacional da lngua grega j uma realidade neste trabalho. Inmeras vantagens poderiam ser listadas, mas ficamos apenas com a relacionada eficcia e alta produo lingsticas. A anlise e o clculo morfolgicos efetuados pelo computador que possiblita a flexo nominal (e futuramente a flexo verbal) e a busca das formas nos textos dos autores, num espao de tempo nfimo num corpus de aproximadamente 99 milhes de palavras so vantagens indiscutveis do uso da Novas Tecnologias Digitais nas pesquisas lingsticas.

    Referncias

    BAILLY, Anatole. Dictionnaire grec franais. 26e ed. Paris: Hachette, 1963.

    CAMLONG, Andr. Lexicomtrie I - La correlation simple. O teste t de Student-Fisher ou a regresso linear simples? Toulouse: Universit de Toulouse Le-Mirail, 2003.

  • Anais do CELSUL 2008

    GT Lingstica e Computao

    7

    _________. Lexicomtrie II - La corrlation simple et la corrlation multiple. Toulouse: Universit de Toulouse Le-Mirail, 2003.

    _________. Lexicomtrie III ou La lexicomtrie avec Stablex. Toulouse: Universit de Toulouse Le-Mirail, 2003.

    _________. Mthode danalyse lexicale textuelle et discursive. Paris: C.R.I.C. & OPHRYS, 1996.

    _________. Stablex pratique. Toulouse: Teknea, 1991.

    _________; BELTRAN, Thierry. Stablex. Manuel dutilisation. Toulouse: A.P.I, 1991.

    _________; ________; ZAPPAROLI, Zilda Maria. A propsito do Stablex - verso PC. So Paulo: Pirus Tecnologia, 2004.

    CANT, Marcos. Dominando o Delphi 2. Trad. de Edimilson Kazwyoshi Miyasaki. So Paulo: Makron Books, 1996.

    MURACHCO, Henrique. Lngua grega: viso semntica, lgica, orgnica e funcional. So Paulo: Discurso Editorial / Vozes, 2001.

    ZAPPAROLI, Zilda Maria; CAMLONG, Andr. Do lxico ao discurso pela Informtica. So Paulo: EDUSP/FAPESP, 2002.