gramática y autómatas

3
Reglas de la Gramática del Español Zaraos Vázquez Jorge Alejandro [email protected] Resumen En este reporte se introducirá los conceptos teóricos necesarios sobre la teoría de lenguajes formales, gramaticales y autómatas. Son una estructura algebraica con un conjunto finito de reglas que describen toda la secuencia de símbolos pertenecientes al lenguaje formada por 4 elementos G=NT, T, S, P: donde NT es un conjunto de elementos no terminales, T conjunto de elementos terminales, S símbolo inicial de la gramática, P del conjunto de reglas de producción. 1. Introducción La gramática del español es muy similar a la de las demás lenguas romances, el español es una lengua flexiva de tipo fusionante, es decir, en las oraciones se usa preferentemente la flexión para indicar las relaciones entre sus elementos. Sin embargo, como la mayoría de las lenguas fusionantes, también recurre al uso de adposiciones, palabras abstractas que sirven de nexo y son invariables. Por la forma en que se marcan los argumentos de los verbos transitivos e intransitivos, se agrupa dentro de las lenguas nominativo-acusativas. 2. Cuerpo 2.1. Definiciones previas Como principio las definiciones elementales necesarias para los desarrollos teóricos posteriores. 2.1.1. Símbolo. Es una entidad abstracta que no se va definir, se dejara como axioma. Al igual que no se define punto de Geometría, normalmente los símbolos son letras, dígitos, y otros caracteres así como por ejemplo: a, b, c, #, 0, 1, *, end. [4] 2.1.2. Alfabeto. Conjunto finito de símbolos, no vacio. Para definir que un símbolo a pertenece a un alfabeto V se utiliza notación a V. Los alfabetos se definen por enumeración de los símbolos que contienen. Así como por ejemplo: = {A, B, C, D, E, F,…, X, Y, Z} = {a, b c, d, 0, 1, 2, *, #, +} = {if, then, end, a, b, =, >} [4] 2.1.3. Cadena. Una cadena es una secuencia finita de símbolos de un determinado alfabeto. Así como por ejemplo: abcb. [5] 2.1.4. Cadena vacía. Que no tiene símbolos y se denota con ƛ , entonces su longitud es 0. [5] 2.1.5. Concatenación de cadenas. Sean Una cadena es una secuencia finita de α y β dos cadenas cualesquiera, se denomina concatenación de α y β a una nueva cadena αβ constituida por los símbolos de la cadena α seguidos por los de la cadena β. [5] 2.2. Gramática formal Una gramática es una cuádrupla G = (NT, T, S, P). NT = {conjunto finito de símbolos no terminales} T = {conjunto finito de símbolos terminales} S = {es el símbolo inicial y pertenece a NT} P = {conjunto de producciones o reglas de derivación} 2.2.1. Terminal y no terminal. Todas las cadenas del lenguaje definido por la gramática están formadas con símbolos del vocabulario terminal esta se define por enumeración de los símbolos terminales. El vocabulario no terminal es el conjunto de símbolos introducidos como elementos auxiliares para la definición de la gramática, y que no figuran en las sentencias del lenguaje. [6] La intersección entre el vocabulario terminal y no terminal es el conjunto vacio. La unión entre el vocabulario terminal y no terminal es el vocabulario. 2.2.2. Símbolo inicial. El símbolo inicial S es un símbolo no terminal a partir del cual se aplican las reglas de la gramática para obtener las distintas cadenas del lenguaje. [6]

Upload: alex-vazquez

Post on 18-Jul-2015

550 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Gramática y autómatas

Reglas de la Gramática del Español

Zaraos Vázquez Jorge Alejandro

[email protected]

Resumen

En este reporte se introducirá los conceptos

teóricos necesarios sobre la teoría de lenguajes

formales, gramaticales y autómatas. Son una

estructura algebraica con un conjunto finito de reglas

que describen toda la secuencia de símbolos

pertenecientes al lenguaje formada por 4 elementos

G=NT, T, S, P: donde NT es un conjunto de elementos

no terminales, T conjunto de elementos terminales, S

símbolo inicial de la gramática, P del conjunto de

reglas de producción.

1. Introducción

La gramática del español es muy similar a la de las

demás lenguas romances, el español es una lengua

flexiva de tipo fusionante, es decir, en las oraciones se

usa preferentemente la flexión para indicar las

relaciones entre sus elementos. Sin embargo, como la

mayoría de las lenguas fusionantes, también recurre al

uso de adposiciones, palabras abstractas que sirven de

nexo y son invariables. Por la forma en que se marcan

los argumentos de los verbos transitivos e intransitivos,

se agrupa dentro de las lenguas nominativo-acusativas.

2. Cuerpo

2.1. Definiciones previas

Como principio las definiciones elementales

necesarias para los desarrollos teóricos posteriores.

2.1.1. Símbolo. Es una entidad abstracta que no se va

definir, se dejara como axioma. Al igual que no se

define punto de Geometría, normalmente los símbolos

son letras, dígitos, y otros caracteres así como por

ejemplo: a, b, c, #, 0, 1, *, end. [4]

2.1.2. Alfabeto. Conjunto finito de símbolos, no vacio.

Para definir que un símbolo a pertenece a un alfabeto V

se utiliza notación a V. Los alfabetos se definen por

enumeración de los símbolos que contienen. Así como

por ejemplo:

= {A, B, C, D, E, F,…, X, Y, Z}

= {a, b c, d, 0, 1, 2, *, #, +}

= {if, then, end, a, b, =, >} [4]

2.1.3. Cadena. Una cadena es una secuencia finita de

símbolos de un determinado alfabeto. Así como por

ejemplo: abcb. [5]

2.1.4. Cadena vacía. Que no tiene símbolos y se

denota con ƛ , entonces su longitud es 0. [5]

2.1.5. Concatenación de cadenas. Sean Una cadena es

una secuencia finita de α y β dos cadenas cualesquiera,

se denomina concatenación de α y β a una nueva

cadena αβ constituida por los símbolos de la cadena α

seguidos por los de la cadena β. [5]

2.2. Gramática formal

Una gramática es una cuádrupla G = (NT, T, S, P).

NT = {conjunto finito de símbolos no terminales}

T = {conjunto finito de símbolos terminales}

S = {es el símbolo inicial y pertenece a NT}

P = {conjunto de producciones o reglas de derivación}

2.2.1. Terminal y no terminal. Todas las cadenas del

lenguaje definido por la gramática están formadas con

símbolos del vocabulario terminal esta se define por

enumeración de los símbolos terminales. El

vocabulario no terminal es el conjunto de símbolos

introducidos como elementos auxiliares para la

definición de la gramática, y que no figuran en las

sentencias del lenguaje. [6]

La intersección entre el vocabulario terminal y no

terminal es el conjunto vacio. La unión entre el

vocabulario terminal y no terminal es el vocabulario.

2.2.2. Símbolo inicial. El símbolo inicial S es un

símbolo no terminal a partir del cual se aplican las

reglas de la gramática para obtener las distintas

cadenas del lenguaje. [6]

Page 2: Gramática y autómatas

2.2.3. Producciones. Las producciones son las reglas

que se aplican desde el símbolo inicial para obtener las

cadenas del lenguaje, se define por medio de la

enumeración de las distintas producciones, en forma de

reglas o por medio de un metalenguaje. [6]

Sea la gramática: G= (NT, T, S, P) donde T= {a, b}

NT= {S}, y el conjunto de producciones es:

S → ab

S → aSb

2.2.4. Vocabulario terminal. Los elementos del VT se

representan por:

- letras minúsculas del alfabeto a, b,.., g.

-operadores tales como: +, - , *, /,…

-caracteres especiales: #, @, (,), . , , ,…

-los dígitos: 0,1,…,9 [3]

2.2.5. Vocabulario no terminal. Los elementos del

vocabulario no terminal se representan por:

-letras mayúsculas del alfabeto A, B,…G. La única

excepción suele ser el símbolo inicial (S).

-nombres en minúscula, pero encerrados entre

paréntesis angulares: <expresión>, <operador>,… [3]

2.2.6. Cadenas. Las cadenas que contienen símbolos T

y NT indiferenciados se representan por:

-letras minúsculas griegas: α, β, γ, δ, ε,… [3]

2.3. Relación entre cadenas

Hay relaciones de derivación directa y de derivación

entre las cadenas de un determinado lenguaje descrito

por una gramática.

2.3.1. Relación de derivación directa. Sea una

gramática G = (NT, T, S, P), si α → β es una

producción, y γαρ es una cadena, entonces las cadenas

γαρ y γβρ están en la relación de derivación directa de

la gramática G que se expresa: γαρ → γβρ. De ahí que

se diga que la cadena γβρ deriva directamente de la

γαρ, o bien que ya γαρ produce directamente γβρ en la

gramática G. de ahí el nombre de producciones para lo

elementos P. [1]

Sea la gramática: G = (NT, T, S, P) donde T = {a, b},

NT = {S}, y el conjunto de producciones es:

S → ab

S → aSb

Se obtiene la siguiente derivación directa, al sustituir la

primera regla en la segunda:

S → aabb

2.3.2. Relación de derivación. Sean y cadenas

pertenecientes a , se dice que están en relación de

derivación en la gramática G si existen

tales que:

Se escribirá entonces:

Diciéndose que deriva a , o que produce .

Ejemplo: Sea la gramática G = ({S, A, B}, {a, b, c, d},

S, P) donde P son las siguientes reglas de producción,

que en este caso se enumeran para su posterior

identificación cuando se usen.

(1) S → ASB

(2) A → b

(3) aaA → aaBB

(4) S → d

(5) A → aA

(6) B → dcd

Por aplicación de derivaciones inmediatas a partir del

símbolo inicial se obtiene la derivación:

S → abddcd

Las derivaciones inmediatas necesarias para llegar a la

derivación anterior se muestran a continuación,

indicando en cada paso el número de la regla aplicada.

S ASB aASB abSB abdB abddcd

2.4. Jerarquía de las gramáticas

Hay 4 distintos tipos de gramáticas en función de la

forma de las derivaciones de P.

2.4.1. Gramática de tipo 0. Llamada también

gramática no restringida o con estructura de frase. Las

reglas de derivación son de la forma: α → β

Siendo α (NT U T)+ y β (NT U T)*, es decir la

única restricción es que no puede haber reglas de la

forma ƛ → β donde ƛ es la cadena vacía. [2]

2.4.2. Gramática de tipo 1. Llamada gramática

sensible al contexto en ellas las reglas de producción

son de la forma: αAβ → αγβ

Siendo A NT; α, β (NT U T)* y γ (VN U VT)+.

Estas gramáticas se llaman sensibles al contexto,

pues se pueden reemplazar A por γ siempre que estén

en el contexto α…β. [2]

Page 3: Gramática y autómatas

2.4.3. Gramática de tipo 2. Llamada gramática de

contexto libre. Sus reglas de producción tan solo

admiten tener un símbolo no terminal en su parte

izquierda, es decir son de la forma: A → α

Siendo A NT y α (NT U T)+. [2]

Si cada regla se representa como un par ordenado

(A, α), el conjunto P es un subconjunto del conjunto

cartesiano. La denominación contexto libre se debe a

que se puede cambiar A por α, independientemente del

contexto en que aparezca A. [2]

2.4.4. Gramática de tipo 3. Las gramáticas de tipo 3

también denominadas regulares o gramáticas lineales a

la derecha comienzan sus reglas de producción por un

símbolo terminal, que puede ser seguido o no por un

símbolo no terminal, es decir de la forma:

A → aB

A → a

Donde A, B NT y α T. [2]

3. Conclusión

La importancia de usar estas reglas de gramática

generativa, de usar formalismos al describir un

lenguaje es para poder generar, producir, demostrar de

alguna forma el lenguaje. Es el proceso de

reconocimiento para poder comprender el mensaje, de

esta forma un lenguaje debe ser capaz de generar una

infinita cantidad de palabras a partir de un número

limitado de reglas un modelo finito.

Estas reglas están formadas por 4 componentes los

no terminales que se denotan con mayúsculas,

terminales que son los elementos del alfabeto en

minúscula, las producciones que son los elementos

donde una cabeza produce un cuerpo los elementos de

la cabeza están en variables de cualquier tipo de

combinación, y las símbolos de inicio es una variable

dentro del conjunto no terminal que se escoge como

variable de inicio, en conclusión de las reglas de

gramática generativa.

Referencias [1] Aho A.V. y Ullman J.D., 1973, The Theory of Parsing,

Translation and Com- piling, Vol. I: Parsing, Prentice-Hall.

[2] Aho A.V. y Ullman J.D., 1973 The Theory of Parsing,

Translation and Com-pilin, Vol. II: Compiling, Prentice-Hall.

[3] Aho A.V. y Ullman J.D., 1990, Compilers: Principles,

Techniques, and Tools. Addison-Wesley, Edición en

Castellano, 1990, Addison-Wesley Iberoamericana.

[4] Juan Manuel cueva Lovelle, lenguajes gramáticas y

autómatas, Universidad de Oviedo (España), 2 Edición,

Noviembre 2011.

[5] Alfonseca M., Sancho J. y Martínez Orga M., 1987,

Teoría de lenguajes gramáticas y autómatas, Ediciones

Universidad y Cultura.

[6] Chomsky N., 1962, Context-free grammars and

pushdown storage. Quarterly Prog. Rept. No. 65, pp. 187-

194, MIT REs. Lab. Elect., Cambridge, Mass.