Cambios

Concepciones semánticas de la información

10 053 bytes añadidos, 19:26 12 may 2016

sin resumen de edición

La ecuación [9] es la fórmula de Shannon para ''H'' = incerteza, la cual hemos llamado'' déficit de datos'' (en realidad, la fórmula original de Shannon incluye una constante positiva ''K'', la cual equivale a escoger una unidad de medida, bits en nuestro caso; aparentemente, Shannon uso la letra ''H'' en virtud del trabajo previo de R.V.L Harley).

La última ecuación indica que la cantidad de información producida por un dispositivo se corresponde con la cantidad de déficit de datos eliminada, siendo una función de la informatividad promedio de la cadena de símbolos (potencialmente ilimitada) producida por el dispositivo. Es fácil probar que si los símbolo son equiprobables, [9] se reduce a [1], y que la mayor cantidad de información es producida por un sistema cuyos símbolos son equiprobables (compárese una moneda justa con una sesgada).

Para llegar a la ecuación [9] hemos utilizado algunos ejemplos muy simples: un cuervo y un puñado de monedas. Las cosas en la vida cotidiana suelen ser mucho más complejas, como vimos en nuestro accidente del lunes por la mañana. Por ejemplo, hemos asumido que las cadenas de símbolos son ''ergódicas'': se asume que la probabilidad de distribución para la aparición de cada símbolo es estable a través del tiempo, independientemente de la selección de ciertas cadenas. Nuestro cuervo y nuestras monedas son ''fuentes discretas'' y ''sin memoria''; los sucesivos símbolos que ellos producen son estadísticamente independientes. Pero, en la vida real, las apariciones de símbolos son frecuentemente interdependientes. Las fuentes pueden no ser ergódicas y tener memoria; los símbolos pueden ser continuos y la aparición de un símbolo puede depender de un número finito ''n'' de símbolos precedentes, en cuyo caso la cadena se conoce como cadena de Markov y la fuente como una fuente de Markov de orden'' n<sup>th</sup>''. Considérese, por ejemplo, la probabilidad de escuchar “d” (seguido de la cadena “ia”) luego de haber recibido la cadena de letras “Buen __”, al haber llamado al mecánico por teléfono. Y, también, considérese el mismo ejemplo a través del tiempo, en el caso de un niño (el hijo del mecánico) que está aprendiendo cómo atender el teléfono en lugar de su padre. En resumen, la TMC desarrolla los análisis previos cubriendo una variedad de casos más complejos. Sin embargo, debemos detenernos aquí ya que en el resto de la sección necesitamos concentrarnos en otros aspectos centrales de la TCM.

El enfoque cuantitativo, que ha sido sólo bosquejado, juega un papel fundamental en la teoría de la codificación (y, por lo tanto, en la criptografía), en el almacenamiento de datos y en las técnicas de transmisión. La TCM es, principalmente, un estudio de las propiedades de un canal de comunicación y de un código que pueda codificar de manera eficiente los datos en una señal transmisible y grabable. Debido a que los datos pueden ser distribuidos en términos de aquí/allá o ahora/luego, la comunicación diacrónica y el análisis sincrónico de una memoria pueden fundarse en los mismos principios y conceptos (por ejemplo, nuestra moneda se vuelve un circuito biestable). Hay dos conceptos que juegan un papel tan fundamental en el análisis de la comunicación como en la administración de la memoria, que merecen un lugar para una breve explicación: ''redundancia'' y ''ruido''.

Consideremos a nuestro sistema ''AB''. Cada símbolo tiene una probabilidad 0,25 de aparición. Una simple manera de codificar sus símbolos es asociar cada uno de ellos con dos dígitos:

'''Código 1:'''

<''h'',''h''> = 00 <''h'', ''t''> = 01 <''t'', ''h''> = 10 <''t'', ''t''> = 11

En el Código 1, un mensaje lleva dos bits de información, como era de esperarse. No se debe confundir ''bits'' como unidad binaria [''bi''nary uni''ts''] de información (recordemos que hemos decidido usar el log<sub>2</sub> también por motivos de conveniencia) con ''bits'' como digito binario [''bi''-nary digi''ts''], que es lo que utiliza un sistema de dos símbolos, como un CD-ROM, para codificar un mensaje. Supongamos ahora que el sistema ''AB'' está sesgado, y que las probabilidades de aparición de cada símbolo son las siguientes:

'''Un sistema sesgado:'''

<''h'', ''h''> = 0,5 <''h'', ''t''> = 0,25 <''t'', ''h''> = 0,125 <''t'', ''t''> = 0,125

Este sistema sesgado produce menos información, por lo que si utilizáramos el Código 1, estaríamos desperdiciando recursos. Un código más eficiente sería el Código 2 (abajo) que permitiría tomar en consideración la probabilidad de los símbolos, con los siguientes resultados:

'''Código 2 (Código de Fano)''':

<''h'', ''h''> = 0 0,5 × 1 dígito binario = ,5

<''h'', ''t''> = 10 0,25 × 2 dígitos binarios = ,5

<''t'', ''h''> = 110 0,125 × 3 dígitos binarios = ,375

<''t'', ''t''> = 111 0,125 × 3 dígitos binarios = ,375

En el Código 2, conocido como Código de Fano, un mensaje lleva 1,75 bits de información. Uno puede probar que, dada la distribución de probabilidades, no hay otro sistema de codificación mejor que el Código de Fano.

En la vida real, una buena codificación es también modestamente redundante. La ''redundancia'' refiere a la diferencia entre la representación física de un mensaje y la representación matemática del mismo mensaje, que utiliza sólo los bits necesarios. Los procedimientos de ''compresión'' funcionan reduciendo la redundancia de datos, pero la redundancia no siempre es algo negativo, ya que puede ayudar a contrarrestar la ''equivocidad'' (datos que son enviados pero nunca recibidos) y el ''ruido'' (datos recibidos pero no deseados). Un mensaje con ruido contiene más datos que el mensaje original, pero el objetivo de la comunicación es la ''fidelidad'', es decir, la transferencia precisa del mensaje original de la fuente al receptor, sin incrementar la cantidad de datos. Tenemos más probabilidades de reconstruir un mensaje correctamente al finalizar la transmisión, si algún grado de redundancia puede contrarrestar la inevitable equivocidad y el ruido que se introducen por el proceso físico de comunicación y por el ambiente. El ruido amplía la libertad de elegir del informado al seleccionar un mensaje, pero se trata de una libertad no deseada y cierto grado de redundancia puede ayudar a limitarla. Esto se aprecia, por ejemplo, en el hecho de que los manuales de un auto incluyen tanto explicaciones verbales como pictóricas a la hora de transmitir (de manera ligeramente redundante) la misma información.

Estamos ahora en condiciones de entender los dos teoremas fundamentales de Shannon. Supongamos que un sistema de dos monedas sesgadas ''AB'' produce el siguiente mensaje: <''t'', ''h''> <''h'', ''h''> <''t'', ''t''> <''h'', ''t''> <''h'', ''t''>. Si utilizamos el Código de Fano, obtenemos: 11001111010. El siguiente paso consiste en enviar esta cadena a través de un canal. Los canales tienen diferentes tasas de transmisión (''C''), que se calculan en bits por segundos (bps). El teorema fundamental de Shannon para un canal sin ruido afirma que:

'''Teorema Fundamental de Shannon para un Canal sin Ruido:'''

Sea una fuente con entropía ''H'' (bits por símbolo) y un canal con capacidad ''C'' (bits por segundos). Entonces, es posible codificar el ''output'' o salida de la fuente de tal manera que se transmita por el canal a una tasa promedio de ''C/H –ε'' símbolos por segundo, donde ε puede ser arbitrariamente pequeña. No es posible transmitir a un tasa promedio mayor que ''C/H'' (Shannon and Weaver 1949, 59).

En otras palabras, si ingenia un buen código, puede transmitir símbolos en un canal sin ruido a una tasa promedio tan cercana a'' C/H ''como usted quiera, pero nunca este promedio puede exceder ''C/H'', no importa qué tan ingenioso sea el código. Ya hemos visto que la tarea se hace más difícil debido a la inevitable presencia de ruido. De cualquier manera, el teorema fundamental para un canal discreto con ruido viene al rescate:

'''Teorema Fundamental de Shannon para un Canal Discreto:'''

Sea un canal discreto con capacidad ''C'' y una fuente discreta con entropía por segundo ''H''. Si ''H ≤ C'', entonces existe un sistema de codificación tal que el ''output'' de la fuente puede transmitirse por el canal con una frecuencia arbitrariamente baja de error (o con una equivocidad arbitrariamente pequeña). Si ''H> C, ''entonces es posible codificar la fuente de manera que la equivocidad sea menor que ''H'' − ''C'' + ε, donde ε puede ser arbitrariamente pequeño. No hay un método de codificación que nos proporcione una equivocidad menor a ''H'' − ''C'' (Shannon y Weaver 1949, 71).

Dicho en términos simples, si el canal puede transmitir tanta o más información que la que es capaz de producir la fuente, entonces uno puede idear una manera eficiente de codificar y transmitir mensajes con una probabilidad de error tan pequeña como se desee.

Los dos teoremas fundamentales son considerados los dos éxitos más grandes de Shannon. Ellos son resultados limitantes en teoría de la información que constriñen cualquier análisis conceptual de la información semántica. Por lo tanto, los teoremas son comparables a los teoremas de Gödel, Turing y Church en lógica y computación. Enviado finalmente nuestro mensaje, podemos dar por finalizada esta sección y volver al enfoque más filosófico.

===Implicaciones conceptuales de la teoría matemática de la comunicación===

Para la TMC, la información es sólo la selección de un símbolo dentro de un conjunto de símbolos posibles, de modo que una manera simple de comprender cómo la TMC cuantifica la información es considerar el número de preguntas del tipo sí/no que se requieren para determinar qué está comunicando la fuente. Una pregunta es suficiente para determinar el ''output'' de una moneda justa que, por lo tanto, se dice que produce 1 bit de información. Un sistema de dos monedas justas produce cuatro ''outputs'' ordenados: <''h'', ''h''>, <''h'', ''t''>, <''t'', ''h''>, <''t'', ''t''>, y requiere, por lo tanto, al menos dos preguntas, donde cada ''output'' contiene 2 bits de información, y así sucesivamente. Este análisis ''erotérico'' (palabra griega para “pregunta”) permite clarificar dos puntos importantes.

Admin

Autores, Editores, Burócratas, Administradores

2249

ediciones

DIA β

Cambios

Concepciones semánticas de la información

DIA ^β