Teoría de la información de Claude E. Shannon

5 bytes eliminados, 20:16 22 ago 2016
sin resumen de edición
“Mi preocupación más grande era cómo llamarla. Pensé en llamarla ‘información’, pero esa palabra estaba muy usada, de forma tal que decidí llamarla ‘incerteza’. Cuando discutí el asunto con John von Neumann, el tuvo una idea mejor. Von Neumann me dijo: ‘Deberías llamarla entropía, por dos motivos. En primer lugar tu función de incerteza ha sido usada en la mecánica estadística bajo ese nombre, y por ello, ya tiene un nombre. En segundo lugar, y lo que es más importante, nadie sabe lo que es la entropía realmente, por ello, en un debate, siempre llevarás ventaja.’” (Tribus and McIrving 1971, 180).
En efecto, la La conexión con la física a la que hace mención von Neumann en la cita de arriba ha sido estudiada profundamente en la literatura física y filosófica (ver por ejemplo Landauer 1991; Landauer 1996; Lombardi 2005; Duwell 2003; Duwell 2008; Jozsa 1998; Jozsa 2004; Deutsch y Hayden 2000; Timpson 2003; Timpson 2004; Timpson 2006; Timpson 2008; Timpson 2013; Stonier 1990; Stonier 1996; Floridi 2010; Floridi 2011; Floridi 2013; Brukner y Zeilinger 2001; Brukner y Zeilinger 2009)
La relación entre las entropías de la fuente ''H''(''S'') y del destinatario ''H''(''D'') se puede representar intuitivamente por el siguiente diagrama:
[[File:Shannon 10.jpg|center]] <div align="right">(8)</div>
Donde el máximo se toma sobre todas las posibles distribuciones [[File:Shannon 11.jpg]] en la fuente. La magnitud ''C'' se interpreta como la cantidad de información promedio más grande que puede ser transmitida sobre por el canal de comunicación ''CH''.
Vamos a ver esto con un poco más de detalle. La fuente consiste en un sistema S de n estados ''s<sub>i</sub>'', que se pueden pensar como letras de un alfabeto ''A<sub>s</sub> = {''s''<sub>1</sub>,...,''s''<sub>''n''</sub>}, cada una con su propia probabilidad ''p''(''s<sub>i</sub>''). Las secuencias de letras son llamadas mensajes. La entropía de la fuente ''H''(''S'') se puede calcular exclusivamente en términos de estos elementos, y se mide en bits cuando el logaritmo tiene base 2. A su vez, el transmisor codifica el mensaje de la fuente y esto equivale a hacer una conversión entre el alfabeto de la fuente ''A<sub>s</sub> = {''s''<sub>1</sub>,...,''s''<sub>''n''</sub>}, y el código del alfabeto del transmisor ''T'', que viene dado por ''A<sub>C</sub> = {''c''<sub>1</sub>,...,''c''<sub>''q''</sub>}. Los elementos ''c<sub>i</sub>'' son llamados símbolos. La secuencia de símbolos producidos por el transmisor y que entran al canal se llama ''señal''. El alfabeto de n símbolos ''A<sub>S</sub>'' puede variar mucho dependiendo de los distintos dispositivos empleados. Por otro lado, en muchos ejemplos de interés, conviene elegir un ''A<sub>C</sub>'' binario, es decir, con ''q'' = 2. En este caso, los símbolos son directamente dígitos binarios. Pero en el caso más general, el alfabeto del código se puede implementar físicamente por medio de sistemas que tengan una cantidad q de estados disponibles. Para el caso particular en que ''q'' = 2, los sistemas de dos niveles se pueden llamar ''cbits''.
En el contexto de la teoría de la información de Shannon, codificar implica establecer un mapa entre las letras ''s<sub>i</sub>'' del alfabeto de la fuente ''A<sub>S</sub>'' al  el conjunto de cadenas de longitud finita de símbolos del alfabeto del código ''A<sub>C</sub>''. Estas suelen llamarse palabras-código. En general, las palabras-código no tienen la misma longitud. Cada palabra-código ''w<sub>i</sub>'' que corresponde a la letra ''s<sub>i</sub>'', va a tener una longitud ''l<sub>i</sub>''. Pero las longitudes ''l<sub>i</sub>'' de las distintas palabras-código pueden variar. Es entonces útil definir una longitud de palabra-código promedio como:
[[File:Shannon 12.jpg|center]] <div align="right">(9)</div>
Esta visión ‘física’ de la información está apoyada por la creencia fuertemente establecida de que la transmisión de información entre dos puntos del espacio físico necesariamente requiere una señal que transporte esa información. En otras palabras, un proceso físico que se propague de un punto a otro. Uno de los más importantes defensores de esta perspectiva es Rolf Landauer. Este autor afirma que: “la información no es una entidad abstracta desprovista de cuerpo''. Está representada por un grabado en una tabla de piedra, un spin, una carga, un agujero en una tarjeta agujereada, una marca en un papel, o algún equivalente''.” (1996, 188; ver también Landauer 1991). La necesidad de un mecanismo de transpórte físico de la señal suena natural a la luz de la idea genérica de que las influencias físicas solo pueden ser transferidas a través de interacciones. En esta base, la información es concebida por muchos físicos como una entidad física con el mismo estatus que, por ejemplo, la energía (Aczél y Daróczy 1975).
Como mencionamos arriba, la naturaleza abstracta de la información no nos fuerza a  adoptar a adoptar una posición en la que la información no es pueda ser considerada como una noción física. Muchos conceptos físicos han sufrido cambios en de forma tal que, a medida que crece su abstracción y generalización, dejan de estar atados a una teoría física particular y permean a la totalidad de la física. Tal es el caso de la energía: esta noción está presente en todas las teorías físicas importantes y no está atada a ninguna en particular. Tiene diferentes manifestaciones físicas en dominios diferentes. Tomando este ejemplo como punto de partida, es muy tentador el intentar hacer una afirmación similar para la noción de información. Desde el punto de vista de esta línea argumentativa, no parecen haber serios obstáculos para concebir a la noción de información como un concepto físico.
La lista de posibles interpretaciones de la noción de información expuesta arriba no es exhaustiva. Sería imposible cubrir todo el espectro en esta breve entrada. Pero la lista expuesta arriba nos muestra que hay, en efecto, distintas posibilidades. Y existen argumentos atractivos para cada una de ellas. Es quizá por esto que aún hoy, el debate continúa.
¿Cuál es el camino a seguir frente a semejante proliferación de interpretaciones? Desde un punto de vista filosófico, existe la tentación de afirmar que estamos frente a un caso de indeterminación metafísica: disponemos de una teoría o formalismo que describe muchos ejemplos físicos de interés, pero la evidencia empírica disponible no es suficiente para tomar una posición concluyente en favor de una u otra interpretación. Esta situación empeora si se toman en cuenta las aplicaciones diversas que tiene la teoría de Shannon en distintos campos de la ciencia. Pero entonces se plantea el problema de responder a la pregunta: ¿qué es la Teoría de la Información de Shannon? Ciertamente disponemos de una formulación de un cuerpo teórico que encuentra diversas aplicaciones, y que fue motivado por los problemas subyacentes a la teoría general de la comunicación. Pero con el correr de los tiempos, su dominio de aplicación trascendió el de la ingeniería de la comunicación y se extendió a otras disciplinas. Paralelamente, el formalismo de Shannon fue objeto de una matematización creciente, en la que sus nociones son expuestas con un grado cada vez mayor de abstracción y rigurosidad. Paradójicamente, este estado de las cosas, en el que proliferan las aplicaciones e interpretaciones, ofrece al mismo tiempo una posibilidad de resolución. Como veremos a continuación, si se adopta una concepción pluralista de la teoría de la información, es posible encontrar un marco teórico en el que las diferentes interpretaciones dejan de ser rivales, y se convierten en herramientas con distintos campos de aplicación.
Como ya hemos mencionado, en algunos textos tradicionales sobre la teoría de la información, la teoría de Shannon es usualmente introducida desde una perspectiva física y vinculada con distintas problemáticas asociadas a la ingeniería de la comunicación. Sin embargo, algunos desarrollos subsiguientes se orientaron en una dirección formal que pone el centro en el rigor matemático, transformando a la Teoría de la Información en una suerte de rama de las matemáticas. Los conceptos básicos son introducidos en términos de nociones tomadas de la teoría matemática de la probabilidad, como por ejemplo, variables aleatorias y distribuciones de probabilidad. Las nociones de fuente, canal y receptor van dejando lugar al edificio del formalismo matemático, vacío en principio de toda interpretación física, y son introducidas a posteriori como posibles ejemplos de aplicaciones. Esta perspectiva formal puede encontrarse por ejemplo, en los libros clásicos de Aleksandr Khinchin (1957) y Fazlollah Reza (1961). En ellos, la Teoría de la Información es considerada como una suerte de extensión de la teoría matemática de las probabilidades (que puede ser considerada a su vez como un caso especial de la teoría de la medida). Uno de los ejemplos más importantes de este abordaje es el de Thomas Cover y Joy Thomas en su libro ''Elements of InformationTheory Information Theory''(1991). Los autores conciben a la teoría de la información desde un punto de vista general, como un formalismo que es susceptible de ser aplicado en campos muy diversos:
“La teoría de la información responde a dos cuestiones fundamentales en la teoría de la comunicación:'' cuál es la compresión de datos máxima ''[...] ''y cuál es la tasa máxima de transmisión de comunicación ''[...]''. Por esta misma razón, algunos consideran a la teoría de la información como un subconjunto de la teoría de la comunicación. Argumentaremos que ésta es mucho más aún. En efecto, tiene contribuciones fundamentales para hacer en física estadística (termodinámica), ciencias de la computación (complejidad de Kolmogorov o complejidad algorítmica), inferencia estadística (navaja de Occam: ‘La explicación más simple es la mejor’) y probabilidad y estadística (tasas de error para testeo y estimación de hipótesis óptimo)''” (Cover and Thomas 1991, 1).
Estos ejemplos ilustran que probablemente, sea necesario adoptar una interpretación pluralista de la teoría de la información, en la que las diferentes perspectivas no son rivales, sino casos particulares de aplicaciones de un formalismo lógico-matemático general. Todas estas interpretaciones serían legítimas en la medida que su aplicación sea exitosa en algún dominio de la ciencia o de la tecnología. Con respecto a esta visión, es interesante tener en cuenta las palabras del propio Shannon, quien afirmaba que:
“La palabra ‘información’'' ha sido dotada de diferentes significados por varios escritores en el campo general de la teoría de la información''. [...] Es difícilmente esperable que un único concepto de información de cuenta satisfactoriamente de las numerosas aplicaciones posibles de este campo genera<em>I</em>general.” (Shannon 1993, 180).
Autores, Editores, Burócratas, Administradores
2246
ediciones

Menú de navegación