Top 10 de los artículos

YouTube
Gmail
Goole
GayRomeo
Números chinos
Números romanos
Orkut
Costco
Sistema porta hepático
El mundo Factbook

News:

Compresión de datos de Lossless

Compresión de datos de Lossless es una clase de compresión de datos algoritmos eso permite que los datos originales exactos sean reconstruidos de los datos comprimidos. Esto se puede poner en contraste con compresión de datos del lossy, que no permite que los datos originales exactos sean reconstruidos de los datos comprimidos.

La compresión de datos de Lossless se utiliza en muchos usos. Por ejemplo, se utiliza en el popular CIERRE RELÁMPAGO formato del archivo y en la herramienta del Unix gzip. Es también de uso frecuente como componente dentro de tecnologías de la compresión de datos del lossy.

Se utiliza la compresión de Lossless cuando es importante que la original y los datos descomprimidos sean idénticos, o cuando ninguna asunción no puede ser hecha encendido si cierta desviación es uncritical. Los ejemplos típicos son programas y código de fuente ejecutables. Algunos formatos del archivo de la imagen, como Png o GIF, utilice solamente la compresión lossless, mientras que otros tienen gusto Tiff y MNG puede utilizar métodos lossless o del lossy.

Contenido

Técnicas de la compresión de Lossless

La mayoría de los programas lossless de la compresión utilizan dos diversas clases de algoritmos: uno que genera a modelo estadístico para los datos de entrada, y otros que traz los datos de entrada a las secuencias del pedacito usando este modelo de una manera tal que “probable” (e.g. ) los datos con frecuencia encontrados producirán una salida más corta que datos “improbables”. Los algoritmos de codificación para producir secuencias del pedacito son:

La probabilidad de valores no se sabe a menudo y para los archivos grandes cambia obviamente. Así las versiones adaptantes supuestas de los codificadores mencionados de la entropía se utilizan, que acumulan las probabilidades ellos mismos y las ponen al día sobre el curso de archivos grandes.

Los métodos de la compresión de Lossless se pueden categorizar según el tipo de datos que se diseñan para comprimir. Mientras que, en principio, cualquier algoritmo lossless de uso general de la compresión (medios de uso general que pueden manejar toda la entrada binaria) se puede utilizar en cualquier tipo de datos, muchos no pueden alcanzar la compresión significativa en los datos que no están de la forma para la cual fueron diseñados para comprimir. Muchas de las técnicas lossless de la compresión usadas para el texto también trabajan razonablemente bien para imágenes puestas en un índice.

Texto

Los algoritmos que modelan estadísticos para el texto (o texto-como datos binarios tales como executables) incluyen:

Multimedias

Técnicas que se aprovechan de las características específicas de imágenes tales como el fenómeno común de 2.as áreas contiguas de tonos similares. El cada pero primer pixel es substituido por la diferencia a su vecino izquierdo. Esto conduce a los valores pequeños que tienen una probabilidad mucho más alta que valores grandes. Esto a menudo también se aplica a los archivos de los sonidos y puede comprimir los archivos que contienen sobre todo frecuencias bajas y bajos volúmenes. Para las imágenes este paso puede ser repetido llevando la diferencia el pixel superior, y entonces en videos la diferencia al pixel en el marco siguiente puede ser tomada.

Una versión jerárquica de esta técnica toma pares vecinos de puntos de referencias, almacena su diferencia y suma, y en un de alto nivel con una resolución más baja continúa con las sumas. Se llama esto la cabrilla discreta transforma. JPEG2000 utiliza además puntos de referencias de otros pares y factores de la multiplicación entonces para mezclarse en la diferencia. Estos factores tienen que ser números enteros de modo que el resultado sea un número entero bajo todas las circunstancias. Los valores se aumentan tan, tamaño del archivo de aumento, pero esperanzadamente la distribución de valores es enarbolada.[citación necesitada]

La codificación adaptante utiliza las probabilidades de la muestra anterior en la codificación sana, del pixel izquierdo y superior en la codificación de la imagen, y además del marco anterior en la codificación video. En la transformación de la cabrilla las probabilidades también se pasan con la jerarquía.

Cuestiones legales históricas

Muchos de estos métodos se ponen en ejecución en la abrir-fuente y las herramientas propietarias, particularmente LZW y sus variantes. Algunos algoritmos se patentan en LOS E.E.U.U. y otros países y su uso legal requiere licenciar por el sostenedor de patente. Debido a patentes en ciertas clases de compresión de LZW, y particularmente prácticas que licenciaban por el sostenedor de patente Unisys que muchos reveladores consideraban abusivo, algunos protagonistas abiertos de la fuente animaron a gente que evitara usar Formato del intercambio de los gráficos (GIF) para la imagen de compresión archiva a favor de gráficos portables de la red Png, que combina LZ77- basado desinfle el algoritmo con una selección de la predicción dominio-específica se filtra. Sin embargo, las patentes en LZW ahora han expirado.[1]

Muchas de las técnicas lossless de la compresión usadas para el texto también trabajan razonablemente bien para las imágenes puestas en un índice, pero hay otras técnicas que no trabajan para el texto típico que son útiles para algunas imágenes (particularmente las BITMAP simples), y otras técnicas que se aprovechen de las características específicas de imágenes (tales como el fenómeno común de 2.as áreas contiguas de tonos similares, y el hecho de que las imágenes del color tienen generalmente una preponderancia a una gama limitada de colores fuera de ésas representables en el espacio de color).

Según lo mencionado previamente, la compresión sana lossless es un área algo especializada. Los algoritmos sanos de la compresión de Lossless pueden aprovecharse de los patrones de repetición demostrados por la naturaleza ondulada de los datos - esencialmente con modelos para predecir el valor “siguiente” y codificando (esperanzadamente) la diferencia pequeña entre el valor previsto y los datos reales. Si la diferencia entre los datos predichos y reales (llamados el “error”) tiende para ser pequeña, entonces ciertos valores de la diferencia (como 0, +1, -1 etc. en los valores de la muestra) llegados a ser muy frecuentes, que pueden ser explotados codificándolos en pocos pedacitos de la salida.

Es a veces beneficioso comprimir solamente las diferencias entre dos versiones de un archivo (o, adentro compresión video, de una imagen). Se llama esto compresión del delta (de la letra griega Δ cuál es de uso general en matemáticas denotar una diferencia), pero el término se utiliza típicamente solamente si ambas versiones son compresión y descompresión exteriores significativas. Por ejemplo, mientras que el proceso de comprimir el error en el esquema audio lossless antedicho de la compresión se podría describir como compresión del delta de la onda acústica aproximada a la onda acústica original, la versión aproximada de la onda acústica no es significativa en ningún otro contexto.

Métodos de la compresión de Lossless

Vea también: : Categoría: Algoritmos de la compresión de Lossless

Ningún algoritmo lossless de la compresión puede comprimir eficientemente todos los datos posibles, y las secuencias de datos totalmente al azar no pueden ser comprimidas. Por esta razón, muchos diversos algoritmos existen que se diseñan con un tipo específico de datos de entrada en mente o con asunciones específicas sobre qué clases de redundancia son probables los datos sin comprimir contener.

Algunos de los algoritmos lossless mas comunes de la compresión se enumeran abajo.

Fines generales

  • codificación de la Funcionar-longitud - un esquema simple que proporciona la buena compresión de los datos que contienen porciones de funcionamientos del mismo valor.
  • LZW - utilizado por el GIF y la compresa entre otras
  • Desinfle - utilizado por el gzip, versiones modernas del cierre relámpago y como parte del proceso del png, PPP, HTTP, SSH de la compresión

Audio

Gráficos

  • ABO - Optimización binaria adaptante
  • GIF - (lossless, pero contiene una gama muy limitada del color del número)
  • JBIG2 - (compresión lossless o del lossy de las imágenes de B&W)
  • JPEG-LS - (estándar lossless/cercano-lossless de la compresión)
  • JPEG 2000 - (incluye método lossless de la compresión, según lo probado por Sunil Kumar, la universidad de estado de profesor San Diego)
  • JPEG XR - antes WMPhoto y Foto de HD, incluye un método lossless de la compresión
  • PGF - Archivo de gráficos progresivo (lossless o compresión del lossy)
  • Png - Gráficos portables de la red
  • Tiff

Vídeo

Criptografía

Cryptosystems comprima a menudo los datos antes del cifrado para la seguridad agregada; la compresión antes de ayudas del cifrado quita las redundancias y los patrones que pudieron facilitar criptoanálisis. Sin embargo, muchos algoritmos lossless ordinarios de la compresión introducen patrones fiables (tales como jefes, envolturas, y tablas) en los datos comprimidos que pueden realmente hacer criptoanálisis más fácil. Por lo tanto, los cryptosystems incorporan a menudo los algoritmos especializados de la compresión específicos a cryptosystem-o por lo menos demostrados o muy frecuente para ser cryptographically seguros-algo que los algoritmos estándares de la compresión que son eficientes sino para proporcionar las oportunidades potenciales para el criptoanálisis.

Limitaciones

Los algoritmos de la compresión de datos de Lossless no pueden garantizar la compresión para todos los modems de entrada. Es decir para cualquier algoritmo (lossless) de la compresión de datos, habrá un modem de entrada que no consigue más pequeño cuando es procesado por el algoritmo. Esto se prueba fácilmente con matemáticas elementales usando a cuenta de la discusión, como sigue:

  • Asuma que cada archivo está representado como cadena de pedacitos de una cierta longitud arbitraria.
  • Suponga que hay un algoritmo de la compresión que transforma cada archivo en un archivo distinto que esté no más que el archivo original, y que por lo menos un archivo será comprimido en algo que es más corto que sí mismo.
  • Dejado M sea el menos número tales que hay un archivo F con longitud M pedacitos que comprime algo más corto. Dejado N sea la longitud (en pedacitos) de la versión comprimida de F.
  • Porque N < M, cada archivo de la longitud N guarda su tamaño durante la compresión. Hay 2N tales archivos. Junto con F, esto hace 2N + 1 archivos que toda la compresa en una de 2N archivos de la longitud N.
  • Pero 2N es más pequeño que 2N + 1, tan por principio del pigeonhole debe haber algún archivo de la longitud N cuál es simultáneamente la salida de la función de la compresión en dos diversas entradas. Ese archivo no puede ser descomprimido confiablemente (que de las dos originales si esa producción?), que contradice la asunción que el algoritmo era lossless.
  • Debemos por lo tanto concluir que nuestra hipótesis original (que la función de la compresión no hace ningún archivo más largo) es necesariamente falsa.

Ningún algoritmo lossless de la compresión que haga que algunos archivos una necesidad más corta necesariamente hace algunos archivos más largos, solamente no es necesarios que se convierten esos archivos mucho más de largo. La mayoría de los algoritmos prácticos de la compresión proporcionan una facilidad del “escape” que pueda dar vuelta apagado a la codificación normal para los archivos que se convirtieron más de largo por la codificación. Entonces el único aumento de tamaño es algunos pedacitos para decir al decodificador que la codificación normal se haya dado vuelta apagado para la entrada entera. Por ejemplo, DESINFLE los archivos comprimidos nunca necesitan crecer por más de 5 octetos por 65.535 octetos de entrada.

De hecho, si consideramos archivos de la longitud N, si todos los archivos eran igualmente probables, después para cualquier compresión lossless que reduzca el tamaño de algún archivo, la longitud prevista de un archivo comprimido (hecho un promedio sobre todos los archivos posibles de la longitud N) debe necesariamente estar mayor que el N. Tan si no sabemos nada sobre las características de los datos que estamos comprimiendo, puede ser que también no lo comprimamos en todos. Un algoritmo lossless de la compresión es solamente útil cuando somos más probables comprimir ciertos tipos de archivos que otros; entonces el algoritmo se podía diseñar para comprimir esos tipos de datos mejor.

Así, la lección principal de la discusión no es que una arriesga pérdidas grandes, pero simplemente que uno no puede ganar siempre. Elegir un algoritmo significa siempre implícito seleccionar a subconjunto de todos los archivos que llegarán a ser provechosamente más cortos. Ésta es la razón teórica por la que necesitamos tener diversos algoritmos de la compresión para diversas clases de archivos: no puede haber ningún algoritmo que sea bueno para todas las clases de datos.

El “truco” que permite algoritmos lossless de la compresión, usado en el tipo de datos que fueron diseñados para, para comprimir constantemente tales archivos a una forma más corta es que los archivos el algoritmo se diseña para actuar en todos tienen cierta forma de fácil-modelado redundancia que el algoritmo está diseñado para quitar, y así pertenezca al subconjunto de los archivos que ese algoritmo puede hacer más cortos, mientras que otros archivos no conseguirían comprimidos o aún no conseguirían más grandes. Los algoritmos generalmente se templan absolutamente específicamente a un tipo particular de archivo: por ejemplo, los programas audio lossless de la compresión no trabajan bien en archivos de texto, y viceversa.

Particularmente, archivos de al azar los datos no se pueden comprimir constantemente por ningún algoritmo lossless concebible de la compresión de datos: de hecho, este resultado se utiliza a defina el concepto de la aleatoriedad adentro teoría de complejidad algorítmica.


Tienen sido muchas demandas con los años de las compañías que alcanzan la “perfecto-compresión” donde un número arbitrario de pedacitos al azar se puede comprimir siempre a los pedacitos N-1. Esto es, por supuesto, imposible: si existió tal algoritmo, podría ser aplicado en varias ocasiones losslessly para reducir cualquier archivo a la longitud 0. Estas clases de demandas se pueden desechar con seguridad sin uniforme mirando cualquier detalle más otro con respecto al esquema pretendido de la compresión.

algoritmo eso se afirma para poder losslessly comprimir cualquier secuencia de datos es provably imposible.[2] En un sentido más general, cualquier algoritmo de la compresión que propusiera las características contradice leyes fundamentales de matemáticas se puede llamar la magia.

Fondo matemático

Cualesquiera algoritmo de la compresión puede ser visto como a función eso traz secuencias de unidades (normalmente octetos) en otras secuencias de las mismas unidades. La compresión es acertada si la secuencia que resulta es más corta que la secuencia original. Para que un algoritmo de la compresión que se considerará lossless, necesita existir el traz reverso de secuencias comprimidas del pedacito a las secuencias originales del pedacito; es decir, el método de la compresión necesitaría encapsula a bijection entre “llano” y “comprimió” secuencias del pedacito.

Las secuencias de la longitud N o menos son claramente un sobreconjunto terminante de las secuencias de la longitud N-1 o menos. Sigue que hay más secuencias de la longitud N o menos que allí secuencias de la longitud N-1 o menos. Por lo tanto sigue de principio del pigeonhole que no es posible traz cada secuencia de la longitud N o menos a un único ordene de la longitud N-1 o menos. Por lo tanto no es posible producir un algoritmo de el cual reduzca el tamaño cada posible secuencia de entrada.

Fondo psicologico

La mayoría de los archivos diarios son relativamente “escasos” en entropía de la información el sentido, y así, la mayoría de los algoritmos lossless que un layperson es probable aplicarse en archivos regulares los comprime relativamente bien. Esto puede, con la aplicación errada de intuición, conduzca a algunos individuos a concluir que un algoritmo bien diseñado de la compresión puede comprimir cualesquiera entrada, así, constituyendo un algoritmo mágico de la compresión.

Puntos del uso en teoría verdadera de la compresión

Los diseñadores verdaderos del algoritmo de la compresión aceptan que las corrientes de la alta entropía de la información no se pueden comprimir, y por consiguiente, incluyen las instalaciones para detectar y manejar esta condición. Una manera obvia de la detección está aplicando un algoritmo crudo de la compresión y está probando si su salida es más pequeña que su entrada. A veces, la detección se hace cerca heurística; por ejemplo, un uso de la compresión puede considerar los archivos que nombres terminan en “.zip”,” .arj " o “.lha” uncompressible sin más detección sofisticada. Una manera común de manejar esta situación está cotizando la entrada, o las partes uncompressible de la entrada en la salida, reduciendo al mínimo los gastos indirectos de la compresión. Por ejemplo, cierre relámpago el formato de datos especifica el “método de la compresión” de “almacenado” para los ficheros de entrada que se han copiado en el archivo in extenso.[3]

Millón de desafíos del número al azar

Marque Nelson, frustrada sobre muchas manivelas que intentan demandar inventar un algoritmo mágico de la compresión que aparece adentro presión de comp.com, ha construido un archivo binario de 415.241 octetos ([1]) del contenido altamente entropic, y publicado un desafío público de $100 a cualquier persona para escribir un programa que, junto con su entrada, sería más pequeño que el suyo los datos binarios proporcionados con todo a poder reconstituirlo (“descomprímase”) sin error.[4]

FAQ para presión de comp.com newsgroup contiene un desafío de Mike Goldman que ofrece $5.000 para un programa que pueda comprimir datos al azar. Patrick Craig tomó el desafío, pero más bien que comprimiendo los datos, él lo partió para arriba en los archivos separados que terminaron en el número “5” que no fue almacenado como parte del archivo. Omitir este carácter permitió que los archivos que resultaban (más, de acuerdo con las reglas, el tamaño del programa que las volvió a montar) fueran más pequeños que el archivo original. Sin embargo, ninguna compresión real ocurrió, y la información almacenada en los nombres de los archivos era necesaria para volverlos a montar en la orden correcta en el archivo original, y esta información no considerado en la comparación del tamaño del archivo. Los archivos ellos mismos no son así suficientes reconstituir el archivo original, los nombres del archivo son también necesarios. Una historia completa del acontecimiento, incluyendo la discusión encendido si o no el desafío fue resuelto técnico, está en el Web site de Patrick Craig.[5]

Vea también

Referencias

  1. ^ Unisys | Patente de LZW e información del software
  2. ^ presión de comp.com FAQ entrada #9 de la lista: Compresión de los datos al azar (WEB, Gilbert y otros)
  3. ^ Especificación del formato del archivo de CIERRE RELÁMPAGO por PKWARE, capítulo V, sección J
  4. ^ Nelson, marca (2006-06-20). Millón de desafíos al azar del dígito revisitaron.
  5. ^ Craig, Patrick. El desafío de la compresión $5000. Recuperado encendido 2007-09-13.

Acoplamientos externos

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence