02.12.2011
Artikel

Verden på formler II: Datakompression

Af Jakob Vedelsby

Claude Shannon publicerede i 1948 artiklen “A Mathematical Theory of Communication”, som gjorde ham fortjent til betegnelsen “informationsteoriens fader”. Men allerede i 1937 havde den blot 21-årige studerende på Massachusetts Institute of Technology (MIT) frembragt teorier om bl.a. digitale kredsløb, som fik stor betydning for den senere udvikling af computeren, der på det tidspunkt var i sin absolutte vorden.

Under 2. verdenskrig var han dybt involveret i de allieredes kryptering af hemmelige meddelelser, ikke mindst arbejdet med at bryde fjendens koder. Men det var teorierne fra 1948, som han frembragte som forsker ved telefonselskabet Bells laboratorier, der skabte Shannon en plads i verdenshistorien. 

0’er og 1-taller
Shannons artikel giver opskriften på, hvordan man komprimerer et stykke information, der skal sendes fra A til B, så det kommer til at fylde mindst muligt, uden at meningen går tabt. Det fortæller Christian Thommesen, just pensioneret lektor i matematik ved Aalborg Universitet.

“Konkret foregår det ved at omdanne informationen til en strøm af 0’er og 1-taller. Shannons formel er et afgørende element i den matematiske model for, hvordan man gør netop dét. Med formlen kan man udregne den optimale datakompression i forhold til en given kommunikationskanal – det vil sige, hvordan man skal komprimere en meddelelse for at sikre, at man kan gendanne den i den anden ende”.

Tager højde for entropien
Man kan også sige det på den måde, at formlen beskriver entropien for datakompression, fortsætter Christian Thommesen. Som et afgørende led i sin informationsteori udviklede Shannon begrebet “informationsentropi” som et mål for usikkerheden i en datatransmission og kombinerede dette med kendt sandsynlighedsteori. Begrebet “entropi” havde længe været centralt i termodynamikken, som er den gren af fysikken, der beskæftiger sig med varme. Her beskriver det den uorden, der uvilkårligt vil opstå i et lukket system.

“Når man har komprimeret sin meddelelse til 0’er og 1-taller og skal sende den fra A til B, kan der ske fejl undervejs, fordi kommunikationskanalen ikke fungerer optimalt. Her er det afgørende at tage højde for fejlmuligheden i kommunikationskanalen – informationsentropien – og derudfra foretage en optimal komprimering af data, så man er helt sikker på, at meddelelsen ikke går tabt”, forklarer Christian Thommesen.

Nytænkning vakte opsigt
Shannons teorier vakte stor opsigt i samtiden. Indtil da havde man løst problemer med støj på en kommunikationskanal ved simpelthen at vente på, at kanalen af sig selv blev bedre. Nu påviste Shannon, at man ved hjælp af kodning kan opretholde en høj kommunikationshastighed, selvom kanalen er dårlig.

Ifølge Christian Thommesen er det først i nyere tid, at man har kunnet konstruere kommunikationssystemer, som til fulde lever op til de optimale mål, Shannon definerede i sin artikel fra 1948. Men i dag får verden til gengæld det fulde udbytte af hans forskning.

“Hele den digitale verden med mobiltelefoni, satellittransmitteret tv, internetkommunikation mv. ville ikke være så velfungerende, som den faktisk er, hvis vi ikke havde haft Shannons kodningssystem, som tager højde for fejl i transmissionerne”, fastslår Christian Thommesen.