Gå til sidens indhold
Accepter cookies for at dette indhold vises korrekt.

DM-medlem finder Google Translates svagheder

Takket være sprogforsker Anders Søgaards arbejde med at dokumentere hovedproblemer i digitale oversættelsessystemer kan Google Translate nu forbedres.

Emneord:
IT

For at finde svaret må man stille det rette spørgsmål. Det gjorde DM-medlem og adjunkt i sprogteknologi ved Københavns Universitet Anders Søgaard. Han har stået i spidsen for forskning, som dokumenterer de problemer, som maskinoversættelsessystemer som Google Translate har med at oversætte sætninger og fraser helt korrekt. Det har ledt til en lille sproglig revolution.

“Vi har påvist, at det er nødvendigt at arbejde med diskontinuerte fraser i maskinoversættelser som Google Translate. Vi har stillet spørgsmålet, hvordan det kan gøres, uden at systemerne bliver for komplicerede”, siger Anders Søgaard.

Systemer som Google Translate har problemer med at oversætte faste vendinger og sammensætninger af ord, som er diskontinuerte (opbrudt). Det har ført til mærkelige og ofte ganske morsomme oversættelser af visse ord og sætninger. Men nu er Standford University på baggrund af Anders Søgaards forskning kommet frem til, at svaret på det problem er, at man laver en relativt simpel udvidelse af den oversættelsesalgoritme, som bliver anvendt i maskinsystemer som Google Translate.

“I Google Translate og lignende systemer konstruerer man oversættelseshypoteser for en sætning fra venstre mod højre. Inden man når frem til sætningens slutning, har man konstrueret og beregnet sandsynligheder for kombinationer af oversættelser af dele af sætningen. Disse dele kan være ord eller fraser. Undervejs smider man hele tiden de mindst sandsynlige oversættelseshypoteser væk, fordi systemerne ellers bliver for langsomme. I Stanfords nye system kan man også arbejde med diskontinuerte fraser”, siger Anders Søgaard. 

Et andet svar
Google Translate er enormt simpelt opbygget. Det er både fordelen og ulempen ved systemet, forklarer Anders Søgaard. Det behandler store mængder af oversat tekst og finder bidder af tekst, der er ækvivalente. Disse bidder er ordpar eller frasepar, som systemet kombinerer og flytter rundt på i forsøget på at finde frem til den bedste oversættelse.

“Der er altså ingen syntaks eller semantik i systemet, selv om man ved, at det burde være der. I praksis har det nemlig vist sig meget svært at inkorporere det i den slags systemer. Det er stadig et åbent spørgsmål, hvordan man på bedst mulig vis bruger syntaks i maskinoversættelser”, forklarer Anders Søgaard.

Det svar er netop, hvad Anders Sø­gaard og hans lille gruppe af danske forskere lige nu arbejder på at finde.

“Vi arbejder med forskellige syntaksmodeller, der begrænser antallet af mulige oversættelser. Det betyder, at man kan gemme meget usandsynlige oversættelseshypoteser, indtil man når slutningen af sætningen”, siger han.

Stanford Universitys ændring er en simpel ændring af systemet i ­Google Translate, som bygger på en arkitektur, der i forskningskredse forbindes med open source-systemet Moses. Den bedste oversættelse af en sætning kan dog vise sig at være matematisk usandsynlig, lige til man når selve slutningen af sætningen. Man risikerer derfor at smide god information væk og således forringe oversættelsen. Og vejen til at løse det problem er ikke helt ligetil.

“Det kræver en større ændring af den arkitektur, som man normalt anvender i maskinoversættelser, og den arbejder vi på at finde”, siger Anders Søgaard og pointerer, at når man har løst det problem, mangler man kun at løse problemet med datamangel.

“Det er et problem, som kun delvist kan løses. En menneskelig oversætter bliver jo også nødt til at lære nye udtryk og hele tiden være opmærksom på at opdatere systemet med nye udviklinger i sproget”, siger Anders Søgaard.

Tak fordi du læste artiklen!

Var artiklen relevant?

Del den med andre ...

Link kopieret!
Annonce
Accepter cookies for at dette indhold vises korrekt.

Jobannoncer

Der er ingen jobannoncer i øjeblikket.

Læs om

Adjunkter Administration Administration, organisation og politik Afskedigelse A-kasser Aktivering Ansættelsesforhold Antropologi Arbejdsliv Arbejdsmarked Arbejdsmarked Arbejdsmarked Arbejdsmarked, udland Arbejdsmiljø Arbejdstid Arkæologi AU Bachelorer Barsel Beskæftigelse Biblioteker og arkiver Biografi Biologi Blog og debat CBS CV Dagpenge Dannelse Dansk Magisterforening Dansk Magisterforening Det' mit job Dimittender Diskrimination DM på sagen DM Studerende DR DTU DTU Efterløn Efteruddannelse E-læring Etik EU Filosofi Fleksjob Formidling Forskning Forskningfrihed Freelancere Guide Historie Humaniora Højskoler Idræt Integration It IT ITU IT-Universitetet Iværksættere Jobsøgning Jura Kandidater Karriere Klima, miljø og energi Kommuner Kommuner Kommunikation Kommunikation Kommunikation Kronik KU Kultur Kultur Kultur og sundhed Kulturhistorie Kunst Københavns Universitet Ledelse Ledelse Ledere Ledighed Lektorer Lifescience Medico Ligestilling Litteratur Løn Magister med profil Medbestemmelse Medievidenskab Mentorer Miljø Miljø Miljø og natur Museer Musikhistorie Månedens iværksætter Naturvidenskab Naturvidenskab Naturvidenskab og teknik Netværk NGO NGO Offentligt ansatte Ophavsret Overenskomst Pension Pensionister Ph.d. Politik Politik Praktik Prekariat Priser Privatansatte Professionshøjskoler Professorer Psykisk arbejdsmiljø Psykologi Pædagogik Pædagogik Regioner Regioner Rejsebøger Religion Roskilde Universitet RUC Samfund Samfundsvidenskab scient. SDU Selvstændige Selvstændige og freelancere Seniorer Skønlitteratur Sociale medier Sociologi Sprog Sprog Sprog og kommunikation Stat Staten Stress Studerende Studerende SU Sundhed Sundhedsvidenskab Syddansk Universitet Sygdom Tidsbegrænset ansat Tillidsrepræsentanter Uddannelse Uddannelse Uddannelse og forskning Uddannelse, didaktik og forskning Undervisning Universiteter Videnskabsteori Whistleblower Ytringsfrihed Økonomi Aalborg Universitet Aarhus Universitet AAU
Annonce
Accepter cookies for at dette indhold vises korrekt.

Vil du opdateres på, hvad der sker?


Læs om tilmeldingen