GNU gettext er gamalreynd og ágæt leið til að bjóða upp á þýddar og staðfærðar útgáfur af hugbúnaði. Gettext er hægt að finna fyrir flest forritunarmál (t.d. Perl, Python og PHP). Þar er m.a. að finna skipunina ngettext sem finnur ekki eingöngu þýðingu strengs heldur velur hún einnig á milli textastrengja út frá tölu og er notuð til að velja eintölu eða fleirtölu.

printf (ngettext ("deleted %d file", "deleted %d files", n), n);

Þýðingar fyrir textastrengina er að finna í PO-skrám (sem er svo umbreytt í MO-skrár með msgfmt) og hausi þeirrra skráa er einnig að finna skilgreiningu á því hvernig velja eigi rétta tölumynd (nánar tiltekið skilgreining á fleirtölunni eða fleirtölunum fyrir þau mál sem hafa fleiri en eina fleirtölu). Ég hef hinsvegar rekið mig á það að í öllum íslensku PO-skránum sem ég hef skoðað er fleirtöluskilgreining röng, þ.e. skilgreining f. ensku er látin vera óbreytt í skránni þegar hún er þýdd.

Plural-Forms: nplurals=2; plural=n != 1;

Þetta merkir að tölumyndirnar eru tvær og fleirtalan er allt nema talan 1. En þessi skilgreining dugar ekki fyrir íslensku því við tölum t.d. um að Binni hafi keypt 21 vindil en ekki að *Binni hafi keypt 21 vindla.

Plural-Forms: nplurals=2; plural=n%10 != 1 || n%100 == 11;

Þessi skilgreining er hinsvegar rétt fyrir íslensku (n>=0). Hér fá allar tölur sem ekki enda á einum að undanteknum þeim sem enda á ellefu fleirtölumynd. Hægt er að prófa skilgreininguna með einfaldri Perl-skriftu:

#!/usr/bin/perlforeach my $n ( 0 … 23, 100 … 113) { print $n; if( $n % 10 != 1 || $n % 100 == 11) { print " hestar"; } else { print " hestur"; } print ", " if $n != 113;}

Sem gefur eftirfarandi útkomu eins og við viljum:

0 hestar, 1 hestur, 2 hestar, 3 hestar, 4 hestar, 5 hestar, 6 hestar, 7 hestar, 8 hestar, 9 hestar, 10 hestar, 11 hestar, 12 hestar, 13 hestar, 14 hestar, 15 hestar, 16 hestar, 17 hestar, 18 hestar, 19 hestar, 20 hestar, 21 hestur, 22 hestar, 23 hestar, 100 hestar, 101 hestur, 102 hestar, 103 hestar, 104 hestar, 105 hestar, 106 hestar, 107 hestar, 108 hestar, 109 hestar, 110 hestar, 111 hestar, 112 hestar, 113 hestar

Ath. Þessi færsla er einskonar bót á Vefinn. Ég fann ekki þessar upplýsingar og bæti þeim því við hér.

While browsing on the Internet just now I came across a bulletin-board discussion from last December about Google having started to use stemming. I was quite surprised by this since I hadn't seen any evidence of this while googling myself. I also seemed to recall that Google had stated that is it was not using stemming at all.

Lesa restina af færslunni »

Sönggervill

1. desember 2003

Óðum styttist í að sönggervilshugbúnaður sem byggir á Vocaloid frá Yamaha fari að koma út. Enskt, þýskt og japanskt fyrirtæki eru með slík forrit í burðarliðnum. Á vef Sound on Sound tímaritsins er hægt að hlusta á þrjú söngdæmi sem ég verð að segja að lofi góðu.

Lesa restina af færslunni »

1. desember 2003

Helga Waage: „Á tali" - fyrirlestur á vegum IEEE á Íslandi (fim. 4. des. kl. 16.30 í VR-158).

Skundað á Hugvísindaþing

27. október 2003

Málstofur á Hugvísindaþingi 2003 sem mig langar að hlýða á (sett hér inn svo ég muni frekar eftir að mæta):

Skrift og bókagerð á miðöldum (A. stofa II)

  • Guðvarður Már Gunnlaugsson: Blendingsskrift
  • Hallgrímur J. Ámundason: Stbfkbrlbskrkftpgdxlmbl: um villuletur í íslenskum handritum
  • Haraldur Bernharðsson: Afdrif kk-tákns Fyrstu málfræðiritgerðarinnar
  • Már Jónsson: Handritamælingar

Hjal: Vélræn íslensk talgreining (A. stofa VII)

  • Eiríkur Rögnvaldsson: Kynning verkefnisins „Hjals“
  • Geir Gunnarsson: Val orða og setninga
  • Jón Pétur Friðriksson: Hljóðritanir — tækni, úrvinnsla, vandamál
  • Björn Kristinsson: Hljóðritun framburðardæma í Hjali
  • Valdís Ólafsdóttir: Framburður Íslendinga í upphafi 21. aldar
  • Helga Waage: Hagnýting talgreiningar

En auðvitað þarf þetta að vera á sama tíma, kl. 15.30 föst. 31. okt. :(

Annars er margt annað athyglivert á þinginu - en ég kemst bara mögulega eftir hádegi á föstudaginn því er þessi upptalning takmörkuð við þann tíma.

http://www.hugvis.hi.is/saekja/Hugvis-dagskra.pdf

Merki félags tungutækninema

19. október 2003

Verið er að huga að félagi tungutækninema. Félagið hefur ekki hlotið nafn enn svo ég viti til (tillögur?) en Björn Kristinsson hefur komið með mjög skemmtilega tillögu að merki þess.

Merki tungutækninema?

Nokkur tímarit

9. júní 2003

Klisjan um að sannleikurinn sé fyrstur til að falla í stríði mætti vel umorða eitthvað á þessa leið: málnotkun er fyrst til að falla í stríði. Það er mjög athyglisvert að fylgjast með orðalagi og orðnotkun í fréttaflutningi af innrásinni í Írak.

Lesa restina af færslunni »

Eða norrænu tungutæknidagarnir verða haldnir hér 30-31 maí. Vefsíða ráðstefnunnar er í burðarliðnum (fær smá hjálp frá mér).