- Málstjórnun hjá Google Leiðbeiningar frá lögfræðingum Google um hvernig nota beri sögnina google.
PO-skrár og íslensk fleirtala
27. apríl 2006
GNU gettext er gamalreynd og ágæt leið til að bjóða upp á þýddar og staðfærðar útgáfur af hugbúnaði. Gettext er hægt að finna fyrir flest forritunarmál (t.d. Perl, Python og PHP). Þar er m.a. að finna skipunina ngettext
sem finnur ekki eingöngu þýðingu strengs heldur velur hún einnig á milli textastrengja út frá tölu og er notuð til að velja eintölu eða fleirtölu.
printf (ngettext ("deleted %d file", "deleted %d files", n), n);
Þýðingar fyrir textastrengina er að finna í PO-skrám (sem er svo umbreytt í MO-skrár með msgfmt
) og hausi þeirrra skráa er einnig að finna skilgreiningu á því hvernig velja eigi rétta tölumynd (nánar tiltekið skilgreining á fleirtölunni eða fleirtölunum fyrir þau mál sem hafa fleiri en eina fleirtölu). Ég hef hinsvegar rekið mig á það að í öllum íslensku PO-skránum sem ég hef skoðað er fleirtöluskilgreining röng, þ.e. skilgreining f. ensku er látin vera óbreytt í skránni þegar hún er þýdd.
Plural-Forms: nplurals=2; plural=n != 1;
Þetta merkir að tölumyndirnar eru tvær og fleirtalan er allt nema talan 1. En þessi skilgreining dugar ekki fyrir íslensku því við tölum t.d. um að Binni hafi keypt 21 vindil en ekki að *Binni hafi keypt 21 vindla.
Plural-Forms: nplurals=2; plural=n%10 != 1 || n%100 == 11;
Þessi skilgreining er hinsvegar rétt fyrir íslensku (n>=0
). Hér fá allar tölur sem ekki enda á einum að undanteknum þeim sem enda á ellefu fleirtölumynd. Hægt er að prófa skilgreininguna með einfaldri Perl-skriftu:
#!/usr/bin/perlforeach my $n ( 0 … 23, 100 … 113) { print $n; if( $n % 10 != 1 || $n % 100 == 11) { print " hestar"; } else { print " hestur"; } print ", " if $n != 113;}
Sem gefur eftirfarandi útkomu eins og við viljum:
0 hestar, 1 hestur, 2 hestar, 3 hestar, 4 hestar, 5 hestar, 6 hestar, 7 hestar, 8 hestar, 9 hestar, 10 hestar, 11 hestar, 12 hestar, 13 hestar, 14 hestar, 15 hestar, 16 hestar, 17 hestar, 18 hestar, 19 hestar, 20 hestar, 21 hestur, 22 hestar, 23 hestar, 100 hestar, 101 hestur, 102 hestar, 103 hestar, 104 hestar, 105 hestar, 106 hestar, 107 hestar, 108 hestar, 109 hestar, 110 hestar, 111 hestar, 112 hestar, 113 hestar
Ath. Þessi færsla er einskonar bót á Vefinn. Ég fann ekki þessar upplýsingar og bæti þeim því við hér.
“Google now uses stemming”
7. mars 2004
While browsing on the Internet just now I came across a bulletin-board discussion from last December about Google having started to use stemming. I was quite surprised by this since I hadn't seen any evidence of this while googling myself. I also seemed to recall that Google had stated that is it was not using stemming at all.
Sönggervill
1. desember 2003
Óðum styttist í að sönggervilshugbúnaður sem byggir á Vocaloid frá Yamaha fari að koma út. Enskt, þýskt og japanskt fyrirtæki eru með slík forrit í burðarliðnum. Á vef Sound on Sound tímaritsins er hægt að hlusta á þrjú söngdæmi sem ég verð að segja að lofi góðu.
Helga Waage: „Á tali" - fyrirlestur á vegum IEEE á Íslandi (fim. 4. des. kl. 16.30 í VR-158).
Skundað á Hugvísindaþing
27. október 2003
Málstofur á Hugvísindaþingi 2003 sem mig langar að hlýða á (sett hér inn svo ég muni frekar eftir að mæta):
Skrift og bókagerð á miðöldum (A. stofa II)
- Guðvarður Már Gunnlaugsson: Blendingsskrift
- Hallgrímur J. Ámundason: Stbfkbrlbskrkftpgdxlmbl: um villuletur í íslenskum handritum
- Haraldur Bernharðsson: Afdrif kk-tákns Fyrstu málfræðiritgerðarinnar
- Már Jónsson: Handritamælingar
Hjal: Vélræn íslensk talgreining (A. stofa VII)
- Eiríkur Rögnvaldsson: Kynning verkefnisins „Hjals“
- Geir Gunnarsson: Val orða og setninga
- Jón Pétur Friðriksson: Hljóðritanir — tækni, úrvinnsla, vandamál
- Björn Kristinsson: Hljóðritun framburðardæma í Hjali
- Valdís Ólafsdóttir: Framburður Íslendinga í upphafi 21. aldar
- Helga Waage: Hagnýting talgreiningar
En auðvitað þarf þetta að vera á sama tíma, kl. 15.30 föst. 31. okt.
Annars er margt annað athyglivert á þinginu - en ég kemst bara mögulega eftir hádegi á föstudaginn því er þessi upptalning takmörkuð við þann tíma.
Merki félags tungutækninema
19. október 2003
Verið er að huga að félagi tungutækninema. Félagið hefur ekki hlotið nafn enn svo ég viti til (tillögur?) en Björn Kristinsson hefur komið með mjög skemmtilega tillögu að merki þess.
Nokkur tímarit
9. júní 2003
Er bandaríkjaher hjálparstofnun?
27. mars 2003
Klisjan um að sannleikurinn sé fyrstur til að falla í stríði mætti vel umorða eitthvað á þessa leið: málnotkun er fyrst til að falla í stríði. Það er mjög athyglisvert að fylgjast með orðalagi og orðnotkun í fréttaflutningi af innrásinni í Írak.
14da norræna tungutækniráðstefnan (NoDaLiDa)
24. febrúar 2003
Eða norrænu tungutæknidagarnir verða haldnir hér 30-31 maí. Vefsíða ráðstefnunnar er í burðarliðnum (fær smá hjálp frá mér).