summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authoraarne <aarne@cs.chalmers.se>2008-01-04 10:15:15 +0000
committeraarne <aarne@cs.chalmers.se>2008-01-04 10:15:15 +0000
commitd54c209e9dc37825b153232a56e4c5adbbb685b1 (patch)
tree7e0c3d8ea896f676f52d298cb78e974dd1e89e78
parent6bca6a97ae43b12969616b7a3d117463ce15fddc (diff)
dictionary experiment in uusisuomi
-rw-r--r--examples/uusisuomi/Makefile20
-rw-r--r--examples/uusisuomi/Nominal.gf10
-rw-r--r--examples/uusisuomi/bootstrapping.txt45
-rw-r--r--examples/uusisuomi/correct-Dictionary.txt198
-rw-r--r--examples/uusisuomi/correct-Omat.txt2
-rw-r--r--examples/uusisuomi/results.txt34
6 files changed, 295 insertions, 14 deletions
diff --git a/examples/uusisuomi/Makefile b/examples/uusisuomi/Makefile
index 96c56c008..0c593c8d3 100644
--- a/examples/uusisuomi/Makefile
+++ b/examples/uusisuomi/Makefile
@@ -14,14 +14,16 @@ gf-files:
runghc MkLex.hs 4 $(LEX) > $(LEX)4.gf
experiments: gf-files
- echo "gt -cat=Utt | l | wf exper1-$(LEX).txt" | gf $(LEX)1.gf
- echo "gt -cat=Utt | l | wf exper2-$(LEX).txt" | gf $(LEX)2.gf
- echo "gt -cat=Utt | l | wf exper3-$(LEX).txt" | gf $(LEX)3.gf
- echo "gt -cat=Utt | l | wf exper4-$(LEX).txt" | gf $(LEX)4.gf
+ echo "gt -cat=Utt | l | wf exper1-$(LEX).txt" | gf -s $(LEX)1.gf
+ echo "gt -cat=Utt | l | wf exper2-$(LEX).txt" | gf -s $(LEX)2.gf
+ echo "gt -cat=Utt | l | wf exper3-$(LEX).txt" | gf -s $(LEX)3.gf
+ echo "gt -cat=Utt | l | wf exper4-$(LEX).txt" | gf -s $(LEX)4.gf
tests: experiments
- runghc MyDiff.hs correct-$(LEX).txt exper1-$(LEX).txt >diff1.txt
- runghc MyDiff.hs correct-$(LEX).txt exper2-$(LEX).txt >diff2.txt
- runghc MyDiff.hs correct-$(LEX).txt exper3-$(LEX).txt >diff3.txt
- runghc MyDiff.hs correct-$(LEX).txt exper4-$(LEX).txt >diff4.txt
- wc -l diff?.txt
+ runghc MyDiff.hs correct-$(LEX).txt exper1-$(LEX).txt >diff1-$(LEX).txt
+ runghc MyDiff.hs correct-$(LEX).txt exper2-$(LEX).txt >diff2-$(LEX).txt
+ runghc MyDiff.hs correct-$(LEX).txt exper3-$(LEX).txt >diff3-$(LEX).txt
+ runghc MyDiff.hs correct-$(LEX).txt exper4-$(LEX).txt >diff4-$(LEX).txt
+ date >all-diff-$(LEX)
+ echo $(LEX) >>all-diff-$(LEX)
+ wc -l diff?-$(LEX).txt >>all-diff-$(LEX)
diff --git a/examples/uusisuomi/Nominal.gf b/examples/uusisuomi/Nominal.gf
index 767f61fc2..60bec2d60 100644
--- a/examples/uusisuomi/Nominal.gf
+++ b/examples/uusisuomi/Nominal.gf
@@ -57,10 +57,12 @@ resource Nominal = ResFin ** open MorphoFin,Declensions,CatFin,Prelude in {
<_ + ("a" | "o" | "u" | "y" | "ä" | "ö"), _ + "n"> =>
dUkko ukko ukon ; -- auto,auton
<arp + "i", arv + "en"> => dArpi ukko ukon ;
- <arp + "i", _ + "i" + ("a" | "ä")> => -- for b-w compat.
- dArpi ukko (init (weakGrade ukko) + "en") ;
+--- <arp + "i", _ + "i" + ("a" | "ä")> => -- for b-w compat.
+--- dArpi ukko (init (weakGrade ukko) + "en") ;
<terv + "e", terv + "een"> =>
- dRae ukko (terv + "een") ;
+ dRae ukko ukon ;
+ <taiv + ("as" | "äs"), taiv + ("aan" | "ään")> =>
+ dRae ukko ukon ;
<nukk + "e", nuk + "en"> => dNukke ukko ukon ;
<_ + ("us" | "ys"), _ + "den"> => dLujuus ukko ;
<_, _ + ":n"> => dSDP ukko ;
@@ -80,7 +82,7 @@ resource Nominal = ResFin ** open MorphoFin,Declensions,CatFin,Prelude in {
"ie" | "uo" | "yö" | "ea" | "eä" |
"ia" | "iä" | "io" | "iö"), _ + "n"> =>
nForms1 ukko ; --- to protect --- how to get "dioja"?
- <_ + "a" | "ä" | "o" | "ö", _ + "n", _ + ("a" | "ä")> =>
+ <_ + ("a" | "ä" | "o" | "ö"), _ + "n", _ + ("a" | "ä")> =>
dSilakka ukko ukon ukkoja ;
<_ + "i", _ + "n", _ + ("eita" | "eitä")> =>
dTohtori ukko ;
diff --git a/examples/uusisuomi/bootstrapping.txt b/examples/uusisuomi/bootstrapping.txt
new file mode 100644
index 000000000..d9f83def6
--- /dev/null
+++ b/examples/uusisuomi/bootstrapping.txt
@@ -0,0 +1,45 @@
+1. write a word list - one noun per line, save in file correct-Foo.txt
+
+2. create a first compilable grammar:
+
+ % runghc MkLex.hs 0 Foo >FooAbs.gf
+ % runghc MkLex.hs 1 Foo >Foo1.gf
+
+3. compile this and create a first full-form word list
+
+ % gf Foo1.gf
+ > gt -cat=Utt | l | wf correct-Foo.txt
+
+4. manually correct some singular genitive forms (the largest error source)
+
+ uutuus uutuuksen ... => uutuus uutuuden ...
+
+5. create a second compilable grammar:
+
+ % runghc MkLex.hs 2 Foo >Foo2.gf
+
+6. compile this into a second full-form word list
+
+ % gf Foo2.gf
+ > gt -cat=Utt | l | wf correct-Foo.txt
+
+7. manually correct the remaining partitive forms (mostly plural)
+
+8. create yet another grammar:
+
+ % runghc MkLex.hs 4 Foo >Foo4.gf
+
+9. compile this into yet another full-form word list
+
+ % gf Foo4.gf
+ > gt -cat=Utt | l | wf correct-Foo.txt
+
+10. manually correct any remaining errors (which should be rare now)
+
+11. if relevant, run a test of the regularity of the vocabulary:
+
+ % export LEX=Foo ; make -e
+
+
+
+
diff --git a/examples/uusisuomi/correct-Dictionary.txt b/examples/uusisuomi/correct-Dictionary.txt
new file mode 100644
index 000000000..57f73408d
--- /dev/null
+++ b/examples/uusisuomi/correct-Dictionary.txt
@@ -0,0 +1,198 @@
+aikomus aikomuksen aikomusta aikomuksena aikomukseen aikomusten aikomuksia aikomuksina aikomuksissa aikomuksiin
+
+alhaiso alhaison alhaisoa alhaisona alhaisoon alhaisojen alhaisoja alhaisoina alhaisoissa alhaisoihin
+
+antaja antajan antajaa antajana antajaan antajien antajia antajina antajissa antajiin
+
+asetus asetuksen asetusta asetuksena asetukseen asetusten asetuksia asetuksina asetuksissa asetuksiin
+
+anto annon antoa antona antoon antojen antoja antoina annoissa antoihin
+
+eboniitti eboniitin eboniittia eboniittina eboniittiin eboniittien eboniitteja eboniitteina eboniiteissa eboniitteihin
+
+eläke eläkkeen eläkettä eläkkeenä eläkkeeseen eläkkeiden eläkkeitä eläkkeinä eläkkeissä eläkkeisiin
+
+itsekkyys itsekkyyden itsekkyyttä itsekkyytenä itsekkyyteen itsekkyyksien itsekkyyksiä itsekkyyksinä itsekkyyksissä itsekkyyksiin
+
+esitelmä esitelmän esitelmää esitelmänä esitelmään esitelmien esitelmiä esitelminä esitelmissä esitelmiin
+
+fagotti fagotin fagottia fagottina fagottiin fagottien fagotteja fagotteina fagoteissa fagotteihin
+
+halailu halailun halailua halailuna halailuun halailujen halailuja halailuina halailuissa halailuihin
+
+hirsi hirren hirttä hirtenä hirteen hirsien hirsiä hirsinä hirsissä hirsiin
+
+mielisyys mielisyyden mielisyyttä mielisyytenä mielisyyteen mielisyyksien mielisyyksiä mielisyyksinä mielisyyksissä mielisyyksiin
+
+hihitys hihityksen hihitystä hihityksenä hihitykseen hihitysten hihityksiä hihityksinä hihityksissä hihityksiin
+
+mylly myllyn myllyä myllynä myllyyn myllyjen myllyjä myllyinä myllyissä myllyihin
+
+huuli huulen huulta huulena huuleen huulien huulia huulina huulissa huuliin
+
+härkä härän härkää härkänä härkään härkien härkiä härkinä härissä härkiin
+
+ikävystyminen ikävystymisen ikävystymistä ikävystymisenä ikävystymiseen ikävystymisten ikävystymisiä ikävystymisinä ikävystymisissä ikävystymisiin
+
+innokkuus innokkuuden innokkuutta innokkuutena innokkuuteen innokkuuksien innokkuuksia innokkuuksina innokkuuksissa innokkuuksiin
+
+aika ajan aikaa aikana aikaan aikojen aikoja aikoina ajoissa aikoihin
+
+jupakka jupakan jupakkaa jupakkana jupakkaan jupakoiden jupakoita jupakkoina jupakoissa jupakkoihin
+
+jäykiste jäykisteen jäykistettä jäykisteenä jäykisteeseen jäykisteiden jäykisteitä jäykisteinä jäykisteissä jäykisteisiin
+
+moottori moottorin moottoria moottorina moottoriin moottoreiden moottoreita moottoreina moottoreissa moottoreihin
+
+kansleri kanslerin kansleria kanslerina kansleriin kanslereiden kanslereita kanslereina kanslereissa kanslereihin
+
+kaukalo kaukalon kaukaloa kaukalona kaukaloon kaukalojen kaukaloja kaukaloina kaukaloissa kaukaloihin
+
+avain avaimen avainta avaimena avaimeen avaimien avaimia avaimina avaimissa avaimiin
+
+kierre kierteen kierrettä kierteenä kierteeseen kierteiden kierteitä kierteinä kierteissä kierteisiin
+
+kipinä kipinän kipinää kipinänä kipinään kipinöiden kipinöitä kipinöinä kipinöissä kipinöihin
+
+kokkare kokkareen kokkaretta kokkareena kokkareeseen kokkareiden kokkareita kokkareina kokkareissa kokkareisiin
+
+korjuu korjuun korjuuta korjuuna korjuuhun korjuiden korjuita korjuina korjuissa korjuihin
+
+kukinta kukinnan kukintaa kukintana kukintaan kukintojen kukintoja kukintoina kukinnoissa kukintoihin
+
+kuntoisuus kuntoisuuden kuntoisuutta kuntoisuutena kuntoisuuteen kuntoisuuksien kuntoisuuksia kuntoisuuksina kuntoisuuksissa kuntoisuuksiin
+
+kyllästymys kyllästymyksen kyllästymystä kyllästymyksenä kyllästymykseen kyllästymysten kyllästymyksiä kyllästymyksinä kyllästymyksissä kyllästymyksiin
+
+käsitys käsityksen käsitystä käsityksenä käsitykseen käsitysten käsityksiä käsityksinä käsityksissä käsityksiin
+
+laina lainan lainaa lainana lainaan lainojen lainoja lainoina lainoissa lainoihin
+
+lasku laskun laskua laskuna laskuun laskujen laskuja laskuina laskuissa laskuihin
+
+toiminta toiminnan toimintaa toimintana toimintaan toimintojen toimintoja toimintoina toiminnoissa toimintoihin
+
+liuos liuoksen liuosta liuoksena liuokseen liuosten liuoksia liuoksina liuoksissa liuoksiin
+
+luoti luodin luotia luotina luotiin luotien luoteja luoteina luodeissa luoteihin
+
+kaappi kaapin kaappia kaappina kaappiin kaappien kaappeja kaappeina kaapeissa kaappeihin
+
+maksaja maksajan maksajaa maksajana maksajaan maksajien maksajia maksajina maksajissa maksajiin
+
+menestyksellisyys menestyksellisyyden menestyksellisyyttä menestyksellisyytenä menestyksellisyyteen menestyksellisyyksien menestyksellisyyksiä menestyksellisyyksinä menestyksellisyyksissä menestyksellisyyksiin
+
+mitta mitan mittaa mittana mittaan mittojen mittoja mittoina mitoissa mittoihin
+
+muodostuma muodostuman muodostumaa muodostumana muodostumaan muodostumien muodostumia muodostumina muodostumissa muodostumiin
+
+naakka naakan naakkaa naakkana naakkaan naakkojen naakkoja naakkoina naakoissa naakkoihin
+
+niisi niiden niittä niitenä niiteen niisien niisiä niisinä niisissä niisiin
+
+nähtävyys nähtävyyden nähtävyyttä nähtävyytenä nähtävyyteen nähtävyyksien nähtävyyksiä nähtävyyksinä nähtävyyksissä nähtävyyksiin
+
+ohitus ohituksen ohitusta ohituksena ohitukseen ohitusten ohituksia ohituksina ohituksissa ohituksiin
+
+matka matkan matkaa matkana matkaan matkojen matkoja matkoina matkoissa matkoihin
+
+paahde paahteen paahdetta paahteena paahteeseen paahteiden paahteita paahteina paahteissa paahteisiin
+
+vakuutus vakuutuksen vakuutusta vakuutuksena vakuutukseen vakuutusten vakuutuksia vakuutuksina vakuutuksissa vakuutuksiin
+
+luukku luukun luukkua luukkuna luukkuun luukkujen luukkuja luukkuina luukuissa luukkuihin
+
+peukku peukun peukkua peukkuna peukkuun peukkujen peukkuja peukkuina peukuissa peukkuihin
+
+pingotus pingotuksen pingotusta pingotuksena pingotukseen pingotusten pingotuksia pingotuksina pingotuksissa pingotuksiin
+
+reikä reiän reikää reikänä reikään reikien reikiä reikinä reiissä reikiin
+
+puhuja puhujan puhujaa puhujana puhujaan puhujien puhujia puhujina puhujissa puhujiin
+
+oppilas oppilaan oppilasta oppilaana oppilaaseen oppilaiden oppilaita oppilaina oppilaissa oppilaisiin
+
+päitsi päitsen päistä päitsenä päitseen päitsien päitsiä päitsinä päitsissä päitsiin
+
+raadanta raadannan raadantaa raadantana raadantaan raadantojen raadantoja raadantoina raadannoissa raadantoihin
+
+rakentaja rakentajan rakentajaa rakentajana rakentajaan rakentajien rakentajia rakentajina rakentajissa rakentajiin
+
+rettelöitsijä rettelöitsijän rettelöitsijää rettelöitsijänä rettelöitsijään rettelöitsijöiden rettelöitsijöitä rettelöitsijöinä rettelöitsijöissä rettelöitsijöihin
+
+kuulustelu kuulustelun kuulustelua kuulusteluna kuulusteluun kuulustelujen kuulusteluja kuulusteluina kuulusteluissa kuulusteluihin
+
+ryppy rypyn ryppyä ryppynä ryppyyn ryppyjen ryppyjä ryppyinä rypyissä ryppyihin
+
+saavutus saavutuksen saavutusta saavutuksena saavutukseen saavutusten saavutuksia saavutuksina saavutuksissa saavutuksiin
+
+kieli kielen kieltä kielenä kieleen kielien kieliä kielinä kielissä kieliin
+
+sauna saunan saunaa saunana saunaan saunojen saunoja saunoina saunoissa saunoihin
+
+kärsimys kärsimyksen kärsimystä kärsimyksenä kärsimykseen kärsimysten kärsimyksiä kärsimyksinä kärsimyksissä kärsimyksiin
+
+sisälmys sisälmyksen sisälmystä sisälmyksenä sisälmykseen sisälmysten sisälmyksiä sisälmyksinä sisälmyksissä sisälmyksiin
+
+demokraatti demokraatin demokraattia demokraattina demokraattiin demokraattien demokraatteja demokraatteina demokraateissa demokraatteihin
+
+suku suvun sukua sukuna sukuun sukujen sukuja sukuina suvuissa sukuihin
+
+osoitin osoittimen osoitinta osoittimena osoittimeen osoittimien osoittimia osoittimina osoittimissa osoittimiin
+
+askel askelen askelta askelena askeleen askelten askelia askelina askelissa askeliin
+
+säätö säädön säätöä säätönä säätöön säätöjen säätöjä säätöinä säädöissä säätöihin
+
+taitamattomuus taitamattomuuden taitamattomuutta taitamattomuutena taitamattomuuteen taitamattomuuksien taitamattomuuksia taitamattomuuksina taitamattomuuksissa taitamattomuuksiin
+
+kirjoitus kirjoituksen kirjoitusta kirjoituksena kirjoitukseen kirjoitusten kirjoituksia kirjoituksina kirjoituksissa kirjoituksiin
+
+tavaus tavauksen tavausta tavauksena tavaukseen tavausten tavauksia tavauksina tavauksissa tavauksiin
+
+tieteellisyys tieteellisyyden tieteellisyyttä tieteellisyytenä tieteellisyyteen tieteellisyyksien tieteellisyyksiä tieteellisyyksinä tieteellisyyksissä tieteellisyyksiin
+
+todistaja todistajan todistajaa todistajana todistajaan todistajien todistajia todistajina todistajissa todistajiin
+
+taituri taiturin taituria taiturina taituriin taitureiden taitureita taitureina taitureissa taitureihin
+
+tunkio tunkion tunkiota tunkiona tunkioon tunkioiden tunkioita tunkioina tunkioissa tunkioihin
+
+ajo ajon ajoa ajona ajoon ajojen ajoja ajoina ajoissa ajoihin
+
+tähde tähteen tähdettä tähteenä tähteeseen tähteiden tähteitä tähteinä tähteissä tähteisiin
+
+kielto kiellon kieltoa kieltona kieltoon kieltojen kieltoja kieltoina kielloissa kieltoihin
+
+syntyminen syntymisen syntymistä syntymisenä syntymiseen syntymisten syntymisiä syntymisinä syntymisissä syntymisiin
+
+vaikku vaikun vaikkua vaikkuna vaikkuun vaikkujen vaikkuja vaikkuina vaikuissa vaikkuihin
+
+valkama valkaman valkamaa valkamana valkamaan valkamojen valkamoja valkamoina valkamoissa valkamoihin
+
+tuomari tuomarin tuomaria tuomarina tuomariin tuomareiden tuomareita tuomareina tuomareissa tuomareihin
+
+syytös syytöksen syytöstä syytöksenä syytökseen syytösten syytöksiä syytöksinä syytöksissä syytöksiin
+
+pöhö pöhön pöhöä pöhönä pöhöön pöhöjen pöhöjä pöhöinä pöhöissä pöhöihin
+
+katsaus katsauksen katsausta katsauksena katsaukseen katsausten katsauksia katsauksina katsauksissa katsauksiin
+
+virvoke virvokkeen virvoketta virvokkeena virvokkeeseen virvokkeiden virvokkeita virvokkeina virvokkeissa virvokkeisiin
+
+luku luvun lukua lukuna lukuun lukujen lukuja lukuina luvuissa lukuihin
+
+vääryys vääryyden vääryyttä vääryytenä vääryyteen vääryyksien vääryyksiä vääryyksinä vääryyksissä vääryyksiin
+
+avioisuus avioisuuden avioisuutta avioisuutena avioisuuteen avioisuuksien avioisuuksia avioisuuksina avioisuuksissa avioisuuksiin
+
+yritys yrityksen yritystä yrityksenä yritykseen yritysten yrityksiä yrityksinä yrityksissä yrityksiin
+
+öljy öljyn öljyä öljynä öljyyn öljyjen öljyjä öljyinä öljyissä öljyihin
+
+järjestys järjestyksen järjestystä järjestyksenä järjestykseen järjestysten järjestyksiä järjestyksinä järjestyksissä järjestyksiin
+
+ajatelma ajatelman ajatelmaa ajatelmana ajatelmaan ajatelmien ajatelmia ajatelmina ajatelmissa ajatelmiin
+
+alkemia alkemian alkemiaa alkemiana alkemiaan alkemioiden alkemioita alkemioina alkemioissa alkemioihin
+
diff --git a/examples/uusisuomi/correct-Omat.txt b/examples/uusisuomi/correct-Omat.txt
index b940c747e..65bcdcd35 100644
--- a/examples/uusisuomi/correct-Omat.txt
+++ b/examples/uusisuomi/correct-Omat.txt
@@ -186,7 +186,7 @@ radio radion radiota radiona radioon radioiden radioita radioina radioissa radio
neliö neliön neliötä neliönä neliöön neliöiden neliöitä neliöinä neliöissä neliöihin
-sammakko sammakon sammakkoa sammakkona sammakoiden sammakoita sammakkoina sammakoissa sammakkoihin
+sammakko sammakon sammakkoa sammakkona sammakkoon sammakoiden sammakoita sammakkoina sammakoissa sammakkoihin
asia asian asiaa asiana asiaan asioiden asioita asioina asioissa asioihin
diff --git a/examples/uusisuomi/results.txt b/examples/uusisuomi/results.txt
new file mode 100644
index 000000000..e26fe7457
--- /dev/null
+++ b/examples/uusisuomi/results.txt
@@ -0,0 +1,34 @@
+Fri Jan 4 10:50:06 CET 2008
+aarne-rantas-computer:~/GF/examples/uusisuomi aarne$ export LEX=NSSK ; make -e
+
+NSSK
+ 52 diff1.txt
+ 36 diff2.txt
+ 28 diff3.txt
+ 21 diff4.txt
+
+Omat
+ 45 diff1.txt
+ 23 diff2.txt
+ 14 diff3.txt
+ 7 diff4.txt ruis, ainoa, vapaa, kirves, mies, kevät, sydän
+
+Dictionary
+(Aino Wuolle, Suomalais-englantilainen sanakirja, 11. painos WSOY 1973,
+ca. 24k Words)
+ 29 diff1.txt
+ 14 diff2.txt
+ 1 diff3.txt päitsi-päistä
+ 0 diff4.txt
+
+Duodecim
+ 20 diff1.txt
+ 8 diff2.txt
+ 3 diff3.txt
+ 1 diff4.txt kevät
+
+Aino
+ 7 diff1.txt
+ 2 diff2.txt
+ 0 diff3.txt
+ 0 diff4.txt