Orðgreypingar og gagnasöfn

Þessi vefur hýsir gagnasöfn sem meta getu líkana sem byggja á orðgreypingum til þess að greina merkingarfræði og orðhlutafræði íslensku, auk forþjálfaðra greypinga sem hafa verið metnar með téðum gagnasöfnum.

Gagnasöfnin MSL og IceBATS eru byggð á alþjóðlegum stöðlum. Þau hafa verið staðfærð og aðlöguð að íslensku máli.

Greypingarnar byggja á þremur ólíkum aðferðafræðum - word2vec, fastText og GloVe - og hafa verið þjálfaðar bæði á lemmuðum og ólemmuðum gögnum úr Risamálheildinni (RMH), markaðri málheild sem ætluð er meðal annars fyrir málfræðilegar rannsóknir.

Um MSL

MSL gagnasafnið frá okkur má hala niður hér.

MSL, sem er skammstöfun fyrir Multi-SimLex, er matsaðferðafræði og samsvarandi gagnasafn sem mælir merkingarfræðileg líkindi orða. MSL í sinni upprunalegu mynd byggir á ýmsum vel þekktum eldri gagnasöfnum, sér í lagi SimLex-999, og hefur þegar verið gefið út fyrir fjölda annarra tungumála.

Lokaútfærsla MSL hverju sinni samanstendur af lista 1.888 innbyrðis óraðaðra orðapara, þar sem hverju orðapari fylgir orðflokkamerking og rauntölueinkunn sem gefur til kynna hversu merkingarfræðilega lík orðin eru. Einstaka pör í gagnasafninu okkar samanstanda af fjölyrtum færslum, í þeim tilvikum þegar engin fullnægjandi einyrt þýðing stóð til boða.

Hafa ber í huga að MSL er ekki ætlað að mæla tengsl orða. Sem dæmi má nefna að andheiti eru sannarlega tengd á málfræðilegan hátt en merking þeirra er gjörólík. Með öðrum orðum eru orð eins og „svart“ og „hvítt“ nátengd, enda vísa þau bæði til lita, en merking þeirra er ólík og myndu þau því fá lága einkunn sem MSL orðapar.

Teymi einkunnagjafa ákvarðar líkindaeinkunnina án þess að ráðfæra sig hver við annan. Einkunnagjafarnir gefa hverju pari einkunn á bilinu 0 til 6 eftir því hversu merkingarfræðilega lík orðin eru, þar sem 0 táknar lægstu mögulegu líkindi þeirra á milli og 6 þau hæstu. Óunnin einkunnasöfn eru svo metin og síuð út frá því hversu samkvæm þau eru hvort öðru að meðaltali, gegnum svokallaða APIAA (average pairwise inter-annotator agreement) og AMIAA (average mean inter-annotator agreement) stuðla. Í því ferli eru einkunnasöfn frá stökum einkunnagjöfum fjarlægð í heild sinni, þangað til að annað hvort hámarks samkvæmni eða lágmarksfjölda einkunnasafna er náð.

Samkvæmniseinkunnir upp á 0,600 og hærra gefa til kynna „sterka samkvæmni“ fyrir bæði APIAA og AMIAA. Meðaltal APIAA einkunna fyrir fyrri MSL söfn á öðrum tungumálum er 0,631 en hið íslenska MSL safn fær einkunnina 0,690. Að sama skapi er meðaltal fyrri AMIAA einkunna 0,740 en íslenska MSL safnið fær 0,799.

Eins og imprað var á í upphafi þessa hluta má nálgast lokaútgáfu íslenska MSL gagnasafnsins hérna. Hver lína safnsins samsvarar einu stöku pari úr MSL og inniheldur fjórar færslur sem aðskildar eru með línuhliðrun („tab“). Í lesröð eru þær: Fyrra orð parsins; seinna orð parsins; meðaltal þeirra einkunna sem eftir stóðu í einkunnasafni eftir APIAA síun; og hið sama meðaltal staðlað á 0-til-1 span. Í fjölyrtum færslum eru stök orð aðskilin með einu bili.

Til viðbótar má sækja sérstakan lista [HÉRNA] sem inniheldur upphaflegu orðapörin á ensku og orðflokka þeirra, samhliða íslenskum þýðingum paranna. Þessi tiltekni listi er ætlaður einungis til hliðsjónar. Hann inniheldur engar einkunnir og var ekki beitt til að meta greypingarnar.

Um IceBATS

IceBATS gagnasafnið okkar má nálgast hér.

IceBATS er íslensk útgáfa BATS eða Bigger Analogy Test Set. Tilgangur BATS er að meta gæði orðgreypinga með notkun hlutfallsjafna (analógíu) sem sýna fram á getu orðgreypingalíkans til að fanga ýmiskonar merkingarfræðileg og orðhlutafræðileg tengsl orðapara með notkun vigrafjarlægðaraðferðar. Hlutfallsjafna í þessu samhengi felur í sér að tvö orðapör, (a:b) og (c:d), eru álitin hafa samskonar tengingu. Frægt dæmi um slíka tengingu er (maður:kona) og (kóngur:drottning). Ef orðgreypingarnar hafa verið þjálfaðar á réttan hátt ætti vigrafjarlægðin á milli A og B að vera jöfn fjarlægðinni á milli C og D. Með öðrum orðum er d = c - a + b, eða eins og í dæminu hér fyrir ofan, drottning = kóngur - maður + kona. Fjarlægðin í vigurrýminu fangar merkingarfræðilegu tengslin.

Prófunarsettið inniheldur 98.000 hlutfallsjöfnur sem taka á fjórum meginþáttum: hvað orðhlutafræði snertir eru beygingarfræði og afleiðsla/samsetning tekin fyrir en hvað merkingarfræði varðar eru það orðabókartengsl og alfræðileg tengsl. Hverjum meginflokki er skipt upp í 10 undirflokka og hver þeirra inniheldur 50 orðapör. Orðapörunum í orðhlutafræðilegu flokkunum var safnað með það í huga að minnka tvíræðni eins og kostur er á svo orð sem geta verið af fleiri en einum orðflokki er sleppt (t.d. ganga sem getur hvort tveggja verið nafnorð og sagnorð). Merkingarfræðilegu flokkarnir innihalda fleiri en eitt rétt svar þar sem það á við en það er til dæmis mikilvægt þegar um yfirheiti og undirheiti er að ræða.

Uppsetning IceBATS er eins og í upprunalega settinu með smávægilegum breytingum þar sem það á við. Breytingarnar eru venjulega vegna þess hve enska og íslenska eru ólík tungumál í uppbyggingu.

Beygingarfræði Afleiðsla og samsetningar Orðabókartengsl Alfræðileg tengsl
Nafnorð I01 eintala, nf-ef (maður - manns) Aðskeyti bætt við D01 ó lýsingarorð (skemmtilegur - óskemmtilegur) Yfirheiti L01 dýr (hundur - gæludýr/spendýr) Landafræði E01 land - höfuðborg (Ísland - Reykjavík)
I02 eintala, greinir (veður - veðrið) D02 aðal nafnorð (leikkona - aðalleikkona) L02 ýmislegt (tölva - tæki/tækni) E02 land - tungumál (Kanada - enska/franska)
I03 fleirtala, greinir (dætur - dæturnar) D02 a sagnorð (hopp - hoppa) hyponyms L03 ýmislegt (poki - bakpoki/plastpoki) E03 Icelandic bær - íbúi (Reykjavík - Reykvíkingur
I04 nefnifall, eintala-fleirtala (félag - félög) Beygingarendingu hent, aðskeyti bætt við D04 andi nafnorð (eiga - eigandi) Hlutheiti L04 ýmislegt (andrúmsloft - súrefni/vetni) E04 land - íbúi (Spánn - Spánverji
Lýsingarorð I05 stigbreyting karlkyn (veikur - veikari) D05 ing nafnorð (dreifa - dreifing) L05 meðlimur (hreindýr - hjörðhópur) Fólk E05 þjóðerni (Beethoven - þýskur/austurrískur
I06 stigbreyting kvenkyn (grunn - grynnri) D06 legur lýsingarorð (nauðsyn - nauðsynlegur) L06 hluti (horn - hreindýr/hrútur) E06 starfsheiti (Laxness - rithöfundur/skáld)
I07 stigbreyting hvorugkyn (nýtt - nýrra) Stundum hljóðbreyting í stofni D07 na sagnorð(unninn - vinna) Samheiti L07 styrkleiki (reiður - gramur/heiftugur) Dýr E07 afkvæmi (hestur - folald/fyl)
Sagnorð I08 nafnháttur - fsh eintala þátíð (fara - fór) D08 ari nafnorð (dæma - dómari) L08 nákvæmt (drengur - piltur/sveinn) E08 hljóð (kýr - baula)
I09 nafnháttur - lýsingarháttur þátíðar D09 ingur nafnorð (andstaða - andstæðingur) Andheiti L09 styrkleiki (ódýr - dýr/ómetanlegur) Ýmislegt E09 fyrirbæri - litur (blóð - rauður/djúprauður)
I10 lýsingarháttur þátíðar-frsh eintala þátíð (farið - fór) D10 ja sagnorð (varinn - verja) L10 nákvæmt (hvítur - svartur) E10 karlkyns - kvenkyns (leikari - leikkona)

Greypingarnar

Við þjálfuðum greypingar út frá þremur aðferðafræðum: word2vec, fastText og GloVe.

Greypingar byggðar á word2vec má nálgast [HÉRNA].

Greypingar byggðar á fastText má nálgast [HÉRNA].

Greypingar byggðar á GloVe má nálgast [HÉRNA].

Forritskóðinn

Forritskóða til þjálfunar og mats á word2vec má nálgast hér, fastText hér og GloVe hér.

Öll forrit voru skrifuð á Python og keyrð á Ubuntu með Python 3.6. Við mælum eindregið með að notendur lesi allar athugasemdir innan kóðans. Vissir valkostir - til dæmis að hlaða forþjálfaðar greypingar frekar en að þjálfa þær frá grunni - gætu reynst notadrjúgir, en þeim verður einungis beitt ef réttar forritslínur eru virkjaðar handvirkt.

Hvert þessarar forrita framkvæmir sömu tvö verkin: Þjálfun greypinga með viðkomandi aðferðafræði, og í kjölfarið eru gæði greypinganna metin með notkun MSL og IceBATS. Til að forðast minnistengd vandamál reyna forritin gjarnan að hlaða einungis í minni orðvigrunum sjálfum, frekar heldur en greypingarlíkönunum í heild sinni.

Þjálfunarferlið leyfir notandanum að skilgreina ýmsar stillibreytur, auk þess að velja milli þess að þjálfa greypingar frá grunni eða að hlaða orðvigrum frá forþjálfuðum greypingum.

Matsferlið beitir MSL og IceBATS runubundið innan í einu stöku falli. Notandanum er óhætt að gera aðra hvora matsaðferðina óvirka og keyra einungis þá sem hentar hverju sinni.

Að auki má nefna að MSL matskóðinn beitir og tvinnar saman ýmsum ólíkum eftirvinnsluaðferðum. Hver slík eftirvinnsluaðferð er vel afmörkuð innan kóðans, og hægt er að gera þær óvirkar eftir þörfum.

Notkunarleiðbeiningar

Eins og getið var að ofan krefst greypingarferlið sérútbúinna gagna frá Risamálheildinni (RMH). Hrá gögn RMH má nálgast á CLARIN-IS vefnum og kóðinn til að útbúa þau fyrir þjálfun greypinga er staðsettur hér.

Fyrir fastText og word2vec er allt þjálfunar- og matsferlið fólgið í keyrslu staks Python forrits. Fyrir GloVe þarf aftur á móti að keyra Bash skriftu (sem einnig inniheldur stillingarbreytur þjálfunarferlisins), sem keyrir svo sjálfkrafa Python forrit í kjölfarið.

Við notumst við Gensim forritspakkann fyrir Python sem þarf að setja upp í útgáfu 4.0.0b eða hærra, en ekki í útgáfu 3.x eða lægra.

Allar inntaksskrár skal vista í sömu möppu og Python forritskóðann sem kallar á þær. Allar úttaksskrár verða sjálfkrafa skrifaðar í þá möppu.

Stillingarbreytur greypinga sem fylgja kóðanum eru þær sem við notuðum í þjálfun greypinganna. Við hvetjum notendur til að prófa kóðann með ýmsum gildum breyta en tökum fram að sum gildi vissra stillingarbreyta gætu haft samvirkandi áhrif við tölvubúnaðinn sem keyrir kóðann og að of viðamiklar breytingar á þeim gætu leitt til minnisvanda eða óstöðugleika í keyrslu.

Fólkið á bak við verkefnið

Eftirfarandi aðilar hafa unnið að verkefninu:

Hjalti Daníelsson, verkefnastjórn, hugbúnaðarþróun, gagnasöfnun og þýðingar
Steinunn Rut Friðriksdóttir, verkefnastjórn, hugbúnaðarþróun, gagnasöfnun og þýðingar
Steinþór Steingrímsson, verkefnastjórn
Einar Freyr Sigurðsson, gagnasöfnun
Hildur Hafsteinsdóttir, gagnasöfnun
Þórdís Dröfn Andrésdóttir, gagnasöfnun og þýðingar
Þórður Arnar Árnason, gagnasöfnun og þýðingar
Gunnar Thor Örnólfsson, gagnasöfnun

Einnig kunnum við einlægar þakkir öllum þeim sjálfboðaliðum sem tóku þátt í einkunnagjöf MSL gagnanna.

Leyfi og tilvísanir

Allt efni á þessum vef - þar með talið greypingar, gagnasöfnin og samsvarandi forritskóði - er gefið út með CC BY 4.0 leyfi og hið sama gildir um RHM

IÞegar notast er við greypingarnar, gagnasöfnin eða forritskóðann í rannsóknum eða til birtingar skal vísa í CLARIN síðu verkefnisins, sem og í þennan vef:

[TILVÍSUN Í CLARIN REPOSITORY]
[TILVÍSUN Í ÞESSA VEFSÍÐU?]

Til viðbótar er mælt með að vísað sé í eftirfarandi greinar eftir því sem við á:

[TILVÍSUN Í ICEBATS GREIN]
[TILVÍSUN Í MSL GREIN]

Samstarf og fjármögnun

Vinna við greypingarnar og gagnasöfnin fór fram hjá Stofnun Árna Magnússonar í íslenskum fræðum og var fjármögnuð af ríkisstjórn Íslands og Máltækniáætlun fyrir íslensku 2019-2023.