Pojdi na vsebino

WordNet

Iz Wikipedije, proste enciklopedije

WordNet je semantični leksikon angleškega jezika, ki so ga pod nadzorom Georgea A. Millerja pričeli razvijati že leta 1985 na Univerzi Princeton v ZDA, njihov oddelek za kognitivne znanosti pa to zbirko angleških besed tudi danes redno posodablja. Podatkovno bazo, ki vsebuje že preko 150.000 besed, lahko uporabniki brezplačno namestijo na računalnik ali pa uporabljajo kar internetno različico.

Namen ustvarjalcev WordNeta je bil ustvariti kombinacijo slovarja in tezavra, ki bi omogočala tudi analizo besedila in bila tako še bolj koristna za uporabnike. WordNet je namreč zasnovan tako, da deli angleške besede na sklope sinonimov, ki se imenujejo synseti (slovensko: sopomenski nizi), ter nudi njihove kratke, bolj splošne razlage ter opisuje semantično povezanost med samimi nizi sinonimov.

Razmerja med besedami

[uredi | uredi kodo]

WordNet razlikuje med samostalniki, glagoli, pridevniki in prislovi, razmerja med synseti pa so običajno označena kot:

Samostalnik

[uredi | uredi kodo]
  • hipernim: Y je hipernim od X, če je vsak X vrsta Y (mesojedec je hipernim psa)
  • hiponim: Y je hiponim X, če je vsak Y vrsta X (pes je hiponim mesojedca)
  • kohiponim: Y je kohiponim X, če imata X in Y isti hipernim (volk je kohiponim psa in pes je kohiponim volka)
  • holonim: Y je holonim X, če je X del Y (stavba je holonim okna)
  • meronim: y je meronim X, če je Y del x (okno je meronim stavbe)

Glagol

[uredi | uredi kodo]
  • hipernim: glagol Y je hipernim glagola X, če je X vrsta Y (potovati je hipernim glagola gibati se)
  • troponim: glagol Y je troponim glagola X, če glagol Y na neki način opisuje glagol X – Y je vrsta glagola X (šepetati je troponim glagola govoriti)
  • vsebovanost (entailment): glagol X vsebuje glagol Y, če je glagol X nujen pogoj za glagol Y (glagol spati vsebuje glagol smrčati; prvi je pogoj za drugega)
  • kohiponim: glagoli, ki imajo enak hipernim (glagola šepetati in kričati, ki imata skupen hipernim – glagol govoriti)

Pridevnik

[uredi | uredi kodo]
  • pridevniki, ki izvirajo iz samostalnikov (hišni prag – pridevnik hišni, ki izvira iz samostalnika hiša)
  • deležniki (pojoča deklica)

Poleg že opisanih razmerij med posameznimi leksemi, lahko leksemom določimo tudi druga leksikalna razmerja (npr. antonimija ali protipomenskost).

WordNet omogoča tudi prepoznavanje polisemije. Prepoznavanje določenega pomena sicer ni enako človeškemu prepoznavanju pomena, vendar pa s pomočjo statističnih podatkov lahko ugotovimo, kateri pomen je najpogosteje uporabljen. Podatkovna baza omogoča štetje sopomenskih nizov, v katerih se določena beseda pojavlja. Ko program obdela vse leksikalne podatke, ki so shranjeni v podatkovni bazi (lema, koren besede ipd.), lahko poda informacije o pogostosti uporabe leksema s točno določenim pomenom.

[uredi | uredi kodo]

Poleg tega obstajajo razne (tudi domenske) klasifikacije. Tako posamezne synsete vežejo v domene (na Slovenskem so to npr. področja). Znotraj WordNeta (Princeton) obstaja nekaj vrhnjih konceptov, ki jih praviloma vsi WordNeti dosledno »prenesejo«. Praviloma to niso uporabne zadeve za običajne potrebe. Gre za neke vrste synsete, ki so neodvisni od posameznih jezikov in so (lahko) osnova za »domenske« WordNet-e, ki se razvijajo v zadnjem času. Namreč, ena glavnih kritik WordNet-a je to, da preveč podpira uporabo oz. pomene splošnega jezika, nič pa posamezno domensko specifičnih potreb, slenga ipd. Tako marsikdo širi lastne nacionalne WordNete s temi dodatki. – Vzporedno z besedno »ontologijo«, kot jo po navadi imenujemo, se razvijajo tudi domensko specifični koncepti (oz. področja znotraj domen), ki so povezana z izvornim WordNet-om. Seveda so bolj specifična področja zapostavljena. Tako so WordNet Domains nastala v okviru WordNet-a, druga pa so lastniška, npr. SUMO (sprejeta znotraj IEEE), ki so povezana z WordNet-om (Princeton-ovim). SUMO predstavljajo vrhnja področja; MILO, ki je njegovo dopolnilo pa področja »pod njim«. Prva so domensko neodvisna, druga pa že bolj domensko vezana. To odpira možnosti podpore novim fukcionalnostim. Za uporabo slednjih je potrebno kupiti licenco.

Zgodovina in trenutno stanje

[uredi | uredi kodo]

Sredi 90-ih je nastal projekt EuroWordNet, kar je bil prvi poskus prenesti oz. razširiti WordNet v druge jezike. Danes koordinira različne WordNete organizacija GlobalWordNet. Relacije med synseti različnih jezikov pa zagotavlja indeks ILI (interlanguage index). Obstajata dva pristopa (modela): »expand« in »merge«. Pri prvem gre za takojšnjo pouporabo referenčnega obstoječega WordNet-a in prenos synsetov (preko dvo- in enojezičnih slovarjev) v želeni jezik, za katerega se razvija WordNet. Pri drugem pa gre za »neodvisen« razvoj WordNet-a. Pri tem se razvijejo jezikovno specifični sopomenski nizi od začetka in se šele v zadnji fazi poiščejo vzporednice z drugimi WordNeti. Prvi pristop je hitrejši in lažji, če so na voljo ustrezni kakovostni slovarji. Na ta način je nastal BalkaNet, podobno tudi slovenski WordNet. Slednji je bil ustvarjen na osnovi srbskega WordNeta, le-ta pa je nastal v okviru BalkaNeta, pri katerem so sodelovale Grčija, Turčija, Romunija, Bulgarija, Srbija in Češka.

Motivacija

[uredi | uredi kodo]

Motivator razvoja je za vladne agencije zmeraj bil potencial uporabe pri samodejnem večjezičnem prevajanju. Morda neodvisno od tega so na voljo nacionalni korpusi besedil, kot tudi vzporedni korpusi (ki so natačno prevedeni). V praksi (tudi pri BalkaNet-u) se je uporabil največkrat pri dopolnitvi IR-ja (information retrieval), kjer se uporabi konceptualni način (tudi pri kategorizaciji), vendar je to posebej povezano s kakovostjo posameznega WordNeta in dodatnih nacionalnih značilnosti.

Primerjava nekaterih WordNetov

[uredi | uredi kodo]

Izvorni WordNet ima v rangu 100.000 synsetov (pomenov), češki kakih 30.000, vsi ostali iz BalkaNeta pa neprimerno manj: ranga 20.000 grški, turški, romunski in bolgarski. Izrazito izstopa srbski, ki ima samo 8.000. Dve tretjini le‑tega je »prenesenih« tudi v slovenskega. V slovenščino je prenesenih približno 1.500 iz BCS (vrhnji koncepti, ki so nekako neodvisni od jezika) in 3.500, ki spadajo v BCS 2 glede na srbski WordNet (najpogostejše besede v korpusu). To je še občutno premalo za resno delo.

Pomanjkljivost

[uredi | uredi kodo]

Pomanjkljivosti WordNeta, da ni »prava« ontologija (čeprav je čedalje več primerov, da se pač uporabi WordNet tako »kot je«), so npr., da niso ločeni primerki in razredi (da nekaj »je«, in da nekaj samo »spada« k: hm, npr. kuža Lord je pes, ovčar pa je podzvrst psov – to je tipična napaka pri gradnji taksonomij, saj se ti dve zadevi nehote enačita).

Pojmi

[uredi | uredi kodo]

Večina WordNetov ima po zgledu izvornika za vsak synset podane tudi gloss-e, ki vključujejo definicijo in primere uporabe posameznih besed znotraj synseta. Podobno najdemu tudi pri slovarju Wordsmyth (http://www.wordsmyth.net/). Besedam (znotraj synseta) rečemo literali (lahko so tudi večbesedne zveze). WordNet pokriva tako semantiko kot tudi sintaktične lastnosti besed.

Povezave

[uredi | uredi kodo]