Glosar

  • atribut (imenovan tudi pozicijski atribut) lastnost pojavnic (besed ali ločil) v korpusu. Atributi so npr. beseda (tj. besedna oblika), oblikoskladenjska oznaka (oznaka z informacijo o besedni vrsti, spolu, sklonu ipd.), lema,  lema z besedno vrsto (lempos). Število atributov se opredeli pri vnosu korpusa v Sketch Engine. Na primer, pojavnica hiša bo imela sledeče atribute:
 beseda     lema   oznaka   lempos
   hiša     hiša       s    hiša-s
  • besedna skica: povzetek slovničnega in kolokacijskega obnašanja besede.
  • CQL (Corpus Query Language): vrsta iskanja z uporabo programskega jezika (uporabljamo za kompleksna iskanja).
  • distribucijski tezaver: avtomatično izdelani “tezaver”, ki poišče besede, ki se pojavljajo v podobnih kontekstih kot iskana beseda. Ne gre za ročno izdelani tezaver, ki vsebuje sinonime.
  • filter: funkcija, ki omogoča oblikovanje kriterij za omejitev zadetkov in zmanjšanje konkordančnega niza
  • grupiranje: grupiranje besed v tezavru ali besedni skici po podobnem kolokacijskem obnašanju.
  • iskani niz: beseda ali večbesedna zveza, ki jo iščemo v korpusu in po kateri je usredinjen konkordančni niz. Drugo poimenovanje je KWIC (Key Word In Context)
  • jakost (salience): statistična meritev jakosti povezave med iskano besedo in besedo, ki se pojavlja v njeni okolici.
  • ključne besede: besede, ki se v enem korpusu pojavljajo precej pogosteje kot v drugem.
  • kolokacija: besede, ki se pojavijo skupaj tako pogosto, da je statistično pomembno.
  • konkordančnik: program, ki prikazuje konkordančne nize.
  • konkordančni niz: vsi zadetki v korpusu za iskani niz.
  • korpus: zbirka besedil za preučevanje jezika.
  • KWIC (Key Word In Context): beseda ali besedni niz v srednjem stolpcu konkordančnega niza, ki se ujema z iskanim nizom.
  • lastnost besedil: vrsta informacije o dokumentih v korpusu (npr. leto, avtor, regija), ki ji včasih rečemo tudi polje v glavi (glej spodaj).
  • lc ali z_malo: beseda z malo začetnico, npr. “banka” je lc od “Banka”.
  • lema: osnovna oblika besede e.g. “cat” is the lemma for the word form “cats
  • lema-besedna_vrsta ali lempos: lema in kratica za besedno vrsto, npr. krona-s pomeni, da gre za samostalnik krona.
  • lema-z_malo ali lemma-lc: osnovna oblika besede z malo začetnico
  • metapodatki: drugo poimenovanje za polja v glavi oz. informacije o dokumentu v korpusu.
  • oznaka iskanega niza: oblikoskladenjska oznaka za iskano besedo ali besedni niz (ki se nahaja v sredini konkondančnega niza).
  • parameter SimpleMaths: gre za število, ki se uporablja pri izračunavanju ključnih besed. Če določimo nizko vrednost parametra, npr. 1, bo seznam vključeval redkejše ključne besede, če pa bo parameter imel višjo vrednost, bodo vključene samo pogostejše besede.  Podrobnejša razlaga (v angleščkem jeziku) je na voljo na  SimpleMaths.
  • podatki: lastnosti dokumenta (npr. leto, avtor, regija) ter podatki o lokaciji dokumenta v korpusu (zaporedna številka pojavnice, število besed v dokumentu). Izbrani podatki so prikazani na levi strani vsake konkordance, vrsto podatkov pa lahko določimo v Možnosti prikaza.
  • podkorpus: del podkorpusa z nekim skupnim imenovalcem, npr. vsemi dokumenti iz leta 2010. Podkorpus se lahko izdela v okviru funkcije Lastnosti besedil.
  • pojavnica: beseda ali ločilo v korpusu.
  • polja v glavi: različne informacijo o dokumentu, npr. leto objave ali avtor.
  • PRF: Povprečna Reducirana Frekvenca, varianta frekvenčnega seznama, ki ne šteje pojavitev iste besede, ki se pojavljajo skupaj, npr. v istem dokumentu.
  • privzeti atribut: atribut (npr. beseda ali oblikoskladenjska oznaka), ki je privzeta v iskanju CQL.
  • razpon: število besed na levi in/ali desni strani iskanega niza.
  • RE: kratica za regularni izraz.
  • regularni izrazi: izrazi, ki omogočajo iskanje besed z določeno skupno lastnostjo, npr. besede, ki vsebujejo določen niz črk. Tako pika (.) nadomesti kateri koli znak, pika zvezdica (.*) pa kateri koli niz znakov.
  • RE vzorec: funkcija na voljo v Seznamih, ki omogoča vpis iskanja z regularnim izrazom. Če nas npr. zanimajo vse besede, ki se začnejo načeš,vpišemo iskanje “češ.*” Znaka .* (pika zvezdica) nadomeščata kateri koli niz znakov.
  • skupna vrednost: (v besedni skici) – vrednost slovnične relacije (na podlagi statistične meritve logDice).
  • TBL ( Tick Box Lexicography): Kliksikografija, funkcija za leksikografske projekte, ki olajša izvoz informacij (kolokacij, zgledov ipd.) iz besednih skic.
  • tezaver: v orodju Sketch Engine se izraz “tezaver” uporablja za distribucijski tezaver (glej zgoraj), ki je izdelan z avtomatskim postopkom. Ne gre za ročno izdelani tezaver.
  • tokenizacija: avtomatski postopek, pri katerem so deli besedila razdeljeni v pojavnice.
  • uporabnikovi korpusi (user corpora): korpusi, ki jih izdela uporabnik, bodisi z naložitvijo lastnih podatkov ali s pomočjo orodja WebBootCat. Uporabniki lahko svoje korpuse delijo z drugimi uporabniki.
  • večnivojski seznam: seznam z več kot eno vrsto informacije o izbranem atributu, npr. lahko imamo seznam lem ter potem za vsako lemo še podatek o oblikoskladenjski oznaki, besedni vrsti ipd.
  • WebBootCat: orodje za izdelavo korpusov iz spleta. Na voljo v Sketch Enginu.