Rječnici
Rječnici su najveće komponente sustava za SP zbog količine informacija koje sadrže. Ako su više od obične liste
riječi (a trebali bi biti ako je sustav kvalitetno izveden) onda mogu biti i najskuplja komponenta kod izgradnje.
Više nego bilo koja druga komponenta, veličina i kvaliteta rječnika ograničava doseg (pokrivanje) sustava i kvalitetu
prevođenja koju možemo očekivati. Rječnici su gotovo uvijek jedini dio sustava gdje korisnik može nešto mijenjati,
oni moraju osigurati mogućnost dodavanja novih riječi kako bi ga sustav za SP učinili stvarno korisnim.
Papirnati rječnici
Obični, papirnati rječnici su u biti lista riječi s informacijom o različitim
svojstvima. Dok gramatička pravila definiraju sve moguće lingvističke strukture u jeziku, opis individualnih riječi
koje se mogu pronaći u rječnicima govori koja riječ se može pojaviti u nekoj od različitih struktura. Opće, iako ne
sasvim točno stanovište, je da rječnici sadrže sve individualne, nepravilne ili nepredvidive informacije o riječima,
dok gramatika osigurava općenita pravila o klasama riječi i frazama (to je jedino točno ako isključimo morfološka
(morfologija = grana gramatike koja proučava strukturu ili oblike
riječi) pravila i idiome
(idiom = niz riječi koji semantički funkcionira kao cjelina, a ima
nepredvidljivo značenje) iz rječnika - prva barataju klasama riječi, a potonji su fraze). Pravu predodžbu o
potrebnom obimu riječi steći ćemo ako kažemo da se za leksikon
(sinonim za rječnik)
za komercijalne svrhe 20 000 ulaza smatra minimumom. To je još uvijek skroman postotak postojećih riječi -
Oxford English Dictionary sadrži oko 250 000 unosa, a da još nisu iscrpljene riječi iz opće upotrebe.
Ustvari, niti jedan rječnik ne može nikada biti završen. Nove riječi se konstantno stvaraju, posuđuju iz drugih
jezika, koriste u novim rečenicama i formiraju normalnim morfološkim procesima.
Rječnici i morfologija
Morfologija se bavi unutrašnjom strukturom riječi i time kako se riječi
mogu formirati. Obično razlikujemo tri različita procesa formiranja riječi:
- procesi infleksije (sklanjanja) - kod kojih riječ doživljava neke gramatičke promjene (u broju, licu, padežu), ali zadržava isti govorni dio ili kategoriju (npr. eng. walk, walks);
- derivacijski procesi (procesi izvođenja) u kojima se riječ različite kategorije izvodi iz druge riječi ili korijena riječi primjenom nekih procesa (npr. eng. grammar-grammatical, grammatical-grammaticality);
- sastavljanje, u kojem nezavisne riječi na neki način dolaze zajedno kako bi stvorile novu cjelinu (npr. eng. buttonhole).
U engleskom jeziku procesi infleksije i derivacijski procesi uključuju prefikse (kao u undo)
i sufikse (kao u stupidity) i ono što zovemo konverzijom, ili eng. zero-affixation gdje
postoji promjena kategorije, ali nema promjene forme (primjer bi bio proces koji povezuje imenicu button s
glagolom). Naravno, prefiksi i sufiksi (zajedno zvani afiksi) ne mogu samostalno stajati kao riječi. Kod sastavljanja
je drukčije jer dijelovi mogu svaki dolaziti kao pojedinačne riječi. Sastavljanje je vrlo produktivan fenomen u
germanskim jezicima, ali donosi neke posebne probleme u SP.
Terminologija
Kada riječ (ili kolekcija riječi u više jezika) tvori jedan koncept, ona se zove termin. Primjeri termina uključuju
imena materijalnih objekata, ali i apstraktnih entiteta (procesa, svojstava, funkcija itd). Koncepti, i odatle
pridruženi termini, mogu biti organizirani u konceptualne strukture, temeljene na vezi koja postoji između njih. Npr.
stolovi, stolice, kuhinjski ormari itd. mogu biti grupirani u namještaj, s posebnom podjelom na kućni
namještaj i uredski namještaj. Termini mogu biti jednostavne riječi ili izrazi koji se sastoje od više
riječi. Sintaktički
(sintaksa = gramatičko pravilo koje određuje načine na koje se
kombiniraju riječi da tvore rečenice i fraze u jeziku), termini se ne razlikuju od običnog jezika iako imaju
jaku tendenciju da budu imenice, često složene imenice.
Još jedan često korišten termin kod rječnika za SP je banka termina. Banke termina su u osnovi baze podataka
koje sadrže više tisuća unosa, po jedan za svaki termin. Ti se unosi sastoje, kao i unosi u rječniku, od nekoliko
polja, ali tip informacije dan u tim poljima je bitno drugačiji od onoga kojeg nalazimo u običnom rječniku. Djelomično
je to tako stoga što pravilna dokumentacija termina zahtijeva specifičnu informaciju o porijeklu unosa, o tome kada je
kreirana i kada modificirana. Druga informacija bi se tipično ticala povezanih termina (sinonima, antonima, kratica,
nadređenih termina i hiponima), područja (npr. geologija) i izvora i daljnjih informacija (npr. specijalizirani
rječnici). S druge strane, informacija o gramatičkim svojstvima i izgovoru je obično nedovoljna. To je djelomično zbog
toga što su termini vrlo često nove riječi ili riječi posuđene iz drugih jezika, i obično slijede regularna morfološka
pravila jezika. Slično tome, manjak fonoloških
(fonologija = grana lingvistike koja proučava zvučne sustave jezika;
fonološka pravila opisuju uzorke različitih zvukova koji se koriste u jeziku, a fonologiste zanima što tvori moguće
zvučne sustave prirodnog jezika) informacija nastaje dijelom stoga što su unosi orijentirani na pisani
materijal, ali i stoga što se očekuje da će riječi biti fonološki pravilne (slijedit će pravila koja se odnose na jezik
ili pravila koja se primjenjuju na posuđene riječi).
Osim kućnih banaka termina koje su vezane za pojedinu organizaciju, postoji veliki broj banaka termina koje nude
slobodan pristup (ponekad uz malu naknadu). Primjeri su: Eurodicautom (European Commission),
Termium (kanadska vlada), Normaterm (French standards organization) i Frantext
(National Institute of the French Language), koje nude širok raspon terminoloških područja uključujući
znanost, tehnologiju, administraciju, poljoprivredu, medicinu, pravo i ekonomiju. Osiguranje jasnog i konzistentnog
korištenja i prevođenja terminologije, značajan je faktor u procesu prevođenja, koji najčešće u tehničkim domenama
zahtijeva stvaranje i održavanje banaka termina - što je skup i vremenski zahtjevan posao.