Corpora

GEROM integra al suo interno corpora specializzati bilingui e comparabili, ognuno dei quali è composto da due subcorpora (uno italiano e uno tedesco). Compatibilmente con le esigenze specifiche del tema di cui vogliono essere rappresentativi, essi presentano una composizione analoga in termini di dimensioni (numero di testi/parole), varietà di tipologie testuali incluse e fonti.

Queste ultime sono selezionate in modo da assicurare un equilibrio tra le varie componenti che formano il corpus, a livello monolingue e bilingue. Nel caso di temi di natura tecnico-specialistica, la selezione delle fonti avviene soprattutto sulla base di valutazioni di tipo qualitativo: i subcorpora comprenderanno pertanto testi tipici del dominio preso in esame, quali fonti legislative, manualistica o materiale divulgativo. Affrontando un tema socio-politico, in grado di polarizzare l’opinione pubblica, le fonti, in primis quelle di carattere giornalistico, vengono selezionate non solo in base alla tipologia testuale e al grado di affidabilità, ma anche in modo da bilanciare l'eventuale presenza di orientamenti politico-ideologici divergenti in materia. In entrambi i casi i subcorpora vengono costruiti in modo speculare.

Secondo prassi ormai consolidate in linguistica dei corpora, lessicografia così come nell’abito della traduzione professionale, la selezione dei testi che costituiscono i corpora specializzati comparabili può avvenire in modalità completamente manuale o semiautomatica. All’interno del progetto GEROM le attività di raccolta semiautomatica dei testi avvengono mediante CorpusCreator, un programma gratuito per la creazione di corpora da Internet.

In GEROM i corpora svolgono una duplice funzione: da un lato fungono da base testuale per l’individuazione degli elementi lessicali tipici del dominio di interesse nella lingua di partenza e nella lingua d’arrivo; dall’altro, da base di dati che consente di estendere in modo dinamico il livello di informatività delle schede terminologiche. Sia per il termine ricercato che per i traducenti vengono infatti estratte dai corpora informazioni, visualizzabili nella classica forma delle KWiC, quali il contesto d’uso e la distribuzione all’interno dei subcorpora.