Korpora

GEROM beinhaltet spezialisierte Vergleichskorpora, die jeweils aus zwei Subkorpora (einem deutschen und einem italienischen) bestehen. Diese Subkorpora sind bezüglich ihres Umfangs (Anzahl der Texte/Wörter), der Vielfalt an Textsorten und Quellen analog aufgebaut und berücksichtigen zugleich die speziellen Anforderungen des jeweiligen Themenbereichs, den sie behandeln.

Textsorten und Quellen werden so ausgewählt, dass ein Gleichgewicht zwischen den verschiedenen Komponenten des Korpus auf einsprachigem und bilingualem Niveau sichergestellt ist. Bei fachspezifischen Themen werden die Quellen vor allem nach ihrer Qualität ausgewählt: Die Subkorpora enthalten daher repräsentative Texte aus dem entsprechenden Themenbereich, wie etwa juristische Texte, Texte aus Handbüchern oder der Populärkultur. Handelt es sich um ein soziopolitisches Thema, das die öffentliche Meinung polarisiert, werden die Quellen, in erster Linie journalistische Texte, nicht nur nach ihrer Texttypologie und ihrer Vertrauenswürdigkeit ausgewählt, sondern auch danach, dass möglichst ein Gleichgewicht zwischen den verschiedenen politisch-ideologischen Positionen, die zu dem Thema vertreten werden, gewährleistet ist. In beiden Fällen werden die Subkorpora in paralleler Weise aufgebaut.

Wie mittlerweile üblich, können spezialisierte Korpora auf manuelle sowie semiautomatische Weise erstellt. Innerhalb des GEROM-Projekts wird für die semiautomatische Textauswahl und -vorbereitung das Programm CorpusCreator eingesetzt.

Die Korpora erfüllen bei GEROM eine doppelte Funktion: Einerseits fungieren sie als Textgrundlage zur Festlegung typisch lexikalischer Elemente des gewählten Themenfeldes in der Ausgangs- und Zielsprache. Andererseits dienen sie als Datenquelle, die auf dynamische Weise den Informationsgehalt der terminologischen Einträge zu erhöhen vermag (Konkordanzen). Sowohl für die gesuchte Benennung als auch für seine Übersetzungen werden aus den Korpora Informationen extrahiert, die in der klassischen Key Word In Context-Form dargestellt werden und somit den Begriff in seinem Gebrauchskontext und seine Verbreitung innerhalb der Subkorpora anzeigen. Aus den Korpora werden außerdem statistische Informationen, wie z.B. die Verteilung, berechnet.