Home > terminology > Greek in IATE

Greek in IATE

I have spent a considerable amount of time looking up and evaluating the Greek entries in IATE. You can read an extensive review entitled QA and optimization of the Greek entries in the IATE tbx export. Feel free to comment here.

Abstract (English)

In 25/06/2014 the European Union made available the IATE multilingual termbase in termbase exchange (TBX) format. The download file contains about 8 million terms in 24 official EU languages. A custom script was used to transform the tbx file to tab-delimited format (tsv) and then a number of QA checks were applied to the Greek content of the termbase.

Abstract (Greek)

Στις 25/06/2014 η Ευρωπαϊκή Ένωση έκανε διαθέσιμη την ορολογική βάση ΙΑΤΕ σε μορφή TBX. Το αρχείο λήψης περιέχει περίπου 8 εκατομμύρια όρους σε 24 επίσημες γλώσσες της ΕΕ. Χρησιμοποιήθηκε ένα πρόγραμμα που αναπτύχθηκε ειδικά για αυτή την εργασία για να μετατρέψει το αρχείο TBX σε μορφή οριοθετημένη με στηλοθέτες (TSV) όπου για κάθε γλώσσα υπήρχαν δύο στήλες, μία για την πλήρη μορφή και μία για τις βραχυγραφίες. Στη συνέχεια πραγματοποιήθηκε μια σειρά από ελέγχους διασφάλισης ποιότητας στο ελληνικό περιεχόμενο της Βάσης. Η αξιολόγηση ήταν διττή. Πρώτον σε επίπεδο τεχνικό (στο οποίο δίνεται έμφαση στην παρούσα εργασία) και δεύτερον σε επίπεδο λεξικογραφικό. Εντοπίστηκε μια σειρά προβλημάτων όπως: μη έγκυρη xml, χρήση λατινικών ισοδύναμων χαρακτήρων αντί για ελληνικών σε ελληνικές λέξεις, μη συνδυασμένα διακριτικά (π.χ. τόνος εκτός γράμματος), ορθογραφικά σφάλματα, εσφαλμένος ή μη τονισμός, χρήση κεφαλαίων χωρίς λόγο, εσφαλμένη οριοθέτηση των όρων (χρησιμοποιώντας διάφορους χαρακτήρες όπως κάθετο, αριθμούς, αλφαβητικούς χαρακτήρες, ελληνικό ερωτηματικό, άνω τελεία, απόστροφο, κουκκίδα, διαζευκτικό «ή»), εσφαλμένη χρήση στίξης, κατεστραμμένοι χαρακτήρες, αποδόσεις πολυλεκτικών όρων που κόβονται στη μέση, χρήση ξενόγλωσσου όρου στο πεδίο της ελληνικής απόδοσης, παρενθετική παράθεση ξενόγλωσσου όρου ή ξενόγλωσσης/ελληνικής βραχυγραφίας στο πεδίο της ελληνικής απόδοσης πλήρους μορφής, παράθεση πλήρους μορφής στο πεδίο βραχυγραφίας και το αντίθετο, χρήση ετικετών html εντός του κειμένου, χρήση ετικετών θεματικού πεδίου και μέρους του λόγου στο πεδίο της απόδοσης, γραμματικές παραλλαγές στο πεδίο της απόδοσης με τη μορφή «-ή, -ό» κ.ά. Έγινε μια απόπειρα συστηματοποίησης των διαδικασιών διόρθωσης κάποιων σφαλμάτων με τη δημιουργία πινάκων εύρεσης/αντικατάστασης και λογικών εκφράσεων. Για ένα μεγάλο αριθμό προβληματικών όρων, όπου δεν ήταν δυνατή η συστηματοποίηση των αλλαγών, έγινε επιμέλεια και παρουσιάζονται σε δίστηλη μορφή με τον αρχικό και τον τροποποιημένο όρο. Επίσης, έγινε μια επισκόπηση των δυνατοτήτων αξιοποίησης της Βάσης σε εργαλεία μεταφραστικού περιβάλλοντος και των δυσκολιών που προκύπτουν αφενός από το ευμέγεθες του αρχείου και αφετέρου από τα προαναφερθέντα σφάλματα.
(Σημείωση: Εργασία με τίτλο «Ποιοτικός έλεγχος των ελληνικών αποδόσεων στην ορολογική βάση ΙΑΤΕ» παρουσιάστηκε στην 5η Συνάντηση Ελληνόφωνων Μεταφρασεολόγων, τον Μάιο του 2015. Αρχείο παρουσίασης μπορείτε να βρείτε εδώ.)

Advertisements
Categories: terminology Tags: , , ,
  1. No comments yet.
  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: