Προορίζονται για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης
Το Πανεπιστήμιο Harvard, αναγνωρίζοντας τη μεταβαλλόμενη δυναμική στον τομέα της τεχνητής νοημοσύνης, ανακοίνωσε μια πρωτοποριακή πρωτοβουλία. Μέσω του νεοσύστατου Institutional Data Initiative, το πανεπιστήμιο διαθέτει ένα εκατομμύριο βιβλία για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, με την υποστήριξη κολοσσών όπως η Microsoft και η OpenAI.
Η συλλογή, που προέρχεται από ψηφιοποιήσεις του Google Books, περιλαμβάνει έργα των οποίων τα πνευματικά δικαιώματα έχουν λήξει. Το περιεχόμενο καλύπτει ένα εντυπωσιακό εύρος, από κλασικά αριστουργήματα των Shakespeare, Dickens και Dante μέχρι εξειδικευμένα τσεχικά εγχειρίδια μαθηματικών και ουαλικά λεξικά τσέπης.
Η πρωτοβουλία έρχεται σε μια κρίσιμη στιγμή για τον κλάδο της τεχνητής νοημοσύνης. Τα θεμελιώδη γλωσσικά μοντέλα, όπως το ChatGPT, απαιτούν τεράστιους όγκους ποιοτικού κειμένου για την εκπαίδευσή τους. Όσο περισσότερες πληροφορίες επεξεργάζονται, τόσο καλύτερα αποδίδουν στη μίμηση ανθρώπινης συμπεριφοράς και στην παροχή γνώσεων.
Ωστόσο, η αυξανόμενη ανάγκη για δεδομένα έχει οδηγήσει σε νομικές διαμάχες. Μεγάλοι εκδοτικοί οίκοι, συμπεριλαμβανομένων των Wall Street Journal και New York Times, έχουν προσφύγει στη δικαιοσύνη κατά της OpenAI και της Perplexity για μη εξουσιοδοτημένη χρήση του περιεχομένου τους.
Οι υπερασπιστές των εταιρειών τεχνητής νοημοσύνης προβάλλουν το επιχείρημα ότι η διαδικασία μάθησης των ΑΙ μοντέλων προσομοιάζει την ανθρώπινη εκπαίδευση. Όπως οι άνθρωποι μελετούν, διαβάζουν και συνθέτουν νέο περιεχόμενο, έτσι και τα ΑΙ μοντέλα επεξεργάζονται και αξιοποιούν υπάρχουσες πηγές.
Παράλληλα, παρατηρείται μια αυξανόμενη τάση προστασίας των δεδομένων από πλατφόρμες κοινωνικής δικτύωσης. Το Reddit έχει συνάψει συμφωνίες εκατομμυρίων με τη Google, ενώ το X διατηρεί αποκλειστική συνεργασία με την xAI του Elon Musk για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Ειδικοί του κλάδου επισημαίνουν ότι παρά τον εντυπωσιακό αριθμό, το ένα εκατομμύριο βιβλία δεν επαρκεί για τις σύγχρονες ανάγκες εκπαίδευσης ΑΙ. Τα παλαιότερα κείμενα στερούνται σύγχρονης ορολογίας και εκφράσεων, ιδιαίτερα της γλώσσας που χρησιμοποιεί η Γενιά Ζ.
Η αγορά αδειών χρήσης σύγχρονου περιεχομένου αναμένεται να αποτελέσει μια ραγδαία αναπτυσσόμενη βιομηχανία. Αναλυτές προβλέπουν ότι μέχρι το 2026, η αξία της αγοράς δεδομένων για εκπαίδευση ΑΙ θα ξεπεράσει τα 10 δισεκατομμύρια δολάρια ετησίως.
Οι εταιρείες τεχνητής νοημοσύνης αναζητούν συνεχώς τρόπους διαφοροποίησης των μοντέλων τους μέσω αποκλειστικών πηγών δεδομένων. Η πρωτοβουλία του Harvard προσφέρει μια νόμιμη βάση εκκίνησης, αλλά η μάχη για πρόσβαση σε σύγχρονο περιεχόμενο μόλις αρχίζει.
Η πρωτοβουλία του Harvard έχει ήδη προσελκύσει το ενδιαφέρον άλλων ακαδημαϊκών ιδρυμάτων, με το MIT και το Stanford να εξετάζουν παρόμοιες δράσεις για το 2025.
ΕΙΔΗΣΕΙΣ ΣΗΜΕΡΑ:
- Politico: Η ακροδεξιά χρησιμοποίει το Μαγδεμβούργο για να χτυπήσει μετανάστες και Ισλάμ
- Αλβανία: Κλείνει το TikTok για έναν χρόνο – «Είναι ο κακοποιός της γειτονιάς», λέει ο Ράμα
- Κτηματολόγιο: Παράταση έως τις 31 Ιανουαρίου σε Χανιά, Ρέθυμνο και Βόρειο Ηράκλειο
- Συρία: Ο 37χρονος Χάσαν αλ Σιμπάνι είναι ο νέος υπουργός Εξωτερικών
- ΗΠΑ: Προχώρησαν σε άρση της επικήρυξη του ισλαμιστή ηγέτη της Συρίας, Αλ Τζολάνι
- «Allou! Fun Park»: Έληξε η άδειά του και σφραγίστηκε με απόφαση του Δήμου Νίκαιας – Ρέντη
- Εξάρθρωση κυκλώματος που διακινούσε ποτά «μπόμπες» – Ανάμεσά τους στέλεχος της ΑΑΔΕ
- Φόροι: Τι πρέπει να πληρώσουμε μέχρι 31 Δεκεμβρίου 2024
Ακολουθήστε το financialreport.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις