
I P S E
Interrogation Programme & Supersenses Extraction
Presentazione
IPSE è nato dall’esigenza teorica di ripensare la percezione del ‘testo’ all’interno dello sviluppo della ‘galassia digitale’. La sua prima finalità è la sperimentazione pedagogica nell’ambito di corsi e di seminari di letteratura e di linguistica italiana. Una volta messe in discussione e ripensate le caratteristiche necessarie a definire l’oggetto che si chiama comunemente ‘testo’, lo strumento può fornire sia un’utilità di tipo informativo (raccolta di dati da testi selezionati), sia di tipo cognitivo (a partire dal confronto statistico di testi selezionati).
Per realizzare questi obiettivi, IPSE si avvale non solo delle funzioni di Interrogazione testuale basate su un Programma di riconoscimento di sequenze di caratteri, ma anche sulle più recenti esperienze di definizione automatizzata di Supersensi, ovvero sull’Estrazione di categorie generali, semantiche e logiche, che consentono di mettere in relazioni più testi, o parti di essi, dati in formato digitale e riuniti in un corpus di volta in volta configurato dall’utente.
La marcatura automatica dei testi, con un tasso di affidabilità media attualmente del 63%, è basata sull’adozione delle 44 categorie generali definite in WordNet, un lessico semantico elaborato da George Miller (Università di Princeton).
Il programma, concepito per l’interrogazione di testi in lingua italiana, è predisposto all’applicazione a testi in altre lingue, a partire dall’inglese e dal francese.
** English version below **
Authentification
L'accès à cette resource nécessite une authentification. Veuillez choisir le service approprié dans la liste proposée.
-
Login pour les membres de l'Université de Lausanne
-
Login pour les membres des Universités et Hautes Ecoles suisses, membre de la fédération SWITCHaai
-
Login pour utilisateurs externes, ayant obtenu un compte directement auprès du responsable du site
- Project Manager
- Alberto Roncaccia (Section d'Italien)
- Technical Coordinator
- Davide Picca (Section d'informatique)
- Assistants
- Valentina Coletti
Sabrina Maniscalco
Giulia Elsa Sibilio - Funded by
- UNIL: Fondo di innovazione pedagogica (FIP)
Crédits
- L’utilizzazione di IPSE a scopo scientifico è consentita a condizione di rinviare a:
- Davide Picca, Alfio Gliozzo, Massimiliano Ciaramita, “SuperSense Tagger for Italian”, in Proceedings of LREC' 2008, Marrakech, Morocco
- Per ulteriori informazioni sulle categorie semantiche
- si rinvia alla documentazione di WordNet sul sito dell’Università di Princeton: http://wordnet.princeton.edu/
- Creatore del “SuperSense Tagger”
- Dr PhD Massimiliano Ciaramita (http://sites.google.com/site/massiciara/
Ringraziamenti
Si ringraziano vivamente il Réseau interfacultaire de soutien enseignement et technologies (RISET) e i Fonds d'innovation pédagogique (FIP) dell’Università di Losanna per aver incoraggiato e sostenuto il presente progetto. Siamo riconoscenti al programmatore del RISET, Julien Furrer, che ha saputo sviluppare con scrupolo ed efficacia lo strumento di interrogazione e proporre un interfaccia particolarmente funzionale e gradevole. Si esprime un ringraziamento particolare a Nadia Spang Bovey, che, nella sua qualità di ingegnere pedagogico, ha accompagnato l’elaborazione e lo sviluppo del progetto fornendo un contributo intellettuale decisivo alla sua realizzazione.
English version
Introduction
The IPSE programme was created to rethink the perception of the text within the so-called 'digital galaxy'. The prime aim is to experiment the programme in the courses and seminars of Italian literature and linguistics. Once the characteristics of the texts are discussed and rethought, this instrument can function as an instrument of information (to collect selected textual data) or as a source of statistical retrieval.
To do so, IPSE does not merely Interrogate texts on the basis of a Programme of recognition of sequences of characters, but also on the more recent semantic categories of 'Supersenses' and Extraction of general categories, semantic and logical, to bring together more texts or textual data in digital form collected in a corpus.
The automatic tagging of the texts is 63% reliable, and is based on the 44 general categories of WordNet, a semantic lexicon developed by George Miller (Princeton). The programme, conceived for the interrogation of Italian texts, can be applied to texts in other languages, such as English and French.
Credits
- UNIL: Unil : Fonds d'innovation pédagogique (FIP) et Réseau interfacultaire de soutien enseignement et technologies (RISET)
- Davide Picca, Alfio Gliozzo, Massimiliano Ciaramita, “SuperSense Tagger for Italian”, in Proceedings of LREC' 2008, Marrakech, Morocco
- http://wordnet.princeton.edu/
- Dr PhD Massimiliano Ciaramita (http://sites.google.com/site/massiciara/