I P S E

Interrogation Programme & Supersenses Extraction

 

Presentazione

IPSE è nato dall’esigenza teorica di ripensare la percezione del ‘testo’ all’interno dello sviluppo della ‘galassia digitale’. La sua prima finalità è la sperimentazione pedagogica nell’ambito di corsi e di seminari di letteratura e di linguistica italiana. Una volta messe in discussione e ripensate le caratteristiche necessarie a definire l’oggetto che si chiama comunemente ‘testo’, lo strumento può fornire sia un’utilità di tipo informativo (raccolta di dati da testi selezionati), sia di tipo cognitivo (a partire dal confronto statistico di testi selezionati).

Per realizzare questi obiettivi, IPSE si avvale non solo delle funzioni di Interrogazione testuale basate su un Programma di riconoscimento di sequenze di caratteri, ma anche sulle più recenti esperienze di definizione automatizzata di Supersensi, ovvero sull’Estrazione di categorie generali, semantiche e logiche, che consentono di mettere in relazioni più testi, o parti di essi, dati in formato digitale e riuniti in un corpus di volta in volta configurato dall’utente.

La marcatura automatica dei testi, con un tasso di affidabilità media attualmente del 63%, è basata sull’adozione delle 44 categorie generali definite in WordNet, un lessico semantico elaborato da George Miller (Università di Princeton).

Il programma, concepito per l’interrogazione di testi in lingua italiana, è predisposto all’applicazione a testi in altre lingue, a partire dall’inglese e dal francese.

** English version below **

Authentification

L'accès à cette resource nécessite une authentification. Veuillez choisir le service approprié dans la liste proposée.

 

Project Manager
Alberto Roncaccia (Section d'Italien)
Technical Coordinator
Davide Picca (Section d'informatique)
Assistants
Valentina Coletti
Sabrina Maniscalco
Giulia Elsa Sibilio
Funded by
UNIL: Fondo di innovazione pedagogica (FIP)

Crédits

L’utilizzazione di IPSE a scopo scientifico è consentita a condizione di rinviare a:
Davide Picca, Alfio Gliozzo, Massimiliano Ciaramita, “SuperSense Tagger for Italian”, in Proceedings of LREC' 2008, Marrakech, Morocco
Per ulteriori informazioni sulle categorie semantiche
si rinvia alla documentazione di WordNet sul sito dell’Università di Princeton: http://wordnet.princeton.edu/
Creatore del “SuperSense Tagger”
Dr PhD Massimiliano Ciaramita (http://sites.google.com/site/massiciara/

Ringraziamenti

Si ringraziano vivamente il Réseau interfacultaire de soutien enseignement et technologies (RISET) e i Fonds d'innovation pédagogique (FIP) dell’Università di Losanna per aver incoraggiato e sostenuto il presente progetto. Siamo riconoscenti al programmatore del RISET, Julien Furrer, che ha saputo sviluppare con scrupolo ed efficacia lo strumento di interrogazione e proporre un interfaccia particolarmente funzionale e gradevole. Si esprime un ringraziamento particolare a Nadia Spang Bovey, che, nella sua qualità di ingegnere pedagogico, ha accompagnato l’elaborazione e lo sviluppo del progetto fornendo un contributo intellettuale decisivo alla sua realizzazione.


English version


Introduction

The IPSE programme was created to rethink the perception of the text within the so-called 'digital galaxy'. The prime aim is to experiment the programme in the courses and seminars of Italian literature and linguistics. Once the characteristics of the texts are discussed and rethought, this instrument can function as an instrument of information (to collect selected textual data) or as a source of statistical retrieval.

To do so, IPSE does not merely Interrogate texts on the basis of a Programme of recognition of sequences of characters, but also on the more recent semantic categories of 'Supersenses' and Extraction of general categories, semantic and logical, to bring together more texts or textual data in digital form collected in a corpus.

The automatic tagging of the texts is 63% reliable, and is based on the 44 general categories of WordNet, a semantic lexicon developed by George Miller (Princeton). The programme, conceived for the interrogation of Italian texts, can be applied to texts in other languages, such as English and French.