Notice: La funzione _load_textdomain_just_in_time è stata richiamata in maniera scorretta. Il caricamento della traduzione per il dominio spacious è stato attivato troppo presto. Di solito è un indicatore di un codice nel plugin o nel tema eseguito troppo presto. Le traduzioni dovrebbero essere caricate all'azione init o in un secondo momento. Leggi Debugging in WordPress per maggiori informazioni. (Questo messaggio è stato aggiunto nella versione 6.7.0.) in E:\SitiWordPress\ComDig\wordpress\wp-includes\functions.php on line 6121
Corpora – Polo di ricerca sulla comunicazione digitale

BLOG Corpus

Coordinamento: Progetto PRIN – Unità di Modena: Prof.sse M. Bondi, G. Diani, M. Freddi (UNIPV), D. Malavasi, F. Poppi. (Referenti)

Nell’ambito del progetto PRIN “Knowledge dissemination across media in English: Continuity and change in discourse strategies, ideologies, and epistemologies” (Prot. TJ8ZAS), è stato sviluppato un piccolo corpus modulare di sequenze di post e commenti tratti da blog specialistici, gestiti da accademici individualmente o in ambito istituzionale (istituzioni pubbliche, associazioni, riviste scientifiche ecc.).

Il corpus copre diversi ambiti: economico, giuridico e delle scienze (scienze naturali, biomediche e fisiche). Il corpus comprende 200 post con relativi commenti per ciascun ambito disciplinare, equamente divisi fra blog individuali e blog istituzionali, per consentire un confronto fra discipline e contesti di pubblicazione.

In alcuni casi è stato possibile anche compilare un corpus comparabile di pubblicazioni scientifiche del blogger per approfondire anche il confronto fra comunicazione accademica e comunicazione pubblica.


PIXI CORPUS per Clarin. Digitalizzazione e sincronizzazione audio/trascrizioni corpus PIXI

Coordinamento: Prof.ssa L. Gavioli, M. Simone, L. Burnard (Referenti)

Si tratta della preparazione per la pubblicazione nell’archivio digitale Clarin del corpus PIXI, uno dei primi corpora contrastivi di parlato, uscito in cartaceo e sull’Oxford Text Archive nel 1990.

Gli audio degli incontri, tra cliente e commesso in librerie inglesi e italiane, sono stati trasportati da analogico a digitale e sincronizzati con la rispettiva trascrizione.

Il corpus PIXI è stato alla base di numerosi studi sull’inglese e l’italiano parlato e costituisce una risorsa per il confronto di dinamiche interazionali.


CORPUS MUST (Multilingual Student Translations) 

Sito web MUST UCLouvain (420.000 parole ca.)

Coordinamento: Progetto internazionale coordinato dall’Università di Louvain-la-Neuve (Belgio); Prof.ssa A. Orlandi (Referente locale)

La raccolta del corpus Must Unimore è iniziata nel 2018. Il corpus contiene esercizi di traduzione svolti da studenti di livello intermedio e avanzato del DSLC. La piattaforma sulla quale vengono caricate e archiviate le traduzioni (e i relativi testi di partenza, metadati ecc.) è la piattaforma Hypa4Must ideata dall’informatico Adam Obrusnik dell’Università di Louvain-la-Neuve. Le lingue coinvolte sono l’inglese e il francese. Gli studenti traducono da e verso l’inglese, e verso il francese. Attualmente sono presenti 4 sotto-corpora :

  • Corpus (1) IT > FR (A.Orlandi): traduzioni di testi semi-divulgativi a valenza culturale (storia dell’arte e della musica)
  • Corpus (2) IT > FR (C.Pigionanti): traduzioni di testi giornalistici sull’attualità politica
  • Corpus IT > EN (S.Cacchiani): traduzioni di testi aziendali (contratti, convenzioni, lettere, ecc.)
  • Corpus EN > IT (S.Cacchiani): traduzioni di testi aziendali (contratti, convenzioni, lettere, ecc.)

Il corpus consta complessivamente di 602 traduzioni prodotte da 322 studenti.


The Inverted Archival Turn – Dall’archivio virtuale all’archivio materiale

Coordinamento: Dott.ssa V. D’Ambrosio (tutor: Prof. Vittorio Iervese)

Nel tentativo di percepire e trasmettere il sapere contenuto in un archivio sotto forma di impulsi sensoriali, The Inverted Archival Turn intende operare un percorso di evoluzione che parte dal corpo come archivio per giungere all’archivio come corpo.

A questo scopo sono stati individuati tre progetti di ricerca afferenti al Dipartimento di Studi Linguistici e Culturali dell’Università di Modena e Reggio Emilia al fine di realizzare un prototipo di archiviazione che abbia come obiettivo una classificazione dei contenuti multimediali intesi come estensione del nostro corpo: per dirla con McLuhan, i media come sistema di interazioni biochimiche che espande il complesso substrato fisico e nervoso che definisce i nostri sensi.

Scopo del processo di archiviazione multimediale è quello di permettere una fruizione aperta che non sia solo a scopi didattici. Le modalità di archiviazione verranno infatti definite sulla base dei target di riferimento a cui questo archivio vuole rivolgersi, dando la possibilità di intavolare discussioni che producano processi editoriali aperti e co-creativi.

Ulteriore azione verso la creazione di un archivio dinamico riguarda la sua valorizzazione attraverso la produzione di nuovi contenuti che trarranno ispirazione dalla grande varietà di fonti messe a disposizione e che contribuiranno all’implementazione dell’archivio stesso.

La produzione è essenzialmente indirizzata verso la traduzione sensoriale dei corpora selezionati e dunque la trasformazione dei contenuti virtuali in creazioni artistiche trasmesse tramite forme d’arte legate all’uso del corpo e di supporti tangibili e materiali.


DP_SCI_Corpus

Coordinamento: Prof. D. Mazzi

Questo corpus sincronico comprende i testi delle 29 sentenze pronunciate dalla Corte Suprema d’Irlanda tra 2017 e 2019 in materia di protezione dei dati personali, per un totale di 347,927 parole.

Il corpus ha funto da base per uno studio a due livelli: in primo luogo, un’analisi quantitativa della fraseologia più comunemente attestata nei testi; in secondo luogo, uno studio qualitativo della struttura dell’argomentazione causale, lo schema più frequentemente associabile all’uso della fraseologia documentata in precedenza nel quadro di una delle tematiche più attuali della giurisprudenza irlandese ed europea dei giorni nostri.


Corpora per analisi del discorso in prospettiva storica

Coordinamento: Prof. D. Mazzi (Referente)

Nel corso degli anni 2018-2022, sono stati compilati corpora che includono risorse digitalizzate finalizzate allo studio del discorso della stampa quotidiana in chiave storica, con particolare riferimento al contesto irlandese tra la prima metà dell’Ottocento e la prima metà del Novecento. I corpora, che si inseriscono in un filone di ricerca ampio e articolato su nascita e sviluppo di una sfera pubblica in Irlanda, sono descritti di seguito.

  • In primo luogo, con finalità di partecipazione ad un’unità di ricerca diacronica posta all’interno di un progetto PRIN 2015 (“Knowledge dissemination across media in English: Continuity and change in discourse strategies, ideologies, and epistemologies” – Prot. TJ8ZAS), è stato raccolto il corpus Éirnews, che comprende un totale di 115 tra articoli, editoriali e lettere all’editore di quattro testate nazionali (Belfast Newsletter, Cork Examiner, Freeman’s Journal e Irish Independent), pubblicati tra 1895 e 1905 e aventi come oggetto la rappresentazione dell’Ovest dell’Irlanda quale luogo che custodisce identità e tradizioni nazionali riscoperte nel contesto dell’Irish Revival di fine Ottocento-inizio Novecento. Il corpus è stato la base per uno studio degli strumenti discorsivi con cui l’Ovest viene costruito secondo diverse prospettive ideologiche, con uno sguardo ai suoi luoghi, all’uso pubblico della relativa storia e alla centralità del gaelico come veicolo identitario.

  • In secondo luogo, il corpus Bunreacht_News è stato compilato per condurre uno studio comparativo di come la stampa nazionale irlandese ha accolto il varo della nuova costituzione approvata con plebiscito ed entrata in vigore a fine Dicembre 1937.
    Il corpus include un totale di 100 testi tra articoli, editoriali e lettere all’editore di due testate nazionali (lrish Press e Irish Independent), pubblicati tra il primo luglio e il 31 dicembre 1937 e aventi come oggetto norme e contenuti della Costituzione.
    Esso è stato la base per uno studio del discorso argomentativo (schemi argomentativi e relative risorse lessicali) attraverso il quale i due quotidiani hanno articolato l’uno (Irish Press) una posizione favorevole alla nuova costituzione, l’altro (Irish Independent) un orientamento fortemente critico nei confronti dell’assetto istituzionale tracciato dalle norme nel testo in oggetto.

  • In terzo luogo, è stato creato il cosiddetto Éir_Ad_Corpus, che include 373 pubblicità raccolte in modo integralmente randomizzato tra i primi 100 numeri del 1932 di quattro testate nazionali (Irish Examiner, Irish Independent, Sunday Independent e Irish Press). Il corpus è stato oggetto di uno studio qualitativo delle strategie discorsive impiegate con maggiore frequenza, a dimostrare come la narrazione nazionalistica e autarchica contestuale all’ascesa al potere del primo ministro de Valera nel 1932 si traduce anche in ricadute sul linguaggio della promozione pubblicitaria.

  • In quarto luogo, nel quadro dello studio del Repeal Movement con cui Daniel O’Connell diede per primo voce alle istanze sociali e politiche dei Cattolici d’Irlanda nella prima metà dell’Ottocento, sono stati creati due corpora in prospettiva comparativa:
    • Il primo, il cosiddetto N_Corpus, include 150 tra articoli, editoriali e lettere all’editore di tre testate nazionaliste, tra cui due nazionali (The Nation e Freeman’s Journal) e una provinciale (Cork Examiner).
    • Il secondo, denominato U_Corpus, comprende 45 tra articoli, editoriali e lettere di due testate di orientamento unionista (Belfast Newsletter e The Times). Per entrambi i corpora, i testi risalgono al periodo tra 1 gennaio e 31 dicembre 1843, quando il movimento di O’Connell fece registrare il maggior successo e l’abrogazione dell’Act of Union che aveva abolito il parlamento irlandese sembrava un traguardo raggiungibile, e hanno come oggetto la rappresentazione del leader, dei suoi seguaci e della relativa ideologia.

      I due corpora hanno funto da base per uno studio sistematico delle strategie discorsive e dei frames utilizzati dalle testate nazionaliste per promuovere causa e obiettivi del Repeal, e da quelle nazionaliste per attaccare e demonizzare il movimento.
  • Infine, è stato raccolto il Litir_Corpus. Questo corpus racchiude un totale di 304 lettere all’editore, pubblicate da tre testate nazionali (Cork Examiner, Irish Daily Independent e Freeman’s Journal) tra 1895 e 1905. I testi sono stati raccolti in modo interamente randomizzato, così da non influire sul relativo contenuto. Il corpus funge da base per uno studio delle lettere a diversi livelli:
    • dapprima, una rassegna delle tematiche maggiormente sollevate dai lettori;
    • quindi, uno studio delle regolarità in termini di struttura testuale presentate dalle lettere per ciascuna delle tematiche trattate;
    • per concludere, una disamina di risorse lessicali e strategie retoriche più comunemente utilizzate per veicolare con maggior forza le idee e/o le rivendicazioni di chi, in un periodo cruciale per lo sviluppo della sfera pubblica in Irlanda, scelse di accedere all’arena del dibattito pubblico per portare il proprio contributo di cittadino consapevole.

Nel complesso, questi corpora sono stati o saranno oggetto di studi di natura prevalentemente qualitativa e si sono avvalsi delle risorse digitalizzate negli Irish Newspaper Archives, la principale risorsa a disposizione degli studiosi della stampa irlandese tra il 1738 e i giorni nostri.


Corpora del gruppo CAP (Comunicazione Accademica e Professionale)

MoreThesisCorpus

Coordinamento: Prof.ssa M. Bondi e Dott. M. Di Cristofaro (Referenti)

Il corpus è formato dalle tesi di laurea Magistrale disponibili pubblicamente nel portale MoreThesis (n = 5.106). I PDF originali sono stati convertiti in testo semplice attraverso l’uso di script creati ad-hoc, pensati per ridurre al minimo la presenza di errori di conversione durante il processo automatizzato di estrazione del testo.

A corredo dei documenti sono stati raccolti i dettagli contenuti nella schedatura di ogni singola tesi (autore, URN, titolo, titolo in Inglese, struttura, corso di studi, commissione, etc…) per la creazione di un primo livello di metadati da includere nel corpus.

Il corpus finale è composto da circa 140mln di token, ed è stato inizialmente rilasciato internamente al dipartimento in formato di testo semplice non corredato da metadati, per una prima fase esplorativa dei contenuti linguistici.

I prossimi passi prevedono la creazione di una versione in XML comprensiva dei metadati già raccolti, corredati da ulteriori metadati estrapolati dai testi (lingua/e utilizzate nel testo, dettagli quantitativi, dettagli qualitativi inerenti i contenuti delle tesi – topic modelling), oltre all’inclusione di annotazioni inerenti le diverse sezioni che compongono ogni documento (abstract, introduzione, etc…).

Corpus istituzionale giuridico (francese) (410.000 parole ca.)

Coordinamento: Prof.ssa C. Preite

Il corpus giuridico-istituzionale di lingua francese è stato costituito nel mese di luglio 2021 ed  è composto da:

  • i testi tratti dal sito web Justice / Portail;
    le sezioni considerate sono le seguenti: Ministère, Organisation de la Justice, Europe et International, Droits et Démarches;

  • i testi tratti dal sito web Justice.fr | Le portail du justiciable;
    le sezioni considerate sono le seguenti: Etat civil, Exécution d’un jugement, Entreprise, Pénal, Santé, Nationalité/Etrangers, Logement/Construction, Travail, Plainte/Recours administratif, Famille, Procédures Internationales/Européennes, Litiges financiers, Elections;

  • i testi relativi all’informativa Covid tratti dal sito web Info Coronavirus Covid-19 | Gouvernement.fr;
    le sezioni considerate sono le seguenti: Informations officielles, Comprendre la Covid-19, Ressources à partager, TousAntiCovid, Pass sanitaire, Déplacements, Vaccins, Questions/Réponses.

Corpus cattedrali (francese) (50.000 parole ca.)

Coordinamento: Prof.ssa A. Orlandi

Il corpus “cattedrali” di lingua francese è stato costituito nel periodo giugno-luglio 2021 ed è composto da testi estratti da siti web turistici o dai siti web ufficiali della cattedrale considerata.

I testi sono stati etichettati come “description”, “history” o “archi” sulla base della loro finalità, rispettivamente: divulgativa, informativa inerente alla storia, informativa inerente all’architettura.

Corpus Musei spagnoli

Coordinamento: Prof.ssa D. Capra (Referente)

Raccolta dati a cura del Dott. Simone Tepedino

Il corpus ‘Musei spagnoli’ – raccolto tra giugno e luglio 2021 – comprende le pagine web dei principali musei spagnoli che evidenziano l’autorappresentazione dei musei stessi, anche e soprattutto considerandoli come istituzioni che dialogano con la società in cui sono inseriti e da cui sono simultaneamente influenzati.

Per questa ragione, le pagine scelte sono state la homepage e le sezioni historia, misión (se presente) e educación. In quest’ultima, vengono esplicitamente menzionate le parti della società con cui il museo dialoga maggiormente.

Il criterio per la scelta dei musei, invece, è motivato dall’orientamento della ricerca, ossia la rappresentazione di se stessi davanti al pubblico; un articolo pubblicato su El País in data 3 gennaio 2020 ha permesso di identificare i siti in base ad un criterio statistico, ovvero il numero dei visitatori dei musei in era pre-Covid.

MoRe-Korpus – Tesine studentesche in lingua tedesca

Coordinamento: Prof. V. Gannuscio (Referente)

Il corpus raccoglie elaborati di “scrittura (pre)scientifica” redatti in lingua tedesca. I testi raccolti sono ascrivibili alla tipologia esplicativa e appartengono a diversi generi testuali, tra cui il saggio breve, il riassunto e la traduzione commentata.

La comparabilità cross-generica è al momento limitata, poiché i testi raccolti sono principalmente ascrivibili al genere del “saggio” (tesina). Il corpus-design prevede di strutturare una raccolta di testi che renda possibile una comparabilità della variazione interna sia da una prospettiva sincronica che diacronica: sincronica analizzando, per esempio, le consegne di uno specifico corso al fine della rilevazione dell’eventuale variazione dovuta all’interferenza della madrelingua o di altre lingue straniere studiate.

Nella prospettiva diacronica si potrebbe invece osservare come si evolve la scrittura in singoli soggetti, visto che si intende raccogliere sistematicamente le produzioni scritte a partire dal primo anno di studi fino alla tesi di laurea (triennale e/o magistrale).

Il MoRe-Korpus è costituito da 254 testi (478169 tokens) redatti a partire dall’a.a. 2004/2005 da studentesse (90,6%) e studenti (9,6%) dei corsi di studi LCE e LACOM, LICOM e LIPAC.

Corpus “Presentazioni studentesche in LS (tedesco), L1 italiano”

Coordinamento: Prof.ssa U. Kaunzner

Raccolta di registrazioni audio e video di presentazioni di studenti in tedesco come lingua straniera, che sarà inserita come corpus nel database BAS Clarin Repository (Bavarian Archive for Speech Signals, Ludwig-Maximilian-Universität München) e resa pubblicamente accessibile per scopi accademici.

Il corpus comprende circa 400 presentazioni di studenti, che sono state registrate nel corso di Ulrike Kaunzner alla Unimore negli ultimi 3 anni. È già stato realizzato un progetto pilota con 28 registrazioni video accoppiate degli stessi studenti a intervalli di due anni.

I passi nella preparazione del materiale finora sono stati i seguenti:

  1. Estrazione della traccia audio e taglio del materiale (30 e 60 minuti);
  2. Codificazione;
  3. Trascrizione in 3 fasi con i programmi OCTRA, Praat, WebMaus e ELAN (in corso):
    • Trascrizione ortografica
    • Trascrizione dell’intonazione
    • Annotazione dettagliata

Corpus cattedrali (inglese) (1.000.000 tokens ca.)

Coordinamento: Prof.ssa M. Bondi; Dott.ssa J. J. Nocella (Referenti)

Il corpus “cattedrali italiane”, raccolto nel periodo agosto-settembre 2020, è costituito da testi in lingua italiana e dalle rispettive traduzioni in lingua inglese (quando disponibili) delle cattedrali di ogni provincia italiana.

Il corpus è costituto da testi provenienti da siti web ufficiali, comunali, diocesani e turistici. Per i siti web con più domini, i testi sono stati raccolti fino al secondo livello (livello 0=homepage, livello 1=accessibili direttamente dalla homepage, livello 2=link accessibili da livello 1) e codificati in base alla denominazione del rispettivo link di riferimento (exterior, interior, history, etc).

Il corpus “cattedrali inglesi”, raccolto nel periodo agosto-settembre 2021, è costituito da testi in lingua inglese di cattedrali del Regno Unito e Irlanda. Le cattedrali sono state scelte dalla lista del sito web Cathedrals in the UK | Britain Visitor – Travel Guide To Britain.

I testi sono stati raccolti dal sito web ufficiale, comunale, turistico o diocesano della cattedrale considerata. Per i siti web con più domini, sono stati raccolti testi fino al secondo livello (livello 0=homepage, livello 1=accessibili direttamente dalla homepage, livello 2=link accessibili da livello 1) e codificati in base alla denominazione del rispettivo link di riferimento (exterior, interior, history, etc).

Corpus Musei per bambini (154.032 tokens ca.) 

Coordinamento: Prof.ssa M. Bondi; Dott.ssa A. Sezzi (Referenti)

Il corpus “Musei d’arte per bambini”, raccolto tra aprile e ottobre 2020, è costituito da 460 testi e 100 trascrizioni di video (trascritte con il software ELAN e adottando il Jefferson Transcription System) in lingua inglese delle sezioni informative degli unici siti web creati da musei e gallerie d’arte americani e britannici espressamente dedicati bambini e i ragazzi (MET kids, Tatekids, Destination Modern Art del MoMA, Getty Museum, Birmingham Museums).

Ogni sottocorpus è diviso in base alle sezioni del sito web dedicate alle opere d’arte e/o artisti presenti nei rispettivi musei e nelle rispettive gallerie d’arte insieme alle sezioni che coinvolgono i bambini in attività come le sezioni “Make” o “Explore” (Met Museum – Met Kids; https://www.tate.org.uk/kids; MoMa Museum; Birmingham Museums – For Kids; Getty ArtSet

Il Sistema di codifica dei testi è sulla base del sito di provenienza, nel caso seguito dalla sezione del museo/sito web, e infine dal titolo dell’opera/movimento artistico/attività (Esempio: TATEK_EXPL_ Henri).