Code and Collation: training textual scholars

New post on the DiXiT Blog!
Check it here.




Manuscripts and Digital Humanities. A Colloquium at Leiden University


The NWO-sponsored research project ‘Turning over a new leaf’, in the person of Erik Kwakkel, organized the intense and fruitful Colloquium Manuscripts and Digital Humanities on Wednesday 22 April 2015. The Academy Building of Leiden University, just over the Hortus Botanicus, hosted a bunch of digital and non digital humanists, interested in handwritten texts, palaeography, codicology, statistic, biology and software development, from 20 to 90 years old.

Each of the four talk deserves special attention. I’ll try to summarize the content and collect some of the issues raised in two of them. The abstracts of the papers are online here.

After the Colloquium … Erik Kwakkel, Manuscripts of the Latin Classics 800-1200, Leiden: Leiden University Press, 2015.



Erik Kwakkel (Leiden University, LUCAS), The Art and Science of Dating Medieval Script: The Case of the Long Twelfth Century

The organizer of the Colloquium focused on the shift from Caroline to Gothic, including what is usually called Pregothic.

The aim of the project presented is to define scripts with the minimum of intuitive comprehension and the maximum of clarity (objectivity?) in describing relevant features and in the use of technical terminology. Data are collected in a coherent database and can be visualized in several ways. This approach may have interesting effects in the teaching of palaeography.

Kwakkel gathered palaeographic evidences from a corpus of 350 manuscripts, dated (or datable), from all over western Europe. In considering the three scripts, he takes into account modifications of the strokes and some ‘power features’. The former are modification in the direction, the number, the length and the shape of the strokes. The latter may effect more than one letter, as the difference in angularity or the appearance of feet at minims consistently turned to right.

The visualization of data throughout graphics clearly shows the evolution of certain features, from the late XI century to the early XIII. Some of the most interesting findings are:

– the percentage of Pregothic features before the turning of the XI century is rather high, in certain cases around 40 %;

– peaks in the curve trend of a feature can be useful for dating witnesses.

The project also calculates the ‘Gothic weight’ of a manuscript, considering together the rates of single characters: for example, a Caroline r has 0 points, a Pregothic r has 1 point and a Gothic r has 2 points.

– As already proven by the single features, we’ll see that manuscripts around 1075 may have around 30 % of ‘Gothic weight’.

Differences between countries are also visible:

– German and French manuscripts from the end of the XII century show distant ‘Gothic weight’: 30 % for Germany, 70 % for France.

– France is very early in ‘Gothic weight’, especially Normandy.

Some problematic aspects of this research have also been addressed: Kwakkel argues that in terms of quantity and quality his corpus is reliable, while other scholars may not agree.

The final achievement of this research project is to prove that digital technologies should be considered as a valid resource in organising and processing palaeographical evidences, together with (and maybe beyond) the power and magic of the intuition.

CBdKo4iWoAE1dm8



Sarah Fiddyment (University of York, British Academy Research Fellow), Biomolecular Codicology: How Non-Invasive Techniques Can Uncover the Secrets Hidden in Parchment

BooksBeasts

The problem with techniques for analysing parchment is that manuscripts should not be damaged and often not moved from where they are. The method developed at York University and presented by Sarah Fiddyment respects these obligations and allows researchers to study the parchment and identify the animal from which it has been made.

In the Middle Age Europe, the diffusion of animals whose skin can be used for producing parchment is the following: predominance of cows in France, goats in Italy and sheep in Britain.

Here there are some of the topics discussed by Fiddyment, presenting the findings of the new non-invasive technique influences:

– The analysis of documents from an English Chancellery confirms that, for this kind of texts, local parchment is commonly used; in the case of England, this is also justified by the fact that sheep’s parchment is very difficult to be erased.

– From the XIII to the XVI centuries, parchment in general looses quality. Why does it happen? Several answers are possible; for example, during times it appears more and more profitable to have meats from animals, so that animals have been fattened up; but from fat animals, bad quality parchment comes up.

Fiddyment also introduced some of the projects carried on at the University of York.

One of them is focused on pocket bibles from the XIII century; the peculiarity of these kind of pocket bibles is that the parchment employed is incredibly thin. Scholars had explained this in two ways: the skin of other animals, and not the usual ones, is involved; there has been a technological enhancement. Studies at the University of York demonstrated that the skin of common animals (cows, sheets, goats) is employed in this bibles, proving that the change is due to the technologies utilized.

As said, in Italy the parchment is mainly made from goat’s skin. Another project in York is about Aldine editions. Aldo Manuzio is considered the first modern printer and publisher; some of the luxury books that he produced are on parchment. After Aldo Manuzio’s death, the quality of the parchment dropped; the recent study proved that this is because parchment from goats is not used anymore, replaced by cow’s parchment.





Christophe Guéret: Stop making tools! An afternoon at the E-Humanities Group.

New post on the DiXiT Blog!
Find it here.




DigiLab + DiXiT


Dal 3 al 5 dicembre 2014 si è svolto a Roma il seminario "L'edizione digitale scientifica nell'ambito delle scienze umanistiche. Problemi teorici e strumenti innovativi". L'iniziativa è organizzata da DigiLab (Centro interdipartimentale di ricerca e servizi della Sapienza Università di Roma), con il supporto di DiXiT Marie Curie Network, del quale DigiLab è uno dei partner. Domenico Fiormonte cura il coordinamento e il progetto scientifico; la segreteria e organizzazione sono assicurate da Federico Caria e Isabella Tartaglia. Variegata è la partecipazione al seminario: studenti, dottorandi e professori, provenienti da progetti sparsi in tutta Europa seppur per la maggior parte italiani, filologi, filosofi, diplomatisti, conservatori e esperti di media e comunicazione.

Gli interventi di Domenico Fiormonte, Desmond Schmidt e Paolo Monella problematizzano differenti aspetti dell'edizione critica digitale (digital scholarly edition), di come essa è creata e fruita. L'invito non è ad aderire o meno ad una certa pratica, esperienza o tradizione, ad usare o meno un certo standard, ma a conoscere queste risorse e a criticarle, a individuarne punti forti e deboli tracciandone la storia fino ad oggi, in modo da poter effettuare scelte consapevoli e, in fin dei conti, scientifiche.

Diamo di seguito un breve resoconto degli interventi. I materiali completi del seminario sono disponibili qui.


Nel suo contributo dal titolo esemplificativo "I fondamenti socio culturali dell'edizione scientifica digitale", Fiormonte, ripreso da Schmidt, apre portando al centro dell'attenzione l'ingranaggio che tiene in piedi l'edizione digitale: il software, dunque il codice. Il cerchio ermeneutico dell'informatica umanistica presuppone un loop tra ipotesi, pratiche e metodologie, e risultati. I rimandi sono all'identificazione di una software culture, con Manovich [Software takes command, 2013], e alla riflessione di Kittler sul codice: codes are what determine us today [Softwares Studies: A Lexicon, a cura di Matthew Fuller, Cambridge, Mass. : MIT Press, 2008]. Si passa dunque all'edizione, come rappresentazione digitale di artefatti testuali, ricordando come ogni rappresentazione è intrisa di un significato culturale, da saper leggere e decifrare tramite una semiotica della cultura. Anche nel campo dell'edizione scientifica, alcuni standard hanno imposto una formalizzazione, che modella la rappresentazione. Si va dai caratteri alla definizione di testo.

Sui primi verte l'intervento di Monella, ma già Fiormonte abbozza una storia della codifica dei caratteri, partendo dal primo standard internazionale, che nasce in un contesto culturale ben preciso: l'American Standard Code for Information Interchange viene sviluppato a partire da codici telegrafici e usato per la prima volta nelle telescriventi Bell; esso non considera ad esempio, come è normale che sia data la sua provenienza, caratteri accentati. Ciò si trasforma in una limitazione, un bias, nel momento in cui l'ASCII diventa uno standard internazionale, accettato dall'ISO nel 1972, di fatto l'esperanto della rete. Il successore, che lo integra, è lo standard UTF-8, uno dei linguaggi di codifica di Unicode. Sarà interessante notare come il consiglio d'amministrazione di un'iniziativa che ha per scopo la codifica dei caratteri di tutte le lingue vive del mondo sia composto oggi da un membro rispettivamente di Microsoft, Google, Apple, Intel, IBM, IMS-Appature.

L'idea di testo soggiacente all'edizione scientifica che si è perpetuata nel contesto digitale è quella di un'immagine, un simulacro, da ricostruire e conservare. Alla base di questo approccio si trovano la filologia di stampo strutturalista e ricostruzionista, insieme agli imperativi dell'information retrieval dell'informatica. Passando, per forza di cose molto rapidamente, attraverso l'insegnamento di chi supera il dato, inserendo nel circolo ermeneutico il processo e il contesto (ad es., Contini, Halliday, Benozzo, Rico, Fiormonte, Schmidt), si formulano alcuni desiderata per una nuova edizione scientifica: la filologia digitale non può limitarsi alla conservazione e ricostruzione dei documenti del patrimonio culturale, ma deve agire come un'interfaccia verso la conoscenza; non può esserci scollamento tra lo scopo della rappresentazione e le esigenze dell'utente [vd. Fiormonte, «Chi l'ha visto? Testo digitale, semiotica, rappresentazione. In margine a un trittico di Dino Buzzetti», Informatica Umanistica, 2, 2009, pp. 21-63].


Prima di presentare il software per la creazione di edizioni digitali Ecdosis, Schmidt ricorda brevemente la storia e la preistoria dell'edizione critica e del markup, ravvisando elementi di continuità (come dimensione dei caratteri, formattazione, citazione, segni per la codifica) dall'Ellenismo ad oggi. Nella situazione attuale, l'edizione digitale soffre di alcuni problemi: costano molto e se ne producono poche. Le soluzioni proposte da Schmidt si riassumono nel dedicare uno sforzo maggiore al design complessivo del software: semplificazione dell'inserimento dati, modifica e revisione degli stessi; riutilizzo di moduli standard delle applicazioni in differenti progetti; abbassamento del costo di manutenzione. Dal momento in cui si riconosce che l'edizione digitale è software, appare chiaro che il suo sviluppo debba essere governato dalle procedure e dai principi alla base dello sviluppo del software.

Schmidt individua due modi di costruire applicazioni: un approccio bottom-up, riassumibile nella formula provocativa 'costruiscilo e gli utenti verranno', nel quale si passa dalla progettazione della struttura dei dati all'interfaccia utente; un approccio top-down, nel quale si parte dalle esigenze dell'utente fino ad arrivare all'inserimento dei dati. Il secondo approccio è il più adatto allo sviluppo di software e dunque di edizioni digitali.

Schmidt si interroga sull'idoneità della piattaforma XML-TEI per costruire il tipo di sistema delineato. La risposta è negativa, per le seguenti ragioni: mancanza di interoperabilità, eccessiva complessità delle Guidelines TEI e declino nello sviluppo web dell'utilizzo dei linguaggi XML e XSLT.

Il MultiVersion Document (MVD), formato interno di Ecdosis, nasce da queste limitazioni e dalla collaborazione con Fiormonte. Il formato permette di tenere in un unico documento differenti versioni di un testo; il file può essere interrogato per identificare le varianti tra le versioni e ognuna di esse è disponibile per la lettura. Il MultiVersion Document è, come già detto, il formato interno di Ecdosis; import e export dei dati sono possibili in una serie di formati. Quando si importa un documento XML, Ecdosis divide automaticamente in versioni autonome la stratificazione presente nella codifica: ogni livello di nidificazione corrisponde ad una versione. Nessuno strumento di collazione è necessario con MultiVersion Documents, essendo la funzionalità presente all'interno del formato stesso. All'interno del panorama di software per la creazione di edizioni digitali oggi esistenti, Ecdosis, che è ancora in via di sviluppo, presenta alcune caratteristiche innovative, quali un Minimal Markup Editor basato sul markdown, il riconoscimento automatico delle forme (archiviate in formato GeoJson) per il collegamento tra testo e immagine, un editore plain text per i materiali paratestuali, la possibilità di organizzare i dati in eventi da visualizzare su una linea del tempo.


Monella porta alla ribalta un tema che potrebbe sembrare troppo specifico per essere di interesse generale. La questione è quella della codifica di testi precedenti all'introduzione della stampa, e in particolare del loro sistema alfabetico e glifico; essa risulta rilevante nell'ambito dell'edizione scientifica digitale, come dimostrato dalle numerose edizioni che offrono la possibilità di passare dalla trascrizione diplomatica ad una normalizzata; da ultimo, il tema è stato recentemente oggetto di discussione sulla mailing list TEI [le discussioni si trovano nell'archivio della lista e corrispondono agli oggetti: Describing glyphs in , Dealing with obscure characters in Unicode]. Monella invita a riflettere su una formalizzazione di caratteri standard, ai quali si contrappongono caratteri non standard; che conseguenze comporta questo tipo di rappresentazione, senza dubbio culturale? Oltre alla difficoltà, che sempre più viene superata da iniziative come MUFI, di codificare caratteri rari e antichi, la conseguenza è una carenza di attenzione verso la codifica dei caratteri: abbiamo meccanismi per definire significato e uso degli elementi XML utilizzati nella grammatica TEI --l'elemento non si definisce da solo--; al contrario, una A è semplicemente una A. L'esigenza di dare conto della 'serie completa degli elementi discreti nei quali si decide di dividere il continuum delle lettere, segni diacritici, punti, decorazioni, etc.', trova un'attuazione nella tabella dei segni proposta da Orlandi [Informatica testuale. Teoria e prassi, Laterza, Roma, 2010; cf. edizione digitale Niccolò Macchiavelli, De principatibus]. La realizzazione non è dunque particolarmente onerosa, consistendo nello stilare una tabella, che, nel progetto Vespa di Monella, viene convertita tramite uno script in una serie di file XML, per i livelli alfabetico e grafico, collegati con i file di trascrizione, anch'essi stratificati sui livelli alfabetico, grafico e linguistico. Su quest'ultimo livello lavora ora Monella, per mettere a punto un completo flusso di lavoro per un modello sofisticato e certo, più problematizzante, di codifica dei caratteri nell'edizione digitale.




TXM & authomatic lemmatization and morphological annotation


In the beginning of July 2014 I have attended the workshop “Édition analytique” in Lyon, sponsored by Consortium cahier and Labex Aslan, organized by Alexei Lavrentiev and others from the équipe Lincobato. The workshop was focused on TXM but there were also sessions presenting other tools and projects going on in France (Algone, TEI Critical Edition Toolbox, SynopsX). I will say something about it from my perspective: at the moment I’m more interested in editing tools that in analysis tools. But, as Serge Heiden has clearly pointed out: are editors engaged in producing editions for further analysis?

More info about the workshop can be found here.

TXM is a text/corpus analysis environment following lexicometry and text statistical study, based on CQP and R. Working units are lexical patterns (words and word class information), internal structures (paragraphs, titles, footnotes) and the text with its metadata. A large corpus of ancient French texts (BFM), encoded in TEI, is available online; furthermore it is possible to import one’s own corpus (in a wide variety of formats), to annotate it using an authomatic lemmatizer and a morphosyntactic tagger. One can also publish it on the TXM portal: different layouts (diplomatic, normalized, translation, etc.) and images can be displayed in a multi-panel window; audio and video documents can be easily linked to the texts, for instance in the case of a corpus of interviews.
While creating an edition, analysis may help to develop a deeper comprehension of the text; therefore TXM can be an important tool for editors, even if they don’t publish on this platform.
For TEI compliance have a look here.

Before running texts in TXM you may use a tool providing authomatic lemmatization and morphological annotation.
Not everybody is interested in lemmatization and morphosyntactic mark-up; but as one of the best potentiality of xml documents is to give a lot of (shown or hidden) information in one file, this may be taken into consideration; on the other hand this kind of authomatic annotation always needs to be reviewed and this can take more or less time.
The learning corpus for such tools is important: a child only listening to the conversation of .. the diplomatic corps, will probably understand after a while who an ambassador is; this is why Kestemont and the co-authors (see below) underline how “an innovative feature of our system is that it draws on all available training data sets for pre-modern Dutch, amongst which the Corpus-Gysseling (literary and legal texts), the CRM Charter corpus, the Repertory for Proper Nouns in Middle Dutch Literary texts, …”
Particularly problematic are medieval languages, because of the grat variation in spelling and handwriting, due to diatopic variation and to the absence of ufficial or unofficial regulation.

I will only mentione the one used in TXM and two other tools, recently presented at DH Benelux and DH 2014.

Lemmatization or/and morphological annotations for medieval languages:





Textual criticism of born digital texts


Thomas Crombez, Genetic Criticism and the Auto-Saved Document, DH Benelux 2014.

Focusing on a case study from contemporary theater, Crombez addresses some important questions for textual criticism while dealing with born-digital documents.

I will not enter into the details of his project, but will just summarize some of the issues that an editor faces with this kind of material (you can find the work-in-progress bibliography below)

Working on a virtual version of an author’s computer seems the most common approach to born-digital texts (attention to sensible data!). The first complication is the technological obsolescence and the fragility of migration paths (digital dark age), which are common problems in digital preservation projects. Scholars could have a role in assuring that documents remain legible and accessible in the future and they cannot stand out from technical implications: as a medievalist has to be able to “decode” a manuscript, textual scholars working on born-digital documents have to be able to identify the main technological issues involved in such projects. One would also pay attention to automatically generated data (for instance, a computer clock can be wirdly settled) and to the organization of files and folders.

One of the most interesting questions is: what is a version? Is it what the author explicitly marks as a version? Or every saved document? And what about google.doc and softwares in which one cannot save? Should the edito indentify a main version or consider materials in accumulation?


Have a look at ...