Documento dall'Università Cattolica del Sacro Cuore - Milano sulla linguistica computazionale da OCR a bibliografia. Il Pdf, un appunto universitario, esplora l'Optical Character Recognition e l'analisi testuale, includendo strumenti come Google Books Ngram Viewer e sistemi operativi, con un focus sulla codifica dei caratteri e le interfacce utente.
Mostra di più18 pagine


Visualizza gratis il Pdf completo
Registrati per accedere all’intero documento e trasformarlo con l’AI.
Il primo grande corpus di testi è il Web (da 20 anni circa in forma avanzata): si può fare questo lavoro di ricerca. È la risorsa più grande che abbiamo.
Vediamo degli esempi: About 1,510,000 results (1.04 seconds) già questo risultato sui browser ci dice quante opzioni abbiamo: anche solo scrivendo la frase diversamente cambia la quantità di informazioni che otteniamo (anche solo da ita a inglese). Credo che sia giusto vs credo che è giusto. La seconda ha più risultati. La prima osservazione da notare è che il congiuntivo sia in difficoltà soprattutto nelle proposizioni indipendenti (nelle dipendenti resiste). È totalmente a costo zero. Importante per le ricerche in campo linguistico: tantissime fonti diverse.
Se cerco le parole senza virgolette mi cerca le parole staccate : segreteria (+) studenti e cerca queste parole come se fossero unite da "and" ed è implicito. Invece se cerco tra virgolette: "segreteria studenti" è come dire cercarmi questa sequenza esatta dei caratteri. Un altro modo è cercare con OR: segreteria o studenti, scriveremo OR (1 o l'altra o tutte e due). Se invece voglio cercare esclusivamente o l'una o l'altra parola si scrive XOR (non va bene tutte e due). Questi operatori rendono la ricerca più raffinata. Logica booleiana: unisce termini attraverso connettivi ed è adoperata dai motori di ricerca. L'and implicita semplifica passaggi operativi. Il web è incontrollabile rispetto ad altri corpora. Questa è analisi della frequenza delle parole.
Esempio in inglese: che pagine omettono la s della terza persona s. del verbo. He go (varietà diastratica dell'inglese) con verbi che non hanno un forte mutamento morfologico tipo has-was-is etc. Sono tutte vicinanze al parlato.
Altro strumento: Google books ngram viewer. È vero che campiona una lingua molto alta (libri) ma fa vedere frequenze di parole in molte lingue e in vari periodi di tempo. Si vede l'evoluzione sincronica delle parole. https://books.google.com/ngrams
Si possono fare confronti tra le lingue: spagnolo US e spagnolo EU; chi usa computer e chi usa l'ordinator. Si può studiare la storia delle parole. Obiezioni contro questo approccio: sono solo libri (mancano altre fonti, non è un risultato completamente affidabile). L'altra obiezione è che sono sottoposti a OCR: il testo viene trasferito via scanner quindi magari non riconosce tutto sempre. Manca il corpus orale e altre fonti. Però è uno strumento utile. È un punto di partenza per una ricerca.
Un'altra possibilità è limitare la ricerca attraverso la barra degli strumenti su google ocr × a Q Tutti Immagini Video 0 Shopping Maps : Altro Impostazioni Strumenti Qualsiasi lingua v Qualsiasi data v Tutti i risultati v Document shared on https://www.docsity.com/it/linguistica-computazionale-da-ocr-a-bibliografia/7658543/ Downloaded by: oscarlogoteta (oscarlogoteta@gmail.com)
Strumenti più raffinati (programmi) e FOS (free and open source) e multipiattaforma cioè che gira su più sistemi operativi.
TextSTAT ( simple text analysis tool): un po' vecchio, l'altra versione è ferma (problemi?), elaborato da un'università tedesca. Va bene per diversi sistemi operativi (Windows, Apple, Linux). Si può studiare come funziona. Il dibattito sull'accesso ai dati è una questione fondante di oggi (case farmaceutiche e stati). E quindi esempi del genere sono importanti. Per Windows è meglio la versione precedente: parte in un attimo.
Si parte da corpus (raccolta omogenea di testi): es) canti della divina commedia. Si sceglie un corpus cioè testi accomunati da una dimensione condivisa. Qui c'è un livello professionale serio: i dati li controllo io (sul web no, non sappiamo di cosa stiamo parlando). Si può calcolare la frequenza delle parole in pochi secondi. Ci fa entrare nel mondo dell'autore. Bisogna guardare la tipologia delle parole: alcune sono frequentissime perché sono le più frequenti in generale. È già interessante che tra la ed il c'è tanto stacco. Chissà perché? Poi si possono guardare i filtri e limitare la ricerca o riorganizzarla.
Si possono anche vedere le concordanze-collocations: vedere con cosa viene accoppiato una determinata parola. Cliccando su una frase si può vedere dove si trova nel testo. Si possono studiare tutti i tipi di testo (anche siti web). Se il testo è sporco appariranno anche altre parole: per esempio indicazioni dei siti cioè didascalie moderne. Gli accenti sono storti perché è un programma vecchio cioè erano codificati in modo diverso.
Programma multipiattaforma gratuito ma non open: è un freeware.
ANTCON. Graficamente è meglio (usa colori) e sono adattabili. C'è anche un grafico dell'addensarsi di una parola ed è detto plot (seconda finestra).
Per cercare parole con più varianti si usano le parentesi quadre es) ell[ai] e per farlo devi cliccare Regex (espressione regolare).
Tool Preferences Help Concordance Concordance Plot File View Clusters/N-Grams Collocates Word List Key Concordance Hits 208 Total Plots (with hits) 1 Plot: 1 FILE: la divin-utf-completo.txt Hits: 208 Chars: 550288
Sono strumenti utili per tutti gli esami.
Ci sono programmi che lemmatizzano i testi. Es) disse è la versione non lemmatizzata di dire cioè il lemma sul vocabolario per raggruppare tutte le sue varianti.
Word cloud: rappresentare le frequenze attraverso grafiche (es. carattere minore o maggiore del carattere). E generano anche grafiche carine. Si cerca il sito word could. Quando sono nate sono state rilevanti nel campo politico (9 anni fa) perché qualcuno fece il word cloud dei discorsi del PD e per questo vinse Renzi. È solo un discorso grafico ma è di impatto. Si vedono i campi semantici più importanti quando è lemmatizzato. In Dante è importante VEDERE.
News: Google ha accettato di firmare una convenzione con editori italiani; Google news prendeva le notizie da altre fonti ma questo è sfruttamento libero di chi lavora (non è solo informazione libera).
La quantità delle informazioni ha fatto partire queste ricerche con la tecnologia, opere copiose come quella di San Tommaso sono state il punto di partenza. Se no ci si metteva una vita intera.
Due aspetti: ripasso tecnico-inizio di considerazione sul testo digitale (testo digitale vs testo informatico).Digitale è un termine che è usato spesso oggi.
Bisogna sapere l'aspetto tecnico dell'informatica per parlare d'informatica umanistica.
REVISIONE TECNICA Sistema operativo (OS):, permette di utilizzare gli altri programmi o app (applicativi). È il software di base. Senza un computer sarebbe uno schermo nero. Senza OS, il computer non funziona. Non ci si fa caso perché di solito si compra con OS installato. Da solo sarebbe solo una macchina. Permette la comunicazione tra te e macchina. Inserisci input e il computer risponde dandoti dati in output. Non esiste solo un sistema operativo unico ma ce ne sono tanti. 2 famiglie: Unix (altri sistemi si sono ispirati a Unix come Linux, Android, Apple. Tra loro ci sono lievi differenze), e Microsoft-Windows e le sue mille varietà anche se oggi si usa solo Windows 10 che gli altri sono dismessi.
Unix (famiglia di sistemi operativi): è stato sviluppato quasi 50 anni fa da Ritchie e Thompson. Loro hanno sviluppato le ossa dell'informatica di oggi ma in pochi li conoscono. Inventori di linguaggio di programmazione (il codice per comunicare), inventano il C, un linguaggio ormai vecchio ma che funziona in tutto il mondo dell'informatica di oggi. Inventano anche alcuni protocolli che fanno funzionare Internet oggi. Viene chiamato C perché prima c'era un codice chiamato B. Estremamente semplice. L'OS permette di accedere all'hardware e di controllare input output e periferiche. Si usa tanto inglese nell'informatica perché si è sviluppato là. È normale, solo il francese si è difeso da questa tendenza.
I sistemi basati su Unix sono tantissimi (dal 69 ad oggi) e sono di diverso tipo (open source-closed e mixed). Apple deriva da Next Step. Tra i sistemi Unix c'è anche Linux.
LINUX: open software (FOS) non è derivato da Unix, è stato creato da Torvalds nel 91: attraverso i sistemi di chat online del tempo (gruppo di discussione) e scrive di voler fare un nuovo sistema opearitivo. Chiede a diverse persone di fare compiti diversi (grafica, suono, gestione dati, etc). Così nacque Linux (giocando su Unix + il suo nome cioè Linus). Ne esistono tanti di Linux il che disturba l'utente di un OS proprietario. Sono centinaia di varianti: a volte per ragioni pratiche (es, occupandoci di musica conviene avere un Linux che contenga già tanti programmi dedicati a questo). Queste varianti sono pensate ad hoc per alcuni settori, altri sono generalisti. Poi ci sono Linux costruiti solo con Free software (motivi ideologici).
Linux Linux è un sistema operativo libero (Free Software) di tipo Unix ma non derivato da Unix: il kernel (nucleo fondamentale) del sistema venne creato da Linus Torvalds nel 1991. Linux è disponibile in moltissime varietà (dette distribuzioni) che sono sviluppate liberamente da singoli programmatori o da aziende: attualmente le distribuzioni più diffuse sono Ubuntu, nelle sue diverse realizzazioni, Debian, Slackware, Fedora e Suse. Le distribuzioni condividono lo stesso nucleo fondamentale (kernel) ma si distinguono per i programmi installati, il tipo di interfaccia grafica, e altre caratteristiche. Linux è il sistema più diffuso nei grandi sistemi, supercomputers, mainframes, grandi servers: i 500 computers più potenti del mondo usano tutti Linux (dati del 2019: cfr https://itsfoss.com/linux-runs-top-supercomputers/).
Android Sistema operativo derivato da Linux molto diffuso negli smartphones (Free/Open).
LINUX, può avere varie versioni in base a cosa si vuole fare. I più grandi super computer per la ricerca hanno Linux. Senza saperlo usiamo Linux, Google usa e collabora con Linux. (es, una distribuzione cioè versione di Linux famosa e generalista è Ubuntu). Si distinguono per grafica, programmi, etc. Non è un sistema adoperato molto nell'informatica personale (cioè gli utenti finali: domestico). 5% usa apple 5% Linux, il resto è Windows. È il più diffuso nei grandi sistemi, nei grandi centri di calcolo, nei grandi servers (che gestiscono tanti dati). I 500 computer più potenti usano Linux. In realtà tutti usiamo Linux attraverso Google che usa e collabora con Linux. Torvalds non si è arricchito (non fondamentalista). Gates e Jobs sì invece. Android è figlio di Linux.
Apple usa OSX, è un sistema chiuso, installato su device apple e è nato da parti di BSD e Next step (basati su UNIX). iOS (è per i sistemi portatili della Apple).
Microsoft precedentemente, agli esordi usa MS-DOS che non aveva una grafica. IBM + Microsoft fanno nascere l'informatica di massa. Aveva pochissima memoria rispetto ad ora. Prima i computer costavano troppo ma con questa unione diventano accessibili alla massa. Prima bisognava andare nelle piccole aziende di elaborazione dati, calcolo. È una famiglia di sistemi operativi.
MS-DOS Microsoft Disk Operating System: sistema operativo sviluppato dalla Microsoft di Bill Gates nei primi anni '80. Oggi non più prodotto, è servito come sistema operativo per le prime implementazioni dei «personal computers». Non ha interfaccia grafica utente (graphical user interface).
Windows Più correttamente chiamato Microsoft Windows: è un sistema operativo, o, meglio, una famiglia di sistemi operativi che derivano da un'interfaccia grafica utente (graphical user interface) sviluppata nel 1981 e distribuita nel 1985 per accedere in modo agevole all'originario sistema MS-DOS. La versione oggi di uso comune è Windows 10; Windows Phone è usato su alcuni tipi di smartphone. I sistemi Windows sono i più diffusi nell'informatica personale.
A linea di comando: è un'interazione testuale tra utente ed elaboratore. Utente impartisce comandi testuali in input e l'elaboratore risponde. Di solito l'interfaccia grafica è più user friendly. È molto utile ma molti utenti non sono abituati a questo tipo di interazione. Sono due approcci diversi. All'inizio si usava questo metodo: scrivere i comandi perché non c'era grafica. L'apple aveva raggiunto un successo di vendite (minore perché più costoso) perché aveva un'interfaccia grafica. Microsoft copia questo da Apple. Infatti li hanno denunciati. Però anche Apple ha copiato la Xerocs. Però l'accellerazione grafica è dovuta alla apple.
Sistemi operativi: Linux Informatica di Massa: IBM + Microsoft = da cui nasce Windows