

The roots of AI: Natural Language Processing & N-gram models
Artificial Intelligence often feels like a black box, but many of its core ideas come from simple and elegant statistical concepts. In this session, we will step back from the hype and explore the foundations of AI through Natural Language Processing (NLP) and n-gram language models, using R as our working environment.
This talk will focus on understanding how machines learn from text, starting from basic tokenization and moving toward probabilistic models that were among the earliest building blocks of modern AI. Rather than focusing on large models, we will look at the statistical roots that still underpin many current approaches.
During the session we will explore:
• what Natural Language Processing is and why it matters
• how text can be transformed into structured data
• how n-grams help model language patterns
• how probability drives language prediction
• how these ideas connect to modern AI systems
• practical examples using R
The goal of this session is to provide a clear conceptual understanding together with practical demonstrations, helping participants see how classical statistical thinking connects to current AI developments.
Who should attend
• R users interested in text analysis
• Data scientists and statisticians curious about NLP
• Students and researchers working with text data
• Anyone wanting to understand the statistical foundations of AI
No prior experience in NLP is required. A basic familiarity with R will be helpful, but the session will focus on concepts and intuition as much as on code.
Join us for a practical and accessible introduction to the statistical roots of AI and how they still shape the tools we use today.
---
L’Intelligenza Artificiale spesso appare come una black box, ma molte delle sue idee fondamentali derivano da concetti statistici semplici ed eleganti. In questa sessione faremo un passo indietro rispetto all’hype per esplorare le basi dell’AI attraverso il Natural Language Processing (NLP) e i modelli linguistici n-gram, utilizzando R come ambiente di lavoro.
Il talk si concentrerà su come le macchine imparano dai testi, partendo dalla tokenizzazione di base fino ad arrivare ai modelli probabilistici che hanno rappresentato alcuni dei primi mattoni dell’AI moderna. Piuttosto che concentrarci sui grandi modelli, guarderemo alle radici statistiche che ancora oggi sostengono molti approcci attuali.
Durante la sessione esploreremo:
• cos’è il Natural Language Processing e perché è importante
• come il testo può essere trasformato in dati strutturati
• come gli n-gram aiutano a modellare i pattern linguistici
• come la probabilità guida la previsione del linguaggio
• come queste idee si collegano ai sistemi di AI moderni
• esempi pratici in R
L’obiettivo della sessione è fornire una comprensione concettuale chiara insieme a dimostrazioni pratiche, aiutando i partecipanti a vedere come il pensiero statistico classico si collega agli sviluppi attuali dell’intelligenza artificiale.
A chi è rivolta la sessione
• utenti R interessati all’analisi del testo
• data scientist e statistici curiosi di NLP
• studenti e ricercatori che lavorano con dati testuali
• chiunque voglia comprendere le basi statistiche dell’AI
Non è richiesta esperienza precedente in NLP. Una conoscenza di base di R può essere utile, ma la sessione si concentrerà tanto sui concetti e sull’intuizione quanto sul codice.
Unisciti a noi per un’introduzione pratica e accessibile alle radici statistiche dell’AI e a come queste continuano a influenzare gli strumenti che utilizziamo oggi.