Analisi testuale: perché il detector segna ogni paragrafo come “AI-like” e cosa fare

Analisi testuale: perché il detector segna ogni paragrafo come “AI-like” e cosa fare

Un’analisi automatica condotta su un testo di cinque paragrafi ha assegnato a ciascuno il punteggio massimo di AI-like. Il documento — che menzionava eventi al Palazzo Lombardia, il 27 ottobre, e riferimenti a enti come Eumetra — è diventato banco di prova per valutare dove i testi si inchinano a formule ripetitive e dove, invece, basta un dettaglio concreto per ritrovare una voce umana. Scopo: trasformare un output standardizzato in un pezzo leggibile e verificabile.

Il metodo applicato è semplice e trasparente: il sistema spezza il testo in paragrafi, analizza parole e costruzioni sintattiche, cerca pattern ricorrenti (buzzword, elenchi impersonali, incisi istituzionali) e pesa ogni segnale. Ne esce una fotografia dettagliata: le ragioni del “100%” non sono misteriose, sono spesso banali — mancanza di dati, eccesso di termini astratti, paragrafi-segnaposto.

I risultati mostrano numeri, pattern e segnali precisi che spiegano il funzionamento del sistema, rendendo chiaro anche a chi non è esperto come distinguere un testo umano da uno AI-like.


Analisi generale dell’articolo

Il report fornisce una panoramica completa della qualità del testo, suddivisa in varie metriche:

  • Qualità Generale: 34/100 — indica la completezza, la coerenza e la leggibilità complessiva. In questo caso, il punteggio medio segnala margini di miglioramento.
  • Probabilità AI: 100% — a livello globale, il contenuto mostra pattern tipici di testi generati automaticamente.
  • Qualità Contenuto: 69/100 — misura la sostanza informativa, la presenza di dati concreti, cifre e nomi.
  • Struttura: 0/100 — indica che il testo non segue strutture formali standard (paragrafi ben definiti, titoli, elenchi organizzati).
  • Metriche Base: parole totali 335, frasi 14, lunghezza media frase 23,9 parole. La lunghezza media paragrafo è 0 parole, perché il sistema non ha identificato divisioni nette, un dettaglio che riduce il punteggio di struttura.

Altre metriche importanti:

  • Parole uniche: 247 — più alto è il numero, maggiore la diversità lessicale.
  • Diversità lessicale: 73,7% — misura quanto il testo evita ripetizioni.
  • Leggibilità: 65/100 — indica la facilità di lettura; valori intorno a 60–70 corrispondono a un livello leggibile per un pubblico generale.
  • Qualità titolo: 100/100 — il titolo è chiaro, diretto e semanticamente rilevante.

Il detector ha utilizzato NLTK per analizzare la struttura grammaticale e lessicale, calcolare frequenze e pattern di frase, verificando segnali di generazione automatica.

Pattern AI rilevati

Il sistema segnala pattern tipici dei testi generati automaticamente. Alcuni esempi presenti nell’analisi:

  • Formattazioni lista tipiche: simboli come •, -, numerazioni ordinate. Spesso usati nei generatori per organizzare contenuti senza articolare la frase.
  • Tag lingua / bandiera (EN|IT): presenti in contenuti multilingue o importati da traduzioni automatiche.
  • Strutture fraseologiche tipiche AI: frasi lunghe con nominalizzazioni, congiunzioni ripetute e termini astratti (“intelligenza collettiva”, “governance”, “innovazione”).
  • Buzzword isolate: parole ad alto impatto come “stakeholder”, “roadmap”, “green” senza contesto operativo.
  • Citazioni di fonte generiche: “secondo X” o “according to”, usate per simulare autorevolezza senza dettaglio concreto.

Analisi paragrafo per paragrafo

Paragrafo 1 — 35 parole — AI: 15%
Scrivere un tutorial significa spiegare passo passo le azioni e far capire il motivo di ciascuna scelta. Qui mostriamo come preparare contenuti leggibili e verificabili, con esempi pratici.

Pattern rilevati: nessun tag artificiale, frasi naturali.

Paragrafo 2 — 34 parole — AI: 20%
Rileggere ad alta voce aiuta a correggere frasi poco scorrevoli. Separare le idee, usare esempi concreti e numeri reali aumenta comprensibilità e chiarezza del testo.

Pattern rilevati: strutture naturali, nessun tag artificiale.

Paragrafo 3 — 26 parole — AI: 15%
Il sistema AI-Agent analizza ogni articolo e produce una scheda con suggerimenti pratici, evidenziando quali paragrafi richiedono dati, esempi o verbi d’azione.

Pattern rilevati: formattazione chiara, nessun segnale artificiale.

Paragrafo 4 — 36 parole — AI: 25%
Il 27 ottobre, a Palazzo Lombardia, saranno presentati progetti concreti basati su dati raccolti da Eumetra. La giornata mostrerà risultati misurabili e casi pratici di intervento sul territorio.

Pattern rilevati: linguaggio naturale, frasi concrete, tag lingua rimosso.

1. Panoramica generale

MetricaValoreSpiegazione
Qualità Generale34/100Valutazione complessiva basata su contenuto, struttura, leggibilità e originalità. Sotto 50 indica margini di miglioramento.
Probabilità AI100%Probabilità che il contenuto sia generato da AI. 100% = molto alta.
Qualità Contenuto69/100Misura ricchezza informativa, dati concreti, lunghezza e pertinenza. Livello “buono”.
Struttura0/100Il testo non ha paragrafi chiari o organizzazione coerente; influisce sulla leggibilità.

Metriche Base

MetricaValoreDettaglio
Parole335Numero totale di parole
Paragrafi0Il detector non rileva divisioni chiare
Frasi14Numero totale di frasi
Lunghezza media frase23,9Ideale: 15–25 parole
Lunghezza media paragrafo0Ideale: 50–150 parole

Qualità avanzata

MetricaValoreDettaglio
Parole uniche247Misura il vocabolario vario
Diversità lessicale73,7%Valore buono (ideale: 60–75%)
Leggibilità65/100Standard: testo leggibile per pubblico generale
Qualità titolo100/100Titolo chiaro, pertinente e attrattivo

Rilevamento AI

  • Pattern rilevati: 20
  • Punteggio AI: 100%
  • NLTK utilizzato: sì


2. Analisi paragrafo per paragrafo

ParagrafoParoleAI (%)Pattern rilevatiSpiegazione
175100Riferimento AI, Liste (•,-), Tag lingua ENIT, Strutture fraseologiche tipiche AI
255100Liste (•,-), Tag lingua ENIT
31245Tag lingua ENIT
422100Liste (•,-), Tag lingua ENIT
559100Riferimento AI, Tag lingua ENIT
633100Tag lingua ENIT, Strutture fraseologiche tipiche AI
726100Tag lingua ENIT, Buzzword AI
830100Tag lingua ENIT, Strutture fraseologiche tipiche AI
930100Tag lingua ENIT
1072100Citazioni generiche, Liste (•,-), Tag lingua ENIT, Strutture fraseologiche AI

Glossario

  • AI-like : Indica che un testo presenta caratteristiche tipiche di contenuti generati da Intelligenza Artificiale, come strutture ripetitive, frasi astratte o buzzword.
  • Buzzword : Termine di grande impatto, spesso generico o astratto, usato senza contesto operativo reale (es. “roadmap”, “stakeholder”).
  • Citazioni generiche : Frasi tipo “secondo X” o “according to” che simulano autorevolezza senza fornire fonti verificabili.
  • Detector AI : Strumento che analizza testi per individuare pattern tipici di contenuti generati automaticamente.
  • Diversità lessicale : Percentuale di parole uniche rispetto al totale, indica varietà e ricchezza del vocabolario.
  • Eumetra : Ente di ricerca citato come fonte dei dati sul progetto “Casa Sostenibile”.
  • Formattazioni lista tipiche : Uso di simboli come •, -, o numerazioni ordinate per organizzare informazioni, spesso automatico nei generatori di contenuti.
  • Leggibilità : Facilità di lettura del testo, calcolata su lunghezza frasi, paragrafi e complessità sintattica.
  • Lunghezza media frase : Numero medio di parole per frase; valori ideali 15–25 parole.
  • NLTK : Libreria Python per l’elaborazione del linguaggio naturale, usata per tokenizzazione, analisi sintattica e rilevamento pattern AI.
  • Paragrafo-segnaposto : Frase o blocco di testo vuoto o generico usato come placeholder durante la scrittura automatica.
  • Pattern AI : Strutture linguistiche, formati o parole che tipicamente compaiono nei testi generati da AI.
  • Probabilità AI : Percentuale che indica quanto un testo presenta caratteristiche tipiche dei contenuti generati automaticamente.
  • Qualità Contenuto : Misura di sostanza informativa, presenza di dati concreti, cifre e nomi; riflette la profondità del testo.
  • Qualità Generale : Valutazione complessiva basata su contenuto, struttura, leggibilità e originalità.
  • Qualità titolo : Valutazione dell’efficacia del titolo in termini di chiarezza, pertinenza e attrattività.
  • Riferimento AI : Segnale nel testo che indica menzioni o strutture riconducibili a contenuti generati automaticamente.
  • Strutture fraseologiche tipiche AI : Frasi lunghe, nominalizzazioni, congiunzioni ripetute e termini astratti che caratterizzano testi automatici.
  • Tag lingua / bandiera (EN|IT) : Etichette per indicare lingua o traduzioni, talvolta residue da contenuti multilingue importati.
  • Verbi d’azione : Verbi che descrivono chiaramente chi compie cosa, essenziali per trasformare elenchi impersonali in testo concreto.