head1.gif: EHT_03.jpg:
EHT_04.jpg: EHT_05.jpg: EHT_06.jpg:
 


nada: Home

nada: Servizi

nada: Programma 2012

nada: Network

nada: Mission

nada: Aziende Associate

nada: Dove siamo

nada: Contatti


 nada: News
 nada: Documentazione
nada: Area riservata


nada:
SocioAssintel_logo.gif:


semtechLogo.jpg:
Missione EHT al Semtech di San Francisco

Semantica: stato dell'arte di una tecnologia ormai pronta per il prime time, e relativi limiti.

di Michele Slocovich



07062011202.jpg:

L'evento Semtech ha offerto a Vega, che fa ricerca e sviluppa applicazioni in questo ambito sin dai tempi di "The knowledge creating company", la possibilità di confrontarsi con lo stato dell'arte della semantica.

Semtech come evento si struttura in:

• workshop
• presentazioni didattiche (metodologie) / informative (standards)
• presentazioni sponsorizzate / di prodotto
• case studies
• stands
• poster sessions

La nostra missione ha potuto coprire solo parzialmente le presentazioni e ci siamo concentrati su quanti potessero essere affini al mercato potenziale di Grafema e Grafema+.

E' d'uopo sottolineare che gran parte delle presentazioni didattiche ed informative vertessero sugli standards in voga per la veicolazione e il trattamento della conoscenza (OWL, SPARQL, RIF) e sugli strumenti open source disponibili in rete (Jena, prot/g/), ma anche sui limiti attuali e sulle best practices con cui affrontarli (rilevante l'intervento di Google).

07062011206.jpg:

Poche altre presentazioni davano conto dei risultati ottenibili con architetture di gestione del linguaggio (GATE, LingPipe), che, pur stabilendosi come lingua franca nell'integrazione di strumenti d'analisi, non lasciano intravedere sostanziali innovazioni algoritmiche.

E' emerso che il mercato è quasi esclusivamente incentrato sul trattamento della lingua inglese ed in nessun caso tratta le informazioni implicitamente derivabili dal layout dei documenti.

In un unico caso riguardante la gestione e l'ottimizzazione delle supply chains complesse (presentazione di XSB) i documenti venivano originati da OCR, ma la loro correzione e classificazione era comunque affidata ad operatori umani.

In tutti i casi (eccezione fatta per l'sdk proposto da AI-ONE che utilizza strumenti statistici) gli strumenti di analisi dei documenti presuppongono la costruzione di un modello linguistico tramite cui operare NLP (Natural Language Processing) e poi la estrazione di informazione seguendo sistemi di regole creati a mano a seconda dell'applicazione specifica.

Molto stimolanti invece le presentazioni di Yahoo sulla semantic search e quella di IBM sulla realizzazione di watson (sistema automatico, già funzionante, di risposta a domande complesse in linguaggio naturale): ci fanno capire come la semantica sia veramente pronta per entrare in tutte le realtà aziendali.

Incontrando diversi operatori del settore che erano presenti come spettatori alle sessioni, abbiamo riscontrato vivo interesse per le prerogative del nostro approccio statistico ed indipendente dal modello linguistico di riferimento.

Le nuove tendenze linguistiche (es. lo slang di twitter) e la presenza di informazioni in pluralità di formati (immagini, flash, video), rendono sempre piu' appetibile un approccio olistico, e questo viene percepito da alcuni operatori.

Di sicuro l'approccio utilizzato da Vega per Grafema+ è unico nel trattare contemporaneamente la semantica del layout e quella del contesto, così come risulta particolarmente efficace rispetto ai competitors nella capacità di disambiguazione con riferimento al contesto.

Tirando le somme possiamo dire che la nostra visita, già a prescidere dai contatti forieri di possibili collaborazioni e dalla cultura che ci siamo potuti fare in merito agli standards di interfacciamento con sistemi di KM odierni, ci ha permesso di prendere atto dell'originalità del nostro progetto e dello stato di avanzamento promettente delle nostre sperimentazioni e dei risultati finora ottenuti.

In prospettiva sembra che il mercato sia interessato a volere sperimentare il rischio opportunità offerto da approcci innovativi.

Il maggiore appeal del progetto Grafema+ puo' essere esplicitato dove non abbiamo percepito concorrenza (ovvero nell'utilizzo di strumenti statistici per il NLP e per la estrazione di dati da documenti parzialmente strutturati, dove il layout sia portatore di semantica) anche se non è chiara da Semtech l'ampiezza della mercato di riferimento: questa è una sfida su cui Vega si concentrerà nei prossimi mesi. L'integrazione con un sistema OCR è chiaramente un vantaggio in quanto questa non è una verticalizzazione che ha pari presenti sul mercato.