TEHNICI DE EXPLORARE A TEXTULUI ÎN CADRUL
SISTEMELOR DE ÎNVĂŢARE
Profesor ANASIA SIMONA,
GRUPUL ŞCOLAR INDUSTRIAL de MARINĂ, GALAŢI
The article depicts the way computers and humans work together in order to analyze different texts. We can easily see that a computer is able to elaborate certain methods for learning and can apply them to text mining, but the importance of a human operator must not be minimized, because it is necessary that this person programs the computer to process input data in order to obtain new knowledge. The article displays learning techniques that are used by machine learning and describes a few of the possible uses of text mining.
Key words: machine learning, learning, transduction, induction, abduction, supervising
Articolul prezintă modul de colaborare dintre calculator şi om, în scopul analizei textului. Deşi este uşor observabil că un calculator poate realiza anumite metode de învăţare şi le poate aplica pentru analiza textului, importanţa omului nu poate fi minimalizată, deoarece este necesar ca acesta să programeze calculatorul pentru a provcesa datele de intrare în scopul obţinerii de noi cunoştinţe. Sunt expuse tehnicile de învăţare specifice sistemelor, precum şi o comparaţie a acestora şi o descriere a aplicabilităţilor posibile.
Cuvinte cheie: machine learning, învăţare, transducţie, inducţie, abducţie, supervizare
Ca subdomeniu al inteligenţei artificiale, Machine Learning se ocupă cu dezvoltarea de algoritmi şi tehnici care le permit calculatoarelor să înveţe. Machine learning se suprapune cu tematica statisticii, deoarece ambele se ocupă cu analiza datelor, dar, spre deosebire de statistică, machine learning are ca domeniu de interes complexitatea algoritmică a implementărilor computaţionale. Unele sisteme de învăţare încearcă se elimine necesitatea intuiţiei umane în analiza datelor, în timp ce altele adoptă tehnica de colaborare dintre om şi maşină. Intuiţia umană nu poate fi eliminată în totalitate, întrucât cel care a proiectat sistemul trebuie să specifice modul de reprezentare a datelor şi mecanismele ce vor fi utilizate în scopul descoperirii caracteristicilor datelor.
1.Tehnicile de machine learning sunt organizate astfel:
- învăţare prin abducţie
- învăţare prin inducţie
- învăţare transductivă
- învăţare cu întărire.
1.1. Învăţare abductivă şi inductivă
De-a lungul timpului, mulţi autori au studiat, în domeniul vast al Inteligenţei Artificiale, separat: abducţia şi învăţarea. Ei au arătat importanţa lor în dezvoltarea sistemelor cu capacităţi avansate cum ar fi: abilitatea de a achiziţiona şi asimila informaţiile în mod inteligent, de a înţelege şi a se adapta factorilor externi, a planifica acţiunile şi a comunica cu alte sisteme. Studiile recente au avut ca rezultat apropierea celor două direcţii în diverse contexte pentru a îmbunătăţi capabilităţile sistemelor. De aceea este importantă înţelegerea de ansamblu a relaţiei între cele două direcţii şi studierea posibilităţilor de aplicare şi integrare efectivă.
1.1.a. Învăţarea prin abducţie
Abducţia reprezintă raţionamentul care duce la o explicaţie în concordanţă cu un fapt cunoscut anterior. Învăţarea abductivă reprezintă operaţia adoptării unei ipoteze care ar explica toate evenimentele sau o parte din ele. Matematic, noţiunea de abducţie poate fi sintetizată astfel: dată o mulţime de fapte T şi o mulţime O de enunţuri (observaţii), procesul de abducţie se rezumă în a găsi un set de enunţuri notat H (explicarea abductivă pentru O), astfel încât:
(1)TUH=>O şi
(2) TUH este o mulţime consistentă.
Exprimarea sub această formă nu permite o modalitate riguroasă de a găsi setul de enunţuri H. Ar fi posibil de exemplu ca observaţia O să ducă la o concluzie imediată, fără a fi necesar raţionamentul abductiv ce implică cunoaşterea mulţimii de fapte T. De asemenea se presupune că observaţia poate fi explicată abductiv prin generarea în mulţimea H a unor noi teorii fără legătură cu mulţimea de fapte T. În acest caz, mulţimea H nu conţine explicaţii abductive ale observaţiilor, în corespondenţă cu mulţimea T. Din această cauză, pentru a preciza un nivel la care explicaţiile sunt necesare şi pentru a înţelege aceste relaţii în concordanţă cu teoria cunoscută pentru un anumit domeniu de interes, elementele mulţimii H, trebuie să aparţină unui domeniu predefinit, denumit „domeniu abductibil". O explicaţie abductivă pentru O este văzută ca fiind o cauză, care rezultă din teoria cunoscută T, examinând instanţele acestei teorii. Presupunerile care conduc la predicatele abductibile folosite pentru construcţia explicaţiilor (mulţimea H) pot fi supuse unor restricţii exprimate prin „constrângeri de integritate".
Este de observat faptul că un set de constrângeri de integritate reduc numărul de explicaţii pentru o mulţime de observaţii. în orice caz, există situaţii unde pot exista mai multe explicaţii care satisfac (nu încalcă) constrângerile de integritate. Aceasta situaţie este cunoscută sub denumirea de problema explicaţiilor multiple. De fapt, abducţia este descrisă ca o inferenţă spre cea mai bună explicaţie. Până în acest punct, criteriile stabilite pot ajuta la alegerea unei explicaţii,^ prin alegerea unora ca fiind plauzibile sau de preferat faţă de altele. Un criteriu des utilizat este cel al minimalităţii explicaţiei.
O teorie abductivă <T, A, IO poate fi privită ca reprezentând o colecţie de stări posibile ale problemelor. Aceste stări sunt caracterizate de subseturi ale predicatelor abductibile, care satisfac integritatea constrângerilor IC. În această perspectivă, o soluţie viabilă din teoria T este corectă dacă există un enunţ care să răspundă problemei în cauză, astfel încât să fie condiţionat de acel set de predicate abductibile care definesc starea. Mai mult, această perspectivă ne permite să considerăm o teorie abductivă ca un obiect dinamic care evoluează pe măsură ce apar noi informaţii sub forma observaţiilor (O). Aceste informaţii pot fi asimilate prin schimbarea colecţiei de presupuneri abductibile acceptate şi a enunţurilor corespunzătoare în teoria abductivă, acceptându-le numai pe acelea pentru care O este adevărată.
1.1.b. Învăţarea inductivă
Învăţatarea inductivă nu asigură corectitudine matematică. Inducţia apare când punem cap la cap biţii de informaţie culeşi şi folosim propriile noastre cunoştinţe şi experienţe în observarea datelor care pot fi adevărate. Învăţarea inductivă nu foloseşte silogisme ci o serie de observaţii pentru a ajunge la o concluzie. Procesul de deducţie inductivă este invers faţă de cel folosit în silogismele deductive, învăţatarea inductivă porneşte de la nişte observaţii specifice către generalizări şi teorii. Informativ, îi spunem câteodată aproximare “bottom up”, de jos în sus. În învăţarea inductivă, începem cu nişte observaţii şi măsurători, incepem să detectăm anumite asemănări, să formulăm nişte teorii care pot fi înţelese, şi în final terminăm cu formularea unor concluzii sau teorii generale. Învăţarea inductivă, prin natura sa, este mai deschisă la nou şi mai uşor de înţeles, în special pentru începători. Cea mai simplă formă de învăţare inductivă este numită învăţare prin enumerare. Atunci când se face o afirmaţie generală (toţi vânzătorii sunt insistenţi) ea se bazează pe un număr specific de membri aparţinând acelui grup (ultimii trei vânzători care au venit la uşa mea au fost insistenţi). Deasemeni se generalizează când faci o observaţie despre un lucru specific care aparţine aceluiaşi grup (vărul prietenei mele este vânzător, deci probabil este insisitent). Când folosim observaţii specifice ca fundament al unor concluzii generale, se spune că se face un pas inductiv. Succesul unui sistem expert depinde în bună măsura de existenţa unei baze de cunoştinţe complete, coerente şi neredundante. Generarea regulilor din baza de cunoştinţe se poate realiza cu ajutorul algoritmilor de învăţare inductivă.
Principala problemă care poate apare în cadrul etapei de achiziţie a cunoştinţelor unui sistem expert constă în transferul cât mai fidel al cunoştinţelor experţilor umani în baza de cunoştinţe. Astfel, succesul sistemului expert va depinde în buna măsură de existenţa unei baze de cunoştinţe complete, coerente şi neredundante.
Cele două inferenţe, abducţia şi inducţia, utilizate în mod frecvent în domeniul Inteligenţei Artificiale, au la bază aceleaşi specificaţii: considerând domeniul problemei având la bază o teorie T şi o observaţie (sau un set de observaţii) notată O, sa determinăm ipoteza H care satisface următoarea relaţie:
TUH=>O(1)
Totuşi cele două inferenţe diferă în mod semnificativ prin modalitatea în care satisfac relaţia de mai sus şi extind aceasta relaţie în diferite direcţii:
(a) Abducţia obţine problema din reguli şi din rezultat.
(b) Inducţia obţine regulile din problemă şi din rezultat.
1.2. Învăţarea transductivă
Conceptul de transducţie a fost introdus de Vladimir Vapnik în cartea sa publicată în 1995: "The Nature of Statistical Learning Theory". El propune un nou mod de inferenţă, transducţia, în locul inferenţei inductive. Figura de mai jos ilustrează principiul transducţiei:
Transducţie versus inducţie
Inducţia (învăţare supravegheată):
• Ni se dă o mulţime de intrare corect etichetată
• Trebuie să construim un clasificator bazat pe această mulţime
• Scop: minimizarea erorii aşteptate pentru orice exemplu generat de aceeaşi distribuţie ca mulţimea de intrare
Transducţia (învăţare semi-supravegheată):
• Ni se dau mulţimea de intrare şi mulţimea de test
• Scop: minimizarea erorii aşteptate pentru mulţimea de test.
Câteva exemple ale clasificării transductive a textelor:
• Feedback relevant: este o tehnică standard în obţinerea informaţiei. Utilizatorul marchează nişte documente obţinute în urma unei căutări ca fiind relevante sau irelevante. Acestea vor constitui setul de antrenament pentru clasificator, iar restul colecţiei de documente reprezintă setul de test.
• Filtrarea ştirilor pe internet: în fiecare zi sunt publicate multe articole pe internet. Pornind de la câteva exemple clasificate de utilizator în zilele precedente, se doreşte aflarea celor mai interesante ştiri pentru respectivul utilizator.
• Reorganizarea unei colecţii de documente: Companiile multinaţionale folosesc colecţii imense de documente cu scheme de clasificare. La introducerea unor noi categorii, au nevoie de clasificatoare de text care, pornind de la câteva exemple de antrenament, clasifică automat restul colecţiei de documente.Scopul clasificării de text este plasarea automată a documentelor într-un număr fix de categorii semantice. Fiecare document poate fi în mai multe, exact una, sau nicio categorie.
Folosind învăţarea la maşini, obiectivul este de a învăţa clasificatorii din exemple care asignează automat categoriile. Pentru a facilita o învăţare eficientă, fiecare categorie este tratată ca o problemă separată de clasificare binară. Fiecare astfel de problemă răspunde la întrebarea: "Acest document trebuie plasat în această categorie?". Documentele, care de obicei sunt şiruri de caractere, trebuie trecute într-o reprezentare ce poate fi utilizată de algoritmul de învăţare şi de procesul de clasificare.
1.3. Învăţarea cu întărire
Există multe probleme nerezolvate pe care computerul le poate rezolva cu ajutorul programelor. învăţarea cu întărire este o apropiere de maşina inteligentă care combină cu success două discipline ce rezolvă probleme pe care alte discipline nu le pot rezolva individual. Programarea dinamică este un câmp al matematicii care este folosit pentru a rezolva probleme de optimizare şi control. Programarea dinamică tradiţională este limitată ca mărime şi complexitate învăţarea supervizată este o metodă generală pentru un aproximator de funcţie parametrizată, ca reţelele neurale, pentru a reprezenta funcţii. Cu toate acestea, învăţarea supervizată are nevoie de perechi intrare-iesire ale funcţiei de învăţare. Adică, învăţatarea supervizată necesită un set de întrebări cu răspunsurile corecte.
2. Aplicabilităţi ale text mining-ului
Machine Learning reprezintă studiul algoritmilor care se îmbunătăţesc pe baza experienţei. Experienţa este asociată cu însumarea cunoştinţelor dobândite prin intermediul diverselor resurse. Datorită faptului că majoritatea cunoştinţelor se află stocate sub forma datelor sau sub formă textuală, pentru ca acestea să poată fi descoperite şi utlizate sunt necesare metode de explorare a datelor şi a textului, respective text mining şi data mining.
Data mining-ul a apărut ca o continuare a metodelor tradiţionale de analiză a depozitelor de date (pe volume mari). Datorită costurilor de implementare ridicate a apărut necesitatea identificării unor soluţii de extragere a esenţialului dintr-un volum foarte mare de date, la costuri mult mai reduse, soluţii cunoscute astăzi sub denumirea de data mining. Odată cu expansiunea Intemet-ului şi a informaţiei de tip text în format electronic, a apărut necesitatea extragerii automate de cunoştinţe şi din text, şi astfel data mining-ul a cunoscut o nouă specializare: text mining-ul. Spre deosebire de data mining, text mining-ul presupune un software care se adresează publicului larg consumator de servicii în reţea, motivele pentru aceasta fiind universalitatea cererii de achiziţionare de informaţie în timp real şi costurile mici (preţul conexiunii) de achiziţionare a informaţiei, comparativ cu data mining-ul. Text mining-ul are drept obiectiv principal extragerea automată de cunoştinţe, ce trebuie să îndeplinească la rândul lor cerinţele de: noutate, validitate, operaţionalitate. Text mining este foarte relevant astăzi în special datorită afluxului mare de cunoştinţe existente în documentele de tip text, din cadrul sau din afara unei organizaţii. în organizaţiile care se bazează pe informaţiile textuale, lucrul cu un amont mare de text devine foarte dificil. întreaga colecţie de text este prea mare pentru a putea fi citită şi analizată uşor. Mai mult de atât, se modifică in mod constant şi necesită revizuire şi analiză pentru a fi actualizată. Text mining-ul are în vedere aceste probleme, oferind diverse instrumente pentru a analiza şi a învăţa din cadrul acestor informaţii dinamice.
Elemente ce trebuie avute în vedere la selectarea unei soluţii text mining
Datorită evoluţiei accelerate în domeniul text-miningului, utilizatorii trebuie să se ghideze după următoarele reguli când doresc să selecteze una dintre metodele de text mining.
Să nu solicite categorizarea manuală, tagging-ul sau construirea unor tezaure
Text mining-ul transmite identificarea automată şi indexarea conceptelor din cadrul textelor, prezintă o imagine la nivel înalt a scopului întregului text, cu abilitatea de a "fora" pentru obţinerea detaliilor relevante.
Tehnicile de text-mining permit utilizatorilor să facă noi asocieri şi relaţii, ducând la noi căi pentru inovare şi explorare.
Aplicaţiile de text mining se pot clasifica în aplicaţii online şi aplicatii offline. În prezent, cele mai cunoscute aplicaţii de text mining sunt:
a) Aplicaţii online pentru:
- căutarea inteligentă pe Internet, care presupune analiza de conţinut (cu ajutorul tehnicilor de text mining documentele regăsite de un motor de căutare sunt filtrate, fiind păstrate doar rezultatele cu sensul cautat), dezvoltarea unui profil al utilizatorului (documentele sunt aduse automat fără o solicitare expresă din partea utilizatorului, plecând de la un profil al preferinţelor conform cărora programul caută independent documente relevante).
- regăsirea ştirilor interesante: selectarea de ştiri de pe Usenet este o provocare care apare în viaţa de zi cu zi a multor utilizatori de Internet.
- regăsirea de răspunsuri la întrebări: există întrebări frecvente la care altcineva poate răspunde sau a răspuns deja. Acestea se numesc frequently asked questions şi se găsesc împreună cu răspunsurile lor în baze de date.
- filtrarea poştei: partiţionarea mulţimii scrisorilor electronice în grade de prioritate în funcţie de reacţiile anterioare ale utilizatorului şi emiterea de recomandări de ştergere a unor mesaje pasibile de a fi comerciale sau neinteresante.
b) Aplicatii offline pentru:
- clasificarea documentelor preluate de pe Internet.
- rezumarea documentelor (obţinând astfel documente condensate şi rezumate, abstracturi ale lucrărilor depozitate)
- concatenarea documentelor (de exemplu crearea de relatări ale unor stiri pe baza informaţiilor preluate din mai multe surse)
Aplicaţiile menţionate nu respectă întru totul obiectivul de extragere a cunoştinţelor, aceste sisteme realizând cel mult extragere de informaţii. Extragerea cunoştinţelor reclamă mai mult de la metodele de text mining şi anume înţelegerea, măcar aproximativă, a documentelor şi crearea unui sistem de generare într-o forma inteligibilă de cunoştinţe noi. În prezent, interpretarea rezultatelor este realizată în continuare de utilizator pe un număr însă mai mic de informaţii mai exacte.[1]
Aplicaţiile sunt folosite pentru anumite funcţii sau procese. Pot fi dependente sau independente de domeniu . Soluţiile de tipul explorării datelor îndeplinescu cerinţe multiple din cadrul domeniilor de aplicabilitate. Ramurile în care se poate aplica explorarea datelor sunt:
- Descoperirea substanţelor chimice, a medicamentelor, a simptomelor
Sursele de informaţii includ literatură ştiinţifică şi medicală, reţetele de tratament, bazele de date de compuşi chimici, medicamente şi simptome medicale. Are rolul de a observa relaţiile între entităţile biomedicale şi chimice şi indicatorii genetici, de exemplu proteine şi gene-secvenţe de bază-simptom, tipare de genul “A activează B” sau “A se asociază cu B.“ Este necesară determinarea relaţiilor şi asociaşiilor temporare.
- Managementul îngrijirii sănătăţii
Sursele includ baze de date cu cercetări clinice, înregistrări ale pacienţilor.
- Inteligenţă şi contra terorism
Au la bază ştiri şi anchete de investigare, interceptări ale comunicaţiilor, şi documente în diverse limbi. Scopurile sunt reprezentate de reţelele şi asociaţiile organizaţionale, tipare comportament-atac,observarea ameninţărilor, prezicerea evenimentelor.
Domeniile de afaceri, academice şi guvernamentale vor fi printre primele care vor beneficia de “instrumente“ sofisticate de detectare a cunoştinţelor, cum este explorarea textului. Explorarea textului poate juca un rol important în cadrul multor funcţii referitoare la mediul de afaceri. Lista include Managementul Relaţiilor cu Clienţii, unde sursele sunt reprezentate de e-mail-uri şi scrisori, notări şi stenograme ale centrului de consultanţă căt şi date din baza de date a serviciului de management, şi are ca scop identificarea problemelor referitoare la calitatea produselor şi serviciilor, pentru a ghida designul şi pentru a încheia numai anumite contracte.
Bibliografie
1. http://www.revistaie.ase.ro/content/23/Flavian.pdf
2. http://portal.acm.org/citation.cfm?id=998547&dl=GUIDE&coll=GUIDE
3. www.TextMiningNews.org - The developing text mining Market
4. Eklund, B. Back, H. Vanharanta.and A. Visa, "Assessing the Feasibility of Self-Organizing Maps for Data Mining Financial Information", in Proceedings of the Xth European Conference on Information Systems (ECIS 2002), Gdansk, Poland, June 6-8, 2002
Articole asemanatoare mai vechi:
|