dijous, 1 de juny del 2017

ANÀLISI LEXICOMÈTRICA DE LA CULTURA ESPANYOLA



Per realitzar aquesta anàlisi lexicometric, he cercat la informació d'acord amb la meva curiositat com expatriada. De vegades, s’escapa molta informació quan un viu en un altre país i volia veure que és el que els espanyols han cercat més en els blogs

He cercat en la web del periòdic "El Mundo" els 25 blogs més llegits pels espanyols. Verament són 100 blogs però jo he consultat els primers 25. Podeu trobar tot el llistat en aquí
Consultar els posts més llegits m’han fet cercar informació molt variada sobre la cultura actual espanyola.

Utilitzant el programa AntConc, he analitzat el cos textual dels 25 blogs més llegits. El top dels 25 blogs més llegits. El primer que hem de fer és crear una carpeta nova, "Top25 Spanish", on aniran tots els blogs o webs seleccionats. Un cop fet el primer pas, podem carregar-los al corpus del programa com directori Open Dir, ja que no es tracta d’un únic file. Ens dóna un total de 25 files, i donem al START per iniciar la nostra anàlisi.
Si ens donen numeracions estranyes, el que hem de fer abans és configurar el programa. És a dir, fer la codificació correcta dels caràcters del nostre fitxer de blogs que hem anomenat "Top25 Spanish" podem començar.

Fent la primera anàlisi, m'he trobat amb els primers verdaders problemes i que no hi havia pensat abans. El procés inicia amb l’anàlisi d'una llista que resulta de la cerca de dades, evidencies i marques més freqüents en el corpus.
El primer problema és precisar aquest llistat, ja que com a resultat ens trobem amb un munt d’errors tècnics de precisió en la cerca com la gran varietat de preposicions, adverbis, pronoms...que fan enriquir la nostra llengua però no seria el nostre cas, ja que per mitjà d'un filtre podem fer una cerca més objectiva. Aquest filtre és el stopwords i cada llengua, òbviament té el seu filtre. Així trobem les freqüències de paraules sense el filtre:


Anem ara a calcular les freqüències amb el filtre stopwords que he trobat aquí

Si abans teníem Wordtypes 4860 ara tenim 4596; i Tokens de 22246 a 9022. 


Ara podem veure que la paraula més cercada és "hay" amb 40 vegades utilitzada i amb el rànquing 1 enfront "zonas" que per ordenació alfabètica es troba en el rànquing 4596.
He cercat la paraula “sèrie” que és una de les més utilitzades per veure el seu context davant els blogs.


Podem dir que la paraula “sèrie” es troba en 27 contextos diferents de 25 blogs. La proporció és bastant alta.

El càlcul de riquesa lèxica en el primer anàlisi sense utilitzar el filtre, teníem 4860/22246= 0,218 i després del filtre ens dona un càlcul de 4596/9022= 0,509.
Podem veure com tots els textos han millorat notablement. Si fem l’anàlisi d’una paraula com “sèrie”, veiem que la primera anàlisi 27/22246= 0,0012  i en la segona anàlisi 27/9022=0,0029

CÀLCUL DE RIQUESA LÈXICA GENÈRIC I INDIVIDUAL

freqüència absoluta genèrica de 25 Blogs sense stopword ..........................  0,218
freqüència absoluta individual de la paraula sèrie.........................................  0,0012
freqüència relativa genèrica de 25 Blogs amb stopword .............................. 0,509
freqüència relativa individual de la paraula sèrie 0,0012 ..............................  0,0029


Ara si anem a analitzar la distribució del mot "sèrie", podem veure com, des d'una manera gràfica es veu la representació del mot com un "codi de barres". La captura deixa veure quins blogs inclouen el mot i on (inici, cos o final).



Ens rebel·la com la paraula “sèrie” s’utilitza en 6 textos dels 25 seleccionats per prioritat de lectura.
Tots 6 blogs, si considerem que el mot “sèrie” com la tesi principal d’ells, tenen una mateixa estructura: Introducció, cos i conclusió. Només en dos dels textos semblen no parlar directament sobre aquest mot sinó com una referència.



Per tal de generar una llista més ordenada per "agrupacions" del mot "serie", veurem la seva freqüència dintre dels blogs i com el trobem, és a dir, per la primera o última paraula o qui va al costat del mot “serie”.

Conclusions


Les dades analitzades ens donen el resultat de la cultura espanyola on intuïm que la tv és un gran tema per parlar. Parlar de les sèries com a referent o directament d'una sèrie, sembla ser un dels temes més comentats. Des del meu punt de vista com expatriada ja gairebé una dècada, puc dir que no hem canviat molt. Si abans es parlava del programa “Cròniques marcianes” o de la sèrie “Twin Peaks” ara es parla de “El Hormiguero”.
Sembla que al ciutadà comú el que realment s'interessa és que en el seu país es continuï com sempre: sent un dels més segurs, l'octà país productor d’automòbils i una potència turística. Espanya no deixa de ser un Estat de Benestar amb una sanitat publica de qualitat, on només interessa tenir un bon treball, una bona educació i sentir-se protegit. En el tema de l’educació, puc donar la raó. Gràcies a molts avanços, podem seguir estudiant a distància com en la Uoc. Aquesta assignatura m’ha agradat molt i no era gens ni mica del que m’esperava. Creia més en una anàlisi nu i cru de gramàtica i lèxic que, gràcies a diferents lectures i programes, m’han enriquit conscientment. 
Antconc és una eina fonamental per portar a terme qualsevol treball crític amb una base argumentativa visual i puntual.
Però...en el tema de la lectura o en el temps lliure, s’hauria de modernitzar i parlar-ne de temes més actuals que no els de fa 10 anys.




1 comentari:

  1. De acuerdo con tu última frase, te sugiero que recomiendes esta mejora en la asignatura como alumna.

    ResponElimina