Per realitzar aquesta anàlisi lexicometric, he cercat
la informació d'acord amb la meva curiositat com expatriada. De vegades, s’escapa
molta informació quan un viu en un altre país i volia veure que és el que els
espanyols han cercat més en els blogs.
He cercat en la web del periòdic "El
Mundo" els 25 blogs més llegits pels espanyols. Verament són 100 blogs però jo
he consultat els primers 25. Podeu trobar tot el llistat en aquí
Consultar els posts més
llegits m’han fet cercar informació molt variada sobre la cultura actual
espanyola.
Utilitzant el programa
AntConc, he analitzat el cos textual dels 25 blogs més llegits. El top dels 25
blogs més llegits. El primer que hem de fer és crear una carpeta nova, "Top25
Spanish", on aniran tots els blogs o webs seleccionats. Un cop fet el
primer pas, podem carregar-los al corpus del programa com directori Open Dir, ja que no es
tracta d’un únic file. Ens dóna un total de 25 files, i donem al START per
iniciar la nostra anàlisi.
Si ens donen numeracions estranyes,
el que hem de fer abans és configurar el programa. És a dir, fer la codificació
correcta dels caràcters del nostre fitxer de blogs que hem anomenat "Top25
Spanish" podem començar.
Fent la primera anàlisi,
m'he trobat amb els primers verdaders problemes i que no hi havia pensat abans.
El procés inicia amb l’anàlisi d'una llista que resulta de la cerca de dades,
evidencies i marques més freqüents en el corpus.
El primer problema és
precisar aquest llistat, ja que com a resultat ens trobem amb un munt d’errors tècnics
de precisió en la cerca com la gran varietat de preposicions, adverbis,
pronoms...que fan enriquir la nostra llengua però no seria el nostre cas, ja
que per mitjà d'un filtre podem fer una cerca més objectiva. Aquest filtre és
el stopwords i cada llengua, òbviament té el seu filtre. Així trobem les freqüències
de paraules sense el filtre:
Anem ara a calcular les freqüències
amb el filtre stopwords que he trobat aquí
Si abans teníem Wordtypes
4860 ara tenim 4596; i Tokens de 22246 a 9022.
Ara podem veure que la paraula
més cercada és "hay" amb 40 vegades utilitzada i amb el rànquing 1 enfront
"zonas" que per ordenació alfabètica es troba en el rànquing 4596.
He cercat la paraula “sèrie”
que és una de les més utilitzades per veure el seu context davant els blogs.
Podem dir que la paraula “sèrie”
es troba en 27 contextos diferents de 25 blogs. La proporció és bastant alta.
El càlcul de riquesa lèxica
en el primer anàlisi sense utilitzar el filtre, teníem 4860/22246= 0,218 i
després del filtre ens dona un càlcul de 4596/9022= 0,509.
Podem veure com tots els
textos han millorat notablement. Si fem l’anàlisi d’una paraula com “sèrie”,
veiem que la primera anàlisi 27/22246= 0,0012 i en la segona anàlisi 27/9022=0,0029
CÀLCUL DE RIQUESA LÈXICA GENÈRIC I INDIVIDUAL
freqüència absoluta genèrica de 25
Blogs sense stopword .......................... 0,218
freqüència absoluta individual de la
paraula sèrie......................................... 0,0012
freqüència relativa genèrica de 25
Blogs amb stopword .............................. 0,509
freqüència relativa individual de la
paraula sèrie 0,0012 .............................. 0,0029
Ara si anem a analitzar la distribució del mot
"sèrie", podem veure com, des d'una manera gràfica es veu la representació
del mot com un "codi de barres". La captura deixa veure quins blogs
inclouen el mot i on (inici, cos o final).
Ens rebel·la com la
paraula “sèrie” s’utilitza en 6 textos dels 25 seleccionats per prioritat de
lectura.
Tots 6 blogs, si
considerem que el mot “sèrie” com la tesi principal d’ells, tenen una mateixa estructura:
Introducció, cos i conclusió. Només en
dos dels textos semblen no parlar directament sobre aquest mot sinó com una
referència.
Per tal de generar una
llista més ordenada per "agrupacions" del mot "serie",
veurem la seva freqüència dintre dels blogs i com el trobem, és a dir, per la
primera o última paraula o qui va al costat del mot “serie”.
Conclusions
Les dades analitzades ens
donen el resultat de la cultura espanyola on intuïm que la tv és un gran tema
per parlar. Parlar de les sèries com a referent o directament d'una sèrie,
sembla ser un dels temes més comentats. Des del meu punt de vista com expatriada
ja gairebé una dècada, puc dir que no hem canviat molt. Si abans es parlava del
programa “Cròniques marcianes” o de la sèrie “Twin Peaks” ara es parla de “El
Hormiguero”.
Sembla que al ciutadà comú
el que realment s'interessa és que en el seu país es continuï com sempre: sent
un dels més segurs, l'octà país productor d’automòbils i una potència turística.
Espanya no deixa de ser un Estat de Benestar amb una sanitat publica de qualitat,
on només interessa tenir un bon treball, una bona educació i sentir-se
protegit. En el tema de l’educació, puc donar la raó. Gràcies a molts avanços,
podem seguir estudiant a distància com en la Uoc. Aquesta assignatura m’ha
agradat molt i no era gens ni mica del que m’esperava. Creia més en una anàlisi nu i cru de gramàtica i lèxic que, gràcies a diferents lectures i
programes, m’han enriquit conscientment.
Antconc és una eina fonamental per
portar a terme qualsevol treball crític amb una base argumentativa visual i
puntual.
Però...en el tema de la
lectura o en el temps lliure, s’hauria de modernitzar i parlar-ne de temes més
actuals que no els de fa 10 anys.
De acuerdo con tu última frase, te sugiero que recomiendes esta mejora en la asignatura como alumna.
ResponElimina