Culturomics / kulturomik

Jag har just läst ut den intressanta reportageboken Google-koden av Andreas Ekström. Den boken ledde mig till Google Ngram Viewer, ett verktyg som du nog borde prova om du inte gjort det förr.

Google har digitaliserat 5,195,769 böcker. Ja, just det. Det är 4% av alla boktitlar som finns i världen, och arbetet fortgår. I Google Ngram Viewer kan du söka bland alla ord i den enorma databasen. Undrar du varför man skulle vilja göra något så fånigt?

Kanske för att få en liten snabb återspegling av vetenskapens utveckling under de senaste 200 åren genom att se hur ofta begreppen använts i skriven text?

Eller för att ta det lite snävare: ”biochemistry” och ”genome”:

Bägge de här bilderna visar något som vi kunnat ana oss till, men som inte alltid är så lätt att visa – hur olika begrepp (forskningsområden) blommar upp för att sedan köras över av the next flavour. Det är svårt att sluta med de här analyserna när man väl börjat. För det är så enkelt. Nedan kommer ytterligare en bild som visar frekvensen av namn på olika politiker i skriven text. Som ni ser var Hitler som hetast runt 1940. Det kanske man hade kunnat räkna ut. Då var han faktiskt mer omskriven än Jesus. Beatles kom aldrig ens nära Jesus. Jag kollade upp det.

Det här är ju bara några skärmdumpar, gjorda på några ögonblick. Värdet av dem är högst begränsat. Jag ville bara visa lite. Endast fantasin sätter stopp.

Culturomics lanserades i tidskriften Science den 16 december ifjol. Kulturomik kan vi väl försvenska det till, så har vi hittat på ett nytt ord att vänja oss vid. Det låter inte vackert, men det kanske tar sig? I dagens nummer av Science finns en ny artikel, av den där gruppen forskare från Harvard, MIT och Google. Titel: Quantitative Analysis of Culture Using Millions of Books. För dig som har rättigheterna så är artikeln tillgänglig i sin helhet som DOI:10.1126/science.1199644.

Dessa forskare har gjort samma typ av textanalyser som jag visade ovan, och som du alltså själv kan genomföra på ett nafs. Fast de gjorde det bra mycket noggrannare och med mer eftertanke förstås.

Studien omfattar allt möjligt, som hur böjningsformerna av olika verb ändrat sig över tiden, hur gamla ord försvunnit och ersatts av andra, hur olika personer eller företeelser har dykt upp eller fallit i glömska. En massa nyckeltal får vi, som att antalet engelska ord i databasen år 1900 uppgick till 1,117,997, medan de år 2000 var 1,489,337.

Nazitysklands censur påvisas genom en jämförande utsökning av namnet på den judiske konstnären Marc Chagall i engelskspråkig och tyskspråkig litteratur.

Då återstår frågan: vad är culturomics/kulturomik?

Författarnas definition lyder: ”Culturomics is the application of high-throughput data collection and analysis to the study of human culture. Books are a beginning, but we must also incorporate newspapers, manuscripts, maps, artwork, and a myriad of other human creations. Of course, many voices —already lost to time— lie forever beyond our reach.

Kan man verkligen fånga kulturen så här? Kan man analysera samhällsutvecklingen så här? Ja, det kan man. Långt ifrån alla aspekter förstås, men på sätt och utifrån perspektiv som inte tidigare varit tillgängliga. Språkforskare, kulturvetare och vad ni nu är – grattis till denna nya leksak. Det här är faktiskt bara början. Hej, matematik!

Om vi sedan tycker att det är trevligt att ett företag sitter på all världens litteratur, informationen om vilka datorsökningar vi gjort (googlesökningar utgör 90% av alla sökningar i Sverige), våra mejl (om vi har gmail), våra foton (om vi använder picasaweb), våra bloggar (om vi använder blogger), våra videoutsökningar och -uppladdningar (om vi använder Youtube) och förser oss med 30% av all internetannonsering, ja, det är en helt annan sak. För storebror ser dig, och han heter Google.

Annonser

Om Håkan

Äh jag berättar mer sedan.
Det här inlägget postades i vetenskap och har märkts med etiketterna , , . Bokmärk permalänken.

3 kommentarer till Culturomics / kulturomik

  1. Ebba skriver:

    Otroligt intressant säger jag som har en kandidatexamen i sociologi. På det här sättet känns ändå den kvantitativa forskningen lite mer… rolig. (För mig som annars mest sysslat med intervjuer när jag pluggade.) Spännande att se hur fackord och personer lever och sen försvinner. Ska titta lite närmare på det där vid senare tillfälle. Google vill ju verkligen äga onlinevärlden, eller snarare, finnas överallt i människors liv. Men jag är ändå mer rädd för Bonnier-ägandet, vet inte varför, borde vara lika hemskt.

    • Kemimannen skriver:

      Det här kommer att göra avtryck inom humaniora, det är jag säker på, så kemist jag är.

      Men… Bonnier är väl ändå peanuts i jämförelse?

      • Ebba skriver:

        Jo absolut peanuts! Menar bara att man bör vara orolig även där, enligt mig. Fattar inte hur de kan få fortsätta dominera Sverige så totalt som de gör. Blev lite glad när Svenska Bio kom upp som en konkurrent (äntligen, Sandrews Metronome lade ju ner för länge sen) till Bonnierdominerade SF, men sen visar det sig att SF äger största delen av Svenska bio också. Skumt läge. Så där är det ofta tycker jag. Man tror det finns konkurrens men det gör det egentligen inte. Aja. Google har många roliga verktyg och antar att deras mail är skitbra också, själv använder jag yahoo, vet inte varför, det bara blev så. 🙂

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s