Google och meningen med ord
Den här bloggposten reflekterar över hur Google leder utvecklingen i världen när det gäller att samla, tolka och sortera information. Faktum är att de också är bäst i världen på att kapitalisera på andras information, men det är en annan bloggpost.
I den här bloggposten kikar vi kort på fyra språkverktyg som Google lanserat. De bakomliggande teknologierna för de här publika tjänsterna är sannolikt bara en liten del av Google sammanlagda verktygslåda och tjänsterna nog är bara en liten light-demonstration av deras verkliga ingenjörs-kraft.
Google Sets
Google Sets är en sorts demonstration av hur man kan implementera och skapa ett sorts gränssnitt för topic modeling. Topic modeling är ett begrepp som på senare tid hörts i SEO-svängen i samband med att en viss amerikansk sajt undrat huruvida den ena varianten av topic modeling, LDA – Latent Dirchlet Allocation, är den som Google använder sig av för att mäta relevans i olika sammanhang, eller om det är så att det är den andra – Probabilistic Latent Semantic Indexing, PLSI. Hur det än ligger till med den saken så är Google Sets något så unikt som en praktisk implementation av någon variant av topic modeling och som ger en fingervisning i hur, eller kanske snarare att det fungerar. Här är patentet för själva gränssnittet.
För den som jobbar med sökmotoroptimering så är Google Sets ett ganska användbart verktyg… Hurdå? För den som någonsin suttit och funderat över hur man kan öka relevansen för ett dokument i förhållande till en viss sökfras så är detta ett schysst tillägg i verktygslådan. När man har:
- Optimerat titeln och tjockat på med både singularis och pluralis
- Skrivit en konsis rubrik
- Skrivit en lång och ointressant text med lite för många omnämningar av den aktuella sökfrasen och också några andra grammatiska former av den
Fortfarande inte etta, vad göra?
Nu plockar du fram Google Sets och laddar på med ett par varianter av den aktuella sökfrasen och, vips så föreslår Google ett antal olika nyckelord som är besläktade. Normalt när man skriver text så får man börja med att fundera ut vilka relevansmässigt närliggande begrepp som ska omnämnas och avhandlas i sin text. Varför inte ta en titt på Google’s egen definition av vad som är relevant? Google Sets är demonstrerar hur Google kan mäta relevansen av ditt dokument i förhållande till en viss sökfras.
Google Scribe
Google Scribe är en sorts avancerad auto suggest-funktionalitet, ungefär som det inbyggda T1 som finns i din mobil, men taget ett steg längre. Hur den här tekniken fungerar mer specifikt, är svårt för mig att gissa kring annat än att det kan röra sig om en maskin som har grammatiska regler klart för sig och som lär sig hur meningar sannolikt fortsätter med hjälp av statistik från Google’s Index.
Hur bra det här verktyget fungerar tycker jag visar, bland annat, hur bra Google är på att bedöma språket vad gäller grammatik och stavning. Här är för övrigt en forumtråd om Scribe som är rolig.
Reading Level
Reading Level finns som en ny parameter under Advanced Search på Google.com. Ett tänkbart scenario då man kan tänkas använda sig av Reading Level är då man vill exkludera sådana dokument som inte är akademiska. Alldeles oavsett om man tycker att detta är en användbar funktion eller inte så betyder det att Google har förmågan att bedöma kontext – om ett visst dokument är skrivet med ett akademiskt språk och hör hemma i sådana kontext.
En sökning på ordet “linguistics”, ger bilden att sökordet förekommer främst i akademiska sammanhang.
En sökning på frasen “big brother”, antyder föga förvånande att den språkliga kontexten inte främst är av akademisk karaktär.

Betyder detta att om man vill synas på akademiska termer, att man måste skriva på ett akademiskt språk, allt annat lika? Det är möjligt, men det betyder i alla fall att Google kan bedöma i vad för slags kontext en viss sökfras sannolikt hör hemma . Till exempel så förväntar sig sannolikt någon som söker på frasen “sökmotoroptimering” att få läsa ett dokument fullt av gissningar på risig svenska och med svärord och svengelska om vartannat. Att skriva på ett annat språk vore rena självmordet för varje sökmotorkonsult. Detta med kontext är dessutom intressant vad gäller inlänkar. Man kan exempelvis föreställa sig att en länk från blogg.se inte kommer att kunna påverka rankingen för ett akademiskt dokument publicerat på en universitetssajt. Inte i samma mån som en länk från en från ett kontextuellt mer liknande sammanhang åtminstone.
Google Translate
Google Translate är världens bästa översättningsverktyg. Som är gratis och som jag känner till åtminstone. Här är en video som Google själva producerat om saken:
Sammanfattningsvis
Den sammanlagda bilden av de här exemplen visar en sökmotor som gör sig förberedd på att bli mer än en sökmotor. Tänkte använda ett citat av Stowe Boyd:
Meaning is the new search
Och ett till av Eric Schmidt, Google Inc VD:
“As you go from the search box [to the next phase of Google], you really want to go from syntax to semantics, from what you typed to what you meant. And that’s basically the role of [Artificial Intelligence]. I think we will be the world leader in that for a long time.”
Möjligheten att genom dataansamling, information retrieval, kunna förutse avsikter bakom ett visst beteende på nätet, rymmer en enorm kommersiell potential. Skillnaden mellan att kunna visa annonser i närheten av vissa sökord och fraser, och att kunna förutse ett kommersiellt behov baserat på mönster av beteenden och därigenom avsikten bakom orden och fraserna, är stor och det är här Google har potential att bryta ytterligare mark. Faran är att systemet blir självmedvetet och med våld vänder sig mot sina skapare.












Kommentera inlägget