Google och meningen med ord

2010-12-18 klockan 07:59
google-terminator

Den här bloggposten reflekterar över hur Google leder utvecklingen i världen när det gäller att samla, tolka och sortera information. Faktum är att de också är bäst i världen på att kapitalisera på andras information, men det är en annan bloggpost.

I den här bloggposten kikar vi kort på fyra språkverktyg som Google lanserat. De bakomliggande teknologierna för de här publika tjänsterna är sannolikt bara en liten del av Google sammanlagda verktygslåda och tjänsterna nog är bara en liten light-demonstration av deras verkliga ingenjörs-kraft.

Google Sets

Google Sets är en sorts demonstration av hur man kan implementera och skapa ett sorts gränssnitt för topic modeling. Topic modeling är ett begrepp som på senare tid hörts i SEO-svängen i samband med att en viss amerikansk sajt undrat huruvida den ena varianten av topic modeling, LDA – Latent Dirchlet Allocation, är den som Google använder sig av för att mäta relevans i olika sammanhang, eller om det är så att det är den andra – Probabilistic Latent Semantic Indexing, PLSI. Hur det än ligger till med den saken så är Google Sets något så unikt som en praktisk implementation av någon variant av topic modeling och som ger en fingervisning i hur, eller kanske snarare att det fungerar. Här är patentet för själva gränssnittet.

För den som jobbar med sökmotoroptimering så är Google Sets ett ganska användbart verktyg… Hurdå? För den som någonsin suttit och funderat över hur man kan öka relevansen för ett dokument i förhållande till en viss sökfras så är detta ett schysst tillägg i verktygslådan. När man har:

  • Optimerat titeln och tjockat på med både singularis och pluralis
  • Skrivit en konsis rubrik
  • Skrivit en lång och ointressant text med lite för många omnämningar av den aktuella sökfrasen och också några andra grammatiska former av den

Fortfarande inte etta, vad göra?

Nu plockar du fram Google Sets och laddar på med ett par varianter av den aktuella sökfrasen och, vips så föreslår Google  ett antal olika nyckelord som är besläktade. Normalt när man skriver text så får man börja med att fundera ut vilka relevansmässigt närliggande begrepp som ska omnämnas och avhandlas i sin text. Varför inte ta en titt på Google’s egen definition av vad som är relevant? Google Sets är demonstrerar hur Google kan mäta relevansen av ditt dokument i förhållande till en viss sökfras.

Google Scribe

Google Scribe är en sorts avancerad auto suggest-funktionalitet, ungefär som det inbyggda T1 som finns i din mobil, men taget ett steg längre. Hur den här tekniken fungerar mer specifikt, är svårt för mig att gissa kring annat än att det kan röra sig om en maskin som har grammatiska regler klart för sig och som lär sig hur meningar sannolikt fortsätter med hjälp av statistik från Google’s Index.

Hur bra det här verktyget fungerar tycker jag visar, bland annat, hur bra Google är på att bedöma språket vad gäller grammatik och stavning. Här är för övrigt en forumtråd om Scribe som är rolig.

Reading Level

Reading Level finns som en ny parameter under Advanced Search på Google.com. Ett tänkbart scenario då man kan tänkas använda sig av Reading Level är då man vill exkludera sådana dokument som inte är akademiska. Alldeles oavsett om man tycker att detta är en användbar funktion eller inte så betyder det att Google har förmågan att bedöma kontext – om ett visst dokument är skrivet med ett akademiskt språk och hör hemma i sådana kontext.

En sökning på ordet “linguistics”, ger bilden att sökordet förekommer främst i akademiska sammanhang.

Google Linguistics search

En sökning på frasen “big brother”, antyder föga förvånande att den språkliga kontexten inte främst är av akademisk karaktär.

Google Big Brother sökning

Betyder detta att om man vill synas på akademiska termer, att man måste skriva på ett akademiskt språk, allt annat lika? Det är möjligt, men det betyder i alla fall att Google kan bedöma i vad för slags kontext en viss sökfras sannolikt hör hemma . Till exempel så förväntar sig sannolikt någon som söker på frasen “sökmotoroptimering”  att få läsa ett dokument fullt av gissningar på risig svenska och med svärord och svengelska om vartannat. Att skriva på ett annat språk vore rena självmordet för varje sökmotorkonsult. Detta med kontext är dessutom intressant vad gäller inlänkar. Man kan exempelvis föreställa sig att en länk från blogg.se inte kommer att kunna påverka rankingen för ett akademiskt dokument publicerat på en universitetssajt. Inte i samma mån som en länk från en från ett kontextuellt mer liknande sammanhang åtminstone.

Google Translate

Google Translate är världens bästa översättningsverktyg. Som är gratis och som jag känner till åtminstone. Här är en video som Google själva producerat om saken:

Sammanfattningsvis

Den sammanlagda bilden av de här exemplen visar en sökmotor som gör sig förberedd på att bli mer än en sökmotor. Tänkte använda ett citat av Stowe Boyd:

Meaning is the new search

Och ett till av Eric Schmidt, Google Inc VD:

“As you go from the search box [to the next phase of Google], you really want to go from syntax to semantics, from what you typed to what you meant. And that’s basically the role of [Artificial Intelligence]. I think we will be the world leader in that for a long time.”

Möjligheten att genom dataansamling, information retrieval, kunna förutse avsikter bakom ett visst beteende på nätet, rymmer en enorm kommersiell potential. Skillnaden mellan att kunna visa annonser i närheten av vissa sökord och fraser, och att kunna förutse ett kommersiellt behov baserat på mönster av beteenden och därigenom avsikten bakom orden och fraserna, är stor och det är här Google har potential att bryta ytterligare mark. Faran är att systemet blir självmedvetet och med våld vänder sig mot sina skapare.

robot krig

Kommentera inlägget

Kommentera eller trackbacka från din sajt.

Publicerad: klockan 08:42
lankgraf

I mitt tidigare inlägg om Google’s maskinella språkkunskaper så nämnde jag kort att beteendet vad gäller att länka ut till exempelvis informationskällor och liknande har blivit utarmat. Att webbtext i många stycken inte liknar den ursprungliga idéen om hypertext.
Jag hittade den här texten som definerar hypertext. Jag fastnade för det här stycket som säger något om hur bra hypertext ska vara utformad vad gäller länkar:
Lots of links. If each document has just one link, then …

Publicerad: 2010-10-08 klockan 07:58
forstoringsglas

Google genomför just nu tester i resultatsidorna med ett litet förstoringsglas som dyker upp precis till höger om titeln vid varje enskilt resultat. Klickar man på förstoringsglaset så får man när man hovrar över resultaten en förhandstitt av hur respektive målsida ser ut.

Tanken är väl att man ska kunna undvika att slösa tid på att klicka sig fram och tillbaka till sidor som om man fått en liten förhandstitt på, inte valt att besöka. Sen …

Publicerad: 2010-08-30 klockan 09:57
e-handel

Att jobba med sökmotoroptimering för e-handel är en utmaning på många sätt. Sammanfattningsvis kan man säga att svårigheterna liggier i att skapa en sajt där alla produkterna representeras av en webbsida som är unik och tillräckligt innehållsrik för att en sökmotor ska bedöma att den är värd att behålla i index, och ännu bättre att den också visas högt upp i SERP:arna för relevanta sökord.
Content is king
Olika affärssegment rymmer olika sorters svårigheter. Ta som exempel, …

Publicerad: 2012-02-22 klockan 03:30
Google-Places-SEO-Tips

Det här blir en kort bloggpost bara för att demonstrera ett intressant fynd jag gjorde idag. Hur skulle det vara om man maskinellt kunde ställa frågor till Google och inkludera en mer exakt position än bara land? Helfestligt så klart.
Spana i den här sökningen:
http://www.google.se/search?hl=sv&output=search&q=frisör&gl=SE&muul=4_18&luul=södermalm
Hittar inte en enda rad i Google:s index om parametrarna muul & luul, men det vore ju intressant om rankchecking-programvaror eller API:n som SEO Powersuite, Advanced Web Rankings, Raven Tools, Authority Labs, …

Publicerad: 2010-06-29 klockan 07:36
Bread Crumbs

På webben hittas information via en mångfald av olika kanaler som exempelvis sökmotorer eller olika sociala nätverk. När man via någon av alla kanaler hittat in till en specifik landningssida på en sajt så kan det vara bra att få information om var någonstans i sajtens hierarki man befinner sig. Det är vanligt att man kan utläsa denna information i breadcrumbs eller i en url.
Sajtstrukturen i URL, breadcrumb eller båda
Det finns ju olika åsikter om …

Publicerad: 2010-12-01 klockan 05:19
solros

Det är mycket enkelt för vem som helst att när som helst publicera stora mängder innehåll på en eller flera olika sajter. Problemet är att vara ägare till innehållet.
När jag säger problemet så menar jag egentligen flera saker. För det första så är det resursintensivt att skapa innehåll. Speciellt kvalitativt innehåll. Den stora resursåtgången för att skapa innehåll är alltså ett “problem” för en sajtägare. Helst skulle sajtägaren vilja köpa fantastiska texter för inga pengar …

Publicerad: 2011-04-22 klockan 12:33
get-simple

Här kommer ett kanontips till dig som tycker att det är toppen att kunna sätta upp en enkel webbsida riktigt snabbt och utan något som helst krångel. WordPress är verkligen toppen men i många fall är det ju helt överflödigt med en databas, det är dessutom det som gör det lite extra knöligt och störande, att man måste komma ihåg alla olika lösenord och login till olika webbhotells kontrollpaneler. Låt mig introducera: Get Simple 3.0
Mitt …

Publicerad: 2010-08-21 klockan 06:43
svavare

Jag skrev tidigare hur man kan variera texten i sina breadcrumbs för att få naturligt få in olika varianter av ett eller flera nyckelord på sin sida. Det här är en liknande historia fast denna gång gäller det title-elementet i bilder. Närmare bestämt så kallade “post thumbnails”. Sedan WordPress version ca 2.9 finns möjligheten att tilldela varje post en speciell bild, som man sedan kan hämta varifrån som helst i sitt tema.
Jag förutsätter att du …

Publicerad: 2011-02-15 klockan 09:45
paginering

När ett visst innehåll blir för omfattande att visa på en sida brukar man ju dela upp det över flera sidor – det heter ju paginering. Att skapa paginering som är sökmotorvänligt är inte svårt, men ändå finns det, mig veterligen, inget CMS som har alla rätt på provet direkt ur kartongen.