Kako mašinsko učenje funkcioniše u pretrazi – Sve što treba da znate

132
Kako mašinsko učenje funkcioniše u pretrazi
Kako mašinsko učenje funkcioniše u pretrazi

Želite da znate zašto i kako su SERP-ovi postavljeni i zašto se stranice rangiraju na način koji vidimo? Saznajte kako pretraživači koriste mašinsko učenje.

U SEO svetu važno je da razumete sistem za koji optimizujete.

Morate razumeti kako:

  • Pretraživači pretražuju i indeksiraju web sajtove.
  • Funkcioniše algoritam pretraživanja.
  • Pretraživači tretiraju nameru korisnika kao signal rangiranja (i gde će verovatno ići s tim).

Još jedno ključno područje za razumevanje je mašinsko učenje.

Danas se izraz „mašinsko učenje“ sve više koristi.

Ali kako mašinsko učenje zapravo utiče na pretraživanje i SEO?

Istražićemo sve što treba da znate o tome kako pretraživači koriste mašinsko učenje.

Šta je mašinsko učenje?

Teško je razumeti kako pretraživači koriste mašinsko učenje ako ne znate šta je to mašinsko učenje.

Počnimo sa definicijom (koju je Univerzitet Stanford dao u svom opisu kursa “Coursera”) pre nego što pređemo na praktično objašnjenje:

„Mašinsko učenje je nauka o tome da računari deluju bez eksplicitnog programiranja.“

Mala pomoć pre nego što nastavimo …

Mašinsko učenje nije isto što i veštačka inteligencija (AI), ali linija između to dvoje počinje da postaje pomalo mutna kada je reč o aplikacijama.

Kao što je gore napomenuto, mašinsko učenje je nauka o tome da računari dođu do zaključaka na osnovu informacija, ali bez specifičnog programiranja kako da ispune navedeni zadatak.

AI je, s druge strane, nauka koja stoji iza stvaranja sistema koji ili poseduju inteligenciju sličnu ljudskoj (ili sličnu) i obrađuju informacije na sličan način.

Razmislite o razlici na ovaj način:

Mašinsko učenje je sistem dizajniran da reši problem. Radi matematički na stvaranju rešenja.

Rešenje se može programirati posebno ili ga ručno mogu razraditi ljudi, ali bez ove potrebe rešenja dolaze mnogo brže.

Dobar primer bi bio isključivanje mašine za prenošenje gomile podataka koji opisuju veličinu i lokaciju tumora, bez programiranja onoga što mašina traži. Mašini bi se dala lista poznatih benignih i malignih zaključaka.

Ovim bismo zatražili od sistema da proizvede model predviđanja za buduće susrete sa tumorima kako bi unapred generisao prognoze, koje se zasnivaju na analiziranim podacima.

Ovo je čisto matematička stvar.

Nekoliko stotina matematičara bi mogli da učine isto – ali trebalo bi im mnogo godina (uz pretpostavku vrlo velike baze podataka) i nada da niko od njih neće napraviti grešku.

Ili bi se isti rezultati mogli postići mašinskim učenjem – za mnogo manje vremena.

S druge strane, kada razmišljamo o veštačkoj inteligenciji, tada počinjemo da razmišljamo o sistemu koji ima i kreativnu stranu i tako postaje manje predvidljiv.

Veštačka inteligencija postavljena na isti zadatak može jednostavno referencirati dokumente o toj temi i izvući zaključke iz prethodnih studija.

Ili može dodati nove podatke u mešavinu postojećih.

Ili može započeti rad na novom sistemu električnih motora, pre nego se posveti početnom zadatku.

Verovatno joj neće ometati pažnju Facebook, ali shvatite gde idem.

Ključna reč je inteligencija.

Iako je veštačka, da bi ispunila kriterijume, morala bi biti stvarna, stvarajući tako promenljive i nepoznate stvari slične onome na šta nailazimo u interakciji sa drugima oko nas.

Vratimo se na mašinsko učenje i pretraživače

Ono što trenutno pretraživači (i većina naučnika) nastoje da razviju je mašinsko učenje.

Google ima besplatan kurs na ovu temu, napravio je okvir za mašinsko učenje TensorFlow otvorenog koda i ulaže velika sredstva u hardver za njegovo pokretanje.

U osnovi, ovo je budućnost, pa je najbolje da je razumete.

Iako ne možemo navesti (ili čak znati) svaku aplikaciju mašinskog učenja na Googleplex-u, pogledajmo nekoliko poznatih primera:

RankBrain

Koji bi članak o mašinskom učenju u Google-u bio potpun bez pominjanja njihove prve i još uvek veoma relevantne implementacije algoritma mašinskog učenja u pretragu?

Tako je … govorimo o RankBrain-u.

U suštini sistem je bio naoružan samo razumevanjem entiteta (stvar ili koncept koji je jedinstven, dobro definisan i prepoznatljiv) i imao je zadatak da proizvede razumevanje o tome kako se ti entiteti povezuju u upitu kako bi pomogli u boljem razumevanju upita i daju skup poznatih dobrih odgovora.

Ovo su brutalno pojednostavljena objašnjenja oba entiteta i RankBrain-a, ali ovde služe našoj svrsi.

Dakle, Google je sistemu dao neke podatke (upite) i verovatno skup poznatih entiteta.

Pretpostavićemo, ali logično bi sistem tada imao zadatak da sam obuči na osnovu početnog skupa entiteta kako prepoznati nepoznate entitete na koje naiđe.

Sistem bi bio prilično beskoristan da nije mogao da razume naziv novog filma, datum itd.

Kada bi sistem okončao taj proces i dao zadovoljavajuće rezultate, oni bi ga onda zadužili da sam nauči kako da razume odnose među entitetima i koji se podaci impliciraju ili direktno traže i traže odgovarajuće rezultate u indeksu.

Ovaj sistem rešava mnoge probleme koji su mučili Google.

Uslov da se na stranicu o zameni ekrana uključe ključne reči poput „Kako da zamenim S7 ekran“ ne bi trebao da bude neophodan.

Takođe ne biste morali da uključite ključnu reč „popravi“ ako ste uneli „zameni“ jer, u ovom kontekstu, oni generalno podrazumevaju istu stvar.

RankBrain koristi mašinsko učenje za:

  • Stalno učenje o povezanosti entiteta i njihovim odnosima.
  • Razumevanje kada su reči sinonimi, a kada nisu (zamena i popravka u ovom slučaju mogu biti sinonimi, ali ne bi bili da se pitamo „kako da popravim automobil“).
  • Upute drugim delovima algoritma da proizvedu ispravan SERP.

U svojoj prvoj iteraciji, RankBrain je testiran na upite na koje Google ranije nije naišao. Ovo ima savršenog smisla i odličan je test.

Ako RankBrain može da poboljša rezultate za upite za koje verovatno nije optimizovan i koji će uključivati mešavinu starih i novih entiteta i usluga, grupisanje korisnika koji su za početak verovatno dobili slabe rezultate, onda bi ga trebalo primeniti globalno.

Ali sve se to dešavalo 2016. godine.

Pogledajmo sada automobilski primer:

Mašinsko učenje pomaže Google-u ne samo da razume gde postoje sličnosti u upitima, već možemo videti i kako utvrđuje da će osobi, ako ima auto za popravku, možda trebati mehaničar, dok se za zamenu poziva na delove ili dokumentaciju potrebnu da zamenite celokupan auto.

Ovde takođe možemo videti da mašinsko učenje nije sve shvatilo.

Ako ga pitamo kako da zamenimo automobil, verovatno je da mislimo na celu stvar ili bismo naveli koji deo želimo da zamenimo.

Ne sumnjamo da će mašinsko učenje naučiti da prepozna ove razlike … još je u povojima.

Dakle, ovde smo videli primer mašinskog učenja u igri u određivanju značenja upita, rasporedu SERP-a i mogućih neophodnih koraka za ispunjenje namere korisnika.

Nije sve to RankBrain, ali sve je to mašinsko učenje.

Spam

Ako koristite Gmail ili skoro bilo koji drugi email sistem, takođe vidite da mašinsko učenje zaista funkcioniše.

Prema Google-u, mašinsko učenje sada blokira 99,9% svih neželjenih i fišing email-ova sa lažno pozitivnom stopom od samo 0,05%.

Oni to rade koristeći istu osnovnu tehniku – dajući sistemu podataka za mašinsko učenje neke podatke i puštajući ga da sam odradi posao.

Ako bi neko ručno programirao sve permutacije koje bi dale 99,9% uspešnosti u filtriranju neželjene pošte i u hodu se prilagodio novim tehnikama, to bi bio težak zadatak, ako je ikako moguće.

Kada su ovako radili, imali su 97% uspešnosti sa 1% lažno pozitivnih rezultata (što znači da je 1% vaših stvarnih poruka odlazilo u fasciklu sa neželjenom poštom i neprihvatljivo je ako su to bile važne poruke).

Pokrenite mašinsko učenje – podesite ga sa svim neželjenim porukama koje možete da potvrdite, dopustite mu da izgradi model na osnovu sličnosti koje imaju, unesite neke nove poruke i dajte mu nagradu za uspešan izbor neželjenih poruka samostalno i tokom vremena. Naučiće mnogo više signala i reagovati daleko brže nego što bi čovek ikada mogao.

Podesite ga tako da prati interakcije korisnika sa novim email-ovima, a kada sazna da se koristi nova tehnika spamovanja, dodajte ga u mešavinu i filtrirajte ne samo te mejlove, već i mejlove koji koriste tehnike slične fascikli sa neželjenom poštom.

Kako funkcioniše mašinsko učenje?

Ovaj članak je obećao objašnjenje mašinskog učenja, a ne samo listu primera.

Primeri su, međutim, bili neophodni za ilustraciju prilično lako objašnjivog modela.

Nemojmo reč “lako” pomešati sa idejom da je mašinsko učenje lako za kreiranje, jednostavno je lako razumljivo ono što treba da znamo.

Uobičajeni model mašinskog učenja prati sledeći redosled:

  • Dajte sistemu skup poznatih podataka. To jest, skup podataka sa velikim nizom mogućih promenljivih povezanih sa poznatim pozitivnim ili negativnim rezultatom. Ovo se koristi za obuku sistema i davanje početne tačke. U osnovi, sada razume kako da prepozna i odmeri faktore na osnovu prošlih podataka kako bi proizveo pozitivan rezultat.
  • Odredite nagradu za uspeh. Nakon što je sistem uslovljen početnim podacima, unose se novi podaci, ali bez poznatih pozitivnih ili negativnih rezultata. Sistem ne poznaje odnose novog entiteta, niti da li je email neželjen ili nije. Kad pravilno odabere, dodjeljuje mu se nagrada, iako očito ne čokoladica. Primer bi bio da se sistemu dodeli vrednost nagrade sa ciljem postizanja najvećeg mogućeg broja. Svaki put kada odabere pravi odgovor, dodaje se ovaj rezultat.
  • Dajte mu slobodu. Kada metrike uspeha postanu dovoljno visoke da prevaziđu postojeće sisteme ili dostignu drugi prag, sistem mašinskog učenja može se integrisati sa algoritmom u celini.

Ovaj model se naziva nadziranim učenjem i to je model koji se koristi u većini implementacija Google algoritma.

Drugi model mašinskog učenja je model bez nadzora.

Da bismo izvukli primer iz velikog kursa o mašinskom učenju, ovo je model koji se koristi za grupisanje sličnih priča u Google vestima i može se zaključiti da se koristi na drugim mestima poput identifikacije i grupisanja slika koje sadrže iste ili slične ljude u Google slikama.

U ovom modelu sistemu se ne govori šta traži, već se jednostavno upućuje da grupiše entitete (sliku, članak itd.) u grupe prema sličnim osobinama (entiteti koje sadrže, ključne reči, odnosi, autori itd.)

Zašto je to važno?

Razumevanje šta je mašinsko učenje biće od ključnog značaja ako pokušate da razumete zašto i kako su SERP-ovi postavljeni i zašto se stranice rangiraju onako kako se rangiraju.

Jedna je stvar razumeti algoritamski faktor – u šta je važno biti siguran – ali razumevanje sistema u kojem su ti faktori utemeljeni je od jednake, ako ne i veće važnosti.

Na primer, ako radite za kompaniju koja se bavi prodajom automobila, posebnu pažnju bi trebalo posvetiti nedostatku upotrebljivih, relevantnih informacija u rezultatima SERP-a na gore ilustrovani upit.

Rezultat očigledno nije uspeh. Otkrijte koji bi sadržaj bio uspešan i generišite ga.

Obratite pažnju na vrste sadržaja za koje Google smatra da mogu ispuniti namere korisnika (objava, slika, vesti, video, kupovina, snippet itd.) i trudite se da ih obezbedite.

Mašinsko učenje i njegovu evoluciju možemo zamisliti ekvivalentnu tome da iza svakog pretraživača sedi Google-ov inženjer, prilagođavajući ono što korisnici vide i kako to vide, pre nego što se pošalje na njihov uređaj.

Ali još bolje – taj inženjer je povezan kao Borg sa svakim drugim inženjerom koji uči iz globalnih pravila.

Ali o tome ćemo više govoriti u našem sledećem članku o namerama korisnika.