Deep Learning a budúcnosť vyhľadávacieho marketingu

Zatiaľ čo trh SEO diskutuje o tom, či bude v systéme Yandex existovať spätná väzba z algoritmov bez prepojenia, alebo nie, poďme sa porozprávať o takejto veci ako o hlbokom vzdelávaní (a potom nehovoríme, že ste nepočuli).

Prečo o tom potrebujete vedieť? Pretože hlboké učenie je revolúciou v strojovom učení, ku ktorej dochádza pred našimi očami. A v blízkej budúcnosti sa hlboké učenie zmení nad rámec samotného hľadania, ako aj rebríčka v prirodzenej prezentácii a nášho sveta ako celku (nie veľa, nie dosť).

Čo je teda hlboké učenie? V ruštine tento termín ešte nie je vyriešený a prekladá ho rôznymi spôsobmi. Dávam prednosť prekladu "hlbokého učenia" (skôr ako "hlboké"), ktorý navrhol Dmitrij Vetrov, jeden z ruských špecialistov, ako hlavný.

„Hlboké učenie“ je druh strojového učenia založeného na neurónových sieťach. V súčasnosti je používanie „hlbokého učenia“ založené na systémoch rozpoznávania reči, rozpoznávania vizuálnych objektov (statických aj pohyblivých) a napokon interakcie počítačových systémov s prirodzeným jazykom a izoláciou významov.

Zdá sa, že všetko je jednoduché, všetko je jasné a zdá sa, že sa nás to netýka. Ale ... V skutočnosti hovoríme o skutočnej revolúcii v strojovom učení. Nezačalo to včera, všeobecné princípy „hlbokého učenia“ sú už dlhú dobu. Skutočné stelesnenie hlbokého učenia sa však začalo začiatkom tohto desaťročia, keď tvorba počítačových neurónových sietí bola podstatne lacnejšia. A počnúc rokom 2012 sa v strojovom učení objavil skutočný boom spojený s technológiami „hlbokého učenia“. Napriek tomu je stále veľmi málo špecialistov na „hĺbkové učenie“ na svete a ich potreba je veľmi vysoká. Napríklad algoritmus na rozpoznanie významu v textoch bol vytvorený prakticky jednou osobou - Thomasom Mikolomom. V tom čase pracoval v spoločnosti Google, ale takmer okamžite po tom, čo bol Facebook „zahnutý“.

Vyššie, už som povedal, že "hlboké učenie" je druh strojového učenia. V skutočnosti to však nie je celkom pravda. Klasické strojové učenie je získavanie nových poznatkov z veľkého množstva údajov, ktoré človek načíta do stroja. Osoba formuluje pravidlá strojového učenia (v dôsledku takzvaného "tréningového setu") a pravidla strojných chýb (eliminuje účinok tzv. "Rekvalifikácie"). Klasické strojové učenie má však výrazné nevýhody - údaje pre spracovanie a príklady riešení sú určené strojom pre ľudí. Inými slovami, v klasickom strojovom učení počítač vykonáva veľké množstvo úloh, ale tieto úlohy netvorí samostatne. Koncepcia "hlbokého učenia" naznačuje, že samotný stroj vytvára funkčné pre seba, pokiaľ je to možné v súčasnej dobe.

Pojem „hĺbka“ aplikovaný na strojové učenie zahŕňa modelovanie viacúrovňových abstrakcií („vrstiev“) a ich prekladanie do údajov. Čím viac týchto „vrstiev“ („hĺbky“), tým viac intelektuálnych úloh môže neurónová sieť vykonávať. Zároveň ich vykonáva bez pomoci osoby.

V skutočnosti je "hlboké učenie" prvým a dosť veľkým krokom smerom k umelej inteligencii. Neurónové siete sú systémy, ktoré, hoci sú primitívne, môžu myslieť, tj vytvoriť nové objavy z údajov, ktoré vytvorili pre seba. Mechanizmus viacúrovňových abstrakcií („vrstiev“), používaných v hĺbkovom tréningu, je veľmi podobný mechanizmu učenia sa ľudského mláďaťa. Ako dieťa sa najprv naučí zvuky, potom jednotlivé slová, a až potom vety - „hlboká“ neurónová sieť sa pohybuje od jednoduchých (povrchových) abstrakcií k zložitejším.

Revolúcia hlboké učenie

Počas rokov 2012 a 2013 spoločnosť Google ticho, ale metodicky nakupuje aktívne firmy a začínajúce podniky v oblasti hlbokého vzdelávania. Medzi nimi boli aj pomerne veľké spoločnosti (napríklad náklady na britský DeepMind, podľa odborníkov v čase nákupu vyhľadávacím gigantom, sa pohybovali od 400-500 miliónov amerických dolárov), a veľmi trpaslík - napríklad DNNresearch, v ktorom Google pracoval v čase nákupu spoločnosti len traja zamestnanci - Jeffrey Hinton a jeho dvaja absolventi.

Hinton, profesor na univerzite v Toronte, začal svoj výskum v oblasti budovania neurónových sietí už v 80-tych rokoch minulého storočia a v súčasnosti je v súčasnosti najautoritatívnejším špecialistom na svete v hlbokom vzdelávaní. Práve na vedeckej práci Hintonu sa zakladalo mnoho systémov založených na „hlbokom vzdelávaní“. V roku 2011 spoločnosť Google vytvára svoju prvú neurónovú sieť, ktorá sa nazýva Google Brain (už sa vyvíja ako kultová divízia spoločnosti Google X), a Hinton sa spočiatku podieľa na vývoji neurónovej siete ako najatého konzultanta a o dva roky neskôr sa pripojí k tímu s jeho absolventmi Google Brain (bez toho, aby ste opustili svoje vyučovanie na University of Toronto).

Neurónová sieť Google Brain (v roku 2012 to bolo 16 tisíc procesorov) sa začína učiť. Po ceste, riešením aplikovaných problémov - napríklad práve vďaka neurónovej sieti, sa počet chýb rozpoznávania hlasových príkazov vo vyhľadávaní znížil o 25% - objaví tvor ako mačku.

Umelá neurónová sieť otvorila mačku tým, že študovala milióny obrázkov na Youtube kanáli. Riešenie takéhoto problému je v skutočnosti veľmi zložitá vec, pretože je ťažké ho formalizovať. Môžete vytvoriť algoritmus, ktorý rozpozná mačky na určitých typoch fotografií (s podobným uhlom, s podobnými veľkosťami objektov). Môžete vytvoriť algoritmus, ktorý bude kresliť tieto mačky. Ale ako vytvoriť algoritmus, ktorý rozpozná mačky z akéhokoľvek uhla, ak on, algoritmus, nechápe, čo je mačka?

Neurónová sieť to mala začať chápať. A naučila sa to. Vycvičila sa, ten muž ju nestihol takú úlohu.

Je jasné, že zatiaľ nie je všetko tak ružové. Neurónová sieť rozlišuje mačky v obrazoch len v 15% prípadov. Presnosť môže byť oveľa vyššia, ak sieť bude študovať rovnaký typ materiálov. To znamená, že presnosť rozpoznávania mačiek neurónovou sieťou je v súčasnosti oveľa horšia ako uznanie mačiek 4-5 letiacimi deťmi. Ale, na rozdiel od dieťaťa, nikto neučil neurónovú sieť, nikto nepreukázal objekty s mačkou, ktorá ich volala. Sieť zrodila koncept samotnej mačky.

Čo sa stane ďalej

V marci 2015 vybuchla vo svete SEO „nukleárna bomba“ - spoločnosť Google uverejnila článok s názvom „Dôvera založená na vedomostiach: posudzovanie spoľahlivosti webových zdrojov“. Nepochybne, preháňam, správy, v skutočnosti, prešiel bez povšimnutia. Niekoľko dní boli sociálni manažéri v rozpakoch a skepticizovaní - ospravedlňujem sa za toto hlúpe slovo, ale neviem, ako inak identifikovať bzučanie na sociálnych fórach a skupinách sociálnych sietí. Neexistovalo žiadne obmedzenie pre rozhorčenie ("Google nás znovu stavia na pokusy") a skepticizmus ("nič z toho nebude, ako Yasha so zrušením odkazu"). Je to pochopiteľné, v čisto vedeckom článku predstavitelia spoločnosti Google oznámili nový hodnotiaci algoritmus, ktorý nie je založený na referenčnej autorite dokumentu, ale na faktickej presnosti. Ak je to zjednodušené, potom podstata nového algoritmu môže byť vyjadrená nasledujúcou maximou: dokument so spoľahlivou faktológiou, ostatné veci sú rovnaké, by mal byť hodnotený vyššie ako dokument s nepresnou faktológiou.

Skepticizmus SEO je vo všeobecnosti zrozumiteľný - (ako vždy) videl len to, čo chceli vidieť. A hlavná otázka, ktorá bola položená na fórach, znelo takto: „Toto je to, čo chceš do pekla urobiť, ukazuje sa - teraz musíme vytvoriť obsah, ktorý bude citovať fakty z Wikipédie alebo iných autoritatívnych zdrojov, aj keď nie sú na stránke vôbec relevantné. ? ".

Faktom však je, že nový algoritmus nemôže fungovať bez pochopenia významu uvedeného na stránke. Pochopenie významov písaného / vyjadreného textu na stránke namiesto rozpoznania sémantiky je to, čo robí vyhľadávanie nepoznateľným.

Ako bude vo vyhľadávaní pracovať „hlboké učenie“? Obraciam sa na skúsenosti ľudí, ktorí to chápu oveľa lepšie ako ja. To je to, čo hovorí Rand Fishkin v nasledujúcom vydaní Whiteboard Friday (mimochodom, tento problém sa volá „Čo znamená hĺbkové vzdelávanie a strojové učenie pre budúce SEO?“):

„Neurónová sieť sa skladá z rôznych vrstiev. Prvá vrstva odhalí všetky rôzne vlastnosti dokumentu. Druhá vrstva neurónovej siete klasifikuje typy týchto funkcií. Spoločnosť Google tak zohľadní všetky možné vlastnosti akéhokoľvek typu stránky a akéhokoľvek typu stránky, aby sa rozhodla, ktoré užitočné signály vo všeobecnosti môže byť extrahovaná práve tu a teraz? V tomto prípade bude neurónová sieť brať do úvahy nahromadené údaje o správaní užívateľov na všetkých stránkach internetu (kde môže dosiahnuť), aby mohol predpovedať výsledky - či sa používateľovi tento dokument bude páčiť alebo nie.

Ale základnou myšlienkou je, že v budúcnosti nebudú prichádzajúce údaje kontrolované ľuďmi. Samotný stroj sa pokúsi pochopiť obsah stránky. Áno, znie to divne. Ale čoskoro, ak sa spýtate inžiniera spoločnosti Google - napríklad stojí za to pokračovať v budovaní prichádzajúcich odkazov na stránku? - S najväčšou pravdepodobnosťou vám odpovie: Neviem. V skutočnosti už nebudú presne vedieť, čo signalizuje zvýraznenie vyhľadávacieho algoritmu pre konkrétny dotaz a konkrétny typ stránky. Len ten stroj to bude vedieť, ale nikomu to nebude môcť vysvetliť, pretože algoritmus hodnotenia sa bude neustále meniť, keď sa objavia nové dokumenty na túto tému, a mnoho metrík, ktoré bude používať neurónová sieť, bude odvodené z derivátov veľkého počtu ďalších metrík. "

"Deep learning" prichádza

Revolúcia hlbokého učenia sa v skutočnosti len začína. Ale dnes neurónové siete s využitím funkcie "hlbokého učenia".

Napríklad služby monitorovania dopravnej zápchy fungujú na technológiách hlbokého učenia. Áno, Yandex.Proborks nielenže zobrazuje skutočný obraz, ale tiež sa snaží predpovedať výskyt dopravných zápch, ale bez hlbokého učenia je takáto predpoveď nemožná.

Google Voice Search a Apple Siri sú poháňané technológiami „hĺbkového učenia“.

Služba predpovede chrípky spoločnosti Google pracuje na technikách hlbokého učenia.

Rozpoznávacie algoritmy pre ľudí vo fotografiách a videách, ktoré sú nahrané na Facebook denne, sú založené na technológiách hlbokého učenia.

Vyhľadávanie. Algoritmy na personalizáciu výsledkov vyhľadávania sú založené na technológiách hlbokého učenia.

Vstupujeme do nového nádherného sveta. A nasledujúcich päť rokov bude skutočne revolučným - nielen pre vyhľadávací marketing, ale aj pre ľudstvo ako celok. Veľmi skoro to uvidíme na vlastné oči.

Zanechajte Svoj Komentár