Un motor de cautare web sau un motor de cautare pe Internet este un sistem software conceput pentru a efectua cautarea web (cautare pe Internet), intr-un mod sistematic pentru anumite informatii specificate, intr-o interogare textuala de cautare web. Rezultatele cautarii sunt prezentate in general intr-o lista de rezultate, adesea denumita pagina de rezultate a motoarelor de cautare (SERP).

Informatiile pot fi un amestec de legaturi catre pagini web, imagini, videoclipuri, infografii, articole, lucrari de cercetare si alte tipuri de fisiere. Unele motoare de cautare de asemenea, au datele disponibile in baze de date sau directoare deschise.

Spre deosebire de directoarele web, care sunt intretinute doar de editorii umani, motoarele de cautare mentin, de asemenea informatii in timp real, ruland un algoritm pe un crawler web. Continutul de internet care nu este capabil sa fie cautat de catre un motor de cautare web este, in general, descris ca deep web.

Abordare

Un motor de cautare mentine urmatoarele procese in timp real:

  • Crawling web
  • Indexarea
  • Cautarea

Motoarele de cautare web isi obtin informatiile prin glisare web, de la un site la altul. „Paianjenul” verifica numele de fisier standard robots.txt, adresat acestuia. Fisierul robots.txt contine directive pentru paianjenii (crawlere) de cautare, care ii spun ce pagini sa analizeze.

Dupa ce a verificat robots.txt si l-a gasit sau nu, paianjenul trimite inapoi anumite informatii pentru a fi indexate, in functie de mai multi factori, cum ar fi titlurile, continutul paginii, JavaScript, Cascading Style Sheets (CSS), rubrici sau metadatele sale in Etichete meta HTML.

Dupa un anumit numar de pagini analizate, o cantitate de date indexate sau un timp petrecut pe site-ul web, crawler-ul inceteaza analiza. Din cauza site-urilor web din ce in ce mai mari, a capcanelor de crawlere, a spamului si a altor cerinte ale web-ului real, crawlerele aplica o politica de analiza pentru a determina cand ar trebui cand si cat sa analizeze un anumit website. Unele site-uri web sunt accesate cu crawlere exhaustiv, in timp ce altele sunt accesate doar partial.

Indexare inseamna asocierea cuvintelor si a altor expresii definibile gasite pe paginile web cu numele lor de domeniu si campurile bazate pe HTML. Asociatiile sunt facute intr-o baza de date publica, pusa la dispozitie pentru interogari de cautare web. O interogare de la un utilizator poate fi un singur cuvant, mai multe cuvinte sau o propozitie.

Indexul ajuta la gasirea informatiilor referitoare la interogare cat mai repede posibil. Unele dintre tehnicile de indexare si de cache sunt secrete comerciale, in timp ce crawling-ul web este un proces simplu de vizitare a tuturor site-urilor in mod sistematic.

Intre vizitele crawler-ului, versiunea in cache a paginii (o parte sau tot continutul necesar pentru a o reda) stocata in memoria de lucru a motorului de cautare, este trimisa rapid unui solicitant. Daca o vizita este intarziata, motorul de cautare poate actiona doar ca un proxy web. In acest caz, pagina poate diferi de termenii de cautare indexati.

Pagina din cache contine aspectul versiunii originale, ale carei cuvinte au fost indexate anterior, astfel incat o versiune in cache a unei pagini poate fi utila site-ului web atunci cand pagina reala a fost pierduta, dar aceasta problema este considerata si o forma usoara de linkrot.

Arhitectura unui crawler Web standard

De obicei, cand un utilizator introduce o interogare intr-un motor de cautare, este vorba de cateva cuvinte cheie. Indexul are deja numele site-urilor care contin cuvintele cheie, iar acestea sunt obtinute instantaneu din index. Sarcina reala de procesare consta in generarea paginilor web care reprezinta lista rezultatelor cautarii: Fiecare pagina din intreaga lista trebuie sa fie ponderata in functie de informatiile din indexuri.

Apoi, elementul de rezultat al cautarii superioare necesita cautarea, reconstructia si marcarea fragmentelor care arata contextul cuvintelor cheie potrivite. Acestea sunt doar o parte din procesarea pe care fiecare pagina web a rezultatelor cautarii o solicita.

Dincolo de simplele cautari de cuvinte cheie, motoarele de cautare ofera operatori GUI sau cu comanda si parametri de cautare, pentru a rafina rezultatele cautarii. Acestea ofera controalele necesare pentru utilizatorul angajat in bucla de feedback pe care o creeaza utilizatorii prin filtrare si ponderare, in timp ce rafineaza rezultatele cautarii, date fiind paginile initiale ale primelor rezultate ale cautarii.

De exemplu, din 2007, motorul de cautare Google.com a permis filtrarea dupa data, facand clic pe „Afisati instrumente de cautare” in coloana din stanga a paginii cu rezultatele cautarii initiale, apoi selectand intervalul de date dorit. De asemenea, este posibil sa se caute dupa data, deoarece fiecare pagina are un timp de modificare.

Majoritatea motoarelor de cautare accepta utilizarea operatorilor booleeni SI, SAU NU, pentru a ajuta utilizatorii finali sa rafineze interogarea de cautare. Operatorii booleeni sunt pentru cautari literale care permit utilizatorului sa rafineze si sa extinda termenii cautarii. Motorul cauta cuvintele sau expresiile exact asa cum au fost introduse.

Unele motoare de cautare ofera o functie avansata numita cautare de proximitate, care permite utilizatorilor sa defineasca distanta dintre cuvintele cheie. Exista, de asemenea, cautarea bazata pe concept unde cercetarea implica utilizarea analizei statistice in paginile care contin cuvintele sau expresiile pe care le cautati. De asemenea, interogarile de limbaj natural permit utilizatorului sa tasteze o intrebare in aceeasi forma pe care o puteti adresa unui om. Un exemplu in acest sens, ar fi website-ul ask.com.

Utilitatea unui motor de cautare depinde de relevanta setului de rezultate pe care il da inapoi. Desi pot exista milioane de pagini web care includ un anumit cuvant sau o expresie, unele pagini pot fi mai relevante, populare sau autoritare decat altele.

Majoritatea motoarelor de cautare utilizeaza metode pentru a clasifica rezultatele pentru a oferi cele mai bune rezultate. Modul in care un motor de cautare decide ce pagini sunt cele mai potrivite si in ce ordine ar trebui afisate rezultatele, difera foarte mult de la un motor la altul. De asemenea, metodele se schimba de-a lungul timpului pe masura ce se schimba utilizarea Internetului si se dezvolta tehnici noi.

Exista doua tipuri principale de motoare de cautare care au evoluat: unul este un sistem de cautare a cuvintelor cheie predefinite si ordonate ierarhic pe care oamenii le-au programat extensiv. Celalalt este un sistem care genereaza un „index inversat” prin analizarea textelor pe care le localizeaza. Aceasta prima forma se bazeaza mult mai mult pe computerul propriu, pentru a face cea mai mare parte a lucrarii.

Majoritatea motoarelor de cautare pe Web sunt proiecte comerciale sustinute de venituri din publicitate si astfel, unele dintre ele permit agentilor de publicitate sa isi inregistreze listele de cuvinte cheie in rezultatele cautarii, contra cost. Motoarele de cautare care nu accepta bani pentru rezultatele cautarii lor castiga bani ruland anunturi aferente cautarii, alaturi de rezultatele obisnuite ale motorului de cautare. Motoarele de cautare castiga bani de fiecare data cand cineva face clic pe una dintre aceste reclame.

globe-internet-icon-line-connection-circuit-board

Cautare locala

Cautarea locala este procesul care optimizeaza eforturile intreprinderilor locale. Aceasta se concentreaza pe schimbare pentru a se asigura ca toate cautarile sunt consecvente. Este important pentru ca multi oameni determina unde intentioneaza sa mearga si ce sa cumpere pe baza cautarilor lor.

Asia de Est si Rusia

In Rusia, Yandex comanda o cota de piata de 61,9%, comparativ cu 28,3 la suta pentru Google. In China, Baidu este cel mai popular motor de cautare. Portalul de cautare principal in Coreea de Sud, Naver, este utilizat pentru 70% din cautarile online din tara. Yahoo! Japonia si Yahoo! Taiwan sunt cele mai populare motoare de cautare pe Internet in Japonia si, respectiv, Taiwan.

China este una dintre singurele tari in care Google nu se afla in top 3 pentru motoarele de cautare web. Google a fost un motor de cautare de top in China, dar au trebuit sa renunte la aceasta piata, din cauza atacului cibernetic si a incercarii esuate de a respecta regulile de cenzura din China. Acesta este si motivul pentru care Google nu este numarul unu in tarile ca Rusia si zona Asiei de Est. Toate aceste tari au reguli stricte de cenzura, reguli pe care alte motoare de cautare le pot implementa mai bine decat o face Google.

Europa

Pietele majoritatii tarilor din Europa de Vest sunt dominate de Google, cu exceptia Cehiei, unde Seznam este un concurent puternic.

Implicarea politica a motoarelor de cautare

Desi motoarele de cautare sunt programate pentru a clasifica site-urile web pe baza unei combinatii de popularitate si relevanta a acestora, studiile empirice indica diverse prejudecati politice, economice si sociale in informatiile pe care le furnizeaza si pe ipotezele care stau la baza tehnologiei.

Aceste prejudecati pot fi un rezultat direct al proceselor economice si comerciale (de exemplu, companiile care fac reclama pe un motor de cautare pot deveni, de asemenea, mai populare in rezultatele cautarii sale organice) si a proceselor politice (de exemplu, eliminarea rezultatelor cautarii pentru a se conforma legilor locale dintr-o anumita tara). De exemplu, Google nu va lista anumite site-uri neo-naziste din Franta si Germania, tari in care negarea Holocaustului este ilegala.

Pregatirea poate fi, de asemenea, un rezultat al proceselor sociale, deoarece algoritmii motoarelor de cautare sunt deseori proiectati pentru a exclude puncte de vedere non-normative in favoarea unor rezultate mai „populare”. Algoritmii de indexare a principalelor motoare de cautare se orienteaza catre acoperirea site-urilor din SUA, in loc de site-urile din tarile din afara S.U.A.

Google Bombing este un exemplu de incercare de a manipula rezultatele cautarii din motive politice, sociale sau comerciale.

Mai multi cercetatori au studiat schimbarile culturale provocate de motoarele de cautare si reprezentarea anumitor subiecte controversate in rezultatele lor, precum terorismul in Irlanda, negarea schimbarilor climatice si teoriile conspiratiei in ansamblul lor.

 

0 Shares:
You May Also Like