Eтаргет за EconomyNews.bg
Just Another Bulgarian Search Engine (от англ. „просто още една българска търсачка”) – това е Jabse – българският високотехнологичен продукт, който се появява в родното интернет пространство на 10 февруари 2005 г.
Създател на търсачката е програмистът Пламен Славов, с когото разговаряхме за началото, развитието и услугите, които предоставя Jabse на българските потребители. Разговорът ни беше вдъхновен от наскоро чута лекция на шефа на украинския клон на руската интернет търсачка „Яндекс“ (Yandex) Сергей Петренко, който по време на хитовото изложение Webit разказа как руският гигант се бори със световната търсачка Google. Повече по тази тема може да прочетете тук.
„Проектът си е лично мой, няма други хора”, казва Пламен – и идеята, и изпълнението, всички нововъведения, които се правят, както и поддържането на търсачката до ден днешен ги прави само и единствено той.
Получил е помощ от специалисти единствено за графичните елементи по сайта, защото той не се занимава с графика (логото и части от дизайна са правени от други хора, но цялото програмиране е негова идея и е направено изцяло от нулата, не е използвал никакви готови елементи). Проектът е написан на PHP, базата данни е MySQL – или както Пламен казва – „стандартна комбинация”.
Българският колега на Сергей Брин и Лари Пейдж (създателите на Google – бел.ред.) обясни, че най-голямото предимство на Jabse в самото начало е било търсенето на кирилица. По това време гигантът Google не е имал добра система за разпознаване на думите на кирилица (окончания на думите, време за глаголите и т.н.), както и за представяне на съответствията от кирилица към латиница и обратно. Революционното в този момент е решението на Пламен да направи така, че на всяка дума, която се напише в търсачката, да се намира основната форма (т.нар. инфинитив: напр. ако потребителят напише „масите”, търсачката показва и резултатите, в които има думата „маса”) на български език. За това предимство при търсене на кирилица Google се сеща години по-късно.
Една от услугите на Jabse е търсене на новини. Следят се 20-25 онлайн медии. Услугата се осъществява с помощта на RSS-агрегатор. Може да се филтрира по дата, период или медия. Към момента новините, които са индексирани, са около 2,5 млн. Медиите ги избира Пламен, не е нужно те да предприемат някакви стъпки, за да попаднат в резултатите от търсенето. Задължително условие е те да имат RSS-канал, за да могат да се индексират. Преиндексирането става много бързо, почти в реално време – няколко пъти на час. Най-актуалните резултати попадат най-отгоре при търсене.
Друга услуга, която предлага Jabse, e т.нар. топ 1 000 000. Това е класация на сайтовете, направена според тежестта им. Тя от своя страна зависи от няколко показателя, най-важните от които са броят и качеството на входящите линкове и възрастта на домейна. Чрез тях се получава индекс, идентичен с page rank (PR) на Google. Класацията не е свързана с ключови думи и търсения, а зависи най-вече от важността на основния домейн (не се отчитат вътрешните страници). Подредбата става в низхдодящ ред – от най-важните към най-маловажните. „Ако твоят сайт има 10 000 входящи линка, той е много по-важен от този, който има 1000 входящи линка, особено ако линковете към твоя сайт са от по-важни сайтове – те ти дават по-голяма тежест”, обобщава Пламен.
Jabse не спира дотук. В нея има и т.нар. meta-информация за документите. “Meta” е такава информация, която не е свързана със самото съдържание на документите, а представя неща от сорта на това кога е създаден всеки документ, какъв е размерът му, кога е бил променен, рейтът се получава чрез сложни формули (например 1.405е-4). Освен това се има предвид, че въпросният документ е разположен на даден сървър, за който също се поддържа информация, която всеки потребител може да види. Примерно за сайта etarget.bg може да се види къде е разположен неговият IP-адрес (т.е. Братислава, Словакия), може да се види с коя операционна система работи сървърът, както и допълнителни информации за домейна. Като цяло meta-информацията не дава данни за самия документ, а за някакви обграждащи го неща. Другото интересно нещо е, че може да се провери кои са „съседите” на даден сайт по сървър (тъй като на повечето сървъри има разположени повече от 1 сайт).
Друга особено любопитна функция на Jabse е възможността да се „гледа назад във времето”. Потребителите на търсачката могат да проследят как са изглеждали всички индексирани документи преди примерно 5 години. Ако искате да разберете например как е изглеждал dir.bg преди 5 години, бихте могли да използвате тази функция. Същевременно търсенето става само в най-актуалната версия на сайта. Пламен прави уточнението, че сайтовете не се индексират еднакво често – колкото е по-висок рейтингът на даден сайт, толкова по-често той се индексира. Когато сайтът е с по-висок Page Rating (PR), „паякът” на Jabse преминава по-често – примерно веднъж седмично. Когато рейтингът е по-нисък, това се случва по-рядко – примерно веднъж на година. Това означава и че сайтовете с по-висок рейтинг имат много повече записи на историята си, отколкото по-ниско рейтингованите.
В Jabse може да видите и какво се търси най-много. При най-популярните думи може да разгледате дори графика, изобразяваща тези данни на дневна база. Освен това се показва (с числа в скоби) колко пъти е била търсена изписаната от вас дума през последния месец.
Следва продължение