Jak na vlastní fulltextové vyhledávání?

Stáhnout jako PDF autor: Johny, archiv, dne 22.4.2012


Aktuálně jsem postaven před problém, jak vytvořit relativně kvalitní fulltextové vyhledávání na vlastním webu. Pravdou je, že existuje řada služeb online, které fulltext na web umí přidat. Mezi možné kandidáty patří Google který mě osobně nevyhovuje, neboť prvním výsledkem ve vyhledávání je vždy placená reklama. Ačkoliv postoj google chápu, tak je to nejlepší způsob, jak poslat návštěvníka ke konkurenci.

Druhá, hodně doporučovaná možnost je Atomz který po cca 2 měsících zkoušení nefunguje tak, jak bych chtěl. Ačkoliv jsem v nastavení na atomz zvolil indexovat 1× týně, tak po měsíci jsem zistil, že stejně nic neindexuje. Jediná šance je se na atomz hlásit a vždy obnovovat index. Bohužel, toto je problém. Často zadám do Atomzu hledat něco, co na webu mám ale Atomz to nenajde. Bohužel takovéhle vyhledávání mi hodně nevyhovuje. Mrkněte sami, jak to s Atomzem vlastně vypadá Tento zápisek má v podstatě posloužit k rozvíření diskuze an téma vlastního fulltextu. Na webu mám inplementovaný http://www.taboreni.cz/sitemap.xml a z něj bych asi nejraději vycházel. Asi bych dle sitemaps celý web třeba 1× za 24 hodin grabnum wgetem a nějak „zpracoval“ obsah a uložil do databáze. Pak bych měl tabulku v DB která by vždy obsahovala html titulek, H nadpisy, textový obsah a URL… a teď je jen otázka, jak postavit vyhledávací script. Chtěl bych, aby hledání probíhalo fultextově, nezáleželo na diakritice (ATOMZ diakritiku neumí a tak vyhledává špatně), rád bych aby se upřednostnil titulek, pak nadpisy Hx a nakonec obsah webu.

Nemáte nějaké nápady a zkušenosti?


Štítky tohoto článku:

 


 
Diskuze: Jak na vlastní fulltextové vyhledávání?
Vaše jméno (povinné)
Váš email (nebude zveřejněn, povinný)
WEB (bude zveřejněn, pište s http://)
Text vzkazu:
Kolik je 3×2? (ochrana proti spamu)
 
[CNW:Counter]