Archiwum z Listopad 2009

trueknowledge.com – o projekcie

środa, 4 Listopad 2009

True Knowledge to bardzo ciekawy projekt korzystający z technologii sieci semantycznej. Jest to grupa produktów, którą autorzy promują określeniem “nowa klasa internetowych technologii wyszukiwania”.

U podstaw projektu leży własna ontologia służąca do reprezentacji wiedzy. Wygląda na to, że przynajmniej jednym ze źródeł danych jest wikipedia. Korzystając z formularza wyszukiwania możemy zadawać pytania w języku naturalnym. (Naturalnie w angielskim. ;) ) Nasze pytanie zostanie przetworzone dzięki analizie języka na ustrukturyzowane zapytanie do bazy wiedzy.  Tutaj można pobawić się formularzem do zadawania pytań i zobaczyć XML, w którym zwracane są wyniki.

Zauważyłem, że dość często zadawanie pytań generuje błędy aplikacji. Pewnie pytania są zbyt trudne. :) Ale to dopiero początki.

Proponuję np. zadanie pytania typu: “Where does Donald Tusk live?” albo “How old was Barrack Obama when Donald Tusk was born?”  W tych przypadkach dostałem poprawne odpowiedzi. Przyzwoicie działają pytania o daty, odległości itp. Można skorzystać z True Knowledge jak z konwertera miar zadając np. pytanie: “How many square  meters are in hectare?”

Ciekawostką jest fakt, że można uzyskać dostęp do API serwisu. Warto spędzić trochę czasu przyglądając się temu projektowi. Może nie przebije się na czołówkę semantycznych wyszukiwarek, ale z pewnością daje już namiastkę wiedzy, której możemy spodziewać się po wyszukiwarkach przyszłości.

dbpedia.org – notka o projekcie

poniedziałek, 2 Listopad 2009

Wikipedia to największa społecznościowa encyklopedia dostępna w Internecie. Tak na marginesie: czy ktoś jeszcze pamięta taki produkt jak Microsoft Encarta Ecyclopedia? Jako, że to produkt Microsoft wpisałem “encarta encyklopedia” w okno microsoftowej wyszukiwarki bing. I co??? Na pierwszym miejscu jest link do wpisu o “Encyklopedia Encarta” w Wikipedii ;) . Link do strony właściwej był na drugim lub trzecim miejscu. Ciągnąc jeszcze przez chwilę lekki dryf od tematu dodam, że ze strony Microsoftu poświęconej ich encyklopedii dowiedziałem się właśnie, że z dniem 31 Października 2009 kończą projekty Encarta w tym encyklopedię! Poddali się.

Ok, czym jest dbpedia.org?  Co by nie mówić o rzetelności wielu wpisów w Wikipedii, trudno nie docenić ilości solidnej wiedzy tam zgromadzonej. Szkoda, żeby była zrozumiała wyłącznie dla ludzi. Dobrze byłoby, gdyby można było zadawać Wikipedii bardziej złożone zapytania niż tekstowy wpis w okno wyszukiwarki. Tak pomyślało kilku naukowców i biznesmenów z Niemiec i Stanów po czym postanowili “zsemantyzować” wikipedię poprzez wyodrębnienie danych z treści wpisów i ustrukturyzowanie ich oraz zapisanie w trójkach (więcej o trójkach tutaj).

I tak właśnie powstał projekt dbpedia.org. Obecnie to baza wiedzy składająca się z blisko 300 mln trójek opisujących 2,6 mln obiektów (ludzi, miejsc, firm itp.). Są to wpisy z anglojęzycznej wersji Wikipedii, która obecnie przechowuje łącznie ok. 3 mln wpisów. Jednak dzięki powiązaniu pomiędzy wpisami w różnych językach, dbpedia.org daje dostęp do ok. 260 tys. polskich wpisów. Korzystając z języka SPARQL można teraz odpytać ustrukturyzowaną Wikipedię o mnóstwo rzeczy np. o wszystkie miasta określonej wielkości w Ameryce Południowej związane z daną osobą.

Baza wiedzy, a właściwie bazy wiedzy, udostępnione są online oraz w postaci plików do ściągnięcia. Do przechowywania trójkowej bazy wiedzy online wykorzystano komercyjne oprogramowanie o nazwie OpenLink Virtuoso.

Zachęcam do zapoznania się z projektem, a w szczególności pobawienia się webowym interfejsem do składania zapytań w języku SPARQL (tutaj).