Archiwum z 21 Październik 2009

URIwersalne znaczenie :)

środa, 21 Październik 2009

Trochę mnie ostatnio poniosło kiedy pisałem o przetwarzaniu języka naturalnego. Chyba za dużo chciałem napisać. W związku z tym postanowiłem wyłowić jedno słowo z poprzedniego posta i pokazać dzięki niemu gdzie łączy się Natural Language Processing  z Semantic Web rozumianą jako Linked Data. To słowo to “koncept”.

Lingwiści i kognitywiści mówią, że mamy jakiś koncept, desygnat lub stereotyp drzewa, stołu, lampy itp. Gdybyś ktoś nas poprosił o opisanie “drzewa” przywołalibyśmy w umyśle obraz, koncept i opisalibyśmy go. Byłby to nasz własny stereotyp drzewa. Pień, konary, gałęzie, liście.. Ktoś inny opisałby drzewo trochę inaczej, np. byłoby iglaste.  Jednak w skali społeczeństwa polskiego, a w wielu przypadkach w skali społeczności ponadnarodowych nasze koncepty wielu obiektów są bardzo zbliżone. Możemy w takich przypadkach powiedzieć, że nasz koncept/stereotyp jest uniwersalny. Gdyby nie fakt, że tak wiele konceptów jest uniwersalnych i względnie niezależnych od narodowości, języka, miejsca zamieszkania trudno byłoby w ogóle mówić o tłumaczeniu pomiędzy językami. Ty mówisz “tree” ja mówię “drzewo” a odwołujemy się do tego samego konceptu i dzięki temu rozumiemy się czyli współdzielimy znaczenie.

Wyzwaniem stojącym przed Semantic Web jest z jednej strony realizacja postulatu AAA czyli “Anyone can say Anything about Any topic” (czyli “Każdy może powiedzieć coś na każdy temat” – jeszcze o tym napiszę), a z drugiej strony utrzymanie względnego porządku i związków pomiędzy tymi wypowiedziami. Skoro 1000 osób wypowiada się np. na temat niejakiego Barracka Obamy dobrze byłoby wyłapać fakt, że mówią właśnie o tym Barracku Obamie. W tym przypadku to jeszcze mały problem, ale kiedy mowa o Kasi Kowalskiej to problem może być już poważniejszy. Sam znam dwie.

Pomysł na rozwiązanie tego problemu jest w założeniu prosty, sprawdzony i mało innowacyjny. Celem wskazania w Semantic Web na konkretny obiekt np. tę konkretną piosenkarkę Kasię Kowalską tworzymy dla niej URI (Uniform Resource Indicator) np. w postaci URL (URL to podzbiór URI) http://polscypiosenkarze.pl/piosenkarze.rdf#kasia_kowalska. Co uzyskaliśmy? Wspólny jednoznaczny desygnat, koncept dzięki któremu ludzie i maszyny będą mogły współdzielić znaczenie czyli rozumieć się.

Potem trzeba już tylko sprawić, żeby wszyscy piszący o tej Kasi Kowalskiej czyli tworzący np. RDFowe trójki używali naszego URI. Drobiazg :) No dobra, pewnie nie taki znowu drobiazg. Ale cóż, nawet jeśli powstanie kilka “unikalnych-inaczej” URI Kasi Kowalskiej będzie można je wyłapać i jakoś ze sobą powiązać. Przecież w języku naturalnym też całkiem przyzwoicie radzimy sobie z synonimami…