Hodnocení významnosti variantami PageRanku

Date issued

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Tato práce se zabývá výzkumem metod pro hodnocení významnosti vrcholů v rozsáhlých grafových strukturách. Navržené metody jsou aplikovány při vyhodnocení citačních sítí a sítí vytvořených z Linked Data. V úvodu práce jsou popsány cíle, které nás k návrhu nových metod vedly. Následně lze text práce pomyslně rozdělit na dvě části, z nichž první a obsáhlejší část je věnována návrhu metod pro hodnocení autorů vědeckých publikací a druhá část je věnována návrhu metody pro určení klíčových slov textového dokumentu. Společnou vlastností všech navržených metod je použitý algoritmus PageRank. V první části práce je nejprve shrnut aktuální stav poznání v oblasti citační analýzy a zmíněny nejznámější bibliografické databáze a algoritmy, které bývají při citační analýze používány. Zvláštní prostor je věnován popisu algoritmu PageRank, který jsme při výzkumu používali a dále upravovali. Následně první část obsahuje popis návrhu nových metod pro hodnocení významnosti autorů a popis experimentálního ověření jejich kvality. Pro experimenty byly použity datové kolekce CiteSeer, DBLP a WoS, přičemž výsledky získané z kolekce WoS byly, vzhledem k jejím vlastnostem, prohlášeny za nejdůvěryhodnější. Poté, co se prokázala vhodnost nově navržených metod pro hodnocení autorů, jsme provedli další experimenty, jejichž cílem bylo metody ještě více vylepšit. Zde se pro hodnocení autorů ukázalo nejvhodnější parametrizovat PageRank aplikovaný na citační síť publikací významností časopisů, ve kterých byly publikace zveřejněny. Vhodnost navržených metod a platnost vyvozených závěrů byly ověřeny také vyhodnocením specializovaných kategorií WoS. V druhé části práce jsou nejprve zmíněny významné práce z oblasti klasifikace textových dokumentů a z oblasti využití PageRanku pro extraktivní sumarizaci obsahu dokumentu. Následně je popsán návrh naší metody pro volbu klíčových slov textového dokumentu. Tato metoda využívá PageRank a Linked Data, čímž dokáže určit k textu dokumentu vysoce relevantní klíčová slova, která v textu nemusejí být explicitně uvedena. Kvalita navržené metody byla experimentálně ověřena jejím použitím v klasifikátoru dokumentů, který byl aplikován na dokumenty z kolekce diskusních článků 20 Newsgroups a na dokumenty z vlastní kolekce konferenčních Call-for-Papers. Určená klíčová slova byla použita jako vlastnosti dokumentů. Závěrem bylo, že navržená metoda je vhodná zejména v situacích, kdy máme malé množství dat pro natrénování klasifikátoru. Autorovy vědecké přínosy, které jsou popsány v této práci, byly publikovány formou pěti vědeckých článků, z nichž dva byly zveřejněny v časopisech a tři v konferenčních sbornících.

Description

Subject(s)

dolování dat, citační analýza, pagerank, hodnocení autorů, volba vlastností textových dokumentů

Citation

OPEN License Selector