Efektivní analýza velkých dat pomocí Apache Spark a samoučících neuronových sítí na jediném počítači

Date issued

2017

Journal Title

Journal ISSN

Volume Title

Publisher

Západočeská univerzita v Plzni

Abstract

Apache Spark je běžně používaná platforma pro analýzu velkých dat na velkých počítačových clusterech, kde pro svou práci využívá především hlavní paměť počítače. Pokusili jsme se přidat softwarovou knihovnu samoučící se neuronové sítě do jednoho takového analytického celku pro big data. Výsle-dek je efektivní a rychlý dokonce na jediném běžném počítači. Tento přístup je přínosem pro výzkumníky s omezenými zdroji, kterým přiná-ší možnost analýzy velkých dat. Náš nápad byl experimentálně ověřen a je popsán zde. Jako případovou studii pro naši metodu jsme použili dostupná data ze sociální sítě Twitter, konkrétně tweety pro hashtag #Brexit a jejich analýzu sentimentu, přičemž jsme hledali korelace s burzovními daty.

Description

Subject(s)

Apache Spark, samoučící neuronové sítě, velká data, Twitter, brexit, burza

Citation

STEINBERGER, Josef ed.; ZÍMA, Martin ed.; FIALA, Dalibor ed.; DOSTAL, Martin ed.; NYKL, Michal ed. Data a znalosti 2017: sborník konference, Plzeň, Hotel Angelo 5. - 6. října 2017. 1. vyd. Plzeň: Západočeská univerzita v Plzni, 2017, s. 67-71. ISBN 978-80-261-0720-0.
OPEN License Selector