Vásárolja meg ezt az adattudományt! Coronavírus! (2. rész: Adatgyűjtés és feltárás)

Ez a pénzügyi kutatás területén alkalmazott alkalmazott adattudományról szóló sorozatom 2. része.

A pénzügyi kutatás feltárása részeként néhány online kiadvány publikációit elemeztem. Összegyűjtöttem és összeállítottam több mint 12 000 cikket nyolc kiadványból, minden cikket szöveges fájlba, a cikk metaadatait pedig CSV-fájlba menttem. Ne feledje, hogy ez csak a további elemzés alapja, tehát ezek az elemzések nagyon egyszerűek, és figyeli majd, ahogy megpróbálom megoldani az alapvető hibákat.

Cikkek könyvtára

Első elemzésem az volt, hogy megszámoltam az egyes cikkekben a felkiáltójelek számát. A jól megírt újságírás általában magas szintű fejet tart, és nem kell kiabálni a közönség előtt. Ez könnyű volt, egyszerűen csak megszámolni az eseményeket, majd megnézni, hogy egy cikknél hány felkiáltójel létezik. A legtöbb felkiáltójelnek tűnik azok a kiadványok, amelyek egy „hétköznapi” közönség számára szolgáltak, valamint a tagok által írt tartalomra támaszkodó kiadványok.

Publikációk és különféle elemzések

Az NLTK egy könyvtár, amely megkönnyíti a természetes nyelv feldolgozását. Szövegbe foglalhat és egyes szavakba oszthatja, tokeneknek nevezik. Képes ezeket a tokeneket beszéd részekre bontani, felismerni a megnevezett entitásokat és megérteni a szemantikai logikát. Még nem teljes mértékben fedeztem fel az NLTK teljes erejét, így egyelőre egyszerűen lebontottam a szavakat, és megszámoltam a legmagasabb eseményeket.

Kiszűrtem a „stop szavakat”, amelyek olyan általános szavak, mint a cikkek, amelyek nem sokkal hozzájárulnak a mondat jelentéséhez. Minden egyes futtatás megszámolja publikációnként az összes szót, majd összegyűjti a leggyakrabban írt szavakat. Szeretnék közelebbről megvizsgálni a menyét vagy a szójelzőket, például ha a „vásárlás” kicsit túl sok lenne. Jelenleg úgy tűnik, hogy a forró dolog „koronavírus”.

Végül egy olyan könyvtárat használtam, amely “szépen játszik” az NLTK-vel, a TextBlob-lal. A TextBlob rendelkezik egy érzelmi elemző funkcióval, amely elemzi az egyes mondatokat és -1: 1-es skálán rendezi a pontszámot. Az összes mondatot nulla pontszámmal figyelmen kívül hagytam, és az összes többi mondat érzelmének átlagaként számoltam az egyes publikációk esetében. Feltételezem, hogy az újságírásnak fejlõdõnek és mérõnek kell lennie, bár nem tudtam különbséget tenni a különféle kiadványok között.

A következő lépésem a cikk metaadatainak elemzése lesz, mivel a metaadatok tartalmazhatnak jó előrejelzőket, különösen a címkékben vagy a kulcsszavakban. CSV-eket használtam, ami hiba volt, mert sok címsor és néha a szerző mezők vesszőket tartalmaznak. Az a megoldás, hogy ezeket a metaadatlapokat MySQL adatbázis táblákká konvertálom.

Sok címsor vesszőket tartalmaz, tehát a CSV használata hibás volt

Fontos a tiszta, hozzáférhető adatok megalapozása. Még mindig nem ismerem azt a feltáró és elemző technikát, amelyet később megtanulok, de az adatok ott lesznek, amikor kész vagyok. Maradjon velünk még több!