A CORD-19 nyílt kutatási adatkészlet a koronavírus kezelésére

Mesterséges intelligencia, Kaggle és egy globális kutatóközösség, amely a válság idején jön össze, az Allen Intézet Intézet vezetésével

SZERKESZTÉS: ez a cikk működő tervezet, az elkövetkező napokban frissíti és újraírja.

A koronavírus mérlegelésekor nem lenne meglepő, ha az Egyesült Államok technológiai iparának valamilyen formája vagy formája összejönne a válság kezelésére. Úgy tűnik, hogy a CORD-19 ezen erőfeszítés részeként a Globális Kutatási Közösség szabad és nyílt forrásának nevezhető.

„CORD-19: Az Allen Intézet az AI Intézet vezető kutatócsoportokkal együttműködve készíti el és terjeszti a COVID-19 Nyílt Kutatási Adatkészletet (CORD-19), amely több mint 29 000 tudományos cikkből áll, köztük több mint 13 000 teljes szöveggel. A COVID-19 és a vírusok koronavíruscsaládja a globális kutatói közösség számára. A korpuszt hetente kell frissíteni, mivel új kutatásokat közzétenek olyan recenzált kiadványokban és archív szolgálatokban, mint a bioRxiv, a medRxiv és mások. Az AI2 Semantic Scholar projektjére épülő kezdeményezés a természetes nyelv feldolgozását használja a koronavírusról, ideértve az új koronavírust, amely a COVID-19-et okozza, tudományos cikkeinek elemzésére. ” - újrafogalmazva a Semantic Scholar projekt oldaláról a CORD-19-en.

Ez egy érdekes erőfeszítés, amely eddig szinte példa nélkülinek tűnik a koronavírus kezelésére az AI + Data + Health irányába tett együttes erőfeszítésekkel, bár ezen a téren tévesnek bizonyítva sok boldogságot, nem pedig csalódást jelentene.

Az Allen Intézet mellett az AI partnerei: Chan Zuckerberg Initiative, a Georgetown University Biztonsági és Feltörekvő Technológiai Központja, a Microsoft Research és az Országos Orvostudományi Könyvtár - Nemzeti Egészségügyi Intézetek, a Fehér Ház Tudományos Irodájával és Technológiai politika.

Kaggle CORD-19 kihívása

A Kaggle, a Google LLC leányvállalata, online adattudósok és gépi tanulási szakemberek közössége. Közismert versenyekkel, amelyek nagy hírnevet vagy haszonnal járhatnak a résztvevők számára. Ezt az adatkészletet kiadták egy kihívásként, amelyet hívnak: COVID-19 Open Research Dataset Challenge.

Fontos kérdések sorozatának célja, hogy ösztönözze a közösséget arra, hogy a CORD-19 felhasználásával új betekintést nyerjen a COVID-19 pandémiáról, ideértve a vírus természettudományát, átterjedését és diagnosztikáját, valamint az emberi és állati felület kezelési intézkedéseit, a korábbi járványügyi vizsgálatok tanulságai és így tovább.

Ennek során:

„… Cselekvési felhívás kiadása a világ mesterséges intelligencia szakértőinek szöveges és adatbányászati ​​eszközök kidolgozására, amelyek segítenek az orvosi közösségnek a kiemelt fontosságú tudományos kérdésekre adott válaszok kidolgozásában.”

Az általuk megfogalmazott fontos kérdések az alábbiak szerint vannak rangsorolva, a Kaggle-ra vonatkozó, 2020. március 18-i pozitív szavazatok alapján:

  1. Mi ismert az átvitelről, az inkubációról és a környezeti stabilitásáról? (150)
  2. Mit tudunk a COVID-19 kockázati tényezőiről? (67)
  3. Mintafeladat minta benyújtásával (földrajz vs. virálisitás) (34)
  4. Mit tudunk a vírus genetikájáról, eredetéről és evolúciójáról? (31)
  5. Mit tudunk az oltásokról és a gyógyszerekről? (28)
  6. Mit tettek közzé az etikai és társadalomtudományi megfontolásokról? (24)
  7. Mit tudunk a nem gyógyszerészeti beavatkozásokról? (24)
  8. Mit tudunk a diagnosztikáról és a megfigyelésről? (23)
  9. Mit tettek közzé az orvosi ellátásról? (22)
  10. Mit tettek közzé az információmegosztásról és az ágazatközi együttműködésről? (22)

A Kaggle kihívása szerint ezeket a kulcsfontosságú tudományos kérdéseket a NASEM SCIED (Nemzeti Tudományos Akadémia, Mérnöki és Orvostudományi Állandó Bizottság a feltörekvő fertőző betegségekkel és a 21. századi egészségügyi fenyegetésekkel foglalkozó állandó bizottság) és az Egészségügyi Világszervezet kutatási és fejlesztési terve a COVID-19-ről .

„A Kaggle feladatonként 1000 USD-t szponzorál annak a győztesnek, akinek a benyújtását az értékelési kritériumoknak legjobban teljesítik. A nyertes dönthet úgy, hogy ezt a díjat jótékonysági adományként kapja meg a COVID-19 segélyezési / kutatási munkáira vagy pénzbeli kifizetésként. További részletek a díjakról és az ütemtervről a vitacímben találhatók. ”

Jelenleg (2020. március 18.) a következő figyelmet fordították:

  • 184 803 megtekintés
  • 5 252 letöltés
  • 52 kernel
  • 70 téma

Bár letölthető a Kaggle-ból (és ajánlott), a felhasználástól függően van egy részhalmaz a Semantic Scholar-ból.

Töltse le itt:

  • Kereskedelmi felhasználású részhalmaz (magában foglalja a PMC-tartalmat) - 9000 papír, 186 MB
  • Nem kereskedelmi felhasználású részhalmaz (magában foglalja a PMC-tartalmat) - 1973 papír, 36 MB
  • PMC egyedi licenciakészlet - 1426 papír, 19 MB
  • bioRxiv / medRxiv alkészlet (előzetes nyomatok, amelyekre nem vonatkozik recenzió) - 803 papír, 13 MB

Minden papírt egyetlen JSON-objektumként ábrázolunk. A séma itt érhető el.

Ezenkívül átfogó metaadatfájlt nyújtanak 29 000 koronavírus és COVID-19 kutatási cikkhez, hivatkozással a PubMed, a Microsoft Academic és a WHO COVID-19 publikációk adatbázisához (tartalmaz cikkeket nyílt hozzáférés nélküli teljes szöveg nélkül):

  • Metaadatfájl (readme) - 47Mb

Nyilvánvalóan ösztönzik, hogy a kutatás a közjó érdekében javuljon e projekt számára, és arra törekednek, hogy a kiadók hozzájáruljanak a CORD-19 korpuszhoz.

A Semantic Scholar oldalon az Allen Intézet forrásai is megtalálhatók:

  • SciSpacy, a tudományos szövegekhez optimalizált szövegfeldolgozó eszközkészlet
  • SciBERT, a tudományos szövegre előkészített BERT modell
  • Szemantikus Scholar API és Open Research Corpus
  • Hozzon létre egy AI-alapú, testreszabható adaptív feed-t a COVID-19 kutatásból az arXiv-ből
  • Tekintse meg a COVID-19 legújabb keresési eredményeit a Semantic Scholar oldalon

És további források:

  • COVID-19 kutatási adatbázis (a WHO által biztosított)
  • LitCOVID (az NIH szolgáltatója)
  • COVID-19 forrásoldal (a Microsoft Academic szolgáltatója)
  • COVID-19 kutatási export fájl (a Dimenziók által biztosított)
  • Nappali szintű COVID-19 adatkészlet (a Kaggle házigazda)
  • COVID-19 globális esetek (a Johns Hopkins University szolgáltatója)
  • Blogbejegyzés: A számítógépes tudósok algoritmusokat készítenek a COVID-19 kezelésére

"Az AI és általában a csúcstechnika a közelmúltban valami rossz rappel kapott szert, de ez a válság megmutatja, hogy az AI potenciálisan jó világot tud elérni" - mondta Oren Etzioni, a seattle-i Allens Mesterséges Intelligencia Intézet (AI2) és a University of General igazgatója. Washington informatikai professzor. -GeekWire, 2020. március 17.

A Fehér Ház bejelentette a kezdeményezést, egy koalícióval együtt, amely magában foglalja

  • AI2
  • A Chan Zuckerberg kezdeményezés,
  • A Georgetown University Biztonsági és Feltörekvő Technológiai Központja,
  • Microsoft Research,
  • Az Országos Orvostudományi Könyvtár,
  • Kaggle, a Google tulajdonában lévő gépi tanulási és informatikai közösség.

További információkért megnézheti a Health Tech Podcast-ot, a GeekWire Alan Boyle-ját, beszélt a történetről, és elmagyarázta a bejelentés jelentőségét, és mit jelenthet a COVID-19 és a jövőbeli kitörések elleni küzdelemben.

Ez # 500dayAIAI, és a 287. cikket olvasod. Minden nap egy új cikket írok a mesterséges intelligenciáról vagy azzal kapcsolatban, 500 napig. Jelenleg 100 napra, a 200–300 napra összpontosítom a mesterséges intelligencia nemzeti és nemzetközi stratégiáira. Úgy döntöttem, hogy az AI stratégiám elmúlt 25 napját az éghajlati válságra összpontosítva töltöm.