Förderjahr 2016 / Projekt Call #11 / ProjektID: 2035 / Projekt: hoaxly
Basis unserer technischen Lösung ist Elasticsearch und Kibana.
Das Scraping erfolgt über Scrapy (https://scrapy.org/) und Portia. Portia (https://scrapinghub.com/portia/) ermöglicht die Erstellung von Scraping Templates ohne Programmieren zu müssen.
Aktuell importieren wir erfolgreich HTML, RSS-Feeds und strukturiertes Markup wie schema.org. Der für Richtigstellungen vorhandene ClaimReview schema.org Standard wird leider aktuell nur von sehr wenigen Seiten unterstützt, vor allem nicht von europäischen Plattformen. Das würde den Import der Daten extrem erleichtern.
Wir sind noch an der Optimierung der Scraper und der für die Anwendungen nötigen Objektstruktur in Elasticsearch. Die Importer geben sehr viele Daten zurück, vieles davon ist nicht brauchbar und muss gefiltert bzw. weiterverarbeitet werden. Hierfür suchen wir noch erfahrene Python EntwicklerInnen zur Unterstützung!
Auch arbeiten wir noch an einem Berechtigungslayer für die Datenbank-Abfragen. Für interne Tests können wir bereits über eine allgemeine API auf die Datenbank zugreifen, es ist jedoch notwendig, auch externen Personen Zugriff auf die Daten zu geben. Diese dürfen jedoch nur Lesezugriff haben und sollten nur ausgewählte Endpoints zur Verfügung haben.
Bzgl. Anwendungen sind wir gerade dabei, das Konzept für den Chatbot fertig zu stellen. Dieser sollte als erste Anwendung hoffentlich bald in einer Testversion zur Verfügung zu stellen.
Bei den Kriterien, welche Plattformen eingebunden werden sollen, haben wir uns entschieden, den Standard IFCN (http://www.poynter.org/fact-checkers-code-of-principles/) so gut wie möglich zu verwenden. Auch hier sehen wir jedoch leider nur sehr wenige europäische Richtigstellungsplattformen, die sich diesen Richtlinien verbunden fühlen bzw. das auch kommunizieren.
Eine Liste von (vor allem europäischen) Richtigstellungsplattformen, mit u.a. Analyse der Datenstruktur, Auszeichnungssprache (zB. ClaimReview), verwendetes CMS, Bewertungssystematik und Verpflichtung zu einem “Code of Principles” wird bald auf github veröffentlicht werden. Diese Liste ist dann auch Ausgangspunkt dafür zu entscheiden, welche Daten welcher Plattformen in die hoaxly Datenbank aufgenommen werden.
Darüber hinaus wurde konzeptionell sehr viele Überlegungen angestellt. Macht ein Tool wie hoaxly überhaupt weiterhin Sinn? Es schießen ja aktuell sehr viele Tools und Projekte rund um Fake-News aus dem Boden. Wir konnten diese Frage für uns jedoch mit einem klaren Ja beantworten. Oberstes Ziel muss sein mit hoaxly die Medienkompetenz zu stärken, hier sollten die hoaxly Anwendungen also vor allem eine pädagogische Rolle spielen. Außerdem sehen wir auch einen steigenden Bedarf bei der Zielgruppe der JournalistInnen, vor allem an einer Meta-Suchmaschine wie hoaxly es ist.