Editorial

Viele Daten – Dickes Journal

Das neue Online-Journal GigaScience publiziert komplette Datensätze

editorial_bild

(17. Januar 2012) Das größte Genomforschungszentrum der Welt, das chinesische BGI in Shenzhen, und der größte Open-Access-Zeitschriftenverlag, BioMed Central, haben zusammen GigaScience eingeführt: Ein neues Online-Journal, das das klassische Journal-Format sprengt. Daten werden nicht nur in Artikeln vorgestellt, sondern in einer öffentlich zugänglichen Datenbank mitsamt den Analysemethoden hinterlegt.

Das neue Konzept soll Kooperationen zwischen Arbeitsgruppen erleichtern und die Verwertung der Daten durch andere Forscher fördern. Denn während die Produktion immer größerer Datenmengen stetig voranschreitet, stellen die permanente Speicherung und der Austausch der enormen Byte-Pakte häufig große Probleme dar. So werden die am BGI produzierten Sequenzdaten beispielsweise nicht via Internet, sondern per FedEx-Kurier auf Festplatten an Kollaborateure und Auftraggeber weitergeleitet – ein Anachronismus im digitalen Zeitalter.

„Die Idee von GigaScience ist, Daten ähnlich wie Bücher in einer Bibliothek zu archivieren und öffentlich zugänglich zu machen“, sagt Thomas Wachtler. Er ist einer der Editoren des neugegründeten Journals und wissenschaftlicher Leiter von G-Node an der Ludwigs-Maximilians-Universität in München. G-Node ist der deutsche Baustein der International Neuroinformatics Coordinating Facility (INCF). „Wir verfolgen hier die gleichen Ziele wie GigaScience, wenn auch auf einer anderen Ebene“, erklärt der Neuroinformatiker. „Wir entwickeln neue Soft- und Hardware, um den Austausch neurowissenschaftlicher Daten zu erleichtern.“

Die Zielgruppe, die GigaScience ansprechen will, ist breit angelegt: „Sie umfasst im weitesten Sinne die Biomedizin“, so Wachtler. „Auch die Art der Daten ist nicht eingeschränkt.“ Neben Hochdurchsatz- und „omic“-Daten sind auch schwer zugängliche, große Datenpakete aus medizinischen Kohortenstudien, der Ökologie, Systembiologie, den Neurowissenschaften oder bildgebenden Verfahren willkommen. Für die anvisierte Größe der „big data“ gibt es keine genaue Definition: „Neben einem gewissen Umfang ist vor allem ausschlaggebend, ob die Daten für andere Wissenschaftler einen potentiellen Nutzen darstellen“, umreißt Wachtler die Zielvorgabe.

Allen über GigaScience veröffentlichten Datensätzen werden DOIs zugewiesen, registrierte Adressen im Internet. Auf diese Weise können sie genau wie Publikationen zitiert werden. Einige Datensätze sind schon auf GigaScience abgelegt, darunter das Genom des E. coli-Stamms O104, der im vergangen Sommer in Deutschland den Konsumenten das Gurkenessen verleidete; außerdem das Eisbären- und das Riesenpanda-Genom. Obwohl die auf GigaScience hinterlegten Daten möglichst schnell von anderen Forschern eingesehen werden sollen, unterliegen die eingereichten Artikel dem Peer-Review System.

In diesem Jahr ist eine Publikation in GigaScience noch kostenfrei – das BGI sponsert den Online-Auftritt, ebenso die Rechnerkapazitäten. „Die meisten Wissenschaftler haben gar nicht die Möglichkeit, ihre Datensätze auf einem öffentlich zugänglichen Server abzulegen“, sagt Wachtler. „Die Instituts-Server sind für solche Dienste einfach nicht ausgelegt.“

 

 

Melanie Estrella
Bild: Clark Cable/Fotolia.com



Letzte Änderungen: 01.02.2012
© 2009 Laborjournal und F & R Internet Agentur