Das Karriereportal für Wissenschaft & Forschung von In Kooperation mit DIE ZEIT Forschung und Lehre

Hohe Präzision - Möglichkeiten und Grenzen neuer Plagiatssoftware

 

Plagiate in Hausarbeiten zu finden, ist sehr aufwendig und setzt eine umfangreiche Kenntnis der Quellen voraus. Um die Entwicklung von automatisierten Lösungen für die Suche nach Plagiaten voranzutreiben, wurde nun ein Wettbewerb von der Fakultät Medien der Universität Weimar und der Technischen Universität Valencia (Spanien) ausgeschrieben, an dem sich 13 Teams aus der ganzen Welt beteiligt haben. Die Aufgabe lautete, künstliche Plagiate in etwa 20 000 in Englisch verfassten Dokumenten zu finden. Fragen an den Gewinner des Wettbewerbs, Cristian Grozea.

Hohe Präzision - Möglichkeiten und Grenzen neuer Plagiatssoftware© Forschung & LehreDr. Cristian Grozea arbeitet am Fraunhofer Institut für Rechnerarchitektur und Softwaretechnik (FIRST) Berlin
Forschung & Lehre: Was konnte Ihr Programm besser als das der Konkurrenz?

Cristian Grozea: Ich habe den Wettbewerb gewonnen, weil es bei meinem Programm besonders schwierig ist, Plagiate (durch Neuanordnung der Wortfolge und Neuformulierung) zu verschleiern. Es bietet die beste Kombination aus Präzision und Treffermeldungen. Die Treffermeldungen geben an, wieviele Plagiatsvorfälle festgestellt wurden. Die Präzision misst, wieviele Entdeckungen tatsächlich einen Plagiatsvorfall darstellen. Je höher die Präzision ist, desto weniger Fälle liegen vor, bei denen das Programm ein Plagiat meldet, wo keines vorhanden ist (falsch-positive Ergebnisse). Es ist schwierig, etwas über die Methoden anderer Wettbewerber zu sagen, bevor diese ihre Details veröffentlicht haben. Ich rechne aber damit, dass einige durch Vermeidung des paarweisen Vergleichs von Dokumenten schlechter abgeschnitten haben, der rechnerisch zwar aufwendig ist, aber über die Möglichkeit einer besseren Aufdeckung von verschleierten Plagiaten verfügt. Mein Programm ist zudem sehr schnell.

Cristian Grozea: Bei den meisten Methoden kann man zwischen Präzision und Trefferquote abwägen. Da ein Plagiatsvorwurf gravierende Auswirkungen hat, sollte jeder entdeckte Fall von einer Person verifiziert werden. Eine hohe Präzision ist also wichtig, um die Person, welche die endgültige Verifizierung durchführt, nicht zu überlasten. Natürlich habe ich mich bei dem Wettbewerb nur auf die von meiner Software errechneten Auswertungen verlassen. Ich habe die Feinabstimmung aus den genannten Gründen auf hohe Präzision zu Lasten der Trefferquote eingestellt. Die Auswertung der Wettbewerbsdaten zeigt, dass meine Methode eine Trefferquote von 65 Prozent und eine Präzision von 74 Prozent erreicht hat.

F&L: Wie lange dauert es, eine Hausarbeit von ca. 15 Seiten auf Plagiate zu überprüfen?

Cristian Grozea: Die Effizienz war ein wichtiger Erfolgsfaktor. Wir sind nun in der Lage, auf einem einzigen Computer in weniger als zwölf Stunden 50 Millionen Dokumentenpaare zu vergleichen. Die für den Vergleich eines einzelnen Dokuments (auch in Buchlänge) mit allen 7 000 Quelldokumenten benötigte Zeit beträgt durchschnittlich sechs Sekunden. Für eine detaillierte Analyse, die nicht nur eine Übereinstimmungsauswertung vornimmt, sondern auch die plagiierten Passagen entdeckt, konnten durchschnittlich mehr als zehn Quelldokumente pro Sekunde durchsucht werden. Glücklicherweise müssen für die Phase der detaillierten Analyse nur die Quellen mit den höchsten Übereinstimmungswerten berücksichtigt werden, und ich habe die oben erwähnte Effizienz erzielt, wenn ich statt der 7 000 nur die 50 ähnlichsten Dokumente beachtet habe.

F&L: Wo liegen die Grenzen der automatischen Plagiatserkennung?

Cristian Grozea: Für jede automatische Plagiatsentdeckungsmethode gilt, dass sie die Bedeutung von "kopierte Textstelle" nicht versteht. Richtige Zitate werden immer noch als kopierte Textstellen erkannt, was sie ja auch sind. Daher kann man nur durch Verstehen des Textes zwischen rechtmäßig kopierten und plagiierten Textstellen unterscheiden. Den Text nicht zu verstehen und auf dem syntaktischen Niveau zu bleiben bedeutet also, dass man nur Textplagiate, aber keinen Ideendiebstahl entdecken kann.

F&L: Dank Google Books werden noch mehr Bücher als bisher online zugänglich gemacht. Können dadurch mehr Plagiate entdeckt werden?

Cristian Grozea: Gerade "Google Books" ist keine sehr präzise Quelle, da ihre optische Zeichenerkennung sehr schlecht ist und die Bücher stattdessen auf fotokopierten Buchseiten beruhen. Das Problem aller Plagiatsentdeckungen, seien sie automatisch oder nicht, liegt darin, dass man die Quelle des Plagiats braucht, um zu beweisen, dass ein Plagiat vorliegt. Es ist daher eine gute Idee, Datenbanken mit studentischen Hausarbeiten, Master- und Doktorarbeiten zu erstellen und so die Chance zu erhöhen, von Studenten aus einem früheren Werk kopierte Textstellen zu entdecken.

Aus Forschung und Lehre :: August 2009

Ausgewählte Artikel
Ausgewählte Stellenangebote