Zuverlässige Texterkennung in Fernseh-Bilddaten

Zuverlässige Texterkennung in Fernseh-Bilddaten

Ein Vergleich zwischen modernen automatisierten Inhaltsanalysesystemen für Radio- und Fernsehsender und dem weltweit besten menschlichen Analyseteam hat ergeben, dass einige relevante Informationen ausschließlich in Form von angezeigtem Text vermittelt werden. Diese im Vision+ Projekt von AIT und eMedia Monitor GmbH durchgeführte Forschungsarbeit hat zum ersten Mal in Form eines Prototyps gezeigt, dass ein vollautomatisches Texterfassungs- und Erkennungssystem eine kombinierte Audio und visuelle Inhaltsanalyse ermöglicht um gesprochene und angezeigte Konzepte und ihre Beziehungen zu erfassen, mit einer Genauigkeit die menschlichen Fähigkeiten übertrifft.

Reliable end-to-end text recognition in broadcast video streams

Innerhalb des K-Projekts Vision+ haben AIT-Forscher gemeinsam mit dem Industriepartner eMedia Monitor, ein führender Anbieter von automatisierten Media-Monitoring-Lösungen und Dienstleistungen, die Grundlagen für ein automatisiertes Texterkennungssystem etabliert. Das entwickelte algorithmische System wurde auf großen Datensätzen validiert. Die erhaltenen Erkennungsergebnisse weisen eine hohe Genauigkeit auf. Wissenschaftliche

Herausforderungen betreffen die Fragestellungen wie Text in Bildern durch visuelle Merkmale beschrieben werden kann, trotz Variationen in Größe, Form, Schriftart und Farbe, und wie man eine robuste Textsegmentierung in Anwesenheit von anderen Bildmustern auch für hochauflösende Bilder schnell erzielen kann. Das entwickelte System soll, mit extrahierter Audio und Sprachinformation kombiniert, eine zuverlässige und schnelle Interpretation von Multimediadaten ermöglichen.

Teile der entwickelten wissenschaftlichen Konzepte wurden in dem Buchkapitel Real-Time Multimedia Policy Analysis of Using Video and Audio Recognition from Radio, TV and User-Generated Content in „Advanced ICT Integration for Governance and Policy Modeling“, 2014 durch den IGI Global Verlag veröffentlicht.

Fig. 1: A TV frame example with running text, which is delineated by
tracking. The top image shows the segmented running text Region

 

Fig. 2: A real-world TV frame sample with detected text regions
indicated by blue rectangles

Impact and effects

Die automatisierte Analyse von Multimediadaten ist ein Anwendungsfeld von rasch wachsender Bedeutung. Für ein breites Spektrum von Kunden wie Telekommunikationsorganisationen, Finanzdienstleistungen, die Informationsmanagement-Industrie sowie Non-Profit-Organisationen und Behörden bietet eine solche Analyse technische Möglichkeiten um in stetig steigenden Mengen an digitalen Daten relevante Inhalte extrahieren zu können.

Das automatisierte Monitoring von Medieninhalten bietet aufbereitete Inhalte in Echtzeit und mit einer Verfügbarkeit von 24×7 als Information für menschliche Entscheidungsträger um fundierte Entscheidungen treffen zu können. Mögliche Anwendungen umfassen die Analyse der Wettbewerbslage, Reputationsmanagement, Krisenmanagement und viele andere Gebiete.

Fig. 3: A real-world TV frame sample with detected text regions
and recognized textual Content.

Durch die Erfassung relevanter dargestellter oder gesprochener Inhalte in Multimediadaten eröffnet sich die Möglichkeit zur großflächigen Suche und Datenanalyse. Eine solche Analyse hat das Potenzial, bestimmte Korrelationen über Raum, Zeit und Themen (z. B. häufig vorkommende Begriffe, wiederkehrende Vorfälle) zu entdecken. Auf dieser Weise erzeugt das Analysesystem aus unstrukturierten Daten aussagekräftige Informationen