Skip to content


‘De computer leert tv-kijken’

Dr. Alan Hanjalic is eind vorige maand benoemd tot Antoni van Leeuwenhoek-hoogleraar op het gebied van multimedia retrieval; het slim zoeken van beeld, filmpjes en muziek op internet.

Gefeliciteerd met uw aanstelling. Wat betekent het voor u?
“Een erkenning van wat er tot nu toe gedaan is, vrijheid om verder onderzoek te doen. Motivatie en inspiratie. Niet alleen op gebied van onderzoek, maar ook wat betreft de ontwikkeling van mijn onderzoeksgroep.”

Daar kom ik straks graag op terug. In uw cv zag ik dat u tot 1991 in Sarajevo hebt gestudeerd, terwijl daar in 1992 de Bosnische oorlog uitbrak. Was het gelukkig toeval dat u net weg was, of zag u de bui al hangen?
“Het was een gelukkig toeval. Mijn vader was toen hoogleraar in Sarajevo, later ook in Delft trouwens. Maar destijds kreeg hij een gasthoogleraarschap aangeboden in Duitsland. De hele familie ging mee met het idee om na een jaar weer terug te keren. Maar na een half jaar, in maart 1992, brak de oorlog uit in Sarajevo en konden we niet teug. Ik was sowieso van plan aan de universiteit van Erlangen te blijven studeren, maar mijn ouders wilden wel terug. Mijn vader heeft nog een jaar verlenging gekregen. Daarna heeft hij aanstelling gekregen aan een universiteit in Michigan en vanuit Amerika kwam hij naar Delft.”

WIE IS ALAN HANJALIC?
Prof.dr. Alan Hanjalic is per 1 februari benoemd tot Antoni van Leeuwenhoek-hoogleraar aan de faculteit Elektrotechniek, Wiskunde en Informatica – een aanstelling die de TU in het leven heeft geroepen om jonge excellente wetenschappers de kans te geven zich met weinig managementtaken te kunnen richten op hun onderzoek. Bij Hanjalic gaat dat over het slim zoeken naar informatie in audiovisuele (multimedia) datacollecties. Hanjalic (1971) studeerde elektrotechniek aan de universiteit van Sarajevo (1989–1991) en daarna aan de universiteit van Erlangen (Duitsland), waar hij in 1995 afstudeerde. Daarna kwam hij naar Delft voor een promotieonderzoek op het gebied van multimedia information retrieval bij prof.dr.ir. Inald Lagendijk en prof.dr.ir. Jan Biemond (EWI). Na zijn promotie in 1999 kreeg hij een aanstelling als universitair docent en universitair hoofddocent (2005). Hij werkte samen met tal van grote onderzoeksinstellingen zoals Hewlett-Packard Labs, VS, Microsoft Research Asia, China en British Telecom, UK. In 2009 richtte Hanjalic het Delft Multimedia Information Retrieval Lab (DMIR Lab) op. Van 2008 tot 2011 was hij lid van de stuurgroep van het Europese onderzoeksprogramma PetaMedia (Peer-to-peer Tagged Media).

Is dat professor Kemo Hanjalic?
“Ja, hij werkte bij technische natuurkunde en is nu emeritus. Na zijn emeritaat in 2005 werkte hij verder aan de universiteiten in Darmstadt en Rome en afgelopen najaar heeft hij de Russische Lead Scientist Grant gekregen. Sindsdien verblijft hij regelmatig in Rusland.”

U volgde uw vader en kwam naar Delft om te promoveren. Mag ik zeggen dat u de computer heeft leren televisiekijken?
“Eh, ja. De computer hoeft niet alles te herkennen zoals wij dat doen, maar moet wel voldoende herkennen om ons te helpen om makkelijker met grote hoeveelheden audiovisuele informatie om te gaan.”

Om een indruk te krijgen van de huidige stand van de techniek: als we de computer naar het achtuurjournaal laten kijken, wat maakt hij daar dan van?
“Wat nu zou kunnen is dat verschillende shots worden onderscheiden, bijvoorbeeld het beeld van de nieuwslezer en de reportages. Ook kan de computer alle shots die over hetzelfde thema gaan bij elkaar brengen. Dan gaat het niet alleen om de beelden, maar ook over het geluid dat erbij hoort. Als gelijktijdig kenmerken van beeld veranderen en een pauze in de spraak optreden, of een pingel, dan komt er waarschijnlijk een nieuw onderwerp. Als je eenmaal de thematische segmenten hebt herkend, zou je sleutelwoorden uit de gesproken tekst kunnen halen waarmee je de segmenten automatisch kunt laten indexeren.”

Maar hoe maak je die vertaalslag? Want we zoeken toch meestal met trefwoorden, zoals ‘Elfstedentocht’.
“Ja, op deze manier kunnen we daarna met trefwoorden naar videosegmenten zoeken. Ik kan ook een andere eenvoudige voorbeeld geven uit internetbeeldcollecties. U heeft bijvoorbeeld één plaatje met een label ‘Elfstedentocht’. Een ander plaatje kan dan op basis van visuele kenmerken of omdat het op dezelfde plaats en tijd gemaakt is, dezelfde tag krijgen. Dat is een voorbeeld van hoe we met tekst de plaatjes kunnen vinden waarvoor oorspronkelijk geen tekst beschikbaar was.”

Hanjalic loopt naar het bord aan de wand en tekent er twee assen op om zijn indeling van emotionele inhoud van videoscènes te illustreren. De hoogte van een punt correspondeert met de mate van opwinding die zowel positief (rechts) als negatief (links) kan zijn. Aanvankelijk is die indeling gemaakt op basis van de respons van proefpersonen, maar later is dat vertaald naar de onderliggende kenmerken van beeld en geluid. Een opwindende scene bijvoorbeeld wordt gekenmerkt door veel beweging in beeld en/of snelle beeldwisseling. Ook het geluid zal vrij druk zijn. Op basis van dit ‘affective model’ kan het verloop van een film geplot worden in de tweedimensionale emotionele ruimte. Hanjalic heeft dat voor een aantal films daadwerkelijk gedaan.

U verwachtte dat de entertainmentindustrie belangstelling zou tonen voor uw model. Is daar al wat uitgekomen?
“Ik heb hier samen met British Telecom wel een patent op, maar er is niet echt ergens een product geplaatst. Dat was trouwens ook niet de prioriteit. Ik ben niet zo van het bouwen, meer van het bedenken.”

Laat ik het dan anders vragen: heeft uw model al praktische toepassingen gekregen?
“We hebben de emotionele inhoud gebruikt om sportprogramma’s automatisch te indexeren. Dat kan gebruikt worden om automatisch samenvattingen te maken van de hoogtepunten van een wedstrijd. We wilden dit als proefproject realiseren met het bedrijf Auxilium in Delft, dat het als service wilde aanbieden aan mobiele-telefoongebruikers, bijvoorbeeld via KPN. Maar toen kwam de economische crisis van 2008 ertussen. Het is daardoor nog niet gelukt om er een toepassing mee te maken.”

Een andere toepassing die gesuggereerd werd, zou een antipornochip kunnen zijn, of een antigeweldchip. Bent u daar al voor benaderd?
“Nee, maar het zou wel kunnen. Collega’s in Amsterdam werken samen met de politie aan een kinderpornodetector. De mogelijkheden zijn er dus wel, ja.”

De computer krijgt dus steeds meer grip op de inhoud van beeld en geluid. Helemaal in het begin hadden we het over uw aanstelling als Antoni van Leeuwenhoek-hoogleraar en de vrijheid die dat biedt. Wat is uw onderzoekslijn voor de komende jaren?
“Recentelijk hebben we ons meer in sociale netwerken verdiept. Audiovisuele content wordt op die manier geplaatst in de context van sociale netwerken op internet. Daar wordt het door de gebruikers geplaats, gedownload, getagged, becommentarieerd en geëvalueerd. We nemen aan dat door al de interacties tussen de gebruikers en de content in deze netwerken de content zodanig verrijkt kan worden, dat hij veel toegankelijker en waardevoller voor alle netwerkdeelnemers kan worden. Dit is ook de reden dat zelfs de collecties die tot nu toe privé of gesloten waren, steeds vaker de toenadering zoeken richting sociale netwerken. Ik leid op dit moment een groot nationaal project binnen het FES COMMIT-onderzoeksprogramma, waar vele Nederlandse erfgoedinstellingen aan meedoen.”

Hoe werkt dat dan?
“Tot nu toe gaven vooral de professionele conservatoren hun commentaar op de onderdelen van een collectie. Het publiek kan dat nu aanvullen met het voordeel dat verschillende mensen vanuit hun eigen achtergrond en interesses op verschillende manieren naar de collecties kunnen kijken. Dat biedt de mogelijkheid om erfgoedcollecties verder te verrijken en ze op veel meer manieren en voor veel meer doeleinden te kunnen gebruiken. Niet langer uitsluitend op basis van de kunsthistorische waarde, maar bijvoorbeeld ook omdat een bepaald voorwerp iets zegt over hoe mensen in die tijd geleefd hebben.”

En wat zegt het over een item als dat opeens gedeeld, ge-liked of becommentarieerd wordt?
“Dat opent voor ons nieuwe deuren. Als beelden, video of muziek in sociale context bestaan, dan weten we veel meer dan alleen de audiovisuele kenmerken. Dan weten we ook van de tags en de commentaren die aan content-items toe zijn gevoegd. Daarnaast zijn er gebruikers die de items ge-upload hebben om deze te delen. U kunt zich voorstellen dat we een netwerkmodel kunnen bouwen met knooppunten die corresponderen met gebruikers, multimediale items, tags en commentaren. Bijvoorbeeld: de informatie over gebruikersprofielen die we uit zo’n netwerk kunnen afleiden levert een nieuwe, rijkere manier op van aanbevelingen introduceren dan aanbeveling op basis van de klassieke ‘collaborative filtering’ – wat we bijvoorbeeld kennen van Amazon.com.”

Dat is toch goud waard als je dat in de vingers hebt?
“Misschien. Maar het is nog maar net begonnen en de mogelijkheden om dit soort netwerkmodellen te exploiteren lijken onbeperkt. We moeten eerst even goed kijken waar het grootste potentieel ligt. We weten zelfs nog niet wat je ermee zou kunnen doen. Een toepassing waar we toevallig tegenaan liepen is de bekende hotelboekingsite Booking.com. Voordat je een hotel boekt, zou je graag willen weten hoe de wijk er uitziet. Nu zijn er veel beelden op internet, maar hoe vind je de beelden die de wijk representeren? Ik neem de geo-tag van het hotel waar ik zit en ik verzamel alle plaatjes die gebruikers hebben gegenereerd in die omgeving. Dan kan ik op basis van de links tussen de gebruikers, tags en commentaren al een indruk krijgen welke beelden meer representatief zijn dan andere. Op basis daarvan kan ik een mooie visuele samenvatting van een locatie creëren. Dat proberen we nu weer via Auxilium naar de reisorganisaties te brengen.”

Is dat de nieuwe benadering?
“Ja, we hebben gedacht: je kunt de computer wel televisie leren kijken, en daar zijn we ook een eind mee gekomen. Maar het is slimmer om van echte kijkers gebruik te maken via hun uitingen op sociale media. De informatie in sociale media helpt ons om meer over de inhoud te kunnen vertellen. Dat gaat verder dan de analyse van audiovisuele kenmerken.”

Maakt deze nieuwe onderzoekslijn de oude research overbodig of vult het elkaar aan?
“Nee, het vult elkaar aan. Informatie die in zo’n netwerkmodel zit bestaat uit teksten, verbanden tussen gebruikers die je zou kunnen extraheren, maar ook uit de analyse van de multimedia items zelf. Dus als mijn ‘affective model’ indicatie geeft dat een beeld, een muziekstuk of een videoclip een bepaalde emotie opwekt, kan dat nu geverifieerd worden door de informatie uit het netwerk.”

Als alle meisjes van veertien ermee aan de haal gaan, zal het wel romantisch zijn. Zoiets?
“We kunnen het gewoon slim gebruik van beschikbare informatiebronnen noemen.”

Als het allemaal lukt heeft u goud in handen.
“Ik weet niet.”

Daar bent u kennelijk niet zo mee bezig.
“Ik ben minder bezig met commercialisatie inderdaad. Dat is niet echt mijn prioriteit.”

 

Posted in Artikelen, Delta.

Tagged with , , .