vieni (vieni) wrote,
vieni
vieni

Categories:

HAMR (Hacking Audio and Music Research) 2015

Сейчас будет пост с самым большим количеством фотографий, которое вы когда-либо видели в этом блоге. Пост будет про хакатон HAMR, на котором я была 24-25 октября в Малаге. Фотографии делал другой участник хакатона Женя Крофто.

HAMR - очень маленький специализированный хакатон на тему музыки (music information retrieval), который традиционно проводится за два дня до конференции ISMIR, и участвуют там в основном участники конференции (ну, маленькая их часть, ~10%). Кто не знает, что такое music information retrieval, предлагаю почитать очень доходчивое объяснение с примерами.

Все участники собрались вместе и слушают идеи друг друга. Многие уже пришли с готовой командой и не выступали. У меня не было команды и я хотела делать что-то связанное с sonification. Эрик из youtube предложил натренировать рекурентную нейронную сеть генерировать музыку, мне показалось что это достаточно близко и я присоединилась к нему.



У нас набралась довольно большая команда - 5 человек. Вот наша команда, пятый фотографирует:


Для хакатона арендовали очень уютный офис, университетское помещение для coworking. Организатор хакатона Colin Raffel лежит на диване и что-то читает. В левом углу Meinard Müller и его команда пытаются обнаружить периодические биения в сигнале EEG, снятом с людей, слушающих музыку.


Georgi и Andres делают поиск по интервалам, у них какая-то спектрограмма на экране, что сразу придает им хакерский вид.


А вот мои коллеги из Утрехта и Коля из яндекса делают автоматический семплер (чтобы отбирать из песни наиболее подходящие кусочки, которые можно переиспользовать как семпл):


Только Винсент и Ян крупно. Коллеги говорят, что когда они ходят вместе в бар, то все девчонки знакомятся только с Винсентом и он постоянно попадает из-за этого в приключения, так что когда я пожаловалась что студенты после лекций пытаются заигрывать, меня окрестили "Anna is a new Vincent".


Еще Винсент. Да, я тоже озадачена этой байкой.



Команда индусов делает автоматический распознаватель раги в пении:

Чтобы тестировать свою систему, на второй день они начали петь, и сделать с этим было ничего нельзя, так что хакатон проходил под живую индийскую музыку. Впрочем, другие тоже шумели не только клавиатурой.

Вот их презентация:


Индусы получили приз за лучший код. У них была очень крутая работающая система, но они ее не с нуля написали. Потом они ее представляли на late breaking demo и я даже попробовала с ней поиграть. Вот они стоят довольные с молотком. Молотки давали в качестве призов (HAMR же), они были настоящие и вполне функциональные.


Володя Виро и его команда мучают яваскрипт. Проект про сравнение разных вариантов исполнения одного и того же произведения. Да, я там была не единственная девушка! Это Амели Англад.


Ну и теперь подробнее про наш проект. Наша документация и код тут. Эрик предложил попробовать LSTM нейронную сеть для генерации музыки. LSTM это очень хорошая вещь для такой немарковианской штуки как музыка. Она хорошо может натренироваться на интерпретацию контекста, и все те три года что я участвовала или организовывала benchmark по распознаванию эмоций, побеждала LSTM.
Сначала мы долго спорили в каком формате мы будем скармливать данные. Это был очень важный вопрос для успеха:


Решили использовать piano roll квантифицированный до 16 доли.


Мы выбрали три датасета: Essen (народные мелодии), рок и джаз. Раян по кличке большой пианист делал джаз, Стефан делал рок, я делала Essen. Моя работа заключалась в переведении вот таких кусочков текста в матрицу из ноликов и единичек:

KEY[A0014 08 E 4/4]
MEL[-5-5-5 1_.23b_2_ 1__0
555 4_.45_4_ 3b__0
7b7b7b 3b_.3b6b_5_ 4__0
-7b-7b-7b 3b4543b_2_ 1__0 //] >>

И осложнялась отсутствием нормальной непротиворечивой документации по тому, что означают кусочки текста. Ну например понятно, что 1 - это тоника, а 5 - это доминанта. А что такое ноль? Ну вот мы решили считать нули паузами. Потом я еще сделала автоматический генератор аккордов. Длинные полосочки - это мои аккорды.


Раян и я трудимся:


Для сети мы поставили Keras + Theano. Этим занимался в основном Эрик. Мы очень долго возились с данными и запустили сеть только на второй день. В результате после первой эпохи тренировки она выдала одну ноту - до. Длинную такую. Мы смеёмся какая у нас хитрая сетка - выучила тонику.

Все наши данные были транспонированы в до мажор. Мне показалось, что таким макаром мы только до ми соль получать и будем, особенно если тренировать на фолк-музыке. Мы с Эриком обсуждаем не транспонировать ли все обратно в разные тональности:


Так и сделали. До презентации осталось совсем немного времени, а сетка тренировалась только три эпохи и пока ничего умного выдавать не умеет.
Презентация. На этой фотографии вы можете увидеть, почему Раян имеет кличку Большой пианист. Большой потому что.


На следующей неделе началась конференция, и в late breaking demo Bob Sturm представил как раз то, что у нас не получилось - систему которая генерирует музыку с помощью LSTM. Кстати, он скармливал ей просто текст без всякой мороки с квантифицированием.
Tags: докторантура, программирование
Subscribe

  • Как я переводила джазовую песню

    Если бы я знала, как сложно переводить стихи, никогда бы не стала этого делать. Я, конечно, не знала. Мне давно нравился джазовый стандарт "You…

  • хор

    В этом семестре наш хор пел по-русски. Точнее, по-старославянски, потому что это были православные религиозные произведения - Рахманинов,…

  • de Beschaving

    В России завтра начинается Нашествие, а в Утрехте в субботу (6 июля) тоже будет музыкальный фестиваль - de Beschaving. Я буду на этом фестивале…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 4 comments