Подскажите пожалуйста, каким путем лучше всего реализовать задачу: создать видео, где персонажи на двух разных фото подошли друг к другу и обнялись? Есть две фотографии, на каждой из которых женщины. В результате они должны подойти друг к другу и обняться. Какие шаги предпринять и в каких нейросетях?