НА ФТН-у СЕ УСАВРШАВА СПЕЦИФИЧНА ТЕХНОЛОГИЈА КОЈА КОМБИНУЈЕ ЗВУК И СЛИКУ Рачунар вас разуме, чита са усана и ОДГОВАРА КАО ЧОВЕК

На Факултету техничких наука (ФТН) Универзитета у Новом Саду усавршава се технологија која комбинује звук и слику како би учинила говорну комуникацију са корисником што природнијом.

Реч је о уређају који вас разуме и када је бука око вас, који „чита“ покрете ваших усана и одговара гласом који прати реалистична мимика лица.

Пројекат „Multimodal multi-lingual human-machine speech communication” (AI-Speak) из програма Призма, Фонда за науку Републике Србије, надовезује се на богато искуство Катедре за телекомуникације и обраду сигнала ФТН-а, чији су претходни системи говорних технологија већ нашли примену широм региона. Сада иду корак даље према машинама које вас разумеју онако како то ради човек. Ово је технологија која може променити начин на који комуницирамо са уређајима, од паметних асистената и система за учење језика, до медицинских помагала и приступачности рачунара и интернета особама са различитим типовима инвалидитета.

Пројекат се завршава ове године, укупна вредност је близу 300.000 евра, а пројектни тим чине наставници и асистенти Катедре за телекомуникације и обраду сигнала (Департман за енергетику, електронику и телекомуникације) и Катедре за анимацију у инжењерству (Департман за опште дисциплине у техници). Руководилац пројекта је проф. др Милан Сечујски.

Завршетак студентског такмичења AI-Speak, сутра – У оквиру овог пројекта, сутра (25. априла) у 10 часова, у згради Научно-технолошког парка у Новом Саду биће одржан завршни догађај студентског такмичења AI-Speak, током којег ће бити представљени такмичарски радови студената, који су имали задатак да, применом напредних метода машинског учења, анимирају лик говорника синхронизован са аутоматски генерисаним говором на српском језику. Поред проглашења победника, биће приказани и ревијални радови из области мултимодалне комуникације човек–машина. Више информација о догађају доступно је на: https://www.ktios.ftn.uns.ac.rs/ai-speak/AI-Speak_challenge.html

– Фокус истраживања је развој напредних алгоритама машинског учења у области аудио-визуелне говорне комуникације између људи и машина, а користе се најсавременије методе вештачке интелигенције. Циљ пројекта је унапређење препознавања и синтезе говора на српском и другим језицима помоћу вештачке интелигенције, користећи мултимодални приступ: комбинацију звука и слике – каже проф. др Сечујски. – То, између осталог, значи да ће будући системи моћи да препознају говор и у бучним окружењима, ослањајући се на снимке лица говорника и технику „читања са усана“, као и да ће говор аутоматски произведен од стране система бити праћен анимираним виртуелним ликом са реалистичним покретима усана и остатка лица. Да би то постигли, истраживачи из пројектног тима креирали су две посебне вишејезичне базе података: аудио-видео базу снимљену у контролисаном окружењу и много обимнију базу добијену на основу јавно доступних видео снимака, која одражава природну комуникацију у реалним условима. Упоредо се развијају алгоритми за укључивање визуелних информација у постојеће системе за препознавање и синтезу говора на српском језику, са циљем да се омогуће различити видови аудио-визуелне говорне комуникације између људи и машина, као што су аутоматско читање са усана или синтеза говора уз одговарајући анимирани лик говорника – објашњава проф. др Милан Сечујски.

Извор: https://www.dnevnik.rs/vesti/drustvo/na-ftn-usavrsava-specificna-tehnologija-koja-kombinuje-zvuk-sliku-racunar-vas-razume-cita-sa-usana-odgovara-kao-covek-2026-04-24  Фото: ФТН

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *