SINTERO: Tehnologii de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate


Proiect finanțat de Ministerul Cercetării și Inovării, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

Proiect component al proiectului complex

RETEROM

...
Proiecte paralele

COBILIRO TEPROLIN TADARAV

Descrierea proiectului SINTERO

Obiectiv general: SINTERO are ca obiectiv general crearea unui sistem de sinteză text-vorbire în limba română ce permite modelarea și controlul prozodiei (intonația în vorbire) într-un mod apropiat de vorbirea naturală. Alături de acest obiectiv, se urmărește crearea a cât mai multor voci sintetizate în limba română (în acest proiect minim 10 voci), astfel încât acestea să poată fi utilizate de o comunitate extinsă, inclusiv în aplicații comerciale.

Motivație: Sistemele de sinteză text-vorbire au atins în ultimii ani un nivel de naturalețe a vocii sintetizate foarte ridicat, astfel încât utilizarea lor în aplicații comerciale de automatizare a interacțiunii om-mașină devine din ce în ce mai larg utilizată și extrem de profitabilă. Cu toate acestea, există o serie de limitări ale acestor sisteme. O primă limitare provine din numărul de voci sintetizate disponibile pentru o anumită limbă, fapt ce nu permite personalizarea sistemului de sinteză pentru anumite cerințe specifice ale clienților (de ex. sinteza vocală a unei cărți cu propria voce). Tipic, pentru a crea o nouă voce sintetizată de calitate este nevoie ca un vorbitor să petreacă un timp îndelungat într-un studio de înregistrări, ajungând chiar la zeci sau sute de ore de date colectate. Metodele recente de adaptare a vorbitorilor în cadrul sistemelor de sinteză parametrice pot să reducă acest timp până la ordinul zecilor de minute, însă rezultatele nu sunt întotdeauna cele mai bune. O a doua limitare se referă la expresivitatea acestor sisteme. Dacă pentru sistemele de informare vocală, cu mesaje scurte, lipsa expresivității nu este problematică, pentru redarea unor texte mai lungi sau a unui stil verbal diferit de cel informativ, provocările științifice și tehnice sunt avansate deoarece expresivitatea este foarte greu de formalizat într-un limbaj abstract, compact și ușor de transpus tehnic într-un set de instrucțiuni programatice.

Planul de lucru: Proiectul este structurat în 3 etape, corespunzătoare etapelor de raportare. Fiecare etapă se bazează atât pe rezultatele etapelor sau a studiilor anterioare din cadrul proiectului, cât și pe rezultatele obținute în proiectele paralele din cadrul proiectului complex, după cum urmează:

:: Etapa 1. Metode de modelare și control a expresivității în sistemele de sinteză text-vorbire (M1 – M3)

:: Etapa 2. Implementarea componentelor pentru modelarea prozodiei și adaptarea la noi vorbitori a vocilor sintetizate (M4-M15)

:: Etapa 3. Dezvoltarea unei noi tehnologii de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate (M16-M27)

Consorțiu

ICIA
Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu” București
Universitatea Tehnică din Cluj-Napoca
Universitatea "Politehnica" București
Universitatea "Alexandru Ioan Cuza" Iași

Echipa


Universitatea Tehnică din Cluj-Napoca

prof. Mircea GIURGIU

dr. Adriana STAN

drd. Beáta LŐRINCZ

drd. Maria NUȚU


Institutul de Cercetări pentru Inteligență Artificială ”Mihai Drăgănescu” din București

acad. Dan TUFIȘ

dr. Verginica MITITELU

dr. Radu ION

dr. Elena IRIMIA


Universitatea ”Politehnica” din București

prof. Corneliu BURILEANU

prof. Dragoș BURILEANU

dr. Horia CUCU

dr. Dan ONEAȚĂ

drd. Gheorghe POP

drd. Lucian GEORGESCU

ing. Cristian MANOLACHE


Universitatea ”Alexandru Ioan Cuza” din Iași

prof. Dan CRISTEA

dr. Anca BIBIRI

dr. Daniela GÎFU

dr. Mihaela ONOFREI

dr. Ionuț PISTOL

dr. Andrei SCUTELNICU

dr. Diana TRANDABĂȚ

Cristian PĂDURARIU

Rezultate

Rapoarte științifice

  • Raport științific etapa 1 - sinteză (2018) [pdf]
    • D1.15. Identificare pattern-uri prozodice [pdf]
    • D1.16. Metode de clasificare a stilului de exprimare din text [pdf]
    • D1.17. Analiza metodelor de control și adaptare automată a expresivității [pdf]
    • D1.18. Implementarea modulului de control automat al prozodiei [pdf]
    • D1.19. Diseminare [pdf]
  • Raport științific etapa 2 - sinteză (2019) [pdf]
    • D2.15. Implementarea modulului de identificare a stilului de vorbire și nivelului de expresivitate din analiza textului [pdf]
    • D2.16. Implementarea unui modul de adaptare la un nou vorbitor a sistemului de sinteză [pdf]
    • D2.17. Implementarea unui modul de transplantare a prozodiei unui vorbitor în sistemului de sinteză [pdf]
    • D2.18. Îmbunătățirea componentei de modelare și control al prozodiei; activități de testare, validare / demonstrare module software[pdf]
    • D2.19. Diseminare [pdf]
  • Raport științific etapa 3 - sinteză (2020) [pdf]
    • D3.15. Dezvoltarea unei noi tehnologii pentru adaptarea vocii sintetice la stilul și expresivitatea unui nou vorbitor[pdf]
    • D3.16. Dezvoltarea unei noi metode de adaptare rapidă a vocii sintetice folosind date audio atipice [pdf]
    • D3.17. Integrare tehnologie nouă și demonstrarea în realizarea interfețelor om-mașină pentru sinteza text – vorbire. [pdf]
    • D3.18. Diseminare [pdf]
  • Raport științific etapa 4 - sinteză (2021) [pdf]
    • D4.6. D4.6. Evaluare și distribuție finală a tehnologiei pentru interfețe de sinteză a vorbirii [pdf]
    • D4.7. D4.7. Diseminare [pdf]

Prezentări ale proiectului:

Prezentări video ale articolelor diseminate la conferințe cu desfășurare virtuală:

Publicații

  • Beáta Lőrincz, Adriana Stan, Mircea Giurgiu, Speaker verification-derived loss and data augmentation for DNN-based multispeaker speech synthesis, Accepted at EUSIPCO 2021.
  • Beáta Lőrincz, Adriana Stan, Mircea Giurgiu, An objective evaluation of the effects of recording conditions and speaker characteristics in multi-speaker deep neural speech synthesis, Accepted at the 25th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems
  • Dan Oneață, Alexandru Caranica, Adriana Stan, Horia Cucu, "An Evaluation of Word-level Confidence Estimation for end-to-end Automatic Speech Recognition", In Proceedings of the 8th IEEE Spoken Language Technology Workshop (SLT 2021), Shenzhen, China, 2021 [pdf]
  • Beáta Lőrincz, Maria Nutu, Adriana Stan, Mircea Giurgiu "An Evaluation of Postfiltering for Deep Learning Based Speech Synthesis with Limited Data", IEEE 10th International Conference on Intelligent Systems (IS), Bulgaria, 2020 [pdf]
  • Beáta Lőrincz, "Concurrent phonetic transcription, lexical stress assignment and syllabification with deep neural networks", Proceedings of the 24th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems KES2020, 2020 [pdf]
  • Adriana Stan, "RECOApy: Data Recording, Pre-Processing and Phonetic Transcription for End-to-End Speech-Based Applications", In Proceedings of the Interspeech, Shanghai, China, 2020 [bib] | [pdf]
  • Kristen M Scott, Simone Ashby, Adriana Stan "Designing a Synthesized Content Feed System for Community Radio", Proceedings of the 11th Nordic Conference on Human-Computer Interaction: Shaping Experiences, Shaping Society, Estonia, 2020 [pdf]
  • Adriana Stan, "Input Encoding for Sequence-to-Sequence Learning of Romanian Grapheme-to-Phoneme Conversion", In Proceedings of the 10th IEEE International Conference on Speech Technology and Human-Computer Dialogue (SpeD), Timisoara, Romania, 2019 [bib] | [pdf]
  • Beáta Lőrincz, Maria Nuțu, Adriana Stan, "Romanian Part of Speech Tagging using LSTM Networks", In Proceedings of the IEEE 15th International Conference on Intelligent Computer Communication and Processing, Cluj-Napoca, Romania, 2019 [bib] | [pdf]
  • Maria Nuțu, Beáta Lőrincz, Adriana Stan,"Deep Learning for Automatic Diacritics Restoration in Romanian", In Proceedings of the IEEE 15th International Conference on Intelligent Computer Communication and Processing, Cluj-Napoca, Romania, 2019. [bib] | [pdf]
  • David A. Braude, Matthew P. Aylett, Caoimhin Laoide-Kemp, Simone Ashby, Kristen M. Scott, Brian O Raghallaigh, Anna Braudo, Alex Brouwer, Adriana Stan,"All Together Now: The Living Audio Dataset", In Proceedings of Interspeech, Graz, Austria, 2019. [bib] | [pdf]
  • Adriana Stan, Mircea Giurgiu, A Comparison Between Traditional Machine Learning Approaches And Deep Neural Networks For Text Processing In Romanian, in Proc. of the 13th International Conference on Linguistic Resources and Tools for Processing Romanian Language, 22-23 November, Jassy, Romania [bib] | [pdf]

Lucrări de diplomă/disertație

  • Andreea Sarca -”Automatic speech recognition system for Romanian using Deep Speech”, lucrare de diplomă, iulie 2020
  • Roxana Marcu -”Automatic language identification from text”, lucrare de diplomă, iulie 2020.
  • Ștefana Cîmpean -”Recunoașterea emoțiilor din vorbire folosind învățarea automată”, lucrare de diplomă, iulie 2020
  • Florin Ciotlăuș -”Music analysis using BLSTM and CNNs”, lucrare de diplomă, iulie 2020
  • Cătălin Avram -”Automatic speaker recognition from SWARA corpus”, lucrare de diplomă, iulie 2020.

Stagii de practică

  • Georgiana Săracu -„Detecția stărilor depresive pe baza analizei semnalului vocal”, iulie-august 2020.
  • Vlad Crehul-„Implementation of a Tacotron-based text to speech synthesis system”, iulie-august 2020.
  • Vlad Crehul-„Testing experiments with Deep Speech automatic speech recognition for Romanian”, iulie-august 2020.
  • Bogdan Oros-„Linear regression applied for speech classification”, iulie-august 2020
  • Ana Gheorghiu-„Analysis of prosodic events for music classification”, iulie-august 2020.

Demonstratoare

  • Metode de adaptare a vocilor la stiluri expresive [link]
  • Mostre audio ale sistemelor de sinteză text-vorbire în limba română bazate pe arhitectura Tacotron-GST [link]
  • Mostre audio ale sistemelor de sinteză text-vorbire în limba română dezvoltate în etapa 3 a proiectului [link]

Contact

mircea.giurgiu@com.utcluj.ro