Segmentacja nagrań mowy – Katarzyna Klessa

Powrót do: Informatyka. Edukacja informatyczna

Wstęp

Proszę zapoznać się z podrozdziałem tekstu o dokumentacji języków, dotyczącym praktycznych jej aspektów, a także przetwarzania danych językowych (do sekcji pt. Przetwarzanie i analiza danych): czytaj tutaj.

Następnie proszę spróbować sformułować krótkie odpowiedzi na następujące pytania:

1. Jakie są najważniejsze kroki przed rozpoczęciem dźwiękowych nagrań mowy?

2. Jakie znaczenie przy rejestracji mowy ma środowisko/miejsce, w którym nagrywamy?

3. O czym należy pamiętać nazywając pliki i foldery?

4. Co oznaczają pojęcia: transkrypcja, segmentacja, anotacja w odniesieniu do nagrań mowy? Czy mogą one odnosić się także do innego typu danych, nie tylko dźwiękowych?

Transkrypcja fonetyczna

Proszę zapoznać się z alfabetem fonetycznym SAMPA i przetranskrybować z jego pomocą dowolny tekst, składający się z minimum 50 wyrazów, a następnie umieścić go w udostępnionym podczas zajęć dokumencie on-line.

Segmentacja i transkrypcja nagrań –> anotacja

Proszę uruchomić (w razie potrzeby ściągnąć) program Annotation Pro www.annotationpro.org/downloads. Krótka pomoc programu znajduje się tutaj: http://annotationpro.org/documentation/quick-start/, a slajdy z informacjami w języku polskim tutaj: Prezentacja Annotation Pro. Pomoc programu TUTAJ.
Proszę pobrać nagrania do ćwiczenia z anotacji nagrań
Otwieramy plik z nagraniem w Annotation Pro
Proszę zapisać plik z anotacją nadając mu nazwę taką jak nazwa pliku z nagraniem (bez rozszerzenia .wav)
Na pierwszej warstwie anotacji proszę wstawić segmenty (‘insert segment’ lub klawisz Insert na klawiaturze) o długości pojedynczych fraz.
Wpisać w segmenty tekst wypowiedzi, którym te segmenty odpowiadają (ortograficznie).
Proszę zduplikować warstwę z zapisem ortograficznym, a następnie zastąpić tekst w segmentach tekstem z tłumaczeniem na inny język, np. angielski (tekst nagrania w wielu językach można znaleźć w Internecie).
Proszę nazwać warstwy odpowiednio: ORTO_PL, ORTO_EN (lub inny kod, zależnie od języka).
Proszę utworzyć nową warstwę (również można przez zduplikowanie poprzedniej) i wybrać dwie-trzy frazy (ok. 6-10 wyrazów co najmniej dwusylabowych), które następnie przetranskrybują Państwo fonetycznie, używając alfabetu SAMPA Extended. Proszę nazwać warstwę SAMPA
Proszę utworzyć nową warstwę, nazwać ją SEGMENTS i posegmentować na głoski ten fragment wypowiedzi, którzy przetranskrybowali Państwo na warstwie SAMPA. Proszę wpisać transkrypcję w alfabecie SAMPA Extended.
Dodatkowo proszę utworzyć warstwę o nazwie COMMENTS. Na tej warstwie mogą Państwo wpisywać komentarze i uwagi do wykonanej pracy, informację o wątpliwościach itp., proszę także wstawić na tę warstwę segment, w którym wpiszą Państwo: własne imię, nazwisko, grupę.
Po zakończeniu pracy proszę ponownie sprawdzić transkrypcję SAMPA oraz segmentację.
Proszę wysłać sprawdzony plik na adres klessa at amu.edu.pl W tytule maila proszę podać: SEGMENTACJA własne imię nazwisko, kierunek studiów, np. SEGMENTACJA Jan Nowak Etnolingwistyka.

Wskazówki dla wykonywania zadań z segmentacji i transkrypcji nagrań:

Czynność 1. Segmentacja wstępna na podstawie wizualnej analizy wykresu czasowego i spektrogramu (scroll myszki dla zoom in/out, używamy też opcji wstaw segment, a także podziału (CTRL Q czyli split segment) / łączenia sąsiadujących segmentów (CTRL Shift Q czyli consolidate segments)

Czynność 2. Zbliżamy się (zoom in) i takze na podstawie wizualnej analizy spektrogramu dokonujemy poprawek segmentacji (przesuwamy granice/segmenty, tak żeby dokładniej oddzielały poszczegolne fragmenty (frazy, głoski) w nagraniu)

Czynność 3. Dokonujemy ostatecznych poprawek na podstawie odsłuchu i dalszej analizy spektrogramu (przy małych segmentach, np. podziale na głoski – konieczny jest większy zoom, w przeciwnym razie segmentacja będzie bardzo niedokładna)

Zakłócenia, niezrozumiałe fragmenty: na warstwie COMMENTS odnotowujemy wszystko co dodatkowo informuje o nagraniu, np. informację o zakłóceniach i dźwiękach innych niż zwykła mowa (np. śmiech), a jeśli wystąpi w nagraniu niezrozumiały ciąg mowy zaznaczamy go znakiem *.

W. Jassem (1973), str. 208

Nawigacja Wavesurfer (opcjonalne)

Sprawdzenie ćw 1 (opcjonalne)
Sprawdzenie ćw 2 (opcjonalne)

Literatura:
Jassem, W. 1973. Podstawy fonetyki akustycznej, PWN, Warszawa.
Jassem, W. 2003. Illustrations of the IPA: Polish. Journal of the International Phonetic Association 33(1): 103-107.

Polecane:

Nowy kierunek studiów UAM, Instytut Językoznawstwa: Językoznawstwo komputerowe

——————————————————————————–

Test Percepcyjny (opcjonalne)

Usłyszysz 24 nagrania, wykonaj następujące zadania:

Zadanie 1. Korzystając z rysunku przedstawiającego koło emocji oceniasz rodzaj i natężenie emocji którą słyszysz w nagraniu. Możesz zaznaczyć jedną emocję lub dwie po naciśnięciu klawisza CTRL.

Zadanie 2. Przytrzymując klawisz CTRL, korzystając z rysunku przedstawiającego różne cechy nagrania oceniasz:

Górny pasek – jak prawdopodobna wydaje Ci się usłyszana reakcja dla kontekstu sytuacji usłyszanej w nagraniu
Środkowy pasek – w jakim stopniu reakcja osoby mówiącej jest kontrolowana/świadoma vs niekontrolowana/spontaniczna
Dolny pasek – ogólne wrażenie dotyczące mówcy, czy jest on wiarygodny czy niewiarygodny