Segmentacja nagrań mowy

Powrót do: Informatyka. Edukacja informatyczna

Wstęp

Proszę zapoznać się z podrozdziałem tekstu o dokumentacji języków, dotyczącym praktycznych jej aspektów, a także przetwarzania danych językowych (do sekcji pt. Przetwarzanie i analiza danych): czytaj tutaj.

Następnie proszę spróbować sformułować krótkie odpowiedzi na następujące pytania:

1. Jakie są najważniejsze kroki przed rozpoczęciem dźwiękowych nagrań mowy?

2. Jakie znaczenie przy rejestracji mowy ma środowisko/miejsce, w którym nagrywamy?

3. O czym należy pamiętać  nazywając pliki i foldery?

4. Co oznaczają pojęcia: transkrypcja, segmentacja, anotacja w odniesieniu do nagrań mowy? Czy mogą one odnosić się także do innego typu danych, nie tylko dźwiękowych?

Transkrypcja fonetyczna

Proszę zapoznać się z alfabetem fonetycznym SAMPA i przetranskrybować z jego pomocą dowolny tekst, składający się z minimum 50 wyrazów, a następnie umieścić go w udostępnionym podczas zajęć dokumencie on-line.

Segmentacja i transkrypcja nagrań –> anotacja

 1. Proszę uruchomić (w razie potrzeby ściągnąć) program Annotation Pro www.annotationpro.org/downloads. Krótka pomoc programu znajduje się tutaj: http://annotationpro.org/documentation/quick-start/, a slajdy z informacjami w języku polskim tutaj: Prezentacja Annotation Pro. Pomoc programu TUTAJ.
 2. Proszę pobrać nagrania do ćwiczenia z anotacji nagrań
  1. Grupa 1: pobierz nagranie
  2. Grupa 2: pobierz nagranie
  3. Grupa 3: pobierz nagranie
  4. Grupa 4: pobierz nagranie
 3. Otwieramy plik z nagraniem w Annotation Pro
 4. Proszę zapisać plik z anotacją nadając mu nazwę taką jak nazwa pliku z nagraniem (bez rozszerzenia .wav)
 5. Na pierwszej warstwie anotacji proszę wstawić segmenty (‘insert segment’ lub klawisz Insert na klawiaturze) o długości pojedynczych fraz.
 6. Wpisać w segmenty tekst wypowiedzi, którym te segmenty odpowiadają (ortograficznie).
 7. Proszę zduplikować warstwę z zapisem ortograficznym, a następnie zastąpić tekst w segmentach tekstem z tłumaczeniem na inny język, np. angielski (tekst nagrania w wielu językach można znaleźć w Internecie).
 8. Proszę nazwać warstwy odpowiednio: ORTO_PL, ORTO_EN (lub inny kod, zależnie od języka).
 9. Proszę utworzyć nową warstwę (również można przez zduplikowanie poprzedniej) i wybrać dwie-trzy frazy (ok. 6-10 wyrazów co najmniej dwusylabowych), które następnie przetranskrybują Państwo fonetycznie, używając alfabetu SAMPA Extended. Proszę nazwać warstwę SAMPA
 10. Proszę utworzyć nową warstwę, nazwać ją SEGMENTS i posegmentować na głoski ten fragment wypowiedzi, którzy przetranskrybowali Państwo na warstwie SAMPA. Proszę wpisać transkrypcję w alfabecie SAMPA Extended.
 11. Dodatkowo proszę utworzyć warstwę o nazwie COMMENTS. Na tej warstwie mogą Państwo wpisywać komentarze i uwagi do wykonanej pracy, informację o wątpliwościach itp., proszę także wstawić na tę warstwę segment, w którym wpiszą Państwo: własne imię, nazwisko, grupę.
 12. Po zakończeniu pracy proszę ponownie sprawdzić transkrypcję SAMPA oraz segmentację.
 13. Proszę wysłać sprawdzony plik na adres klessa at amu.edu.pl W tytule maila proszę podać: SEGMENTACJA własne imię nazwisko, kierunek studiów, np. SEGMENTACJA Jan Nowak Etnolingwistyka.

Informatyka_Anotacja_Przykład

 

Wskazówki dla wykonywania zadań z segmentacji i transkrypcji nagrań:

Czynność 1. Segmentacja wstępna na podstawie wizualnej analizy wykresu czasowego i spektrogramu (scroll myszki dla zoom in/out, używamy też opcji wstaw segment, a także podziału (CTRL Q czyli split segment) / łączenia sąsiadujących segmentów (CTRL Shift Q czyli consolidate segments)

Czynność 2. Zbliżamy się (zoom in)  i takze na podstawie wizualnej analizy spektrogramu dokonujemy poprawek segmentacji (przesuwamy granice/segmenty, tak żeby dokładniej oddzielały poszczegolne fragmenty (frazy, głoski) w nagraniu)

Czynność 3. Dokonujemy ostatecznych poprawek na podstawie odsłuchu i dalszej analizy spektrogramu (przy małych segmentach, np. podziale na głoski – konieczny jest większy zoom, w przeciwnym razie segmentacja będzie bardzo niedokładna)

 • Zakłócenia, niezrozumiałe fragmenty: na warstwie COMMENTS odnotowujemy wszystko co dodatkowo informuje o nagraniu, np. informację o zakłóceniach i dźwiękach innych niż zwykła mowa (np. śmiech), a jeśli wystąpi w nagraniu niezrozumiały ciąg mowy zaznaczamy go znakiem *.


 

 

 

 

 

 

 

 

W. Jassem (1973), str. 208

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Nawigacja Wavesurfer (opcjonalne)

Sprawdzenie ćw 1 (opcjonalne)
Sprawdzenie ćw 2 (opcjonalne)

Literatura:
Jassem, W. 1973. Podstawy fonetyki akustycznej, PWN, Warszawa.
Jassem, W. 2003. Illustrations of the IPA: Polish. Journal of the International Phonetic Association 33(1): 103-107.

 

Polecane:

Nowy kierunek studiów UAM, Instytut Językoznawstwa: Językoznawstwo komputerowe

 

——————————————————————————–

Test Percepcyjny (opcjonalne)

Usłyszysz 24 nagrania, wykonaj następujące zadania:

Zadanie 1. Korzystając z rysunku przedstawiającego koło emocji oceniasz rodzaj i natężenie emocji którą słyszysz w nagraniu. Możesz zaznaczyć jedną emocję lub dwie po naciśnięciu klawisza CTRL.

Zadanie 2. Przytrzymując klawisz CTRL, korzystając z rysunku przedstawiającego różne cechy nagrania oceniasz:

 • Górny pasek – jak prawdopodobna wydaje Ci się usłyszana reakcja dla kontekstu sytuacji usłyszanej w nagraniu

 • Środkowy pasek – w jakim stopniu reakcja osoby mówiącej jest kontrolowana/świadoma vs niekontrolowana/spontaniczna

 • Dolny pasek – ogólne wrażenie dotyczące mówcy, czy jest on wiarygodny czy niewiarygodny

Comments are closed.