Kontakt

Poštovní adresa:
Biograf
Krompach 26, 47157

E-maily:
redakce@biograf.org (redakce)
objednavky@biograf.org (objednávky, předplatné a osobní účty)

Pro běžný kontakt používejte, prosím, tuto adresu, a nikoli adresu vydavatele (viz níže).

Bankovní spojení:
číslo účtu: 0222027399/0800
banka & adresa: Česká spořitelna (Strossmayerovo nám. 1, 170 21  Praha 7)
IBAN: CZ65 0800 0000 0002 2202 7399
SWIFT code/BIC: GIBACZPX

Oznámení redakce

Změna adresy
Vydavatel časopisu Biograf, dříve občanské sdružení, nyní zapsaný spolek (z.s.), změnil poštovní adresu. Od nynějška posílejte veškerou případnou písemnou korespondenci na: Časopis Biograf, z.s., Krompach 26, 47157. Dřívější adresa je tímto okamžikem nefunkční. [podrobnosti]

Program pro automatický přepis nahrávek do textu
Jako ochutnávka chystaného čísla 77/2023 je k dispozici recenze na zdarma dostupný softwarový nástroj pro automatický přepis nahrávek mluvené řeči do textové podoby: KONOPÁSEK, Z. (2023): aTrain, převod nahrávek mluvené řeči na text s využitím AI. Biograf (77): 21 odst. Dostupné na adrese http://www.biograf.org/clanek.html?id=1109 [podrobnosti]

Vyšlo speciální číslo o Pečování
Speciální číslo 75-76/2022 k tématu Pečování, jehož editory a editorkami jsou Michal Synek, Dana Hradcová a Monika Bosá vyšlo tiskem v prosinci 2022. Na jeho online verzi usilovně pracujeme. [podrobnosti]

Tiráž

Biograf
časopis pro kvalitativní výzkum

ISSN 1211-5770
Registrováno pod č. MK ČR: E 8364
Vydává občanské sdružení Časopis Biograf
Krompach 26, 47157
casopis@biograf.org
IČO: 27003213
Vychází dvakrát ročně.
Editor: Barbora Spalová (editor@biograf.org)

Plný text

aTrain, převod nahrávek mluvené řeči na text s využitím AI

Zdeněk Konopásek

Rok 2023, číslo 77
[plný text - verze pro tisk ]

aTrain, a tool for transcribing recorded speech to text with the help of AI

I discuss a new program suitable for qualitative researchers that automatically transcribes recorded speech into text. It is based on the Whisper transcription model from OpenAI. Resulting transcriptions sensitively balance accuracy and readability, and surpass the work of average hired human transcribers in quality. A particular advantage for qualitative research is that the program does not send the data to remote servers for processing; everything happens on the local computer.

Recenze:

aTrain, program pro automatické přepisování nahrávek mluvené řeči s využitím jazykového modelu AI; BANDAS-Center, University of Graz https://business-analytics.uni-graz.at/en/research/atrain/, open-source pro Windows, verze 1.1

Citujte jako:

KONOPÁSEK, Z. (2023): aTrain, převod nahrávek mluvené řeči na text s využitím AI. Biograf (77): 21 odst. Dostupné na adrese http://www.biograf.org/clanek.html?id=1109 [naposledy navštíveno 17. 04. 24]

1.
O umělé inteligenci (AI) se v roce 2023 mluvilo opravdu hodně. V příštím roce to bude nejspíš podobné. AI se uplatňuje v mnoha oborech a některé svými možnostmi asi podstatně promění. To se týká i kvalitativního výzkumu. Například program pro kvalitativní analýzu Atlas.ti, který jsem v Biografu v několika verzích recenzoval (Konopásek 1997, 2005, 2009, 2011, 2017 a 2021), věnuje možnostem využití umělé inteligence velkou pozornost (viz Kalpokas nedat.). Umí mapovat obsah dokumentů, vyhledávat "relevantní" data nebo navrhovat vhodné kódy.[1] Zní to všechno strašně krásně, avšak kdo kvalitativnímu výzkumu rozumí, musí nadšení tlumit – v rukách nezkušeného analytika je používání těchto nástrojů zrádné (viz např. Friese 2023). Čím více si uvědomujeme, že i ta nejpokročilejší AI je pro nás "jenom" pomůcka, tím lepší výsledky dostaneme. Přitom se vůbec nedivím těm, kteří nad těmito novými vymoženostmi Atlas.ti jen mávnou rukou.

2.
V tomto krátkém textu chci upozornit na počítačový program, který má mnohem skromnější ambice, avšak jehož význam pro praktické potřeby kvalitativních výzkumníků je zásadní. Jmenuje se aTrain a jeho autory jsou výzkumníci z Business Analytics and Data Science-Center na univerzitě v rakouském Grazu. Program, který je k dispozici zdarma, je určený k automatickému přepisování zvukových záznamů do textové podoby. Software může snadno nainstalovat a používat i naprostý laik.[2] Spojuje schopnosti transkripčního modelu Whisper (z dílny Open AI)[3] s komponentou pro rozeznávání hlasů mluvčích. Takhle dohromady tyto dvě funkce poskytují výzkumníkům významnou dílčí pomoc. Ruční pořizování přepisů bývá časově i jinak náročné. Kdo si někdy na takovou práci zkusil někoho najmout, dobře ví, jak problematické mohou výsledky být. Rozhodně nebývá možné je jednoduše vzít a hned s nimi začít pracovat.

Obr. 1

Obr. 1: Stránka programu v Microsoft Store; instalace na Windows je snadná – jen se ujistěte, že máte na počítači dost místa

3.
Objevují se dnes i další podobné programy, aTrain není jediný. Podobným programem je například noScribe (https://github.com/kaixxx/noScribe). Model Whisper, jakési "srdce" aTrainu, lze navíc při určité míře technických znalostí využít (s pomocí nástrojů Google) i "napřímo", a to už nějakou dobu.[4] Díval jsem se na oba tyto nástroje, ale aTrain mi nakonec přišel nejjednodušší a intuitivní. Věnovat se zde budu výhradně jemu.

4.
Popíšu a vysvětlím základní schopnosti programu, jak o něm mluví sami autoři (viz Haberl et al. 2024). Poté předvedu a rozeberu výsledky jednoduchého testu na českém jazykovém materiálu.[5] Závěrem se pokusím o celkové vyhodnocení.

Obr. 2

Obr. 2: Výchozí obrazovka programu aTrain; vše, co je potřeba před samotným přepisem nastavit, je vidět na obrázku

Funkce a výhody

5.
Autoři uvádějí jako hlavní schopnost programu přesný a rychlý převod mluvené řeči na text. Když program "nakrmíte" zvukovým souborem nebo nějakým videem,[6] za nějakou dobu "vyplivne" jeho doslovný přepis. Tohle funguje v mnoha jazycích (přesně v 57), včetně češtiny nebo slovenštiny. Angličtina a další velké jazyky samozřejmě fungují o něco lépe než jazyky malé, méně rozšířené. Lze však čekat, že tyto rozdíly budou postupně hrát méně významnou roli.[7]

6.
Uživatel si může vybrat z několika stupňů kvality přepisu. Méně kvalitní přepis obsahuje více chyb, ale je rychlejší. Stroj si se zadaným úkolem prostě méně láme hlavu. Rychlost přepisu hodně záleží na vybavení, které máte, tedy na "síle" toho kterého počítače (významně může pomoci výkon procesoru nějaké lepší grafické karty). Obecně platí, že přepis rozhovoru není práce na pár vteřin, jako když kopírujete nebo přejmenováváte soubory; s pomocí AI modelu jde o dost náročný úkol pro výkon stroje.[8]

7.
Jak už bylo řečeno, program po hlase rozeznává jednotlivé mluvčí. Těch přitom může být i více. Dva, jako v běžném výzkumném rozhovoru, ale třeba taky osm nebo dvanáct, jako v nějaké focus-group. I tady pochopitelně záleží na kvalitě nahrávky. Ve výsledku je u každé jednotlivé promluvy v přepisu jasné, kdo ji pronesl, a to dokonce i tam, kde jde o dosti neuspořádanou diskusi a účastníci mluví jeden přes druhého. V transkriptu jsou mluvčí automaticky očíslováni. V textovém editoru jako např. ve Wordu je pak otázkou jednoduché operace Najdi/Nahraď, abychom například "SPEAKER_00" a "SPEAKER_01" všude najednou nahradili jiným označením (v rámci projektu zvolenými psedonymy apod.).

8.
Program na výstupu vytváří vždy několik souborů a ty ukládá do podsložky aTrain ve složce Dokumenty (toho kterého uživatele). Vedle jakéhosi protokolu z přepisu zde najdeme celkem čtyři verze přepisu. Je na nás, kterou si pro naše potřeby vybereme: (1) jednoduchý přepis bez časových souřadnic, pouze s vyznačením mluvčích (soubor s názvem "transcription.txt"); (2) přepis určený pro použití v programu pro kvalitativní analýzu dat Atlas.ti ("transcription_timestamps.txt"); (3) přepis určený pro použití v podobném programu MAXQDA ("transcription_maxqda.txt"); (4) přepis ve formátu SRT, tedy ve formátu pro titulky filmů ("transcription.srt").[9] Každý z těchto souborů lze otevřít v jakémkoli programu pro práci s TXT soubory (prostý text), tedy například v NotePadu, Wordu apod. Kdo se trochu vyzná, může si vytvořit jinou, vlastní šablonu pro výsledný text.

Obr. 3

Obr. 3: Výsledný přepis bez časových kót, pro běžné použití (zobrazený v textovém editoru)

Obr. 4

Obr. 4: Výsledný přepis ve formátu pro Atlas.ti (s časovými kótami), zobrazený v textovém editoru

Obr. 5

Obr. 5: Výsledný přepis ve formátu titulků k videu

9.
Přepisy pro MAXDA a Atlas.ti jsou spolu s časovými značkami naformátované tak, že je lze bez dalších úprav vzít, načíst spolu se zvukovými záznamy do příslušného programu a okamžitě je začít používat. Zvuk a text jsou dokonale "sešité", synchronizované. Dokument tedy můžete poslouchat a zároveň číst; skok na nějaké místo v textu znamená skok na příslušné místo ve zvukovém záznamu. A co zrovna čtete, můžete si ihned poslechnout, nebo naopak. Výhodám takto synchronizovaného zvuku (videa) a textu jsem se podrobněji věnoval v jedné z dřívějších recenzí programu Atlas.ti (Konopásek 2009).

Obr. 6

Obr. 6: Transkript načtený spolu se zvukovým souborem do programu Atlas.ti

10.
Tím funkce programu aTrain v podstatě končí. Nicméně kvalitativní výzkumníci ocení ještě jednu vlastnost. Pro zpracování zvukového souboru se nic nemusí posílat na vzdálené cizí servery, na internet. Všechno probíhá výhradně lokálně, tj. na počítači, na kterém je program nainstalován. To vůbec není u podobných aplikací pravidlem. Například samotný Atlas.ti, pokud chcete použít nějakou novou funkci založenou na AI (třeba nechat si navrhnout pro daný úryvek vhodné kódy), okamžitě upozorní, že daný obsah bude odeslán ke zpracování pryč, tedy na servery firmy, která vyvíjí příslušný jazykový model. A musíte to výslovně odsouhlasit. Vzdáváte se v tu chvíli bezprostřední kontroly nad tím, co se s potenciálně citlivými daty děje. Z hlediska ochrany dat a soukromí jde o choulostivou operaci, která v dohodách s respondenty o využití dat není typicky nijak ošetřena. Tohle s aTrain řešit nemusíte. Vše se odehrává jenom na vašem počítači. Nic se nikam nenahrává. To je v dnešní době významná věc, která hodnotu programu pro kvalitativní výzkum významně posiluje… Jednu nevýhodu to ovšem má. V instalačním balíku programu a poté na vašem počítači musí být obsažený celý příslušný model, tedy veškeré jeho natrénované schopnosti. Což zabere hodně místa na disku. Konkrétně přes 13 GB.

Praktický test

11.
Abych mohl trochu názorněji předvést, jak program pracuje, udělal jsem jednoduchý test. Nechal jsem aTrain přepsat krátký, zhruba 4-minutový úsek jedné televizní debaty. Vybral jsem takový úsek, kde se střídají mluvčí a trochu si při tom i "skáčou do řeči". Jde o začátek pořadu Otázky Václava Moravce z 28. ledna 2024 (výběr byl náhodný, zvolil jsem poslední dostupné vydání v době psaní recenze). Úryvek trvá zhruba od začátku třetí minuty pořadu, do začátku sedmé minuty. Celý záznam je volně dostupný online, v archivu České televize, na adrese https://www.ceskatelevize.cz/porady/1126672097-otazky-vaclava-moravce/224411030510128/. Výsledek přepisů si tak podle tohoto záznamu můžete sami dopodrobna ověřit.[10]

12.
U všech pokusů o přepis jsem v úvodním nastavení programu specifikoval jazyk (češtinu) a počet mluvčích (v daném úryvku 3). Byť je model schopen obojí nějak určit sám, automaticky, usnadníme mu práci, pokud mu počet účastníků hovoru předem prozradíme. Nechal jsem přepsat záznam ve třech různých úrovních, dle velikosti využívaného modelu: (1) základní [base] (rychleji a méně kvalitně), (2) střední [medium] (přesně) a (3) velký [large-v2] (ještě přesněji a zdlouhavě).[11] Rychlost přepisu čtyřminutového zvukového záznamu byla v našem případě následující (minuty:vteřiny):

● Základní (rychlejší, méně kvalitní přepis) – 00:39
● Střední (přesný přepis) – 01:49
● Velký (nejpřesnější, ale také nejpomalejší přepis) – 09:57

13.
Je vidět, že rozdíly v rychlosti jsou značné. To samé lze ale říci také o kvalitě. Autoři uvádějí, že u běžných počítačů by ani to nejkvalitnější zpracování nemělo trvat více než třikrát delší dobu, než je délka samotného zvukového záznamu. Výsledky testu to potvrzují.[12] Situace, kdy výzkumník s přepisem nějak hodně pospíchá, není popravdě úplně běžná. Doporučoval bych tedy využívat nejvyšší možnou kvalitu přepisu a převod na text prostě spouštět přes noc. Dohlížet se na to nijak nemusí, ráno je hotovo. A na kvalitě se to pozná.

14.
Jak přesněji dobrý (spolehlivý, přesný) výsledný přepis je? Opakovaně jsem měl ve své práci příležitost využít služeb lidského přepisovače, většinou s nějakou praxí; často šlo o studenty sociologie – tedy ne úplné začátečníky a ne osoby, které nemají ani základní představu o využití výsledku. Můj dojem je, že ačkoli aTrain v současné době občas nějaké drobné chyby udělá (viz dále), výsledek je celkově lepší, tedy přesnější a prakticky použitelnější, než kdyby nahrávku přepisoval typický přepisovač nebo typická přepisovačka. Pokusím se to trochu přiblížit, s využitím nejkvalitnější verze přepisu (large-v2)[13]:

15.
Mezi typické chyby toho nejlepšího transkriptu patří opomenutí velkého písmena u nejrůznějších méně běžných názvů. Takže například místo "…když byl naposledy v otázkách..." mělo být "...Otázkách…", protože jde o název pořadu. Nebo namísto "svazu obchodu a cestovního ruchu" mělo být "Svazu…". Někde program napsal "v řecku", byť na jiném místě správně "v Řecku"; naopak správně, s velkým "E", byla formulace "v dalších státech Evropy" nebo většina výskytů osobních jmen (náležitě bylo dokonce uvedeno "Marek Výborný", ačkoli slovo "výborný" má i svůj věcný význam). Pouze jedinkrát program zkomolil jméno, a sice při malém zajíknutí moderátora: "… budete vyhlášku měnit. Tomáš Jiporouzo?" (místo "… budete vyhlášku měnit, Tomáši Prouzo?"). Úplně ojediněle se vyskytly chyby v interpunkci. V drtivé většině však čárky a tečky za větami naprosto dávaly smysl. AI zkrátka odhaduje strukturu vět úplně dobře. Text je bez problémů čitelný. Můj dojem je, že ve složitých a ne vždy přehledných větách mluveného projevu podávají člověčí přepisovači právě v tomhle ohledu mnohem horší výkon – jejich věty bývají zbytečně dlouhatánské, bez zřetelné struktury a obtížně čitelné. Na zhruba dvou stranách přepisu se vyskytlo několik málo chyb ve znaménkách nad písmeny ("Večeřova" místo "Večeřová", "nášimi" místo "našimi"). V přepisu se dále objevilo několik málo gramatických chyb. Například: "data dodávaly" místo "dodávali" (prodejci).

16.
Tohle všechno jsou nicméně úplné drobnosti, kterých si člověk většinou ani nevšimne. Podstatnější jsou věcné chyby, významové posuny a nejasnosti. I takové se objevily. Například, v téměř úplném výčtu: "… který s námi je bezpojení v Římě" (má být "ve spojení"); "běh na další trať" (má být "delší"); "tam se znovu" (má být "ptám se znovu"); "vdělení" (má být "sdělení"); "slavy" (má být "slevy"). Je na místě přiznat, že minimálně na jednom z těchto míst jsem měl při kontrole sám potíže rozeznat, co přesně dotyčný člověk řekl. Zároveň i tady dle mých zkušeností platí, že podobné chyby bývají v ručně pořizovaných přepisech stejně tak, ba horší a hojnější. Když se podíváte na pečlivou opravu veškerých nalezených chyb (v příloze ke stažení), navrženými úpravami se to v přepisu docela "červená". Ale pozor, první dojem je matoucí. Kdyby se totiž pominuly chyby ve velkých/malých písmenech a drobné gramatické chyby, zůstává na ty dvě strany textu vlastně jen pár nesrovnalostí. Opravdu významově zmatený může být čtenář jen na jednom místě, v jedné větě závěru.

17.
Tolik k tomu, co se v mém testu programu nepodařilo (dost dobře). Tedy co pokazil. Je však ještě třeba zmínit, co se mu naopak podařilo velmi dobře a co svým způsobem vylepšil. Už jsem zmínil, že aTrain z nahrávky pořizuje velmi slušně strukturované věty a souvětí, což u mluvené řeči vůbec není samozřejmost. Čitelnosti však také přispívá, že program "chytře" nebo "citlivě" ignoruje různá zadrhnutí a přeřeky. Tímto slovním plevelem se v běžné výzkumné praxi, ve snaze o jakousi akurátnost, manuálně pořizované přepisy často jen hemží. V naprosté většině je to ale analyticky úplně k ničemu; jen je pak utrpením takové přepisy číst. Program aTrain (resp. jazykový model Whisper, který aTrain používá) tímhle neduhem netrpí, mluvenou řeč v přepisu od těchto plev dobře čistí. Přitom zůstává dostatečně přesný. Pro zajímavost: Marek Výborný v jednu chvíli nespisovně řekl "nebudou chtět", což je v přepisu náležitě zachováno.

18.
Rozeznávání mluvčích a zachycování interakčních skrumáží je v testovacím přepisu úplně bez chyby. Je vyvážené, tedy nikoli na úkor přehlednosti, a přitom – opět – dostatečně přesné. Program správně pominul naprosté drobnosti, jako když třeba moderátor skočil do řeči, ale – aniž by stačil něco opravdu říct – hned se stáhl a nechal dotyčného mluvit dál… Jistě, za určitých okolností by podobné interakční detaily mohly být analyticky podstatné. Nicméně, přiznejme si, takových případů je reálně strašně málo. Většinou se prostě nejlépe pracuje s přepisem, který se snadno čte a který dává smysl.[14] Přitom, pokud využíváme možnost synchronizovat zvuk a text (např. v programu Atlas.ti), co zmizí z přepisu, nemizí výzkumníkovi z dosahu úplně a nevratně. Původní, zvukovou podobu dané interakce má totiž neustále po ruce. Kterýkoli kousek přepisu si může hned poslechnout. Pracuje jak s úplným mluveným záznamem, tak s jeho rozumným a dobře čitelným převedením do textu. Pokud se ukáže potřeba někdy na základě nahrávky přepis doupravit, kupříkladu když chce nějaký úryvek doslova ocitovat nebo pokud se příslušný kousek textu z jakéhokoli důvodu ukáže jako analyticky zásadní, vždy to k dobru věci může udělat později.

Závěrem

19.
Lze říci, že aTrain poskytuje velmi dobře použitelné a přesné přepisy zvukových nahrávek (v češtině), a to takřka bezpracně. Nejenže povaha a množství chyb jsou přijatelné a neohrožují srozumitelnost větších celků textu. Řeč mluvená je navíc na psanou převedena tak umně, že přesnost přepisu není na úkor jeho srozumitelnosti, resp. čitelnosti. Troufám si říct, že pouze velmi zkušená a přepečlivá lidská síla by dokázala co do kvality přepisu aTrain překonat – taková, jakou jsem zatím ve své vlastní praxi neměl tu čest potkat (i proto, když mi na věci opravdu záleželo, přepisoval jsem si rozhovory nakonec raději sám).

20.
Je třeba zdůraznit jednu věc. Technologie, o kterých je řeč, se překotně rozvíjí. Ještě před rokem tu nebyly a za rok odteď bude možná taky všechno úplně jinak. Pokrok se v téhle oblasti odehrává v řádu měsíců. Můžeme odhadnout, že zanedlouho tu budou nové verze jazykových modelů, podstatně výkonnější. Program aTrain je tak či onak implementuje. Chyb bude mnohem méně. Může se ale také stát, že zanedlouho půjde o úplně běžnou schopnost jakéhokoli lepšího mobilního telefonu (včetně toho, že nebude zapotřebí někam odesílat nějaká data) a nějaký aTrain bude potom k ničemu.

21.
Velká výhoda programu aTrain pro účely kvalitativního výzkumu podle mne je, že jde o uživatelsky nesmírně jednoduchý nástroj. Jistě, šla by v něm implementovat řada dalších funkcí. Třeba rozhraní pro opravu chyb s možností dalšího učení. Nebo nastavení, kterým by se nejen určil počet mluvčích, ale z vybraných kousků řeči by se rovnou jednotliví účastníci hovoru pod přiděleným jménem identifikovali. A tak dál, a tak dál. Jenže tím by program rostl do všech možných stran a jeho užívání by brzy vyžadovalo nějakou míru proškolení. V současné podobě, právě teď, je ale jeho cennou vlastností, že si ho každý uživatel Windows může obratem a snadno nainstalovat a hned ho začít používat. I kdyby jen na pár dalších měsíců, než bude k dispozici elegantnější řešení. Dobře tak.

Poznámky

[1] Viz též informace na webových stránkách https://atlasti.com/atlas-ti-ai-lab-accelerating-innovation-for-data-analysis.

[2] Přímo z Windows lze použít Microsoft store a vyhledat "aTrain". Dostanete se na stránku https://apps.microsoft.com/detail/atrain/9N15Q44SZNS2, kde můžete pokračovat jako s kteroukoli jinou instalací. Jde to rychle a snadno. V tuto chvíli je program dostupný pouze pro Windows, nicméně verze pro jiné operační systémy jsou prý v plánu.

[3] Jeho možnosti snad prý testuje také Český rozhlas.

[4] Viz návod na https://www.mimoagendu.cz/atomovy-kufrik-petra-pavla/.

[5] Všechny obrázky použité v tomto textu pocházejí z onoho jednoduchého testu.

[6] Podporována je většina běžných formátů, typicky mp3, wav, flac, avi, mkv, mp4 apod.

[7] Autoři ve svém článku nabízejí srovnávací tabulku bezchybnosti pro některé základní jazyky (Haber et al. 2024).

[8] Vedle parametrů počítače samozřejmě sehrává úlohu také kvalita samotné nahrávky. Dobře pořízené nahrávky, v tichém prostředí, kde si lidé neskákají příliš do řeči a nedrmolí, dovolují přepis téměř bez chyb. Nahrávky, kterým je při poslechu špatně rozumět, budou pochopitelně přepsány s mnohem častějšími chybami.

[9] Je tedy možné si takto nechat automaticky otitulkovat film. Načtete ho do aTrain a ten jeho zvukovou stopu přepíše i s potřebnými časovými kótami. A když už jsme u automatizovaných procedur, v nástroji, jako je třeba bezplatný Subtitle Edit, si můžete nechat tyto titulky přeložit s pomocí Google AI do libovolného podporovaného jazyka. Vedle drobných chyb, které vzniknou při přepisu, se tak pochopitelně nakupí i chyby vzniklé při automatickém překladu (u mnohých jazyků například při překladu nesedí rod, což v češtině pak chybí – ženská postava pak běžně říká: "Vrátil jsem se."). Nicméně jakási cesta to je.

[10] Zvuk ukázky má v zásadě studiovou kvalitu. S jistými výhradami. Obsahuje totiž také zvuk z online přenosu (jeden z účastníků debaty se účastní na dálku); to kvalitu jako z profesionálního studia rozhodně nemá. Do audiosouboru, který jsem použil, je přitom vepsána ještě jedna transformace. Pro jednoduchost jsem totiž mp3 soubor pořídil tak, že jsem zvuk z videa nahrál ze stolních reproduktorů počítače, a sice přes mikrofon běžného nahrávače. Tím se konečná kvalita nahrávky ještě o něco zhoršila, takže se trošinku přibližuje obyčejným nahrávkám z terénu. Z vlastní zkušenosti mohu říci, že výsledek testu je srovnatelný se skutečnými terénními nahrávkami z výzkumu, jsou-li ty pořízeny v dostatečně tichém prostředí.

[11] Těchto stupňů nabízí aTrain celkově šest. Původně jsem místo "základního" (base) modelu zkoušel "malý" (tiny), tedy ten vůbec nejrychlejší a nejméně kvalitní. Program však v tomto nastavení během přepisu opakovaně havaroval. Proto jsem šel o stupeň výš a jako nejméně přesný přepis jsem testoval model "základní".

[12] Test jsem prováděl na běžném, asi šest let starém počítači, s ještě starší grafickou kartou, která programu neumožňuje využít její výkon.

[13] Na adrese http://www.biograf.org/docs/atrain.zip lze stáhnout v zip balíčku hlavní dokumenty testu: tři úrovně přepisu, tj. špatná, průměrná, nejlepší (tedy base, medium, large-v2), pro informaci ve třech různých úpravách (bez časových údajů, pro Atlas.ti s časovými souřadnicemi a jako titulky k videu). Tyto výstupy nejsou nijak upravované. Vypadají přesně tak, jak je pořídil aTrain. Dále zip balíček obsahuje pdf soubor, ve kterém jsou zobrazeny úpravy nejlepšího přepisu, které by byly třeba pro zcela dokonalý přepis bez jakýchkoli chyb. V tomto dokumentu jsou tedy přesně vidět veškeré nedostatky celého zhruba dvoustránkového automatického přepisu.

[14] Jistě, existují výjimky, třeba v konverzační analýze. Jenže pokud někdo dělá skutečnou konverzační analýzu, přípravě přepisu musí tak jako tak věnovat mnohem větší a dosti speciální péči.

Literatura

FRIESE, S. (2023): Tempting Generative AI into Hallucinating. Queludra. Dostupné na adrese https://www.qeludra.com/blog/tempting-generative-ai-to-hallucinate

HABERL, A. / FLEIß, J. / KOWALD, D. / THALMANN, S. (2024): Journal of Behavioral and Experimental Finance, 41 (online first). DOI https://doi.org/10.1016/j.jbef.2024.100891

KALPOKAS, Neringa (nedat.): Invigorate your analyses with AI-powered tools. Dostupné na adrese https://atlasti.com/research-hub/invigorate-your-analyses-with-ai-powered-tools

KONOPÁSEK, Z. (1997): Co si počít s počítačem v kvalitativním výzkumu: program ATLAS/ti v akci. Biograf (12): 71–110

KONOPÁSEK, Z. (2005): Aby myšlení bylo dobře vidět: Nad novou verzí programu Atlas.ti. Biograf (37): 89–109

KONOPÁSEK, Z. (2009): Zapomeňte na pouhé transkripty: Atlas.ti, šestá verze. Biograf (48): 95–113

KONOPÁSEK, Z. (2011): Aby se pracovalo pěkněji: ATLAS.ti, verze sedmá. Biograf (56): 91–109

KONOPÁSEK, Z. (2017): Rozpaky nad inovacemi: ATLAS.ti, verze osmá. Biograf (65–66): 103–115

KONOPÁSEK, Z. (2021): Konec hermeneutiky?: Atlas.ti, verze devátá. Biograf (73–74): 233–246

Zdeněk Konopásek

Působiště: Centrum pro teoretická studia při UK Praha a AV ČR

E-mail: zdenek@konopasek.net

Webová stránka: http://zdenek.konopasek.net

Narozen: 1963

Zdeněk Konopásek (1963) působí jako sociolog vědy v Centru pro teoretická studia UK a AV ČR. Zabývá se zejména vztahy mezi vědou a politikou. Dlouhodobě sleduje využívání počítačů v kvalitativní analýze. Psal také o komunismu nebo zbožnosti. Publikoval knihu Estetika sociálního státu: O krizi reprezentace (nejen) v sociálním zabezpečení (GplusG 1998) a editoval knihu Otevřená minulost: Autobiografická sociologie státního socialismu (Karolinum 1999). Je zakladatelem časopisu Biograf a dlouho jej vedl jako šéfredaktor. Bubnuje.
[Aktualizováno: 1. 2. 2021]

Publikování tohoto textu kdekoli jinde je možné pouze se souhlasem editora Biografu.

Diskuze

Chcete-li k textu diskutovat, musíte se napřed přihlásit


Vložit příspěvek: