Compensació Pel Signe Del Zodíac
Sonabilitat C Celebritats

Esbrineu La Compatibilitat Per Signe Del Zodíac

Les millors eines de transcripció automàtica per a periodistes

Tecnologia I Eines

Siri acaba de fer sis anys. Alexa acaba de fer tres anys. Si podem demanar als nostres telèfons el temps a Albuquerque i obligar un cilindre de plàstic a les nostres sales d'estar a llegir el Washington Post en veu alta, per què seguim transcrivint les entrevistes a mà?

Bé, resulta que realment no hem de fer-ho. Les eines de transcripció automàtiques ja fa temps que estan al mercat i, per fi, s'estan fent bé. Ara només triguen uns quants minuts i uns quants dòlars penjar àudio o vídeo a un lloc i rebre una transcripció força completa.

Però, com totes les eines, algunes són millors que altres. Vam provar (o vam provar de provar, més sobre això més endavant) vuit de les eines de transcripció més populars dirigides als periodistes, incloses Dictat del drac , Feliç escriba , o Transcriure , Recordly , Rev , Sonix , Trint i YouTube. Vam fer servir cada eina a través d'una varietat d'escenaris del món real, experimentant amb com es va comportar cadascuna amb l'ús típic d'un periodista.

Tot i que cap de les eines era perfecta, una va superar les altres com les millors de la categoria.

La nostra elecció
Una combinació de precisió, característiques i facilitat d'ús fan de Trint la millor opció per a la transcripció automàtica per als periodistes. Tot i que no era l'eina més precisa, més rica en funcions o la més barata que vam provar, les seves eines d'edició de transcripcions i la seva capacitat d'adaptar-se una mica més perfectament al flux de treball d'un periodista l'ajuden a superar els seus competidors. Continua llegint per veure per què.

L'experiment
Com veureu, les taxes de precisió d'aquestes eines són baixes. Això és perquè vam intentar confondre'ls al màxim.

En primer lloc, per reflectir una àmplia gamma de persones, veus i accents, vam gravar la nostra mostra d'àudio amb quatre participants. Inclouen:

  • Alexios Mantzarlis , professor de Poynter i director de l'International Fact-Checking Network, que prové de Roma i es va descriure a si mateix com un ceixeix i 'algunes paraules divertides que barregen accents britànics, italians i estranys americans'.
  • Dolç Rams , gerent del programa de la Xarxa Internacional de Verificació de Fets, que va arribar a Poynter des de Ciutat de Mèxic el setembre
  • Kristen Hare , una periodista de Poynter, que creu que sona 'una mica de noia de la vall' quan s'escolta a ella mateixa en els enregistraments
  • Jo, i tot i que Kristen va dir que tinc un 'accent de búfalo', crec que la meva inclinació a murmurar, parlar massa ràpid i saltar-se parts de les paraules probablement resulta més difícil per a les transcripcions (enregistrar-se amb l'esperança de ser transcrita porta clarament a una mica d'autoestima. reflexió.)

La Kristen es va unir a nosaltres a través de Google Hangouts/YouTube Live ( divulgació: una subvenció de Google News Lab finança parcialment la meva posició ), que la majoria de les eines de transcripció automàtiques adverteixen obertament. L'àudio d'un telèfon o un xat de vídeo sembla ser universalment difícil de gestionar.

Per torturar encara més els algorismes, també llegim passatges a un ritme molt més ràpid del que parlem habitualment, Dulce i Alexios parlaven diferents idiomes estrangers (italià, espanyol, francès i grec), pronunciàvem tants noms propis com era possible (Apalachicola). , Michael Oreskes i diverses illes gregues, per citar-ne algunes), van ser creatius amb el diccionari urbà (a portmanteau de Paul Manafort i una paraula tosca que descriu l'estat de la seva situació jurídica) i es parlaven amb certa freqüència.

Vam gravar la nostra prova de 14 minuts a l'estudi de seminaris web de Poynter i vam ser interromputs pel so d'almenys un avió fort a sobre (hi ha un aeroport a unes illes de distància), un vehicle d'emergència i els crits del telèfon de Kristen.

Hem gravat l'àudio de tres maneres:

  • Amb una Zoom H4nPro micròfon de mà, col·locat entre nosaltres
  • Amb el meu iPhone 6S Plus, fent servir l'aplicació Recordly per gravar, col·locada al costat del Zoom
  • Amb un YouTube Live privat, que és com Kristen es va unir a nosaltres

Després vam penjar l'àudio a cada eina i vam fer un seguiment de quant de temps va trigar cadascuna a transcriure's. Hem normalitzat les transcripcions resultants mitjançant Microsoft Word, eliminant les marques de temps i assegurant-nos que els noms dels parlants fossin congruents. Com a control, vaig transcriure l'àudio jo mateix (utilitzant oTranscribe) i després vaig escoltar diverses vegades per comprovar la precisió total. També vam provar Rev, un servei de pagament que utilitza transcriptors humans en lloc d'algoritmes, per veure com s'apilava.

Hem provat una varietat d'eines de comparació de documents per veure quina funcionava millor, decidint-nos Copyscape com l'opció més sòlida. Hem comparat les transcripcions generades per les eines i els serveis amb la 100% correcta que vaig crear amb oTranscribe.

Unes quantes notes addicionals:

  • L'àudio del Zoom va demostrar ser de la millor qualitat, així que el vam utilitzar per a la majoria de les nostres proves. Sembla que l'aplicació Recordly no accepta àudio gravat d'altres fonts, de manera que aquesta és una excepció a aquest procés. Tampoc hem penjat l'àudio de Zoom a YouTube, sinó que ens hem basat en l'àudio de la gravació de YouTube Live. La comparació de pomes i taronges fa que aquest experiment sigui menys científic, però més en línia amb com els periodistes utilitzarien aquestes eines en el món real.
  • Tot i que és una eina popular, no hem pogut provar Dragon Dictation, ja que no funciona amb iOS 11. Actualitzarem aquesta revisió quan i si el seu desenvolupador soluciona aquest problema.
  • No ens vam posar en contacte amb cap d'aquestes empreses abans de fer les proves, per la qual cosa no hi va haver cap tractament especial ni cap tipus d'elaboració de transcripcions. Trint, Sonix i Recordly ofereixen minuts gratuïts limitats per a usuaris nous, així que els vam aprofitar per a l'experiment. Hem utilitzat la targeta de crèdit d'un col·lega que no és reporter per a Happy Scribe i no hem esmentat Poynter ja que en el passat he mantingut correspondència amb els seus fundadors. I vam pagar el preu complet per la transcripció humana de Rev. El servei de subtítols de YouTube i oTranscribe sempre són gratuïts.
  • Hi ha moltes més eines de transcripció automàtica que no hem inclòs en aquesta revisió. Hem intentat centrar-nos en els que ens han preguntat els periodistes. Si creieu que n'hem omès un injustament, feu-nos-ho saber i actualitzarem la revisió.

Qualitat de la transcripció (Guanyador: Happy Scribe)

Diagrama de precisió

Sembla que les persones preocupades per l'aixecament de la intel·ligència artificial tenen almenys uns quants anys més per preparar-se, ja que l'únic servei de transcripció humana que vam provar va superar les transcripcions automàtiques per un ampli marge.

Rev va obtenir una puntuació de precisió del 82 per cent, amb el traductor humà en la seva majoria no en captar llengües estrangeres (que, per ser justos, és un servei separat), uns quants noms propis, una mica de diàfon, unes quantes paraules d'argot i fragments de murmuració. Tot i que la majoria d'eines també van perdre aquestes coses, els transcriptors humans de Rev almenys van assenyalar coses com '[inaudible]' i '[diafonia]' i '[llengua estrangera]', que eren marcadors de posició útils per a correccions posteriors.

Fins i tot amb els bits que falten, la transcripció de Rev és completament llegible i coherent. Si no estàveu per a la conversa inicial, podríeu entendre el quid del que estàvem parlant només llegint-lo.

La següent transcripció més precisa va ser YouTube. El lloc d'allotjament de vídeos va crear automàticament subtítols per al nostre vídeo en directe de YouTube amb una precisió del 72%. Però fins i tot amb només una caiguda del 10% en la qualitat general, la transcripció és significativament menys llegible que la de Rev perquè YouTube no ofereix cap puntuació ni segmentació dels parlants. Els subtítols existeixen com un bloc massiu de text. Sense combinar-lo amb l'àudio, seria gairebé impossible que algú que no fos part de la conversa entengués la nostra conversa.

Hi ha altres inconvenients a les ofertes de YouTube, però en parlarem quan arribem a les funcions.

Happy Scribe va demostrar ser l'eina de transcripció no humana més precisa, amb un 62% de precisió en el nostre experiment. L'eina adverteix a la seva pàgina de càrrega: 'evitar el soroll de fons intens, 'evitar els accents forts', 'evitar les entrevistes per telèfon i Skype' i 'mantenir el micròfon a prop de l'altaveu', tot això que vam ignorar degudament.

La transcripció és gairebé exacta als llocs on parlava, sobretot quan no hi havia cap diafonia i no feia servir noms propis, però em va costar bastant transcriure Dulce, Kristen i Alexios. Va dividir diferents altaveus en nous paràgrafs en alguns llocs, però va fallar en altres. La transcripció general varia entre completament coherent en alguns llocs i estranyament incoherent en altres, com quan va transcriure Alexios dient 'deixa'm obrir el diccionari urbà i podem repassar-ne alguns' com 'vull dir que fins i tot al diccionari urbà les noies estan a prop. .”

Trint va oferir resultats similars, amb un 61 per cent de precisió. S'ha embolicat en molts dels mateixos llocs, xocant amb accents, àudio de YouTube i seccions amb diafonia o conversa tranquil·la. Tanmateix, no es va transcriure malament de la mateixa manera que Happy Scribe. La frase del diccionari urbà des de dalt va aparèixer com 'Vull dir que fins i tot al diccionari urbà podem repassar-los'.

En general, la transcripció de Trint és una mica més fàcil de llegir que la de Happy Scribe perquè fa un millor treball per diferenciar els parlants i dividir-los en nous paràgrafs. No és perfecte, però afegeix molta claredat quan funciona.

Sonix va demostrar ser el següent més precís amb un 50 per cent. Sonix funcionava una mica millor que Happy Scribe i Trint quan un únic altaveu parlava en veu alta. Però qualsevol quantitat de diafonia, soroll de fons o fins i tot rialles, totes les coses que probablement apareixeran en qualsevol ús real de l'eina, semblaven confondre-la més que les altres. Va capturar la frase del diccionari urbà com a 'Obrir al diccionari urbà i podem repassar-ne alguns'.

Igual que les altres eines, Sonix va intentar dividir els altaveus en diferents paràgrafs, però semblava que era una mica pitjor.

Recordly va ser la menys precisa de les eines de transcripció automàtiques, amb un 48 per cent de precisió. Va capturar la frase del diccionari urbà com 'permeteu-me obrir aquest diccionari urbà i podem. Passa't per alguns', que no està malament, però aquest fragment de text no és representatiu de la resta de la transcripció. Igual que YouTube, la transcripció de Recordly és un bloc de text gegant. A diferència de YouTube, afegeix signes de puntuació, encara que amb menys freqüència i amb menor precisió que les altres eines.

La transcripció de Recordly és la menys útil fora de context.

En general, la millor transcripció va venir de la meva pròpia mà amb oTranscribe. Rev va resultar la millor transcripció que no vaig haver de transcriure jo mateix. Però aquesta és una revisió de les eines de transcripció automàtiques i, en aquesta categoria, Happy Scribe amb prou feines va superar Trint per sortir al capdavant.

Característiques (Guanyador: Sonix)
Algunes coses semblen ser estàndards de la indústria de les eines de transcripció automàtica. La possibilitat de reproduir l'àudio penjat és evident. Totes les eines permeten als usuaris exportar transcripcions en diversos formats.

Les eines basades en navegador (que vol dir que totes excepte Recordly) també ofereixen un conjunt comú. Tots permeten als usuaris fer clic a diversos punts del text i saltar directament a aquesta part de la gravació. Tots tenen opcions per reproduir l'àudio a una velocitat més lenta (amb tecles de drecera o jugant amb la configuració), editar manualment transcripcions, carregar vídeo a més de l'àudio i emmagatzemar transcripcions per al seu ús posterior.

Trint va un pas més enllà i presenta una forma d'ona visualitzada de l'àudio a la part inferior de la transcripció que els usuaris poden ometre a voluntat. També té eines integrades per trobar i substituir, ressaltar o ratllar text. Els usuaris poden afegir una llista de parlants a l'eina i adjuntar el seu nom a cada paràgraf. També té una funció útil per enviar una transcripció per correu electrònic amb un sol clic.

Sonix inclou totes aquestes eines (excepte la forma d'ona interactiva) i algunes més. Els més útils són els 'colors de confiança', que assigna colors diferents a les paraules de les quals Sonix té menys confiança; un evaluador de qualitat d'àudio, que us indica la confiança que té Sonix sobre la seva transcripció; i la identificació automatitzada dels parlants, una funció beta que intenta identificar diversos parlants i assignar-los identificacions.

A la nostra prova, Sonix només va identificar dos altaveus diferents, de manera que aquesta eina necessita una mica de treball, però encara és molt útil.

Registre, l'única aplicació (només iOS) del grup, ofereix menys funcions. És pràcticament una experiència de registre i espera. La transcripció es lliura en un format similar a l'aplicació de notes integrada d'Apple, amb una funcionalitat d'edició limitada. També permet als usuaris exportar l'àudio o el text a una altra aplicació.

Tot i que les funcions de cerca i substitució i de forma d'ona de Trint són útils per corregir les transcripcions, les funcions de Sonix afegeixen una transparència vital al procés de transcripció. I tot i que la versió beta d'identificació dels parlants no és del tot fiable, és una eina ambiciosa que només hauria de millorar a partir d'aquí.

Temporització (Guanyador: Happy Scribe, Trint i Recordly)

diagrama de temps

Aquí és on brilla la transcripció automàtica. Totes les eines van proporcionar una transcripció en menys de minuts que la durada del fitxer d'àudio que vam enviar. La diferència entre Happy Scribe (cinc minuts), Trint (sis minuts) i Recordly (sis minuts) va ser insignificant, però Sonix va trigar una mica més (11 minuts). (Actualització: un representant de Sonix va dir-li que la seva velocitat està en línia amb les altres eines quan la funció d'identificació de l'altaveu està desactivada.) En un entorn del món real, això podria ser una diferència crucial, especialment amb transcripcions més llargues.

YouTube és una mica un misteri aquí. Per a aquesta transcripció, només van trigar uns quants minuts a aparèixer els subtítols automatitzats. En experiències passades, hem descobert que el temps que triguen a aparèixer pot variar bastant. Com que YouTube no s'ha d'utilitzar d'aquesta manera, no estem segurs de quant de temps sol trigar.

Els transcriptors humans de Rev van trigar unes quatre hores i 15 minuts a acabar la seva transcripció. Vaig trigar aproximadament la meitat a fer-ho jo mateix amb oTranscribe, però no sense pauses, Spotify Enfocament profund llista de reproducció i dos litres de cafè.

Preu (Guanyador: Recordly)

diagrama de costos

No podeu superar la gratuïtat (YouTube, oTranscribe), però quan es tracta de les eines de transcripció automàtiques dedicades, el cost varia molt. Per determinar el millor preu, heu de considerar la freqüència amb què utilitzareu l'eina.

Sonix és el més car, amb un pla base a partir de 15 dòlars al mes més 8 dòlars per cada hora d'àudio transcrit. Però l'eina ofereix un descompte important del 33 per cent per pagar anualment en lloc de mensual.

Trint també ofereix plans a partir de 15 dòlars l'hora per a les transcripcions de pagament, o 40 dòlars al mes per a un màxim de tres hores d'àudio transcrit. Les transcripcions addicionals costen només 13 dòlars per hora.

Happy Scribe costa 10 cèntims per minut d'àudio penjat. Per als tipus menys inclinats a les matemàtiques, això són 6 dòlars per hora.

Amb uns escassos 2 dòlars per hora, amb la primera hora gratuïta, Recordly és, amb diferència, l'opció de transcripció automàtica més barata.

No és sorprenent que els transcriptors humans de Rev costen més que les altres eines. El nostre clip de 13 minuts va costar 14 dòlars per transcriure i vam pagar 3,50 dòlars més per les marques de temps. Tot i així, el cost relatiu barat de les hores de treball implicades ens fa preguntar-nos on són els transcriptors de Rev al món i fins a quin punt se'ls compensa.

Facilitat d'ús (Guanyador: Trint)
Cap d'aquestes eines és difícil d'utilitzar. Penges un fitxer a cadascun (o enregistres àudio amb ell, en el cas de Recordly) i, un temps després, t'envia un enllaç a una transcripció editable.

Trint fa un gran pas més enllà de la càrrega de fitxers i accepta àudio o vídeo de diverses fonts, com Dropbox, Google Drive i FTP, i fins i tot permet als usuaris introduir un enllaç. Això és únic entre les eines que hem provat. Trint també fa algunes preguntes útils sobre el soroll de fons, la conversa creuada i més abans que comenci la càrrega. No arreglarà una gravació, però és un avantatge d'UX útil que ensenya als usuaris a gravar àudio més transcriptible en el futur.

Happy Scribe, Rev, Sonix i Trint envien correus electrònics quan la transcripció està a punt, de manera que no cal asseure's i mirar la pantalla.

La línia de fons
No és la més barata, ni tampoc l'opció de transcripció global més precisa disponible, però Trint va obtenir una victòria com la millor eina completa de les que vam provar.

L'empresa, que té poc més d'un any i ha rebut finançament de la Knight Foundation (exempció de responsabilitat: Poynter també rep finançament de Knight) i Digital News Initiative de Google, ofereix la millor combinació global de funcionalitat, precisió i facilitat d'ús.

Només la funció de subtítols automàtics de YouTube, que va obtenir un índex de precisió del 72 per cent, va sortir molt millor que Trint a la transcripció dirigida per algorisme. Però YouTube no està dissenyat per al tipus de transcripció que necessiten els periodistes en el dia a dia i no ofereix cap tipus de funcionalitat d'edició.

Tot i que la jove startup Happy Scribe va sortir lleugerament millor a les nostres proves de precisió amb una taxa del 62 per cent i té aproximadament un terç del preu de Trint, no té moltes de les funcions addicionals que fan que Trint sigui útil. La capacitat de pujar des de moltes fonts, trobar i substituir text i identificació dels parlants són eines de flux de treball petites però importants. Si només busqueu una transcripció ràpida i bruta, Happy Scribe pot ser el camí a seguir.

I tot i que és cert que el seu 61 per cent està lluny de ser perfecte, les nostres proves van ser una mica més difícils que la majoria dels usos del món real.

També vam provar Rev, un servei de traducció humana, i oTranscribe, que ofereix eines útils perquè els periodistes transcriguin l'àudio pel seu compte. Amb 1 $/minut d'àudio transcrit, vam trobar que Rev era massa car per al periodista mitjà per utilitzar-lo amb regularitat. I tot i que oTranscribe va ser útil, no soluciona el tedi i el mal temps de la transcripció.

Tenint en compte els usos típics, Trint és la millor eina de transcripció automàtica per a periodistes.

Correcció: anteriorment vam informar que en Sonix no oferta trobar i substituir l'eina, però en realitat ho fa. Demanem disculpes per haver-lo perdut.

Obteniu més informació sobre les eines de periodisme amb Try This! — Eines per al periodisme. Prova això! està alimentat per Google News Lab . També compta amb el suport de la Institut Americà de Premsa i la Fundació John S. i James L. Knight