Al Michaels, experiente locutor esportivo da TV NBC, liberou sua voz para ser sintetizada por inteligência artificial. Num aplicativo, ela vai narrar todas as partidas de todas as modalidades da olimpíada, inclusive chamando o espectador pelo nome. Escrevi um artigo ponderando prós e contras disso.
O texto abaixo foi enviado para os 1,8 mil assinantes da newsletter Lagom Insights. Para assinar e receber o próximo, use a caixa abaixo.
A TV NBC, dos Estados Unidos, vai usar inteligência artificial para gerar resumos de partidas da Olimpíada de Paris. A produção de resumos de jogos a partir de dados estruturados não é novidade há mais de dez anos, mas a IA gerativa permite fazer esses resumos chamando o espectador pelo nome e usando a voz do locutor Al Michaels. Trata-se de uma espécie de Galvão Bueno lá deles, narrando jogos na TV desde 1971 e no streaming da Amazon desde o ano passado.
Ele não terá assistido à maior parte dos jogos que sua voz irá narrar. Ele sequer precisa estar acordado na hora dos jogos para trabalhar. E certamente será a primeira vez em que chamará tantos espectadores pelo nome próprio, embora nunca tenha contato com eles. A NBC promete fazer controle de qualidade do material gerado usando uma reprodução da sua voz treinada a partir de horas e horas das suas narrações esportivas disponíveis no acervo da emissora.
Há muitos anos, não lembro mais se numa coluna ou numa palestra, ouvi a repórter Dorrit Harazim falar do quanto as olimpíadas eram uma vitrine de novas tecnologias aplicadas ao jornalismo.
Foi nelas, nos anos 80, que se usou pela primeira vez a transmissão de telefotos, uma espécie de fax usado inicialmente por agências de notícias, depois por empresas bem financiadas, para enviar imagens (feitas em filme!) em instantes ao redor do globo. Até o final dos anos 90, era impraticável enviar fotos digitais de alta qualidade anexando-as a um e-mail. Mas qualquer jornal regional que tivesse assinatura de agências de notícias passou a dispor de equipamentos especiais para receber essas imagens.
Pelo jeito, a vitrine da vez vai ser o uso da inteligência artificial gerativa. Mas o que esse uso específico, multiplicando e personalizando uma das vozes mais conhecidas do esporte nos EUA, aponta?
Por vício de origem, penso primeiro em termos de trabalho e carreira para jornalistas.
Grandes eventos esportivos, com múltiplas partidas e modalidades, costumavam ser uma grande chance para que novos locutores fossem testados, nem que fosse narrando xadrez olímpico de madrugada. As grandes redes de TV tradicionalmente convidam comentaristas especializados (e caros), muitas vezes ex-atletas, para explicar o que está acontecendo a quem pode estar assistindo pela primeira vez a um esporte diferente.
O que a NBC está dizendo é: esqueça. Já há uma voz que tem uma popularidade construída ao longo de décadas. Com a IA, essa voz pode ser usada sem precisar sequer do seu dono, em partidas que ele sequer precisa assistir ou modalidades que ele não precisa conhecer. A partir dos dados é possível gerar um resumo com pé e cabeça, e usando um modelo da voz é possível fazer o locutor dizer o básico.
Isso polariza as oportunidades de trabalho entre reis e peões, tornando obsoletos todos os escalões intermediários de cavalos, bispos, torres e rainhas. Os reis produzem até dormindo sem precisar sequer suar; os peões que durmam com um barulho desses.
Vários contratos de Hollywood já têm uma “cláusula IA”. O ator Samuel L.Jackson, que fez papéis importantes em filmes que costumam ter sequência, como Guerra nas Estrelas (primeira trilogia) e boa parte dos da Marvel, pediu que seu advogado incluísse explicitamente uma cláusula dizendo que sua aparência e sua voz não estão liberadas para serem recriadas por inteligência artificial. Segundo ele, ter a aparência escaneada é padrão hoje nos estúdios Marvel.
Não se sabe exatamente os termos, mas o contrato do ator Harrison Ford para fazer o papel do Indiana Jones pela última vez com certeza tinha uma cláusula permitindo que o estúdio criasse cenas novas usando a aparência que ele não tem mais há quase meio século. Da mesma forma, o rosto da juventude do ator Mark Hammill foi contratado para fazer algumas cenas na série “The Mandalorian”, no seu velho papel de Luke Skywalker. Por ora, era necessário que um ator mais jovem fosse o dublê de corpo; em breve, nem isso. Em Hollywood, boa parte das cenas é filmada em estúdios vazios, para que o cenário seja acrescentado depois.
Ou seja: com a continuação ad infinitum das tais franquias, até o mercado de trabalho dos atores corre o risco de ficar polarizado entre protagonistas históricos que podem trabalhar até depois de morrerem e jovens dublês de corpo, cujo rosto ninguém fica conhecendo. E isso apenas por enquanto; se você assiste a uma animação como “The Bad Batch”, do mesmo universo de Guerra nas Estrelas, fica muito claro o quanto as paisagens têm a mesma qualidade das usadas nos filmes com atores; mesma coisa os robôs e soldados com armadura da cabeça aos pés. Os personagens humanos, porém, se movimentam com a falta de jeito própria dos personagens de videogame.
Mas tudo isso porque eu falava da simulação do narrador na olimpíada. O que exatamente se ganha com isso?
- O locutor certamente ganhou alguns trocados a mais para ceder os direitos de uso da sua voz. Assim, pode garantir uma vida mais tranquila para si e sua família - ele completa 80 anos em novembro próximo. Quem disser que ele está errado está mais errado ainda.
- A cobertura ganha uma amplitude grande, porque mesmo na TV a cabo existe a limitação de tempo, e uma identidade coesa. Seria impossível um mesmo locutor resumir tantos esportes. Segundo The Verge, fica parecendo aqueles videogames de esporte em que uma voz de locutor fala o placar.
- A emissora ganha uma oportunidade de propagandear suas capacidades tecnológicas, o que deve render alguns anúncios. Também pode testar as águas para outros cortes de custo no futuro, e por custo leia-se gente.
- O público ganha a voz do locutor lhe chamando pelo nome no esporte de sua escolha, olha que bacana. Mesmo que não esteja lá o conhecimento do locutor, apenas uma descrição estruturada da partida salpicada com alguns adjetivos e talvez bordões da famosa voz. Não sei se é uma boa troca, mas com certeza há quem se contente.
O que você pensa a respeito?