O que saber sobre empresas de tecnologia que usam IA para ensinar sua própria IA

Christina S. Brown April 6, 2024

0 3 minutes read

OpenAI, Google e outras empresas de tecnologia treinam seus chatbots com enormes quantidades de dados coletados de livros, artigos da Wikipédia, notícias e outras fontes na Internet. Mas no futuro, eles esperam usar algo chamado dados sintéticos.

Isso porque as empresas de tecnologia podem esgotar o texto de alta qualidade que a Internet tem a oferecer para o desenvolvimento da inteligência artificial. E as empresas enfrentam processos judiciais de direitos de autor movidos por autores, organizações noticiosas e programadores de computador por utilizarem as suas obras sem autorização. (Em um desses processos, o The New York Times processou a OpenAI e a Microsoft.)

Eles acreditam que os dados sintéticos ajudarão a reduzir questões de direitos autorais e aumentarão o fornecimento de materiais de treinamento necessários para IA. Veja o que você deve saber sobre isso.

O que são dados sintéticos?

São dados gerados por inteligência artificial.

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Sim. Em vez de treinar modelos de IA com textos escritos por pessoas, empresas de tecnologia como Google, OpenAI e Anthropic esperam treinar a sua tecnologia com dados gerados por outros modelos de IA.

Os dados sintéticos funcionam?

Não exatamente. Os modelos de IA erram e inventam coisas. Eles também demonstraram que captam os preconceitos que aparecem nos dados da Internet a partir dos quais foram treinados. Portanto, se as empresas usarem IA para treinar IA, poderão acabar amplificando suas próprias falhas.

Os dados sintéticos são amplamente utilizados pelas empresas de tecnologia neste momento?

Não. As empresas de tecnologia estão fazendo experiências com isso. Mas devido às potenciais falhas dos dados sintéticos, estes não constituem uma grande parte da forma como os sistemas de IA são construídos hoje.

Então, por que as empresas de tecnologia dizem que os dados sintéticos são o futuro?

As empresas pensam que podem refinar a forma como os dados sintéticos são criados. OpenAI e outros exploraram uma técnica em que dois modelos diferentes de IA trabalham juntos para gerar dados sintéticos que são mais úteis e confiáveis.

Um modelo de IA gera os dados. Em seguida, um segundo modelo julga os dados, tal como um ser humano faria, decidindo se os dados são bons ou maus, precisos ou não. Os modelos de IA são, na verdade, melhores para julgar textos do que escrevê-los.

“Se você der duas coisas à tecnologia, ela será muito boa em escolher qual delas parece melhor”, disse Nathan Lile, executivo-chefe da startup de IA SynthLabs.

A ideia é que isso forneça os dados de alta qualidade necessários para treinar um chatbot ainda melhor.

Essa técnica funciona?

Tipo de. Tudo se resume a esse segundo modelo de IA. Quão bom é julgar o texto?

A Anthropic tem sido a mais eloquente sobre seus esforços para fazer isso funcionar. Ele ajusta o segundo modelo de IA usando uma “constituição” com curadoria dos pesquisadores da empresa. Isto ensina o modelo a escolher textos que apoiem certos princípios, como liberdade, igualdade e sentido de fraternidade, ou vida, liberdade e segurança pessoal. O método da Antrópico é conhecido como “IA Constitucional”

Veja como dois modelos de IA funcionam em conjunto para produzir dados sintéticos usando um processo como o da Anthropic:

Mesmo assim, são necessários seres humanos para garantir que o segundo modelo de IA permaneça no caminho certo. Isso limita a quantidade de dados sintéticos que esse processo pode gerar. E os pesquisadores discordam sobre se um método como o da Antrópico continuará a melhorar os sistemas de IA.

Os dados sintéticos ajudam as empresas a evitar o uso de informações protegidas por direitos autorais?

Os próprios modelos de IA que geram dados sintéticos foram treinados em dados criados por humanos, muitos dos quais protegidos por direitos autorais. Portanto, os detentores de direitos autorais ainda podem argumentar que empresas como OpenAI e Anthropic usaram textos, imagens e vídeos protegidos por direitos autorais sem permissão.

Jeff Clune, professor de ciência da computação da Universidade de British Columbia que anteriormente trabalhou como pesquisador na OpenAI, disse que os modelos de IA poderiam, em última análise, se tornar mais poderosos do que o cérebro humano em alguns aspectos. Mas farão isso porque aprenderam com o cérebro humano.

“Para pegar emprestado de Newton: a IA vê mais longe ao se apoiar em gigantescos conjuntos de dados humanos”, disse ele.

Source link

Christina S. Brown April 6, 2024

0 3 minutes read

O que saber sobre empresas de tecnologia que usam IA para ensinar sua própria IA

O que são dados sintéticos?

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Os dados sintéticos funcionam?

Os dados sintéticos são amplamente utilizados pelas empresas de tecnologia neste momento?

Então, por que as empresas de tecnologia dizem que os dados sintéticos são o futuro?

Essa técnica funciona?

Os dados sintéticos ajudam as empresas a evitar o uso de informações protegidas por direitos autorais?

Christina S. Brown

Leave a Reply Cancel reply

Os criadores do TikTok processam para bloquear a lei dos EUA que exige venda ou proibição

Isla Fisher agradece aos fãs pelo ‘apoio’ em meio à divisão de Sacha Baron Cohen

Xerife enfrenta perguntas de legisladores do Arkansas sobre a série ‘Netflix’ filmada na prisão do condado

Biden impõe pesadas tarifas de importação às importações chinesas

Ordens de evacuação emitidas à medida que o incêndio florestal cresce perto da mancha petrolífera de Alberta, no Canadá

Os criadores do TikTok processam para bloquear a lei dos EUA que exige venda ou proibição

Setting Better Goals With the Right Chronic Pain Options

Watch the 1st X-class solar flare of 2024 erupt from the sun in explosive fashion

Biden recebe Jordan King para negociações para resolver a guerra Israel-Hamas

Novos tratamentos e outros no horizonte

Quando a voz que você ouve não é o ator que você vê

O que são dados sintéticos?

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Os dados sintéticos funcionam?

Os dados sintéticos são amplamente utilizados pelas empresas de tecnologia neste momento?

Então, por que as empresas de tecnologia dizem que os dados sintéticos são o futuro?

Essa técnica funciona?

Os dados sintéticos ajudam as empresas a evitar o uso de informações protegidas por direitos autorais?

Subscribe to our mailing list to get the new updates!

Cachorro de Angie Harmon supostamente mordeu trabalhador da Instacart antes de morrer

Insider revela as últimas novidades sobre as visitas programadas de QB dos Patriots

Related Articles

Leave a Reply Cancel reply

Os criadores do TikTok processam para bloquear a lei dos EUA que exige venda ou proibição

Setting Better Goals With the Right Chronic Pain Options

Watch the 1st X-class solar flare of 2024 erupt from the sun in explosive fashion

Biden recebe Jordan King para negociações para resolver a guerra Israel-Hamas

Novos tratamentos e outros no horizonte

Quando a voz que você ouve não é o ator que você vê