domingo, diciembre 7, 2025

Estudio de la Universidad de Oxford Revela Brecha de Precios en la Inteligencia Artificial según el Idioma, con Ventaja para el Inglés

Date:

Share post:

Un reciente estudio realizado por un equipo de científicos de la Universidad de Oxford ha arrojado luz sobre la significativa disparidad de precios que existe en el ámbito de la inteligencia artificial (IA) en función del idioma en el que opera. Este fenómeno está creando una brecha considerable entre la IA en inglés y en otros idiomas, incluido el español.

El análisis se centró en empresas líderes en el desarrollo de IA, como OpenAI, responsable de ChatGPT, y llegó a la conclusión de que la disparidad en el tratamiento de diferentes idiomas se origina en la etapa de tokenización, mucho antes de que se invoque un modelo de IA.

El estudio, llevado a cabo por Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr y Adel Bibi, destacó ejemplos notables de esta disparidad. Por ejemplo, el procesamiento en chino simplificado resulta el doble de costoso que en inglés, mientras que en el caso de la lengua Shan (Birmania), la diferencia es asombrosa, llegando a ser 15 veces más costoso.

La tokenización es una unidad de medida que representa el costo computacional de acceder a un modelo de lenguaje a través de una API, que es un componente de código que permite a diferentes aplicaciones comunicarse entre sí para compartir información y funcionalidades. El sistema de tokenización revela que los modelos utilizados en idiomas distintos al inglés son mucho más costosos de emplear y entrenar debido a las estructuras gramaticales más complejas y al mayor número de caracteres requeridos en lenguajes como el chino o el español, lo que resulta en una mayor tasa de tokenización.

Incluso al considerar modelos a nivel de caracteres y bytes, se observa una diferencia de más de 4 veces en la longitud de codificación para algunos pares de idiomas. Esta mayor carga computacional tiene un impacto injusto en las comunidades lingüísticas en términos de costo de acceso a servicios comerciales, tiempo de procesamiento, latencia y la cantidad de contenido que se puede proporcionar como contexto a los modelos de IA.

OpenAI ofrece un tokenizador del modelo de lenguaje GPT-3 que permite visualizar estas diferencias. Por ejemplo, una expresión como «tu afecto» consta de solo 2 tokens en inglés, pero de 8 en chino simplificado, a pesar de que la expresión en chino requiere menos caracteres que en inglés. En español, la cantidad de tokens asciende a 4.

La propia OpenAI señala que, como regla general, 1 token equivale a 4 caracteres en inglés y 100 tokens a unas 75 palabras, pero advierte que esta regla no es aplicable a otros idiomas.

El estudio también resalta que esta ventaja del inglés se debe, en parte, a los conjuntos de datos utilizados para entrenar a las IA, así como a la compresibilidad superior del inglés en un menor número de tokens. Concluye que el problema no radica en la forma en que se ha monetizado la IA, sino que es una limitación inherente de la tecnología y los modelos base utilizados para entrenar la IA.

Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
[tds_leads input_placeholder="Email address" btn_horiz_align="content-horiz-center" pp_checkbox="yes" pp_msg="SSd2ZSUyMHJlYWQlMjBhbmQlMjBhY2NlcHQlMjB0aGUlMjAlM0NhJTIwaHJlZiUzRCUyMiUyMyUyMiUzRVByaXZhY3klMjBQb2xpY3klM0MlMkZhJTNFLg==" msg_composer="success" display="column" gap="10" input_padd="eyJhbGwiOiIxNXB4IDEwcHgiLCJsYW5kc2NhcGUiOiIxMnB4IDhweCIsInBvcnRyYWl0IjoiMTBweCA2cHgifQ==" input_border="1" btn_text="I want in" btn_tdicon="tdc-font-tdmp tdc-font-tdmp-arrow-right" btn_icon_size="eyJhbGwiOiIxOSIsImxhbmRzY2FwZSI6IjE3IiwicG9ydHJhaXQiOiIxNSJ9" btn_icon_space="eyJhbGwiOiI1IiwicG9ydHJhaXQiOiIzIn0=" btn_radius="0" input_radius="0" f_msg_font_family="521" f_msg_font_size="eyJhbGwiOiIxMyIsInBvcnRyYWl0IjoiMTIifQ==" f_msg_font_weight="400" f_msg_font_line_height="1.4" f_input_font_family="521" f_input_font_size="eyJhbGwiOiIxMyIsImxhbmRzY2FwZSI6IjEzIiwicG9ydHJhaXQiOiIxMiJ9" f_input_font_line_height="1.2" f_btn_font_family="521" f_input_font_weight="500" f_btn_font_size="eyJhbGwiOiIxMyIsImxhbmRzY2FwZSI6IjEyIiwicG9ydHJhaXQiOiIxMSJ9" f_btn_font_line_height="1.2" f_btn_font_weight="600" f_pp_font_family="521" f_pp_font_size="eyJhbGwiOiIxMiIsImxhbmRzY2FwZSI6IjEyIiwicG9ydHJhaXQiOiIxMSJ9" f_pp_font_line_height="1.2" pp_check_color="#000000" pp_check_color_a="#309b65" pp_check_color_a_h="#4cb577" f_btn_font_transform="uppercase" tdc_css="eyJhbGwiOnsibWFyZ2luLWJvdHRvbSI6IjQwIiwiZGlzcGxheSI6IiJ9LCJsYW5kc2NhcGUiOnsibWFyZ2luLWJvdHRvbSI6IjMwIiwiZGlzcGxheSI6IiJ9LCJsYW5kc2NhcGVfbWF4X3dpZHRoIjoxMTQwLCJsYW5kc2NhcGVfbWluX3dpZHRoIjoxMDE5LCJwb3J0cmFpdCI6eyJtYXJnaW4tYm90dG9tIjoiMjUiLCJkaXNwbGF5IjoiIn0sInBvcnRyYWl0X21heF93aWR0aCI6MTAxOCwicG9ydHJhaXRfbWluX3dpZHRoIjo3Njh9" msg_succ_radius="0" btn_bg="#309b65" btn_bg_h="#4cb577" title_space="eyJwb3J0cmFpdCI6IjEyIiwibGFuZHNjYXBlIjoiMTQiLCJhbGwiOiIwIn0=" msg_space="eyJsYW5kc2NhcGUiOiIwIDAgMTJweCJ9" btn_padd="eyJsYW5kc2NhcGUiOiIxMiIsInBvcnRyYWl0IjoiMTBweCJ9" msg_padd="eyJwb3J0cmFpdCI6IjZweCAxMHB4In0=" msg_err_radius="0" f_btn_font_spacing="1"]
spot_img

Related articles

ASPIRACIONES PARA EL 2028 EN SAJOMA EMPIEZAN A SONAR

Por Redacción Expresión Libre. Dos valiosos jóvenes estarían buscando candidaturas a la Alcaldía Municipal en los partidos políticos a...

Netflix compra Warner Bros: revolución en Hollywood por $82.700 millones

En un movimiento histórico, Netflix compra Warner Bros por 82.700 millones de dólares, integrando estudios cinematográficos, HBO Max...

Carlos Andújar Jr., el primer árbitro profesional de San José de las Matas

Árbitro profesional no es solo un título; es el resultado de años de esfuerzo, disciplina y pasión por...

Las Águilas Cibaeñas frenan racha y se afianzan en el liderato

Las Águilas Cibaeñas frenaron su racha negativa y se afianzaron en el liderato al vencer anoche a los...
error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x