miércoles, octubre 22, 2025

Estudio de la Universidad de Oxford Revela Brecha de Precios en la Inteligencia Artificial según el Idioma, con Ventaja para el Inglés

Date:

Share post:

Un reciente estudio realizado por un equipo de científicos de la Universidad de Oxford ha arrojado luz sobre la significativa disparidad de precios que existe en el ámbito de la inteligencia artificial (IA) en función del idioma en el que opera. Este fenómeno está creando una brecha considerable entre la IA en inglés y en otros idiomas, incluido el español.

El análisis se centró en empresas líderes en el desarrollo de IA, como OpenAI, responsable de ChatGPT, y llegó a la conclusión de que la disparidad en el tratamiento de diferentes idiomas se origina en la etapa de tokenización, mucho antes de que se invoque un modelo de IA.

El estudio, llevado a cabo por Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr y Adel Bibi, destacó ejemplos notables de esta disparidad. Por ejemplo, el procesamiento en chino simplificado resulta el doble de costoso que en inglés, mientras que en el caso de la lengua Shan (Birmania), la diferencia es asombrosa, llegando a ser 15 veces más costoso.

La tokenización es una unidad de medida que representa el costo computacional de acceder a un modelo de lenguaje a través de una API, que es un componente de código que permite a diferentes aplicaciones comunicarse entre sí para compartir información y funcionalidades. El sistema de tokenización revela que los modelos utilizados en idiomas distintos al inglés son mucho más costosos de emplear y entrenar debido a las estructuras gramaticales más complejas y al mayor número de caracteres requeridos en lenguajes como el chino o el español, lo que resulta en una mayor tasa de tokenización.

Incluso al considerar modelos a nivel de caracteres y bytes, se observa una diferencia de más de 4 veces en la longitud de codificación para algunos pares de idiomas. Esta mayor carga computacional tiene un impacto injusto en las comunidades lingüísticas en términos de costo de acceso a servicios comerciales, tiempo de procesamiento, latencia y la cantidad de contenido que se puede proporcionar como contexto a los modelos de IA.

OpenAI ofrece un tokenizador del modelo de lenguaje GPT-3 que permite visualizar estas diferencias. Por ejemplo, una expresión como «tu afecto» consta de solo 2 tokens en inglés, pero de 8 en chino simplificado, a pesar de que la expresión en chino requiere menos caracteres que en inglés. En español, la cantidad de tokens asciende a 4.

La propia OpenAI señala que, como regla general, 1 token equivale a 4 caracteres en inglés y 100 tokens a unas 75 palabras, pero advierte que esta regla no es aplicable a otros idiomas.

El estudio también resalta que esta ventaja del inglés se debe, en parte, a los conjuntos de datos utilizados para entrenar a las IA, así como a la compresibilidad superior del inglés en un menor número de tokens. Concluye que el problema no radica en la forma en que se ha monetizado la IA, sino que es una limitación inherente de la tecnología y los modelos base utilizados para entrenar la IA.

Subscribe
Notify of
guest
0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
[tds_leads input_placeholder="Email address" btn_horiz_align="content-horiz-center" pp_checkbox="yes" pp_msg="SSd2ZSUyMHJlYWQlMjBhbmQlMjBhY2NlcHQlMjB0aGUlMjAlM0NhJTIwaHJlZiUzRCUyMiUyMyUyMiUzRVByaXZhY3klMjBQb2xpY3klM0MlMkZhJTNFLg==" msg_composer="success" display="column" gap="10" input_padd="eyJhbGwiOiIxNXB4IDEwcHgiLCJsYW5kc2NhcGUiOiIxMnB4IDhweCIsInBvcnRyYWl0IjoiMTBweCA2cHgifQ==" input_border="1" btn_text="I want in" btn_tdicon="tdc-font-tdmp tdc-font-tdmp-arrow-right" btn_icon_size="eyJhbGwiOiIxOSIsImxhbmRzY2FwZSI6IjE3IiwicG9ydHJhaXQiOiIxNSJ9" btn_icon_space="eyJhbGwiOiI1IiwicG9ydHJhaXQiOiIzIn0=" btn_radius="0" input_radius="0" f_msg_font_family="521" f_msg_font_size="eyJhbGwiOiIxMyIsInBvcnRyYWl0IjoiMTIifQ==" f_msg_font_weight="400" f_msg_font_line_height="1.4" f_input_font_family="521" f_input_font_size="eyJhbGwiOiIxMyIsImxhbmRzY2FwZSI6IjEzIiwicG9ydHJhaXQiOiIxMiJ9" f_input_font_line_height="1.2" f_btn_font_family="521" f_input_font_weight="500" f_btn_font_size="eyJhbGwiOiIxMyIsImxhbmRzY2FwZSI6IjEyIiwicG9ydHJhaXQiOiIxMSJ9" f_btn_font_line_height="1.2" f_btn_font_weight="600" f_pp_font_family="521" f_pp_font_size="eyJhbGwiOiIxMiIsImxhbmRzY2FwZSI6IjEyIiwicG9ydHJhaXQiOiIxMSJ9" f_pp_font_line_height="1.2" pp_check_color="#000000" pp_check_color_a="#309b65" pp_check_color_a_h="#4cb577" f_btn_font_transform="uppercase" tdc_css="eyJhbGwiOnsibWFyZ2luLWJvdHRvbSI6IjQwIiwiZGlzcGxheSI6IiJ9LCJsYW5kc2NhcGUiOnsibWFyZ2luLWJvdHRvbSI6IjMwIiwiZGlzcGxheSI6IiJ9LCJsYW5kc2NhcGVfbWF4X3dpZHRoIjoxMTQwLCJsYW5kc2NhcGVfbWluX3dpZHRoIjoxMDE5LCJwb3J0cmFpdCI6eyJtYXJnaW4tYm90dG9tIjoiMjUiLCJkaXNwbGF5IjoiIn0sInBvcnRyYWl0X21heF93aWR0aCI6MTAxOCwicG9ydHJhaXRfbWluX3dpZHRoIjo3Njh9" msg_succ_radius="0" btn_bg="#309b65" btn_bg_h="#4cb577" title_space="eyJwb3J0cmFpdCI6IjEyIiwibGFuZHNjYXBlIjoiMTQiLCJhbGwiOiIwIn0=" msg_space="eyJsYW5kc2NhcGUiOiIwIDAgMTJweCJ9" btn_padd="eyJsYW5kc2NhcGUiOiIxMiIsInBvcnRyYWl0IjoiMTBweCJ9" msg_padd="eyJwb3J0cmFpdCI6IjZweCAxMHB4In0=" msg_err_radius="0" f_btn_font_spacing="1"]
spot_img

Related articles

Serie Mundial 2025: Seis claves que podrían cambiar la historia

La Serie Mundial 2025 enfrentará a los poderosos Dodgers de Los Ángeles, campeones defensores, contra los renacidos Blue...

Vladimir Guerrero Jr. brilla como MVP y guía a Toronto a la Serie Mundial

El nuevo rey de TorontoVladimir Guerrero Jr. ha vuelto a demostrar que está hecho para los grandes momentos....

Jonrón de Springer devuelve a Toronto a la Serie Mundial

El rugido del Rogers Centre resonó en todo Canadá.Un solo swing fue suficiente para cambiar el rumbo de...

Juan Soto repite como el mejor dominicano de las Grandes Ligas

El Premio Juan Marichal tiene nuevo dueño… aunque en realidad, sigue siendo el mismo. Juan Soto volvió a...
error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x