Introducción al lenguaje de programación R
Se hará una introducción al lenguaje de programación R, el cual es una de las herramientas más utilizadas en la recolección de datos.
facultad de medicina · medicina de precisión
mar. 20 de jul. 2021
0

Para la recolección de datos en la oncología de precisión, así como en otras disciplinas médicas encargadas de la obtención de información codificada, se requiere de softwares especializados que ayuden al especialista para la sistematización del proceso. Por ende, a lo largo del presente artículo se hará una breve introducción al lenguaje de programación R, el cual es una de las herramientas más utilizadas en este ámbito.

El entorno R

R es un conjunto integrado de instalaciones de software para la manipulación de datos, cálculo y gráficos. Se trata de un gran medio para desarrollar nuevos métodos de análisis de datos interactivos. Entre otras cosas tiene:

  • Una instalación eficaz de manejo y almacenamiento de datos.
  • Un conjunto de operadores para cálculos en matrices, en particular matrices.
  • Una colección grande, coherente e integrada de herramientas intermedias para el análisis de datos.
  • Facilidades gráficas para el análisis y visualización de datos directamente en la computadora o en un disco duro.
  • Un lenguaje de programación bien desarrollado, simple y efectivo (llamado ‘S’). Incluye bucles condicionales, funciones recursivas definidas por el usuario e instalaciones de entrada y salida.
Ventajas

R ha sido desarrollado rápidamente. Dispone de una gran colección de paquetes, lo cual es una de las ventajas de aprender este lenguaje de programación en el ámbito de la biomedicina. Pero, además:

  • Es un potente entorno estadístico y lenguaje de programación.
  • Facilita la investigación reproducible.
  • Las estructuras de datos eficientes hacen que la programación sea muy fácil.
  • Facilidad de implementación de funciones personalizadas.
  • Gráficos poderosos.
  • Acceso a un número cada vez mayor de paquetes de análisis.
  • Es el lenguaje más utilizado en bioinformática.
  • Es estándar para la minería de datos y el análisis bioestadístico.
  • Es gratis, de código abierto y disponible para todos los sistemas operativos.

Software y documentación relacionada

R puede considerarse como una implementación del lenguaje S. Fue desarrollado en Bell Laboratories por Rick Becker, John Chambers y Allan Wilks. También forman la base del sistema S-Plus. La evolución del lenguaje S está caracterizada en cuatro libros escritos por John Chambers. La referencia básica es The New S Language: A Programming Environment for Data Analysis and Graphics de Richard A. Becker, John M. Chambers y Allan R. Wilks.

Las nuevas características de la versión de S de 1991 están descritas en el libro Statistical Models in S editados por John M. Chambers y Trevor J. Hastie. Además, actualmente existe gran cantidad de libros que describen cómo usar R para el análisis de datos y estadísticas.

Instalación de R

Primero, se tiene que agregar una línea al archivo/etc/apt/sources.list. Esto se puede lograr con la siguiente línea de comandos. Se debe tener en cuenta el término “xenial”, que indica la versión del sistema operativo Ubuntu 16.04. Sin embargo, si se tiene una versión diferente, se debe modificar este término:

sudo echo “deb http://cran.rstudio.com/bin/linux/ubuntuxenial /” | sudo tee -a /etc/apt/sources.list

Se puede conocer la versión de Ubuntu mediante la siguiente línea de comandos:

cat /etc/lsb-release

Agregue R al llavero de Ubuntu

Primero.

gpg –keyserver keyserver.ubuntu.com –recv-key
E298A3A825C0D65DFD57CBB651716619E084DAB9

Después.

gpg -a –export E084DAB9 | sudo apt-key add –

Instalar R-Base

sudo apt-get update

sudo apt-get install r-base r-base-dev

Instalar R-Studio

RStudio requiere una instalación previa de R versión 3.0.1 o superior. Esto se puede hacer desde el terminal con los siguientes comandos:

sudo apt-get install gdebi-core

wget https://download1.rstudio.org/rstudio-0.99.896-amd64.deb

sudo gdebi -n rstudio-0.99.896-amd64.deb

rm rstudio-0.99.896-amd64.deb

R y estadística

R es también un entorno dentro del cual se han implementado técnicas estadísticas modernas. Algunos de estos están integrados en el entorno base R, pero muchos otros se suministran como paquetes. Hay alrededor de 25 paquetes suministrados con R (llamados paquetes “estándar” y “recomendados”) y muchos más están disponibles a través Comprehensive R Archive Network.

Estos paquetes se desarrollan principalmente en R y, a veces, en Java, C, C ++ y Fortran. El sistema de empaquetado R también es utilizado por los investigadores para crear compendios, organizar datos de investigación, codificar archivos de manera sistemática para compartir y archivar en repositorios públicos.

El proyecto Bioconductor proporciona paquetes R para el análisis de datos genómicos. Esto incluye herramientas de análisis y manejo de datos orientadas a objetos para datos de Affymetrix, microarrays de ADNc y métodos de secuenciación de alto rendimiento de próxima generación.

R y el sistema de ventanas

La forma más conveniente de usar R es en una estación de trabajo gráfico que ejecuta un sistema de ventanas. No obstante, puede también ser ejecutada en el terminal shell o interfaz de usuario. Cuando se instala R para Windows o Mac OS X, también se instala una interfaz gráfica que se abrirá al abrir la aplicación y en la que se podrá trabajar. La instalación para Linux no lleva una interfaz por defecto, así que sus usuarios tienen que trabajar con R en el terminal (ejecutando R para iniciar una sesión) o instalar aparte una interfaz.

Propiamente hablando, Rstudio es mucho más que una interfaz de R. Se trata de todo un entorno integrado para utilizar y programar con R. Dispone de un conjunto de herramientas que facilitan el trabajo con este lenguaje.

Usando R interactivamente

Cuando se inicia el programa R, en la consola aparece el aviso ‘>’ indicando que está esperando comandos de entrada. Al utilizar R en UNIX, el procedimiento recomendado la primera vez es el siguiente:

  1. Crear un subdirectorio separado, por ejemplo, trabajo, que contendrá los archivos de datos en los que usará R para este problema. Este será el directorio de trabajo siempre que use R para este problema particular.
    $ mkdir trabajo
    $ cd trabajo
  2. Iniciar el programa R con el comando
    $ R
  3. Desde este punto, se pueden escribir comandos R.
  4. Para salir del programa R, el comando es:
    > q ()

En este momento, se preguntará si desea guardar los datos de su sesión R. En algunos sistemas aparecerá un cuadro de diálogo y en otros recibirá un mensaje de texto a lo que puede responder sí, no o cancelar (una abreviatura de una sola letra es suficiente) para guardar los datos antes de salir, salir sin guardar o volver a la sesión R. Los datos guardados estarán disponibles en futuras sesiones de R.

Obtención de ayuda

R tiene una instalación de ayuda incorporada similar a la instalación man de UNIX. Para obtener más información sobre cualquier función específica con help (comando):

> help (solve)

Una alternativa es:

>? solve

Para una característica especificada por caracteres especiales, el argumento debe estar entre doble o simple comillas, convirtiéndola en una “cadena de caracteres”: esto también es necesario para algunas palabras con significado especial, como if, for y function. En la mayoría de las instalaciones de R, la ayuda está disponible en formato HTML ejecutando:

>help.start ()

Comandos R

Técnicamente R es un lenguaje de expresión con una sintaxis muy simple. Es sensible a mayúsculas y minúsculas como la mayoría paquetes basados en UNIX. Por lo tanto, A y a son símbolos diferentes y se referirían a diferentes variables.

El conjunto de símbolos que se pueden usar en los nombres R depende del sistema operativo y del país dentro del cual se esté ejecutando R. Normalmente todos los símbolos alfanuméricos están permitidos (y en algunos países esto incluye letras acentuadas) más ‘.’, con la restricción de que un nombre no debe comenzar con ‘_’ . Los nombres pueden tener una longitud ilimitada.

Los comandos elementales consisten en expresiones o asignaciones. Si se da una expresión como un comando, se evalúa, se imprime (a menos que se haga específicamente invisible) y se pierde el valor. Una asignación también evalúa una expresión y pasa el valor a una variable, pero el resultado no se imprime automáticamente

Recuperación de comandos anteriores

En muchas versiones de UNIX y en Windows, R proporciona un mecanismo para recuperar y reejecutar comandos anteriores. Las teclas de flechas verticales en el teclado (↑ ↓) se pueden usar para desplazarse hacia adelante y hacia atrás a través de un historial de comandos. Una vez que un comando se encuentra de esta manera, el cursor se puede mover dentro del comando usando las teclas de flecha horizontales. Así los caracteres pueden eliminarse con la tecla DEL o agregarse con las otras teclas.

Permanencia de datos

Las entidades que R crea y manipula se conocen como objetos. Estos pueden ser variables, matrices de números, cadenas de caracteres, funciones o estructuras más generales construidas a partir de dichos componentes. Durante una sesión R, los objetos se crean y almacenan por nombre. El comando objects() (alternativamente, ls ()) se puede usar para mostrar los nombres de la mayoría de los objetos que están actualmente almacenados dentro de R. La colección de objetos almacenados actualmente se denomina espacio de trabajo.

Todos los objetos creados durante una sesión R se pueden almacenar permanentemente en un archivo para usar en futuras sesiones. Al final de cada sesión de R, se podrán guardar todos los objetos de la sesión actual. Si indica que desea guardar, los objetos se escribirán en un archivo llamado .RData en el directorio actual. Las líneas de comandos utilizadas en la sesión se guardarán en un archivo llamado .Rhistory. Cuando R se inicie más tarde desde el mismo directorio, se volverá a cargar el espacio de trabajo desde este archivo, y a cargar el historial de comandos asociados.

Instalar paquetes de R

Muchas funciones y tablas de datos útiles no vienen con la instalación básica de R, sino que forman parte de paquetes (packages), que se tienen que instalar y cargar para poderlos usar. Se puede consultar en la pestaña Packages la lista de paquetes que se tienen instalados o bien mediante el comando library() en el shell R.

Si se quiere cargar un paquete ya instalado, basta marcarlo en esta lista de la consola Rstudio, o bien se puede hacer en el shell R, con el comando library(nombre del paquete). En caso de necesitar un paquete que no se tiene instalado, hay que instalarlo antes de poderlo cargar. La mayoría de los paquetes se pueden instalar desde el repositorio del CRAN.

Big data oncológico

El concepto de genómica no es completamente nuevo. De hecho, TECH Universidad Tecnológica ha venido profundizando en esta disciplina desde hace unos años por medio de sus programas en la Facultad de Medicina como el Máster en Nutrición Genómica y de Precisión y el Máster en Neumología de Precisión Genómica y Big Data.

Lo que hoy es diferente es el rápido crecimiento de los datos genómicos que se pueden recopilar por cada paciente. Este potencial para obtener información a partir del intercambio de datos se puede obtener a través del Máster en Oncología de Precisión: Genómica y Big Data. Se trata de un posgrado que analiza la escala y la complejidad de la información genética que se usa tradicionalmente en las pruebas de laboratorio.

Artículos relacionados

1 /

Compartir