下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容(原文5873字)。
四、直接复制粘贴的datapasta扩展包
传统的数据导入方法虽然可靠,但也可能在初学者中引发一些错误。特别是在处理来自网页、Excel或其他来源的数据时,格式问题、数据清洗和转换常常成为挑战。为了解决这些问题,R的datapasta扩展包提供了一种高效、直观的数据导入方式,特别是在需要从各种来源直接粘贴数据时,而不需要进行复杂的数据处理或转换。
要使用datapasta扩展包,首先需要安装和加载它。可以通过以下代码安装:
install.packages("datapasta")
library(datapasta)
datapasta的核心功能是允许用户将数据直接从剪贴板粘贴到RStudio中。这一过程非常简单,以下是具体的操作步骤:
从Excel或者CSV等文件中直接复制数据
复制数据:在Excel中选择要复制的数据范围,按下Ctrl+C(在Mac上,Command+C)将其复制到剪贴板。
RStudio界面功能直接粘贴
进入RStudio:打开RStudio,确保datapasta包已经加载。
使用Addins功能:在RStudio的菜单栏中,点击“Addins”按钮,选择“Paste as data.frame”选项。这时,数据将自动粘贴为data.frame格式并显示在RStudio的控制台中,如下图。
其实,data.frame、data.table 和 tribble 都是R中用于存储表格数据的结构,但它们各自有不同的特点和用途。
data.frame 是R中最基本和最常用的表格数据结构。它类似于数据库中的表格,每列可以包含不同类型的数据(如数值、字符、因子等)。通过 data.frame() 函数可以创建数据框,并支持基本的数据操作,如子集选择、行列添加和删除、数据排序等。尽管 data.frame 对于小规模数据集非常灵活,但在处理大规模数据时,其性能相对较低。
data.table 是 data.frame 的增强版,由 data.table 包提供。它针对大规模数据进行了优化,具有高效的内存使用和快速的数据操作能力。data.table 提供了简洁的语法来进行数据操作,减少了代码量,并支持键和索引,方便快速查找和排序。其内联操作功能可以避免创建临时副本,提高效率,同时与 data.frame 兼容,可以无缝转换。
tribble 是 tibble 包提供的一种创建表格数据的方式,特别适合手动输入小规模数据。使用 tribble() 函数创建数据时,语法简洁且易于阅读,生成的对象是 tibble,这种现代化的 data.frame 具有更好的打印格式和更严格的子集选择规则。tribble 适合用于教学和示例代码中的小规模数据输入。
用命令函数来直接粘贴
例如,我们要直接粘贴成tribble的数据集形式,我们也可以直接用命来函数代替Addins功能。
library(datapasta)
# 粘贴数据,生成数据集frmgham
frmgham <- datapasta::tribble_paste()
# 查看frmgham数据集
print(frmgham)
~~~~~~~
- 《用R 探索医药数据科学》专栏会持续更新。
- 每篇文章篇幅在5000字 至9000字之间。
- 专栏已更新超过 110篇文章,超60万字。
- 内容涵盖试验统计、预测模型、科研绘图、数据库、机器学习等热点领域。
第一章:认识数据科学和R
第二章:R的安装和数据读取
第三章:认识数据
第四章:数据的预处理
第五章:定量数据的统计描述
第六章:定性数据的统计描述
第七章:R的传统绘图
第八章:R的进阶绘图
第九章:临床试验的统计
第十章:Meta分析攻略
第十一章:主成分分析
第十二章:常见类型回归分析
第十三章:生存分析模型
第十四章:匹配技术应用
第十五章:判别和聚类分析
第十六章:机器学习入门