课程 1:Python/R 基础回顾与开发环境搭建
Python 基础回顾
Python 是一种功能多样且广泛使用的编程语言,因其可读性和丰富的库而在数据科学领域尤其受欢迎。关键概念包括:
- 变量和数据类型:存储不同类型的数据(整数、浮点数、字符串、布尔值、列表、字典)。
- 运算符:执行算术、比较和逻辑运算。
- 控制流:使用 if-else 语句和循环(for、while)来控制代码的执行。
- 函数:定义可重用的代码块以执行特定任务。
- 模块和包:导入外部库,如 NumPy、Pandas 和 Matplotlib,用于数据操作、分析和可视化。
在数据科学中,您经常会使用 Python 完成数据清洗、统计分析、机器学习模型构建和数据可视化等任务。
R 基础回顾
R 是一种强大的语言和环境,专为统计计算和图形设计。关键概念包括:
- 变量和数据结构:R 拥有多种数据结构,如向量、矩阵、数组、列表和数据框,这些对于统计分析至关重要。
- 运算符:与 Python 类似,R 也有算术、逻辑和赋值运算符。
- 控制结构:条件语句(if-else)和循环(for、while、repeat)用于控制程序流程。
- 函数:编写函数来封装一系列操作。R 拥有大量用于统计任务的内置函数。
- 包:R 的优势在于其广泛的包生态系统(例如,dplyr 用于数据操作,ggplot2 用于可视化,caret 用于机器学习)。
R 在进行深入的统计建模、数据可视化和报告方面尤其强大。
搭建您的开发环境
我们将使用 Anaconda,这是一个流行的数据科学 Python 和 R 发行版,它简化了包管理和部署。Jupyter Notebook 将是我们的交互式编码环境。
步骤 1:安装 Anaconda
- 前往 Anaconda 发行版下载页面。
- 下载适合您操作系统(Windows、macOS 或 Linux)的安装程序。
- 运行安装程序并按照屏幕上的说明进行操作。通常建议接受默认设置。
步骤 2:启动 Jupyter Notebook
- Windows:打开 Anaconda Navigator,然后启动 Jupyter Notebook。或者,打开 Anaconda Prompt 并输入
jupyter notebook。 - macOS/Linux:打开您的终端并输入
jupyter notebook。 - 这将在您的默认网络浏览器中打开 Jupyter Notebook,通常地址为
http://localhost:8888/。
步骤 3:在 Jupyter Notebook 中设置 R(可选,但推荐)
要在 Jupyter Notebook 中使用 R,您需要安装一个 R 内核。Anaconda 使这个过程相对简单:
- 打开 Anaconda Prompt (Windows) 或您的终端 (macOS/Linux)。
- 安装包含 IRkernel 的 R essentials 包:
conda install -c r r-essentials - 如果上述方法不起作用,或者您更喜欢最小化安装,请尝试仅安装内核:
conda install -c r r-irkernel - 安装完成后,如果 Jupyter Notebook 正在运行,请重新启动它。您现在应该可以在创建新 notebook 时看到 "R" 选项。
验证您的设置
让我们在 Python 和 R 中运行简单的代码示例,以确保一切正常工作。
Python 验证
- 在 Jupyter Notebook 中,点击“新建”并选择“Python 3”(或类似名称)以创建一个新的 Python notebook。
- 在代码单元格中,键入以下 Python 代码并运行它(Shift + Enter):
# Python 示例:使用 Pandas 进行基本数据操作
import pandas as pd
# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)
print("我的第一个 Python DataFrame:") # "My first Python DataFrame:"
print(df)
# 执行一个简单的操作
average_age = df['Age'].mean()
print(f"\n平均年龄:{average_age}") # "Average age:"
预期输出:
我的第一个 Python DataFrame:
Name Age City
0 Alice 25 New York
1 Bob 30 Paris
2 Charlie 35 London
平均年龄:30.0
R 验证
- 如果您安装了 R 内核,请返回 Jupyter Notebook 仪表板,点击“新建”并选择“R”以创建一个新的 R notebook。
- 在代码单元格中,键入以下 R 代码并运行它(Shift + Enter):
# R 示例:基本向量操作和摘要
# 创建一个数值向量
ages <- c(25, 30, 35, 40, 45)
print("我的第一个 R 年龄向量:") # "My first R vector of ages:"
print(ages)
# 计算平均年龄
mean_age <- mean(ages)
paste("R 中的平均年龄:", mean_age) # "Mean age in R:"
# 显示向量的摘要
summary(ages)
预期输出(格式会略有不同):
[1] "我的第一个 R 年龄向量:"
[1] 25 30 35 40 45
[1] "R 中的平均年龄:35"
Min. 1st Qu. Median Mean 3rd Qu. Max.
25.0 30.0 35.0 35.0 40.0 45.0
如果您可以毫无错误地运行这些示例,那么您的 Jupyter Notebook 基本 Python 和 R 环境已正确设置!您现在已准备好学习数据科学中更高级的主题。