Python爬虫实战：手把手教你从东方财富网抓取期权期货数据（附完整代码）

news2026/4/29 23:09:39

Python金融数据抓取实战从东方财富网获取期权期货数据的完整指南在量化交易和金融数据分析领域获取实时、准确的期权期货数据是构建交易策略的基础。本文将带你深入探索如何直接从东方财富网获取这些关键数据不仅提供可立即运行的代码更会剖析每个技术细节背后的逻辑让你真正掌握数据抓取的核心技能。1. 环境准备与基础配置在开始数据抓取前我们需要搭建一个稳定可靠的Python开发环境。推荐使用Anaconda发行版它集成了我们所需的大部分工具包。首先创建并激活一个专门的虚拟环境conda create -n finance_data python3.8 conda activate finance_data安装必要的依赖库pip install requests pandas numpy提示建议使用Jupyter Notebook进行开发和调试它能提供更好的交互体验和数据可视化能力。配置pandas显示选项确保数据展示完整import pandas as pd pd.set_option(display.max_columns, None) pd.set_option(display.width, 1000) pd.set_option(display.max_rows, 100)2. 东方财富网API接口分析东方财富网提供了丰富的金融数据接口但官方并未公开完整的API文档。我们需要通过浏览器开发者工具分析其网络请求。2.1 接口逆向工程打开Chrome开发者工具F12切换到Network面板访问东方财富网的期权页面https://quote.eastmoney.com/center/qqsc.html观察XHR请求我们会发现核心数据接口类似于http://77.push2.eastmoney.com/api/qt/clist/get这个接口通过GET请求传递多个参数其中关键参数包括pn页码pz每页数据量fs市场标识m:10代表期权市场fields需要返回的字段列表2.2 接口参数详解让我们详细解析期权接口的关键参数params { pn: 1, # 页码 pz: 200000, # 每页数据量设置足够大以获取全部数据 po: 1, # 排序方式 np: 1, # 是否需要分页 ut: bd1d9ddb04089700cf9c27f6f7426281, # 固定token fltt: 2, # 价格精度 invt: 2, # 投资类型 fid: f3, # 排序字段 fs: m:10,m:140,m:141,m:151, # 市场标识 fields: f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f28,f11,f62,f128,f136,f115,f152,f133,f108,f163,f161,f162, # 返回字段 _: 1606225274063 # 时间戳防止缓存 }注意时间戳参数_需要动态生成可以使用int(time.time()*1000)获取当前时间戳。3. 期权数据抓取实战现在我们来实现完整的期权数据抓取函数。3.1 构建请求函数import requests import pandas as pd import time def get_option_data(): url http://77.push2.eastmoney.com/api/qt/clist/get timestamp str(int(time.time() * 1000)) params { pn: 1, pz: 200000, po: 1, np: 1, ut: bd1d9ddb04089700cf9c27f6f7426281, fltt: 2, invt: 2, fid: f3, fs: m:10,m:140,m:141,m:151, fields: f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f28,f11,f62,f128,f136,f115,f152,f133,f108,f163,f161,f162, _: timestamp } headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 } try: response requests.get(url, paramsparams, headersheaders) response.raise_for_status() return response.json() except requests.exceptions.RequestException as e: print(f请求失败: {e}) return None3.2 数据处理与清洗获取原始JSON数据后我们需要进行数据清洗和格式化def process_option_data(json_data): if not json_data or data not in json_data: return pd.DataFrame() raw_df pd.DataFrame(json_data[data][diff]) # 列名映射 column_mapping { f12: 代码, f14: 名称, f2: 最新价, f4: 涨跌额, f3: 涨跌幅, f5: 成交量, f6: 成交额, f62: 持仓量, f161: 行权价, f162: 剩余日, f163: 日增, f18: 昨结, f17: 今开, f13: 市场标识 } # 筛选并重命名列 selected_columns [f12, f14, f2, f4, f3, f5, f6, f62, f161, f162, f163, f18, f17, f13] processed_df raw_df[selected_columns].rename(columnscolumn_mapping) # 数据类型转换 numeric_cols [最新价, 涨跌额, 涨跌幅, 成交量, 成交额, 持仓量, 行权价, 剩余日, 日增, 昨结, 今开] processed_df[numeric_cols] processed_df[numeric_cols].apply(pd.to_numeric, errorscoerce) return processed_df3.3 完整调用示例# 获取并处理期权数据 option_json get_option_data() option_df process_option_data(option_json) # 查看前5行数据 print(option_df.head()) # 保存到CSV文件 option_df.to_csv(option_data.csv, indexFalse, encodingutf_8_sig)4. 期货数据抓取实现期货数据的抓取逻辑与期权类似但接口和参数有所不同。4.1 期货市场分类东方财富网的期货数据按交易所分类上期所 (代码: 113)大商所 (代码: 114)郑商所 (代码: 115)上期能源 (代码: 142)中金所 (代码: 220)4.2 期货数据接口分析期货数据接口URL格式为https://futsseapi.eastmoney.com/list/{market_code}其中market_code对应上述交易所代码。4.3 完整期货数据抓取函数def get_future_data(market上期所): market_codes { 上期所: 113, 大商所: 114, 郑商所: 115, 上期能源: 142, 中金所: 220 } market_code market_codes.get(market, 113) url fhttps://futsseapi.eastmoney.com/list/{market_code} params { callback: jQuery11240904096683880808_str(int(time.time()*1000)), orderBy: zdf, sort: desc, pageSize: 20000, pageIndex: 0, field: dm,sc,name,p,zsjd,zde,zdf,f152,o,h,l,zjsj,vol,cje,wp,np,ccl, _: str(int(time.time()*1000)) } headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36, Referer: https://quote.eastmoney.com/ } try: response requests.get(url, paramsparams, headersheaders) response.raise_for_status() # 处理JSONP响应 json_str response.text[response.text.find(()1:-1] data json.loads(json_str) return data except Exception as e: print(f获取期货数据失败: {e}) return None def process_future_data(raw_data): if not raw_data or list not in raw_data: return pd.DataFrame() df pd.DataFrame(raw_data[list]) column_mapping { dm: 代码, name: 名称, p: 最新价, zde: 涨跌额, zdf: 涨跌幅, o: 今开, h: 最高, l: 最低, zjsj: 昨结, vol: 成交量, cje: 成交额, wp: 买盘(外盘), np: 卖盘(内盘), ccl: 持仓量 } selected_columns [dm, name, p, zde, zdf, o, h, l, zjsj, vol, cje, wp, np, ccl] processed_df df[selected_columns].rename(columnscolumn_mapping) numeric_cols [最新价, 涨跌额, 涨跌幅, 今开, 最高, 最低, 昨结, 成交量, 成交额, 买盘(外盘), 卖盘(内盘), 持仓量] processed_df[numeric_cols] processed_df[numeric_cols].apply(pd.to_numeric, errorscoerce) return processed_df4.4 期货数据调用示例# 获取上期所期货数据 future_data get_future_data(market上期所) future_df process_future_data(future_data) # 查看数据 print(future_df.head()) # 保存数据 future_df.to_csv(future_data.csv, indexFalse, encodingutf_8_sig)5. 反爬策略与数据更新机制金融网站通常会有反爬虫机制我们需要采取一些策略来确保稳定获取数据。5.1 常见反爬措施应对User-Agent轮换使用不同的浏览器标识请求频率控制添加随机延迟代理IP池防止IP被封禁请求头完善添加Referer等必要头信息改进后的请求函数示例import random from time import sleep def get_with_retry(url, params, headers, max_retries3): user_agents [ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36, Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0, Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 ] for attempt in range(max_retries): try: current_headers headers.copy() current_headers[User-Agent] random.choice(user_agents) sleep(random.uniform(0.5, 2.0)) # 随机延迟 response requests.get(url, paramsparams, headerscurrent_headers, timeout10) response.raise_for_status() return response except Exception as e: print(f尝试 {attempt 1} 失败: {e}) if attempt max_retries - 1: raise sleep(5 * (attempt 1)) # 指数退避 return None5.2 数据更新策略对于需要定期更新的数据可以考虑以下方案定时任务使用APScheduler或Celery设置定时抓取增量更新记录最后更新时间只获取新数据异常处理完善的日志记录和报警机制定时任务示例from apscheduler.schedulers.blocking import BlockingScheduler def update_data(): try: # 获取期权数据 option_json get_option_data() option_df process_option_data(option_json) option_df.to_csv(foption_data_{datetime.now().strftime(%Y%m%d_%H%M)}.csv, indexFalse) # 获取期货数据 future_data get_future_data() future_df process_future_data(future_data) future_df.to_csv(ffuture_data_{datetime.now().strftime(%Y%m%d_%H%M)}.csv, indexFalse) print(f{datetime.now()} - 数据更新成功) except Exception as e: print(f{datetime.now()} - 数据更新失败: {e}) # 创建定时任务 scheduler BlockingScheduler() scheduler.add_job(update_data, interval, hours1) # 每小时执行一次 scheduler.start()6. 数据质量验证与异常处理获取数据后我们需要验证数据的完整性和准确性。6.1 数据质量检查清单缺失值检查统计各字段的缺失比例异常值检测识别价格、涨跌幅等关键指标的异常值一致性验证检查相关字段间的逻辑关系是否合理重复数据检查确保没有重复记录数据验证函数示例def validate_data(df, data_typeoption): validation_results {} # 1. 缺失值检查 missing_rates df.isnull().mean().sort_values(ascendingFalse) validation_results[missing_rates] missing_rates[missing_rates 0] # 2. 异常值检测 if data_type option: price_outliers df[(df[最新价] 0) | (df[最新价] 10000)] change_outliers df[(df[涨跌幅] -20) | (df[涨跌幅] 20)] else: price_outliers df[(df[最新价] 0)] change_outliers df[(df[涨跌幅] -10) | (df[涨跌幅] 10)] validation_results[price_outliers] price_outliers validation_results[change_outliers] change_outliers # 3. 重复数据检查 duplicates df[df.duplicated(subset[代码], keepFalse)] validation_results[duplicates] duplicates return validation_results6.2 数据修正策略根据验证结果我们可以采取以下修正措施缺失值处理删除、插值或标记为特殊值异常值处理验证后修正或删除重复数据处理保留最新记录或合并数据数据修正函数示例def clean_data(df, validation_results): # 处理缺失值 - 删除缺失率高的列 high_missing_cols validation_results[missing_rates][validation_results[missing_rates] 0.5].index df df.drop(columnshigh_missing_cols) # 处理异常值 - 设置为NaN price_outliers validation_results[price_outliers] if not price_outliers.empty: df.loc[price_outliers.index, 最新价] None # 处理重复数据 - 保留第一条 df df.drop_duplicates(subset[代码], keepfirst) return df7. 数据存储与后续分析获取并验证数据后我们需要考虑如何有效存储和利用这些数据。7.1 数据存储方案比较存储方式优点缺点适用场景CSV文件简单易用兼容性好查询效率低不支持复杂操作小型项目临时存储SQLite轻量级无需服务器并发性能有限单机应用中小规模数据MySQL功能完善性能好需要单独部署中大型项目多用户访问MongoDB灵活适合非结构化数据内存占用高文档型数据快速迭代7.2 使用SQLite存储数据SQLite是一个轻量级的数据库解决方案非常适合小型到中型的数据存储需求。import sqlite3 from sqlite3 import Error def create_connection(db_file): 创建数据库连接 conn None try: conn sqlite3.connect(db_file) return conn except Error as e: print(e) return conn def create_table(conn, create_table_sql): 创建数据表 try: c conn.cursor() c.execute(create_table_sql) except Error as e: print(e) def save_to_sqlite(df, table_name, db_filefinance_data.db): 将DataFrame保存到SQLite数据库 conn create_connection(db_file) if conn is not None: df.to_sql(table_name, conn, if_existsreplace, indexFalse) conn.close() else: print(无法建立数据库连接) # 期权数据表结构 sql_create_option_table CREATE TABLE IF NOT EXISTS option_data ( 代码 text PRIMARY KEY, 名称 text NOT NULL, 最新价 real, 涨跌额 real, 涨跌幅 real, 成交量 integer, 成交额 real, 持仓量 integer, 行权价 real, 剩余日 integer, 日增 integer, 昨结 real, 今开 real, 市场标识 text ); # 期货数据表结构 sql_create_future_table CREATE TABLE IF NOT EXISTS future_data ( 代码 text PRIMARY KEY, 名称 text NOT NULL, 最新价 real, 涨跌额 real, 涨跌幅 real, 今开 real, 最高 real, 最低 real, 昨结 real, 成交量 integer, 成交额 real, 买盘(外盘) integer, 卖盘(内盘) integer, 持仓量 integer ); # 创建数据库连接并建表 conn create_connection(finance_data.db) if conn is not None: create_table(conn, sql_create_option_table) create_table(conn, sql_create_future_table) conn.close() # 保存数据到数据库 save_to_sqlite(option_df, option_data) save_to_sqlite(future_df, future_data)7.3 数据分析示例存储数据后我们可以进行各种分析。以下是一些常见分析示例# 连接数据库 conn sqlite3.connect(finance_data.db) # 1. 期权市场概况分析 option_summary pd.read_sql( SELECT 市场标识, COUNT(*) as 合约数量, AVG(成交量) as 平均成交量, AVG(持仓量) as 平均持仓量, AVG(ABS(涨跌幅)) as 平均波动率 FROM option_data GROUP BY 市场标识 , conn) # 2. 期货品种活跃度排名 future_active pd.read_sql( SELECT 名称, 成交量, 成交额, 持仓量, 涨跌幅 FROM future_data ORDER BY 成交量 DESC LIMIT 10 , conn) # 3. 期权与期货相关性分析假设有对应品种 # 需要先建立期权和期货品种的对应关系8. 性能优化与扩展随着数据量的增加我们需要考虑代码的性能优化和功能扩展。8.1 性能优化技巧批量请求减少网络请求次数异步IO使用aiohttp提高并发性能缓存机制避免重复获取相同数据内存管理及时释放不用的数据异步请求示例import aiohttp import asyncio async def fetch_option_data(session): url http://77.push2.eastmoney.com/api/qt/clist/get params { pn: 1, pz: 200000, po: 1, np: 1, ut: bd1d9ddb04089700cf9c27f6f7426281, fltt: 2, invt: 2, fid: f3, fs: m:10,m:140,m:141,m:151, fields: f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f28,f11,f62,f128,f136,f115,f152,f133,f108,f163,f161,f162, _: str(int(time.time()*1000)) } async with session.get(url, paramsparams) as response: return await response.json() async def fetch_future_data(session, market_code): url fhttps://futsseapi.eastmoney.com/list/{market_code} params { callback: jQuery11240904096683880808_str(int(time.time()*1000)), orderBy: zdf, sort: desc, pageSize: 20000, pageIndex: 0, field: dm,sc,name,p,zsjd,zde,zdf,f152,o,h,l,zjsj,vol,cje,wp,np,ccl, _: str(int(time.time()*1000)) } async with session.get(url, paramsparams) as response: text await response.text() json_str text[text.find(()1:-1] return json.loads(json_str) async def fetch_all_data(): async with aiohttp.ClientSession() as session: tasks [ fetch_option_data(session), fetch_future_data(session, 113), # 上期所 fetch_future_data(session, 114), # 大商所 fetch_future_data(session, 115) # 郑商所 ] return await asyncio.gather(*tasks) # 运行异步任务 loop asyncio.get_event_loop() option_data, shfe_data, dce_data, czce_data loop.run_until_complete(fetch_all_data())8.2 功能扩展方向历史数据获取扩展接口获取历史K线数据多数据源整合结合其他数据源进行交叉验证实时数据监控建立WebSocket连接获取实时行情自动化交易接口与券商API对接实现自动化交易历史数据获取示例def get_history_data(symbol, start_date, end_date): 获取历史K线数据 :param symbol: 合约代码 :param start_date: 开始日期格式YYYYMMDD :param end_date: 结束日期格式YYYYMMDD :return: DataFrame url http://push2his.eastmoney.com/api/qt/stock/kline/get params { secid: f{symbol}, ut: 7eea3edcaed734bea9cbfc24409ed989, fields1: f1,f2,f3,f4,f5,f6, fields2: f51,f52,f53,f54,f55,f56,f57,f58,f59,f60,f61, klt: 101, # 日K线 fqt: 1, beg: start_date, end: end_date, _: str(int(time.time()*1000)) } response requests.get(url, paramsparams) data response.json() if data.get(data): klines data[data][klines] df pd.DataFrame([k.split(,) for k in klines], columns[ 日期, 开盘, 收盘, 最高, 最低, 成交量, 成交额, 振幅, 涨跌幅, 涨跌额, 换手率 ]) numeric_cols [开盘, 收盘, 最高, 最低, 成交量, 成交额, 振幅, 涨跌幅, 涨跌额, 换手率] df[numeric_cols] df[numeric_cols].apply(pd.to_numeric, errorscoerce) return df return pd.DataFrame()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2566942.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！