如何将网页源代码bt提取出来做成磁力链接

科学教育 | 学习帮助 | 出国/留学 | 工程技术科学 | 教育/科学 | 英语听力 | 梦幻西游电脑版 | 视频会议 | 口臭 | 暗黑破坏神3（游戏） | 面相 | 赛尔号 | linux | 山西省 | Xbox One | 思修 | 易经 | solidworks | 钢铁雄心4 | 休闲游戏 | 魔兽争霸3混乱之治 | 显卡 | 武汉大学 | 塞尔达传说（游戏） | 校服 | 剑侠情缘网络版叁 | 脱发 | 日本文化 | 数学建模 | 二次元 | 部落冲突（游戏） | 肖战 | 街机游戏 | 拳皇 | 马鞍山市 | 扑克 | 完美世界（游戏） | 三国志（游戏） | 热血传奇（游戏） | 意大利 | 跆拳道 | 东莞市 | 糖尿病 | 古琴 | 三国 | 电视节目 | 百度 | qq音乐 | 配音 | 电视 | 任天堂 | 科幻小说 | 虚拟专用服务器 | QQ游戏 | 大熊猫 | 微电影 | Android | 竞技游戏 | 动画制作 | QQ炫舞 | 电源 | 日语 | 魔兽争霸3冰封王座 | 产业 | ios开发 | 百度云 | 动画电影 | nba篮球 | 羽生结弦 | iOS应用 | galgame | 电吉他 | 平板电脑 | 周星驰（人物） | 离婚 | 后宫·甄嬛传（书籍） | 牙科 | 游戏开发 | 网络直播 | ios游戏 | 电子邮件 | SNH48 | 民国 | 美容 | 舰队 Collection | 心理 | Mac | 羽毛球技术 | 互联网公司 | 大学生兼职 | 烘焙 | 诸葛亮 | 跑跑卡丁车 | 武侠小说 | 微博 | 骨折 | 掌上游戏机 | 玉米 | 中国足球 | 电脑配置 | 洛奇英雄传 | 硬盘 | 张璐 | akb48 | 炉石传说 | 韩国 | 蓄电池 | QQ空间 | 房贷 | 麦克风 | 相声演员 | 抑郁 | 天下2（游戏） | 农业科学 | 神话 | 农历 | 中国足球协会超级联赛（CSL） | 流星花园 | 易烊千玺 | 火影忍者 | 日语歌曲 | 巴西 | 红酒 | 化疗 | 占地 | 网络小说 | 香烟 | 传奇世界 | 名字 | 日本电影 | 表演 | 西藏自治区 | 英雄传说：闪之轨迹（游戏） | 足球彩票 | 摩尔庄园 | 中国工商银行 | 游戏手柄 | 陈奕迅 | 联赛 | 天体物理学 | 英格兰足球超级联赛 | 超级机器人大战 | 命令与征服：红色警戒2（游戏） | 郭富城 | 一级方程式赛车（f1） | Adobe Photoshop | 英文歌曲 | 玄幻小说 | 猫和老鼠 | 杨凡 | 书籍改编电影 | 俄罗斯 | 网络赚钱 | 罗玉凤 | 刺客信条2 | 角色扮演 | 食物 | 药物 | 杨洋（演员） | 信息安全 | 胡歌（演员） | 张子枫 | 古典音乐 | 时尚 | 大片 | 电脑游戏 | 签证 | 徐佳莹 | 耽美 | 游戏攻略 | 音乐剧 | 前女友 | 男性 | 肠胃 | 刺客信条起源 | 剧场版 | 国际足联世界杯 | 彩虹六号（游戏） | 赵丽颖（演员） | 天体生物学 | 战神（游戏） | 吉他学习 | 飞机 | 三菱商事 | 关节炎 | 斗鱼直播 | 发电 | 张继科 | 华语流行音乐 | 搏击项目 | 主题曲 | 李信 | 刘德华（演员） | 即时战略游戏（RTS） | 欧阳娜娜 | 网址导航 | 海贼王 | 山地车 | 豆瓣电影 | 广场舞 |

你的位置：网站首页 >> 频道首页 >>软件 >>如何将网页源代码bt提取出来做成磁力链接

如何将网页源代码bt提取出来做成磁力链接

来源：蜘蛛抓取(WebSpider) 时间：2018-07-13 11:50 标签：源代码bt

您需要通过验证再能继续浏览 3秒后开始验证
丨粤ICP备号-10 丨新三板上市公司威锋科技（836555）
增值电信业务经营许可证：
Powered by Discuz!
(C) Joyslink Inc. All rights reserved 保留所有权利在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
问题对人有帮助，内容完整，我也想知道答案
问题没有实际价值，缺少关键内容，没有改进余地
如题，比如我想将SF的这个问题页的纯文本（不包括html标签，就是我们直接看到的纯文本）提取出来，有啥子好方法？或者说有专门干这事的类库没有？
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
Python可以使用Beautiful Soup库的get_text()方法，可以获取一个标签以及其子孙标签内所有的文本的内容，
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
PHP有很多爬虫框架可以使用：
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
可能题主想要这样的：
或者是这样的：
Java可以用Jsoup实现：
&dependency&
&groupId&org.jsoup&/groupId&
&artifactId&jsoup&/artifactId&
&version&1.7.3&/version&
&/dependency&
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
php 有Snoopy库可以直接抓取网页的文本内容 (去除HTML标签)
我用正则提取的
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
再来一个Javascript的：PhantomJS
这个比较适合类似的需求，也经常被用于进行网页截图一类的工作。
官方网站：phantomjs.org
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
找一个解析html的库，比如说python有HTMLParser,sgmllib,htmllib
然后你解析一把它应该会变成一棵树，你就遍历一下找自己要的东西拿走
我只处理过xml不过应该差不多就是这么来的...
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
LZ 用js 来取可以么？
console.log(document.body.innerText)
innerHtml 所有节点和内容
innerText 所有非节点内容
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
特定的网站，可以按照html dom 来抽取你要的数据。非常快捷。
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
我不会告诉你我用
html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).
Usage: html2text.py [(filename|url) [encoding]]
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
这篇文章的方法基本可以满足提取正文的需求
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
PHP 原生函数有个…… strip_tags()
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
我不介意这种事情还用一些这样那样的库，如果题主想要一劳永逸的话，去学习正则吧，任何一门语言都支持的
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
只取文字？
php用xpath
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
在R中很容易实现，比如用rvest包
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
可以试试我做时撸的正文提取库，目前看来效果非常好，hacker news上发的链接绝大部分都能提取出来。
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
找个能模拟浏览器引擎的
var html = document.getElementsByTagName('html')[0]
text = html.innerTEXT
这样的东西node_module有很多如： jsdom， cheerio
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
用一个正则把 html 便签都替换成空，然后把空格都替换成空就可以了吧，哪有前面各位说的那么复杂。
答案对人有帮助，有参考价值
答案没帮助，是错误的答案，答非所问
正则就是可以了。
我用 Python 纯正则提取了好多招聘网站的招聘信息，做成了
同步到新浪微博
分享到微博？
关闭理由：
删除理由：
忽略理由：
推广（招聘、广告、SEO 等）方面的内容
与已有问题重复（请编辑该提问指向已有相同问题）
答非所问，不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因（请补充说明）
我要该，理由是：
在 SegmentFault，学习技能、解决问题
每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。项目三：爬取视频磁力链接
项目三：爬取视频磁力链接
标签（空格分隔）：爬虫 BeautifulSoup
—具体技术实现原理类似项目二
1. 项目任务分析
类似上一个小项目中爬取图片的技术原理，本次小项目尝试对相同网站上的可供下载视频的磁力链接进行爬取
2. 项目功能分析
2.1 爬取视频列表
网页上视频信息如上图所示，所以要先定义一个模块来获取如图所示的视频列表信息，查看网页源代码如下图所示
显然每一个视频名称保存在a.string即标签的非属性字符串里，而视频所在链接保存在a.attrs['href']里，那么可以很容易得到视频名称和视频所在链接的信息，将这些信息保存在一个字典里，共后续爬取使用
2.2 爬取视频磁力链
根据上一步得到的视频链接，跳转至相应页面的结果如下图所示
可以看到每个视频页面上有磁力链，所以可以查看源代码来找到磁力链的具体获取方式，查看源代码如下图所示
通过content = soup.find('div', attrs={'class':'content'})语句来找到包含有磁力链接的标签，因为该磁力链接没有保存在某个字标签的非属性字符串里，也不是某个子标签的某种属性，所以之前的方法不适用。那么这里可以使用tempList = content.text.split('\n')得到content标签里面包含的所有字符串并保存在列表中，再利用正则表达式对符合一定规则的列表各个元素进行匹配，得到正确的磁力链
2.3 文件存取
在得到视频的名称与磁力链并保存在字典里之后，需要将字典内容保存在文本文件中，本次小项目就事先建立好一个文本文件，直接将字典里的内容写入该文件即可。这个模块中的重点是对字典的遍历
3. 完整代码
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
def getMagnetList(magnetURL, magnetsList):
html = getHTMLText(magnetURL)
soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all('a', attrs={'class':'title'})
for t in title:
link = 'http://www.99rblc.com' + t.attrs['href']
magnetsList.append(link)
def getMagnetInfo(magnetsDict, magnetsList):
for magnet in magnetsList:
html = getHTMLText(magnet)
if html == "":
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('div', attrs={'class':'title'})
magnetName = title.text.split('\n')[1]
print( "已爬到资源 :
" + magnetName + '\n' )
print( "继续爬取该资源的磁力链..."
content = soup.find('div', attrs={'class':'content'})
tempList = content.text.split('\n')
for item in tempList:
if re.findall(r"^magnet[A-Za-z0-9:?= ]+$", item) == []:
magnetContent = re.findall(r"^magnet[A-Za-z0-9:?= ]+$", item)[0]
print( "爬到磁力链为 :
" + magnetContent + '\n\n\n' )
magnetsDict[magnetName] = magnetContent
def saveMagnet(magnetsDict):
path = 'D://MagnetInfo//magnet.txt'
f = open(path, 'a')
for key in magnetsDict:
f.write( "电影名称 :
" + key + '\n' )
f.write( "磁力链接 :
" + magnetsDict[key] + '\n\n\n' )
def main():
for i in range(depth):
print( "开始爬取第" + str(i+1) + "页" + '\n' )
magnetURL = 'http://www.99rblc.com/ozgq/38/' + str(i+1) + '.htm'
magnetsList = []
magnetsDict = {}
getMagnetList(magnetURL, magnetsList)
getMagnetInfo(magnetsDict, magnetsList)
saveMagnet(magnetsDict)
没有更多推荐了，迅雷，QQ旋风，快车下载地址转换工具
原始地址支持迅雷,快车,旋风的下载地址互转. 同时支持fs2you下载地址转换
原始地址：
真实地址：
迅雷地址：
快车地址：
旋风地址：
阿里云幸运券，！
据说喜欢分享的,后来都成了大神
想要走得快，就单独上路；想要走得远，就结伴同行。
- 关于我们
Copyright &
Rights Reserved. Current version is .

如何将网页源代码bt提取出来做成磁力链接

我要回帖

更多关于源代码bt 的文章

随机推荐

如何将网页源代码bt提取出来做成磁力链接

我要回帖

更多关于 源代码bt 的文章

随机推荐

更多关于源代码bt 的文章