如何将网页源代码bt提取出来做成磁力链接

您需要通过验证再能继续浏览 3秒后开始验证
丨 粤ICP备号-10 丨 新三板上市公司威锋科技(836555)
增值电信业务经营许可证:
Powered by Discuz!
(C) Joyslink Inc. All rights reserved 保留所有权利在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
问题对人有帮助,内容完整,我也想知道答案
问题没有实际价值,缺少关键内容,没有改进余地
如题,比如我想将SF的这个问题页的纯文本(不包括html标签,就是我们直接看到的纯文本)提取出来,有啥子好方法?或者说有专门干这事的类库没有?
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
Python可以使用Beautiful Soup库的get_text()方法,可以获取一个标签以及其子孙标签内所有的文本的内容,
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
PHP有很多爬虫框架可以使用:
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
可能题主想要这样的:
或者是这样的:
Java可以用Jsoup实现:
&dependency&
&groupId&org.jsoup&/groupId&
&artifactId&jsoup&/artifactId&
&version&1.7.3&/version&
&/dependency&
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
php 有Snoopy库 可以直接抓取网页的文本内容 (去除HTML标签)
我用正则提取的
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
再来一个Javascript的:PhantomJS
这个比较适合类似的需求,也经常被用于进行网页截图一类的工作。
官方网站:phantomjs.org
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
找一个解析html的库,比如说python有HTMLParser,sgmllib,htmllib
然后你解析一把它应该会变成一棵树,你就遍历一下找自己要的东西拿走
我只处理过xml不过应该差不多就是这么来的...
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
LZ 用js 来取可以么?
console.log(document.body.innerText)
innerHtml 所有节点和内容
innerText 所有非节点内容
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
特定的网站,可以按照html dom 来抽取你要的数据。非常快捷。
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
我不会告诉你我用
html2text is a Python script that converts a page of HTML into clean, easy-to-read plain ASCII text. Better yet, that ASCII also happens to be valid Markdown (a text-to-HTML format).
Usage: html2text.py [(filename|url) [encoding]]
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
这篇文章的方法基本可以满足提取正文的需求
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
PHP 原生函数有个…… strip_tags()
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
我不介意这种事情还用一些这样那样的库,如果题主想要一劳永逸的话,去学习正则吧,任何一门语言都支持的
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
只取文字?
php用xpath
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
在R中很容易实现,比如用rvest包
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
可以试试我做时撸的正文提取库,目前看来效果非常好,hacker news上发的链接绝大部分都能提取出来。
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
找个能模拟浏览器引擎的
var html = document.getElementsByTagName('html')[0]
text = html.innerTEXT
这样的东西node_module有很多如: jsdom, cheerio
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
用一个正则把 html 便签都替换成空,然后把空格都替换成空就可以了吧,哪有前面各位说的那么复杂。
答案对人有帮助,有参考价值
答案没帮助,是错误的答案,答非所问
正则就是可以了。
我用 Python 纯正则提取了好多招聘网站的招聘信息,做成了
同步到新浪微博
分享到微博?
关闭理由:
删除理由:
忽略理由:
推广(招聘、广告、SEO 等)方面的内容
与已有问题重复(请编辑该提问指向已有相同问题)
答非所问,不符合答题要求
宜作评论而非答案
带有人身攻击、辱骂、仇恨等违反条款的内容
无法获得确切结果的问题
非开发直接相关的问题
非技术提问的讨论型问题
其他原因(请补充说明)
我要该,理由是:
在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。项目三:爬取视频磁力链接
项目三:爬取视频磁力链接
标签(空格分隔): 爬虫 BeautifulSoup
—具体技术实现原理类似项目二
1. 项目任务分析
类似上一个小项目中爬取图片的技术原理,本次小项目尝试对相同网站上的可供下载视频的磁力链接进行爬取
2. 项目功能分析
2.1 爬取视频列表
网页上视频信息如上图所示,所以要先定义一个模块来获取如图所示的视频列表信息,查看网页源代码如下图所示
显然每一个视频名称保存在a.string即标签的非属性字符串里,而视频所在链接保存在a.attrs['href']里,那么可以很容易得到视频名称和视频所在链接的信息,将这些信息保存在一个字典里,共后续爬取使用
2.2 爬取视频磁力链
根据上一步得到的视频链接,跳转至相应页面的结果如下图所示
可以看到每个视频页面上有磁力链,所以可以查看源代码来找到磁力链的具体获取方式,查看源代码如下图所示
通过content = soup.find('div', attrs={'class':'content'})语句来找到包含有磁力链接的标签,因为该磁力链接没有保存在某个字标签的非属性字符串里,也不是某个子标签的某种属性,所以之前的方法不适用。那么这里可以使用tempList = content.text.split('\n')得到content标签里面包含的所有字符串并保存在列表中,再利用正则表达式对符合一定规则的列表各个元素进行匹配,得到正确的磁力链
2.3 文件存取
在得到视频的名称与磁力链并保存在字典里之后,需要将字典内容保存在文本文件中,本次小项目就事先建立好一个文本文件,直接将字典里的内容写入该文件即可。这个模块中的重点是对字典的遍历
3. 完整代码
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
def getMagnetList(magnetURL, magnetsList):
html = getHTMLText(magnetURL)
soup = BeautifulSoup(html, 'html.parser')
title = soup.find_all('a', attrs={'class':'title'})
for t in title:
link = 'http://www.99rblc.com' + t.attrs['href']
magnetsList.append(link)
def getMagnetInfo(magnetsDict, magnetsList):
for magnet in magnetsList:
html = getHTMLText(magnet)
if html == "":
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('div', attrs={'class':'title'})
magnetName = title.text.split('\n')[1]
print( "已爬到资源 :
" + magnetName + '\n' )
print( "继续爬取该资源的磁力链..."
content = soup.find('div', attrs={'class':'content'})
tempList = content.text.split('\n')
for item in tempList:
if re.findall(r"^magnet[A-Za-z0-9:?= ]+$", item) == []:
magnetContent = re.findall(r"^magnet[A-Za-z0-9:?= ]+$", item)[0]
print( "爬到磁力链为 :
" + magnetContent + '\n\n\n' )
magnetsDict[magnetName] = magnetContent
def saveMagnet(magnetsDict):
path = 'D://MagnetInfo//magnet.txt'
f = open(path, 'a')
for key in magnetsDict:
f.write( "电影名称 :
" + key + '\n' )
f.write( "磁力链接 :
" + magnetsDict[key] + '\n\n\n' )
def main():
for i in range(depth):
print( "开始爬取第" + str(i+1) + "页" + '\n' )
magnetURL = 'http://www.99rblc.com/ozgq/38/' + str(i+1) + '.htm'
magnetsList = []
magnetsDict = {}
getMagnetList(magnetURL, magnetsList)
getMagnetInfo(magnetsDict, magnetsList)
saveMagnet(magnetsDict)
没有更多推荐了,迅雷,QQ旋风,快车下载地址转换工具
原始地址支持迅雷,快车,旋风的下载地址互转. 同时支持fs2you下载地址转换
原始地址:
真实地址:
迅雷地址:
快车地址:
旋风地址:
阿里云幸运券,!
据说喜欢分享的,后来都成了大神
想要走得快,就单独上路;想要走得远,就结伴同行。
- 关于我们
Copyright &
Rights Reserved. Current version is .

我要回帖

更多关于 源代码bt 的文章

 

随机推荐