使用PHP的CURL模拟POST采集

这个函数很不错，curl函数中的header还可以加入随机UA等功能防屏蔽，以后改改做自己的采集类！
/**
    QQ群:223494678
    函数:模拟post得到所有分页的页面信息
    参数:
        string $EVENTARGUMENT
        string $VIEWSTATE
        string $EVENTVALIDATION
        string $EVENTTARGET
    返回:
        string
/**/
function getn($EVENTARGUMENT = "", $VIEWSTATE = "", $EVENTVALIDATION = "", $EVENTTARGET = "pager"){
    $args = array();
    if($EVENTARGUMENT){
        $args = array(
            '__EVENTTARGET'=>$EVENTTARGET,
            '__EVENTARGUMENT'=>$EVENTARGUMENT,
            '__VIEWSTATE'=>$VIEWSTATE,
            '__EVENTVALIDATION'=>$EVENTVALIDATION,
            '__VIEWSTATEENCRYPTED'=>'',
            'search$txtFundName='=>'',
            'search$txtFundManger'=>'',
            'search$ddlFoundationDateOperater'=>'1',
            'search$txtFoundationDate'=>'',
            'search$dltFundType$ctl01$chkFundType'=>'on',
            'search$dltFundType$ctl01$chklFundChildType$0'=>'on',
            'search$dltFundType$ctl01$chklFundChildType$1'=>'on',
            'search$dltFundType$ctl01$chklFundChildType$2'=>'on',
            'search$dltFundType$ctl01$chklFundChildType$3'=>'on',
            'search$dltFundType$ctl01$chklFundChildType$4'=>'on',
            'search$chklFundStatus$0'=>'on',
            'search$ddlFundOrg'=>'0',
            'search$txtFundOrgName'=>'',
            'search$ddlStatisticDateOperater'=>'1',
            'search$txtStatisticDate'=>'',
            'search$radlStatisticMode'=>'1'
        );
    }
 
    $user_agent = "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.79 Safari/535.11";
 
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, 'http://???/default.aspx');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);// 设为TRUE让结果不要直接输出
    curl_setopt($ch, CURLOPT_VERBOSE, TRUE);
    curl_setopt($ch, CURLOPT_AUTOREFERER, TRUE);
    curl_setopt($ch, CURLOPT_FAILONERROR, TRUE);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, TRUE);
    curl_setopt($ch, CURLOPT_HEADER, TRUE);
    curl_setopt($ch, CURLINFO_HEADER_OUT, TRUE);
 
    curl_setopt($ch, CURLOPT_HTTPHEADER, array(
    'Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language:zh-CN,zh;q=0.8',
    'Connection: Keep-Alive',
    'Cache-Control:max-age=0',
    'Referer:http://???/default.aspx',
    'Expect:'
    ));
 
    curl_setopt($ch, CURLOPT_POST, true); //启用POST提交
    curl_setopt($ch, CURLOPT_POSTFIELDS, $args); //设置POST提交的字符串
    curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);//HTTP请求User-Agent:头
 
    $document = curl_exec($ch); //执行预定义的CURL
    return $document;
}
 
/**
    QQ群:223494678
    函数:根据模拟post所得的页面信息，提取所需post的数据和分页，最后分解需要的html
    返回:
        string
/**/
function getHtml(){
    global $html;
    $first = getn();
    preg_match('/(\d+?)<\/b><\/font> 页<\/span>/is', $first, $matches);
    $total = $matches[1];
    preg_match('/说明：
getHtml是採集入口文件，裏面先取每一頁的數據，並提取頁碼等數據，然後循環採集後面的數據，getn是採集函數，主要是CURL模擬POST了。
转自：
http://www.cnblogs.com/see7di/p/3428354.html
标签: none

        
            
            
                取消回复            

            添加新评论
            
                                    
                        称呼
                        
                    
                    
                        Email
                        
                    
                    
                        网站
                        
                    
                                
                    内容
                    
                
                
                    
                
            
        
    

        上一篇: PHP之负载均衡下的session共用(Memcache实现)
        下一篇: PHP缓冲研究
    

            
            最新文章
            
                如何搭建一个简单的K3S集群练手
mysql常用查询
使用kubebuilder和code-generator构建你的crd套件
学习k8s的资料
Linux安装如何安装minikube
打造高效多环境zsh开发环境
RWKV折腾记(基于RWKV-RUNNER)
在ARM上编译php
服务出错排错方法(持续更新)
腾讯云服务器优化
            
        
    
            
            最近回复
            
                                                    
                        CN2 GIA VPS: 现在CN2 GIA VPS挺多了，可以看看https://cn2...                    
                                    
                        MJJ: php8.3+mysql5.7
不支持了吗？
用redis核me...                    
                                    
                        超人: 可以尝试 hostinger，便宜又好用，就是偶尔有点慢，不过套...                    
                                    
                        dolingou: 如果是单纯的SSH做转发，很容易被运营商Qos... 个人感觉还...                    
                                    
                        china2025vps: 佬 搜索问题啥时候修啊
缓存首页后/?s=搜索内容跳转不到搜索页面了                    
                                    
                        Yan: 感謝老高的整理！現在要找到高性價比的VPS確實不容易，特別是對於...                    
                                    
                        土狗: 有一件代理的命令吗  分享一个，，                    
                                    
                        text-morse: 前面一直被封，ssh也被封，是什么情况？                    
                                    
                        text-morse: 学习起来，谢谢老板分享                    
                                    
                        Jimmygao: 🌹                    
                            
        
    
            
            分类
            生活
代码人生
浏览器
性能优化
服务器技术
原创翻译
搞笑
路由器
typecho插件
福利
收藏家
利器
        
    
    
    

    © 2025 老高的技术博客.
    由 Typecho 强力驱动.