android Jsoup获取网站内容 android获取新闻标题实例

发布时间 - 2026-01-11 00:26:50    点击率:

近期做简单的新闻客户端界面使用到了Jsoup获取,使用起来特别方便,这也是被我一个学长称为学android网络必学的一个东西,在此也是分享一下自己近期所学。

首先还是给出效果:

上面是通过textview显示的一个从网站上获取的所有内容的显示,下面是通过listview显示一下获取的新闻的标题,如此显示比较便于理解。

MainActivity:

import android.app.Activity; 
import android.content.Intent; 
import android.net.Uri; 
import android.os.AsyncTask; 
import android.os.Bundle; 
import android.text.method.ScrollingMovementMethod; 
import android.util.Log; 
import android.view.Menu; 
import android.view.View; 
import android.widget.AdapterView; 
import android.widget.AdapterView.OnItemClickListener; 
import android.widget.ArrayAdapter; 
import android.widget.ListView; 
import android.widget.TextView; 
 
import org.apache.http.HttpResponse; 
import org.apache.http.client.HttpClient; 
import org.apache.http.client.methods.HttpPost; 
import org.apache.http.impl.client.DefaultHttpClient; 
import org.apache.http.util.EntityUtils; 
import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
import org.jsoup.select.Elements; 
 
import java.util.ArrayList; 
import java.util.List; 
 
@SuppressWarnings("unused") 
public class MainActivity extends Activity { 
  private TextView TV_HTMLCode; 
  //此处搞一个TextView主要来显示News列表里面存储的内容,仅仅便于分析和理解 
 
  private String URL_EOL = "http://www.cnwust.com/newsList/1_1", 
      TAG = "ATAG"; 
  //这是索要获取内容的网址 
 
  private List<News> NewsList; 
  //自定义的News的类,用于存放索要获取新闻的目录、时间以及点击后显示的网址 
 
  private ListView LV_Result; 
  private ArrayAdapter<String> LV_Adapter; 
 
  @Override 
  protected void onCreate(Bundle savedInstanceState) { 
    super.onCreate(savedInstanceState); 
    setContentView(R.layout.activity_main); 
    LV_Result = (ListView) findViewById(R.id.LV_Result); 
    TV_HTMLCode = (TextView) findViewById(R.id.TV_HTMLCode); 
    TV_HTMLCode.setMovementMethod(ScrollingMovementMethod.getInstance()); 
 
    ConnectTask C1 = new ConnectTask(); 
    C1.execute(); 
 
  } 
 
  @Override 
  public boolean onCreateOptionsMenu(Menu menu) { 
    getMenuInflater().inflate(R.menu.menu_main, menu); 
    return true; 
  } 
 
  public class ConnectTask extends AsyncTask<Void, Void, String> { 
 
    @Override 
    protected String doInBackground(Void... params) { 
      String result = ConnectEOL(); 
      return result; 
    } 
 
    @Override 
    protected void onPostExecute(String result) { 
      // TV_HTMLCode.setText(result); 
      NewsList = getNews(result); 
      List<String> NewsTitles = new ArrayList<String>(); 
      for (News news : NewsList) { 
        TV_HTMLCode.append(news.getNewsTitle() + "\n"); 
        TV_HTMLCode.append(news.getNewsTime() + "\n"); 
        TV_HTMLCode.append(news.getNewsUrl() + "\n"); 
        NewsTitles.add(news.getNewsTitle()); 
      } 
    /* 为ListView添加适配器 */ 
 
      LV_Adapter = new ArrayAdapter<String>(MainActivity.this, 
          android.R.layout.simple_list_item_1, NewsTitles); 
      LV_Result.setAdapter(LV_Adapter); 
 
    /* 为ListView添加点击打开对应网页功能 */ 
      LV_Result.setOnItemClickListener(new OnItemClickListener() { 
 
        @Override 
        public void onItemClick(AdapterView<?> arg0, View arg1, 
                    int arg2, long arg3) { 
          final Uri uri = Uri.parse(NewsList.get(arg2).getNewsUrl()); 
          final Intent it = new Intent(Intent.ACTION_VIEW, uri); 
          startActivity(it); 
        } 
 
      }); 
      //此处为了方便就点击就直接调用设备默认浏览器打开网址 
 
      super.onPostExecute(result); 
 
 
    } 
 
  } 
 
  /* 连接EOL的方法 返回整个网页经过截取之后的的源代码 */ 
  public String ConnectEOL() { 
    String result = ""; 
    try { 
      HttpClient httpclient = new DefaultHttpClient(); 
      HttpPost httppost = new HttpPost(URL_EOL); 
      HttpResponse response = httpclient.execute(httppost); 
      String Res = EntityUtils.toString(response.getEntity(), "UTF-8"); 
 
      int st = Res.indexOf("<div id=\"result\">"); 
      int ed = Res.indexOf("<div id=\"pager\">"); 
      //这边算是最重要的部分,代码获取的便是这两段之间的部分。 
 
      String content = Res.substring(st, ed); 
      st = content.indexOf("<ul>") + 4; 
      ed = content.indexOf("</ul>"); 
      content = content.substring(st, ed); 
      result = content; 
    } catch (Exception e) { 
      Log.d(TAG, e.toString()); 
    } 
    return result; 
  } 
 
  /* 对源代码进行解析截取的方法 返回一个News数组 */ 
  public List<News> getNews(String HTMLCode) { 
    List<News> newsList = new ArrayList<News>(); 
    Document doc = Jsoup.parse(HTMLCode); 
    Log.d(TAG, "解析html中"); 
    Elements lis = doc.getElementsByTag("li"); 
    Log.d(TAG, "lis的size " + lis.size()); 
    for (Element li : lis) { 
      String newstime = li.getElementsByTag("span").text(); 
      String newstitle = li.getElementsByTag("a").text(); 
      String newsurl = li.getElementsByTag("a").attr("href"); 
      //这三段算是Jsoup从html中获取内容的关键了,很容易理解。 
 
      newsurl = newsurl.replace("/news", "http://www.cnwust.com/news"); 
      //直接从html的代码中获取的URL是相对路径,此处使用replace改为绝对路径 
 
      Log.d(TAG, newstime); 
      Log.d(TAG, newstitle); 
      Log.d(TAG, newsurl); 
 
      News newst = new News(); 
      newst.setNewsTime(newstime); 
      newst.setNewsTitle(newstitle); 
      newst.setNewsUrl(newsurl); 
      newsList.add(newst); 
    } 
    return newsList; 
  } 
} 

News:

public class News { 
  private String newsTime; 
  private String newsUrl; 
  private String newsTitle; 
 
  public News() { 
 
  } 
 
  public News(String newsTitle, String newsTime, String newsUrl) { 
    this.newsTime = newsTime; 
    this.newsUrl = newsUrl; 
    this.newsTitle = newsTitle; 
  } 
 
  public String getNewsTime() { 
    return newsTime; 
  } 
 
  public void setNewsTime(String newsTime) { 
    this.newsTime = newsTime; 
  } 
 
  public String getNewsUrl() { 
    return newsUrl; 
  } 
 
  public void setNewsUrl(String newsUrl) { 
    this.newsUrl = newsUrl; 
  } 
 
  public String getNewsTitle() { 
    return newsTitle; 
  } 
 
  public void setNewsTitle(String newsTitle) { 
    this.newsTitle = newsTitle; 
  } 
 
} 

activity_main:

<RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" 
  xmlns:tools="http://schemas.android.com/tools" 
  android:layout_width="match_parent" 
  android:layout_height="match_parent" 
  android:paddingBottom="@dimen/activity_vertical_margin" 
  android:paddingLeft="@dimen/activity_horizontal_margin" 
  android:paddingRight="@dimen/activity_horizontal_margin" 
  android:paddingTop="@dimen/activity_vertical_margin" 
  tools:context=".NewsList" > 
 
  <TextView 
    android:id="@+id/TV_HTMLCode" 
    android:layout_width="match_parent" 
    android:layout_height="150dp" 
    android:layout_above="@+id/LV_Result" 
    android:layout_alignParentTop="true" 
    android:layout_centerHorizontal="true" 
    android:scrollbars="vertical" /> 
 
  <ListView 
    android:id="@+id/LV_Result" 
    android:layout_width="match_parent" 
    android:layout_height="230dp" 
    android:layout_alignLeft="@+id/TV_HTMLCode" 
    android:layout_alignParentBottom="true" > 
  </ListView> 
 
</RelativeLayout> 

此处对html代码的解析可能部分新手还是不太清楚,在此也是建议使用chrome浏览器,可以直接查看网站的源码。(有部分加密的网站看不到)下面看一下具体使用的截图:

1、首先先要打开到你要获取内容的网站


2、右击你要获取的内容,并选择  审查元素。


3、使用Jsoup解析html代码。


最后是附上源码下载地址

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


# android  # Jsoup获取网站内容  # android获取新闻标题  # Jsoup获取  # 使用javascript为网页增加夜间模式  # 通过Nodejs搭建网站简单实现注册登录流程  # 让网站自动生成章节目录索引的多个js代码  # 利用JS测试目标网站的打开响应速度  # nodejs+express实现文件上传下载管理网站  # AngularJS实现网站换肤实例  # 基于JavaScript或jQuery实现网站夜间/高亮模式  # 你要  # 在此  # 源代码  # 这是  # 近期  # 下载地址  # 不太  # 最重要  # 很容易  # 可以直接  # 自定义  # 看一下  # 开到  # 所有内容  # 这三  # 大家多多  # 两段  # 右击  # 客户端  # 这也是 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: Laravel全局作用域是什么_Laravel Eloquent Global Scopes应用指南  Laravel如何处理CORS跨域请求?(配置示例)  如何快速生成专业多端适配建站电话?  详解jQuery停止动画——stop()方法的使用  成都品牌网站制作公司,成都营业执照年报网上怎么办理?  大连 网站制作,大连天途有线官网?  Laravel如何自定义错误页面(404, 500)?(代码示例)  详解Huffman编码算法之Java实现  如何用AI帮你把自己的生活经历写成一个有趣的故事?  HTML 中动态设置元素 name 属性的正确语法详解  Laravel如何实现全文搜索_Laravel Scout集成Algolia或Meilisearch教程  想要更高端的建设网站,这些原则一定要坚持!  如何获取免费开源的自助建站系统源码?  如何在万网利用已有域名快速建站?  如何在阿里云虚拟主机上快速搭建个人网站?  香港服务器网站生成指南:免费资源整合与高速稳定配置方案  微信公众帐号开发教程之图文消息全攻略  laravel怎么配置Redis作为缓存驱动_laravel Redis缓存配置教程  如何在阿里云虚拟服务器快速搭建网站?  宙斯浏览器文件分类查看教程 快速筛选视频文档与图片方法  悟空浏览器如何设置小说背景色_悟空浏览器背景色设置【方法】  如何构建满足综合性能需求的优质建站方案?  高端智能建站公司优选:品牌定制与SEO优化一站式服务  如何在宝塔面板中修改默认建站目录?  php中::能调用final静态方法吗_final修饰静态方法调用规则【解答】  BootStrap整体框架之基础布局组件  网站设计制作书签怎么做,怎样将网页添加到书签/主页书签/桌面?  北京企业网站设计制作公司,北京铁路集团官方网站?  Laravel如何实现API资源集合?(Resource Collection教程)  Laravel如何操作JSON类型的数据库字段?(Eloquent示例)  Laravel与Inertia.js怎么结合_使用Laravel和Inertia构建现代单页应用  Laravel如何使用Gate和Policy进行权限控制_Laravel权限判定与策略规则配置  uc浏览器二维码扫描入口_uc浏览器扫码功能使用地址  Laravel如何创建自定义Facades?(详细步骤)  微信小程序 input输入框控件详解及实例(多种示例)  Laravel如何为API生成Swagger或OpenAPI文档  如何用搬瓦工VPS快速搭建个人网站?  Laravel中的withCount方法怎么高效统计关联模型数量  百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭  Laravel怎么配置S3云存储驱动_Laravel集成阿里云OSS或AWS S3存储桶【教程】  猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】  javascript基本数据类型及类型检测常用方法小结  东莞市网站制作公司有哪些,东莞找工作用什么网站好?  Laravel控制器是什么_Laravel MVC架构中Controller的作用与实践  Laravel如何部署到服务器_线上部署Laravel项目的完整流程与步骤  googleplay官方入口在哪里_Google Play官方商店快速入口指南  JS经典正则表达式笔试题汇总  Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】  如何在阿里云域名上完成建站全流程?  百度浏览器如何管理插件 百度浏览器插件管理方法